Anda di halaman 1dari 14

Bioinformtica

Nombre: Daniel Carrera L.


NRC: 1666
Fecha: 2016/11/07
Informe de Prctica 1: Bases de datos biolgicas y formatos de secuencias
1. Objetivos
a. Revisar y entender el uso de diferentes bases de datos disponibles en la
red.
b. Realizar bsquedas de secuencias biolgicas en las bases de datos.
c. Reconocer los diferentes formatos de secuencias existentes para su uso
en herramientas bioinformticas.
2. Materiales y Procedimiento
a. Con la ayuda de un computador con conexin a internet ingresar y
familiarizarse con cada una de las siguientes bases de datos biolgicas:
NCBI, Swiss-Prot, GenBank, Gene, KEGG, OMIM, RCSB PDB,
PubMed, EMBL-EBI y DDBJ.
b. Ingresar a la base de datos NCBI y seleccionar la opcin "Nucleotide" e
ingresar en el cuadro de bsqueda "BRC1". Ingresar en el primer
resultado y obtener la secuencia en formato GenBank. Finalmente
convertir la secuencia encontrada en los siguientes formatos: FastA,
EMBL, GCG y Plain Text.
c. De forma similar al literal anterior, buscar la secuencia proteica
"Pyruvate dehidrogenase", seleccionar cualquiera de las protenas
encontradas. Observar cada seccin y comentar, adicionalmente
manipular y comentar el formato Grfico. Obtener la secuencia
codificante de la protena al dar click en CDS. Traducir la secuencia de
nucletidos obtenida en secuencia de aminocidos con la ayuda de
TRANSEQ. Encontrar el marco de lectura correspondiente a la protena
original observando entre los seis marcos de lectura obtenidos. Encontrar
ORFs con la ayuda de la herramienta ORF Finder y sealar el marco de
lectura correspondiente a la protena original.
3. Resultados
a. Bases de datos biolgicas
i. NCBI
1. Link: https://www.ncbi.nlm.nih.gov/

2. Logo:
3. Significado:
Information

National

Center

for

Biotechnology

4. Descripcin: NCBI es una base de datos completa que


posee informacin referente a secuencias genmicas,
secuencias proteicas, un ndice de artculos cientficos,
enfermedades genticas y permite analizar secuencias
principalmente mediante la herramienta BLAST.
5. Bases de datos relacionadas: PubMed, Gene, OMIM y
Gene Bank
ii. UNI-PROT
1. Link: http://www.uniprot.org/
2. Logo:
3. Significado: UniProt proviene de Universalt Protein,
mientras que Swiss-Prot hace referencia al Instituto Suizo
en el cual fue desarrollado.
4. Descripcin: UniProt es un repositorio central de datos
acerca de protenas conformado por Swiss-Prot, TrEMBL
y PlRt. Provee informacin de protenas con precisin,
consistencia y severamente anotadas. Swiss-Prot posee la
informacin proteica extrada de literatura y analizada
computacionalmente, es decir, curada y anotada.
5. Bases de datos relacionadas: Swiss-Prot, TrEMBL y
PlRt
iii. GEN BANK
1. Link: https://www.ncbi.nlm.nih.gov/genbank/

2. Logo:
3. Significado: GenBank hace referencia a Banco de
Genes, lo cual indica que es una base de datos de
secuencias genticas.
4. Descripcin: Es una base de datos del NIH especializada
en secuencias genticas y que forma parte del NCBI.
Posee herramientas de anlisis de secuencias (BLAST),
permite la constante subida de secuencias a la base de
datos por investigadores y se encuentra en constante
intercambio de informacin con DDBJ (DNA DataBank
of Japan) y EMBL (European Molecular Biology
Laboratory).
5. Bases de datos relacionadas: DDBJ, EMBL, NIH y
NCBI
iv. GENE
1. Link: https://www.ncbi.nlm.nih.gov/gene/

2. Logo:
3. Descripcin: Es una base de datos que alberga una
amplia variedad de especies, en donde se detallan
secuencias de referencia (RefSeqs), rutas, variaciones,
fenotipos y links hacia genomas, fenotipos y locus
especficos en bibliotecas en el mundo entero.
4. Bases de datos relacionadas: HomoloGene, OMIM,
RefSeq, RefSeqGene, UniGene y Protein Clusters
v. KEGG
1. Link: http://www.genome.jp/kegg/

2. Logo:
3. Significado: Kyoto Encyclopedia of Genes and Genomes.
4. Descripcin: Es una base de datos que permite
comprender sistemas biolgicos en base a informacin
molecular, la misma que ha sido obtenida por medio de
resultados experimentales. Dentro de la base de datos se
puede buscar informacin puntual gracias a su interfaz de
clasificacin de la informacin. Posee herramientas de
anlisis como BLAST/ FASTA (homologa), SIMCOMP
(Similitud en estructuras qumicas) y KEGG Mapper
(Herramientas de mapeo). Adicionalmente, permite
estudiar la metagenmica mediante la herramienta
GhostKOALA.
5. Bases de datos relacionadas: GenomeNet y DBGET
vi. OMIM
1. Link:
https://www.ncbi.nlm.nih.gov/omim;
http://www.omim.org/

2. Logo:
3. Significado: Online Mendelian Inheritance in Man
4. Descripcin: Es una base de datos que abarca genes
humanos, desrdenes genticos y la relacin entre genes y
fenotipos. Fue desarrollada por la Universidad de
Medicina de Johns Hopkins.
5. Bases de datos relacionadas: ClinVar, Gene, GTR y
MedGen

vii. RCSB PDB


1. Link: http://www.rcsb.org/pdb/home/home.do
2. Logo:
3. Significado: Research Collaboratory for Structural
Bioinformatics (RCSB) y Protein Data Bank (PDB)
4. Descripcin: Es una base de datos de estructuras
tridimensionales de protenas, cidos nucleicos y
conglomerados complejos. Permite visualizar las
estructuras terciarias y cuaternarias de las protenas con
mayor detalle, adicionalmente permite a investigadores
subir nuevas estructuras tridimensionales obtenidas
principalmente por cristalografa de rayos X y analizarlas
por medio de herramientas bioinformticas incluidas en la
base de datos.
5. Bases de datos relacionadas: Nucleic Acid Database
(NDB), Structural Biology Knowledgebase (SBKB),
Protein Data Bank in Europe (PDBe), Protein Data Bank
Japan (PDBj) y Biological Magnetic Resonance Data
Bank (BMRB).
viii. Pub Med
1. Link: https://www.ncbi.nlm.nih.gov/pubmed/

2. Logo:
3. Descripcin: Es una base de datos integrada en NCBI que
permite encontrar citaciones, artculos cientficos y
resmenes de investigaciones biomdicas. La base de
datos permite realizar bsquedas personalizadas (ao,
relevancia, autor, citaciones, etc.), dentro de la base de
datos existen artculos de libre acceso y otros de acceso
restringido. PubMed presenta artculos de un sin nmero
de revistas indexadas y permite mediante un enlace
dirigirse a la pgina principal de la revista en la cual se
public el artculo.
4. Bases de datos relacionadas: MeSH Database, Journals
in NCBI Databases, Clinical Trials, E-Utilities y Link
Out.
ix. EMBL-EBI
1. Link: http://www.ebi.ac.uk/
2. Logo:

3. Significado: European Molecular Biology Laboratory


(EMBL) y European Bioinformatics Institute (EBI).
4. Descripcin: Es una base de datos biolgica en donde se
almacenan genes, protenas y compuestos qumicos.
Dentro de la base de datos se encuentran recursos
cientficos de uso libre como bases de datos biomdicas,
herramientas de anlisis y bio-ontologas. Posee varios
convenios con bases de datos de otros pases como
UniProt y Chemical Entities of Biological Interest
(ChEBL). Adicionalmente a las bases de datos, EMBLEBI provee servicios como secuenciaciones, alineamiento
de secuencias, programas de doctorado y post-doctorado.
5. Bases de datos relacionadas: Elixir, UniProt, ChEBL,
Ensembl, PDBe, Europe PMC y Expression Atlas.
x. DDBJ
1. Link: http://www.ddbj.nig.ac.jp/

2. Logo:
3. Significado: DNA Data Bank of Japan
4. Descripcin: Es una base de datos biolgica que
almacena secuencias de DNA. Es miembro del INSDC
(International
Nucleotide
Sequence
Database
Collaboration) y provee gratuitamente secuencias de
nucletidos y sistemas para supercomputadoras con el fin
de fomentar investigaciones en el campo cientfico.
5. Bases de datos relacionadas: EMBL-EBI, GenBank,
NCBI, National Institute of Genetics (NIG) y DBCLS
(Database Center for Life Science).
b. Bsqueda simple de una secuencia biolgica y conversin de
formatos
i. Ingresar a la base de datos de NCBI

ii. Seleccionar la base de datos "Nucleotide" e ingresar en el cuadro


de bsqueda "BRC1".

iii. Ingresar al primer resultado y obtener la secuencia en formato


GenBank

iv. Convertir la secuencia encontrada en los siguientes formatos


(EMBOSS Seqret)

1. FASTA

2. EMBL

3. GCG

4. PLAIN TEXT

El formato FASTA y el formato GCG presentan similitudes, ambos exponen la


secuencia y el ttulo de la secuencia, sin embargo el formato GCG permite
visualizar la longitud de la secuencia y el tipo de secuencia. Son formatos
simples en donde no se visualiza la fecha de subida de la secuencia ni el
investigador responsable de la misma. Sin embargo proporcionan ms
informacin que el formato Plain Text, en el cual nicamente se observa la
secuencia.
El formato EMBL es el ms completo conjuntamente con el formato GenBank,
en este formato se visualizan todas las caractersticas y anotaciones que el
investigador realiz sobre su secuencia, al igual que el formato GenBank. En
este formato a diferencia de los formatos FASTA, GCG y Plain Text, se
encuentra la secuencia de protenas derivadas de la secuencia de aminocidos.
El formato FASTA es simple de comprender y visualizar y no presenta las
caractersticas puntuales de la secuencia, por lo cual es el formato ms empleado
por programas bioinformticos.
c. Manipulacin bsica de secuencias
i. Buscar la secuencia proteica "Pyruvate
seleccionando la base de datos Protein.

dehydrogenase",

ii. Seleccionar cualquiera de las protenas encontradas.

iii. Observar cada seccin y comentar


1. Locus: nos indica la posicin fija en un cromosoma.
2. Definition: muestra la protena buscada y el organismo de
la cual se analiz.
3. Accession: Es el cdigo de accesin que identifica a la
secuencia proteica.
4. Version: Indica las veces que ha sido modificada la
secuencia.
5. DBLink: Proporciona cdigos de identificacin de la
secuencia en otras bases de datos.
6. DBSource: Muestra la fuente de la cual se importo la
secuencia proteica de otras bases de datos.
7. Keywords: Palabras claves que facilitan encontrar la
secuencia o el archivo buscado.
8. Source: Detalla el organismo empleado de manera
general.
9. Organism: Realiza la descripcin taxonmica del
organismo analizado.
10. Reference: Muestra la longitud de residuos analizada por
un determinado autor.
11. Authors: Detalla los nombres de los investigadores que
trabajaron en la secuencia.
12. Title: Es el ttulo del archivo.
13. Journal: Permite visualizar la revista en la cual se
encuentra publicada la investigacin cientfica.
14. Comment: Son anotaciones realizadas por expertos sobre
la secuencia analaizada.
15. Protein: Especifica el tipo de protena analizada, la
longitud de la secuencia y en caso de ser una enzima el
tipo de enzima que representa.
16. Region: Son divisiones en la secuencia que representan
dominios de la proteina.
17. Site: Detalla sitios especficos dentro de una regin que
cumplen una funcin especfica.
18. CDS: Proporciona la secuencia de nucletidos que
codifica para la protena analizada. Se detalla el tipo de
metodologa que se sigui para obtener la secuencia de
nucletidos y anotaciones especficas de la secuencia.
19. Origin: Representa la secuencia de la protena.
iv. Manipular y comentar el formato Grfico

El modo grfico muestra de manera visual las caractersticas de la protena, es decir,


dominios, sitios activos, sitios de interaccin, sitios de unin y adicionalmente muestra
la longitud del gen y la longitud de la protena con su respectivo nombre. El modo
grfico permite acercar o alejar la secuencia para un anlisis puntual o general de la
misma. Dentro de las funciones del modo grfico se encuentra la adicin de marcadores,
anlisis BLAST y bsqueda de Primers.
v. Obtener la secuencia codificante de la protena al hacer click en
CDS.

vi. Traducir la secuencia de nucletidos obtenida en secuencias de


aminocidos con la herramienta TRANSEQ y escoger los seis
marcos de lectura.

vii. Encontrar el Marco de Lectura correspondiente a la protena


original observando entre los seis obtenidos. Fijarse en la
existencia de asteriscos. Comparar con la protena original
encontrada en NCBI

El marco de lectura que permite obtener la secuencia proteica igual a la de la protena


original encontrada en NCBI es el primer marco de lectura, como se observa en la
imagen superior, la secuencia concuerda en su totalidad exceptuando el asterisco
presente en la parte final de la secuencia. Los dems marcos de lectura no proporcionan
la secuencia de aminocidos que se visualiza en la protena original, adicionalmente se
visualizan asteriscos en mayor cantidad que el primer marco de lectura.
viii. Encontrar ORFs con ayuda de la herramienta ORF Finder de
NCBI

ix. Encontrar el marco de lectura abierto correspondiente a la


protena original y sealarlo
El marco abierto de lectura que corresponde a la protena original es el ORF1, el cual
permite que toda la longitud de la secuencia de aminocidos se traduzca a protena, con
un total de 1890 Nucletidos o 629 Aminocidos, valores que concuerdan con la base de
datos de la protena original. Este resultado corrobora lo obtenido con el programa
TranSeq. En la imagen a continuacin se muestra el ORF1 seleccionado.

Conclusiones:
El conocimiento de las diferentes bases de datos existentes permiten a los
investigadores realizar bsquedas personalizada, en donde se encuentren de
manera rpida y precisa la informacin necesaria.
La gran mayora de bases de datos se encuentran relacionadas entre s y se
encuentran en constante intercambio de informacin lo cual permite al
investigador obtener en una misma base de datos varios resultados tiles.
Los diferentes formatos existentes permiten al investigador obtener la
informacin necesaria para manipular y analizar las secuencias correctamente.

Anda mungkin juga menyukai