SECUENCIAS DE ADN.
Monografa
DEDICATORIA
AGRADECIMIENTOS
CONTENIDO
pg.
2. INTRODUCCION
10
4. JUSTIFICACIN
11
5. OBJETIVOS
12
12
12
13
6.1 QU ES LA BIOINFORMATICA?
13
13
14
14
15
16
17
19
19
19
20
21
24
24
27
27
28
31
31
46
55
68
83
87
7.3.7 Microarrays
91
97
99
99
100
100
101
101
102
8.6 MICROARRAYS
102
9. DISEO METODOLGICO
104
9.1 HIPTESIS
104
9.2 POBLACIN
104
9.3 MUESTRA
104
9.4 VARIABLES
104
9.5 INSTRUMENTOS
104
10. CONCLUSIONES
107
108
LISTA DE TABLAS
pg.
33
71
98
LISTA DE FIGURAS
pg.
22
38
52
1. TITULO
Monografa Tecnologas Bioinformticas para el Anlisis de Secuencias de ADN.
2. INTRODUCCIN
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.V
Centro de Biologa molecular y Biotecnologa de la Universidad Tecnolgica de Pereira.
3
Doctor Duverney Gaviria Arias, Centro de Investigacin CENBIOTEP. Ver pag. 105
2
10
4. JUSTIFICACIN
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.2
11
5. OBJETIVOS
12
6.1 QU ES LA BIOINFORMTICA?
13
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 5
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005. p.7
7
XION, Op cit., p. 31
6
14
El algoritmo gentico ha sido aplicado con xito para resolver muchos problemas
prcticos en la bioinformtica. Los algoritmos genticos se han utilizado para
resolver problemas de alineacin de secuencias mltiples. Un enfoque bien
conocido es SAGA9, el cual crea una poblacin inicial de alineaciones al azar y
cuasi-evoluciona. Se considera que SAGA supera a la solucin ms comn de los
8
9
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 32
System for Automated Geoscientific Analyses (Sistema Automatizado de Anlisis Geocientfica).
15
Las nuevas tcnicas tienden a combinar el algoritmo gentico con otros mtodos
computacionales, tales como el Mtodo del K-vecino10 ms cercano y la red
neuronal de Keedwell11 y Narayanan12, para resolver los problemas de la
expresin gnica. Se les denomina mtodos hibrido-genticos. Keedwell y
Narayanan utilizan un algoritmo gentico para seleccionar un conjunto de genes
para la clasificacin y el uso de una red neuronal para determinar la idoneidad de
los genes.13
Con muy pocas excepciones, cada clula del cuerpo contiene un conjunto
completo de cromosomas y genes idnticos, pero solo una fraccin de estos
genes se activan, sin embargo, es el subconjunto que se expresa el que le
confiere propiedades nicas para cada tipo de clula.
La expresin gnica es el trmino utilizado para describir la transcripcin de la
informacin contenida en el ADN, el repositorio de la informacin gentica, en las
molculas de ARNm14 o mensajero que se traducen en las protenas que realizan
la mayor parte de las funciones crticas de las clulas. Los cientficos estudian los
tipos y cantidades de ARNm producido por la clula para saber qu genes se
expresan, y a su vez proporcionan la informacin detallada sobre cmo la clula
responde a sus necesidades cambiantes.
La expresin de genes es un proceso muy complejo y bien regulado que permite a
la clula responder dinmicamente a los estmulos ambientales y a sus propias
necesidades cambiantes. Este mecanismo acta como un interruptor on/off para
controlar que genes se expresan en una clula, as como un control de volumen
10
Disponible
en
Internet:
<http://www.tdr.cesca.es/TESIS_UPC/AVAILABLE/TDX-0725105143853//04Caja04de07.pdf>
11
Dr. Ed Keedwell: Recibi una Licenciatura en Ciencia Cognitiva (1998) y es doctorando en Ciencias de la
Computacin (2003), ambos de la Universidad de Exeter.
12
Ajit Narayanan: Profesor y Director de la Escuela de Informtica y Ciencias Matemticas (School of
Computing and Mathematical). Es Licenciado de la Universidad Aston y PhD de la Universidad de Exeter.
13
PHOEBE CHEN, Op. cit., p.140.
14
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
16
Antes de depositar en una base de datos la secuencia ensamblada, esta tiene que
ser analizada por sus caractersticas biolgicas tiles.
El proceso de anotacin del genoma contiene las observaciones de las
caractersticas. Esto implica dos pasos: la prediccin de genes y la
asignacin funcional. Algunos ejemplos de las anotaciones terminadas de
genes en GenBank16 se han descrito en la seccin de bases de datos biolgicas.
Como un ejemplo del mundo real, la anotacin de genes del genoma
humano cuenta
con una
combinacin
de prediccin
terica y
verificacin experimental. La estructura de los genes se predijo por primera
vez por programas de prediccin ab initio17 exn como GENSCAN18 o FgenesH19.
La prediccin se verifica por medio de bsquedas BLAST20 contra una base de
datos de secuencia. Los genes predichos estn adicionalmente comparados con
las
secuencias
ADNc21
y
EST22
experimentalmente
determinadas
usando programas
de alineamiento por
pares,
como
GeneWise23,
Spidey24, SIM425 y EST2Genome26.Todas
las predicciones
son
revisadas
manualmente por los curadores humanos.
15
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en lnea]. Julio de 2007. Bethesda Estados
Unidos de America. Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html>
[citado en julio 16 de 2011].
16
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
17
desde el principio.
18
Disponible desde Internet en: <http://genes.mit.edu/GENSCAN.html>
19
Disponible desde Internet en: < http://mendel.cs.rhul.ac.uk/mendel.php?topic=fgen-file>
20
Ver pag. 58
21
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm. Se
genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica como
aplicada a biomedicina.
22
Una secuencia tag expresada o EST es una pequea porcin de un gen entero que puede ser usada para
ayudar a identificar genes desconocidos y para mapear sus posiciones dentro de un genoma.
23
Disponible desde Internet en: < http://www.ebi.ac.uk/Tools/Wise2/>
24
Disponible desde Internet en: <http://www.ncbi.nlm.nih.gov/spidey/>
25
Disponible desde Internet en: < http://pbil.univlyon1.fr/members/duret/cours/inserm210604/exercise4/sim4.html>
26
Disponible desde Internet en: < http://imed.med.ucm.es/cgibin/emboss.pl?_action=input&_app=est2genome>
17
Una
vez abiertos
los
marcos
de
lectura
son
determinados,
la
asignacin funcional de las protenas codificadas se lleva a cabo mediante la
bsqueda de homologa utilizando bsquedas BLAST contra una base de datos de
protenas. Adems, se
aaden descripciones
funcionales mediante
la
bsqueda de motivos de protenas y dominios de bases de datos,
como Pfam27 y InterPro28, as como tambin apoyndose en la literatura
publicada.29
27
18
30
La Jornada. 20 de octubre de 2007. Watson y Crick, los padres del AND [en lnea]. Mxico, D.F. Disponible
desde
Internet
en:
<http://www.jornada.unam.mx/2007/10/20/index.php?section=ciencias&article=a03n1cie> [citado en 7 de
octubre de 2010].
31
Colombia Mdica [en lnea]. Universidad del Valle: Cali, 2008 [citado en 7 de octubre de 2010]. Vol. 39,
No.
001.
(enero-marzo
2008).
Disponible
desde
Internet
en:
<http://redalyc.uaemex.mx/redalyc/pdf/283/28339115.pdf > ISSN 1657-9534.
32
PDB: Banco de Datos de Proteinas.
33
Point Accepted Mutation (Mutacin Puntual Aceptada).
19
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
35
European Molecular Biology Laborator (Laboratorio Europeo de Biologa Molecular).
36
DNA Data Bank of Japan (Banco de Datos de ADN de Japn).
37
Base de datos biolgica de secuencia de protenas.
38
Protein Information Resource (Recursos de Informacin de Proteina).
39
Basic Local Alignment Search Tool (Alineacin de base local de herramientas de bsqueda).
40
Biomdica [online]. Grupo de Anlisis Bioinformtico GABi, Centro de Investigacin y Desarrollo en
Biotecnologa CIDBIO: Bogot, 2010 - [citado en 6 de octubre de 2010]. Vol 30, No.2. (abril-junio 2010).
Disponible desde Internet en: <http://www.scielo.unal.edu.co/scielo.php?script=sci_arttext&pid=S0120
41572010000200004&lng=en&nrm=iso > ISSN 0120-4157.
20
21
Fuente http://www.ncbi.nih.gov/Genbank/genbankstats.html
41
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 7
GenBank es la base de datos de secuencias genticas del Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
43
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.2
44
NCBI. 3 de mayo de 2011. What is GenBank? [en lnea]. Bethesda, Estados Unidos de Amrica. Disponible
desde Internet en: <http://www.ncbi.nlm.nih.gov/genbank/> [citado en 10 de julio de 2011].
42
22
Sin embargo, en algunas situaciones, una sola base de datos no puede dar
respuestas a los complejos problemas de los bilogos. La integracin o la
recopilacin de informacin de varias bases de datos para resolver problemas y
descubrir nuevos conocimientos son otros retos importantes en bioinformtica45.
La transformacin de datos biolgicos voluminosos en informacin til y
conocimiento valioso es un reto a la hora de descubrir conocimientos.
identificacin e interpretacin de patrones interesantes que estn escondidos
miles de millones de datos biolgicos genticos es una meta clave de
45
23
en
La
en
la
HAN y KAMBER, 2001; JAGOTA, 2000; NARAYANAN, et al., 2002; y NG Y WONG, 2004.
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 8
24
Grupo
de
Parasitologa
Molecular.
Disponible
desde
internet
en:
http://201.234.78.173:8080/gruplac/jsp/visualiza/visualizagr.jsp?nro=00000000000255>
49
Grupo de Anlisis Bioinformtico. Disponible desde Internet en: <http://gabi.cidbio.org/group.html>
25
<
50
26
7.2.1
Base evolutiva del Alineamiento de secuencias. El ADN y las
protenas son los productos de la evolucin. Los bloques de construccin de
estas macromolculas biolgicas, las bases de nucletidos y aminocidos
forman secuencias lineales que determinan la estructura primaria de las
molculas. Estas molculas
pueden
considerarse fsiles
moleculares que
codifican la historia de millones de aos de evolucin. Durante este perodo de
tiempo, las secuencias moleculares sufren cambios al azar, algunos de los
cuales son seleccionados durante el proceso de la evolucin.
Como las secuencias seleccionadas gradualmente acumulan mutaciones y
divergen en el tiempo, las huellas de la evolucin todava pueden permanecer
en ciertas porciones de las secuencias que permiten la identificacin de
la ascendencia comn. La presencia de rastros evolutivos se debe a que algunos
de los residuos que llevan a cabo funciones claves y estructurales tienden a ser
preservadas por la seleccin natural, mientras que otros residuos que pueden ser
menos cruciales para la estructura y funcin tienden a mutar con ms
frecuencia. Por ejemplo, los residuos del sitio activo de una familia de
enzimas tienden a ser conservados, ya que son los responsables de las funciones
catalticas. Por lo tanto, mediante la comparacin de secuencias a travs de la
alineacin, los patrones de la conservacin y la variacin pueden ser identificados.
El grado de conservacin de la secuencia en la alineacin revela las relaciones
evolutivas de las diferentes secuencias, mientras que la variacin entre las
secuencias refleja los cambios que se han producido durante la evolucin en la
forma de sustituciones, inserciones y eliminaciones.
Identificar las relaciones evolutivas entre las secuencias ayuda a caracterizar la
funcin de las secuencias desconocidas. Cuando un alineamiento de secuencias
revela una importante similitud entre un grupo de secuencias, estas pueden ser
consideradas como pertenecientes a la misma familia. Si uno de los
miembros dentro de la familia tiene una estructura y funcin conocida, a
continuacin, esa informacin puede ser transferida a los que todava no se han
caracterizado experimentalmente. Por lo tanto, el alineamiento de secuencias se
puede usar como base para la prediccin de la estructura y la funcin de las
secuencias sin caracterizar.
La alineacin de secuencias proporciona la inferencia de la relacin de dos
secuencias que se estudian. Si las dos secuencias comparten una importante
similitud, es muy poco probable que la gran similitud entre estas dos se haya
adquirido al azar, lo que significa que las dos secuencias se han derivado de un
origen evolutivo comn.
27
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 31
DAHL, Carol A. y STRAUSBERG, Robert L. Revolutionizing Biology Through Leveraging Technology. En:
Engineering in Medicine and Biology Magazine, IEEE. vol. 15, Issue: 4. Julio Agosto, 1996. p. 106-110. ISSN
0739-5175.
54
MYERS, E.M. Toward Simplifying and Accurately Formulating Fragment Assembly. En: Journal of
Computational Biology. vol. 2, Issue: 2. p. 275-290.
53
28
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.244
56
Whole Genome Shotgun (Disparo sobre la totalidad del genoma).
57
WEBER, James y MYERS, Eugene. Whole Genome Shotgun Sequencing. En: Genome
Research. vol. 7. 1997. p. 401-409. ISSN 1054-9803/97.
58
PHOEBE CHEN, Op. cit., p. 245
59
PEVZNER, Pavel; TANG, Haixu y WATERMAN, Michael. An Eulerian Path Approach to DNA Fragment
Assembly. En: Proceedings of National Academy of Sciences of the United States of America. vol. 98,
Issue:17. Agosto 14 de 2001. p. 9748-9753.
29
60
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p. 249
61
Parallel Euler Sequence Assembly (Montaje de Secuencias Paralelas de Euler).
62
PHOEBE CHEN, Op. cit., p. 249
30
7.3
TECNOLOGAS
BIOINFORMATICA
COMPUTACIONALES
APLICADAS
LA
7.3.1 Bases de Datos. Una base de datos es un archivo informtico utilizado para
almacenar y organizar los datos de tal manera que esa informacin pueda ser
recuperada fcilmente a travs de una variedad de criterios de bsqueda. Las
bases de datos se componen de software y hardware para la gestin de datos.
El objetivo principal del desarrollo de una base de datos es organizar los
datos en un conjunto estructurado de registros que permitan la fcil recuperacin
de la informacin. Cada registro, tambin llamado una entrada, debe contener un
nmero de campos que contienen los elementos de datos reales, por ejemplo, los
campos para los nombres, nmeros de telfono, direcciones, fechas. Para
recuperar un registro concreto de la base de datos, un usuario puede
especificar una determinada pieza de informacin, llamada valor, que se
encuentra en un campo determinado y se espera que el computador recupere el
registro de datos completo. Este proceso se llama hacer una consulta.
A pesar de que la recuperacin de datos es el objetivo principal de todas las bases
de datos, las bases de datos biolgicas a menudo tienen un nivel de exigencia,
conocido como el descubrimiento del conocimiento, lo que se refiere a la
identificacin de las conexiones entre piezas de informacin que no se conocan
cuando la informacin se introdujo en primer lugar. Por ejemplo, las bases de
datos
con informacin
de
la
secuencia en
bruto pueden
realizar tareas adicionales de computacin para identificar homologa de
secuencia o motivos
conservados63.
Estas
caractersticas
facilitan
el descubrimiento de nuevos conocimientos biolgicos a partir de los datos en
bruto.64
7.3.1.1 Bases de Datos Biolgicas. Las actuales bases de datos biolgicas usan
tres tipos de estructuras de base de datos: ficheros planos, relacionales
y orientados a objetos. A pesar de las obvias desventajas de la utilizacin
de archivos planos en gestin de base de datos, muchas bases de datos
biolgicas todava utilizan este formato. La justificacin de esto es que este
sistema implica una cantidad mnima de diseo de base de datos y los resultados
de la bsqueda pueden ser fcilmente entendidos por los bilogos que consultan
dicha tecnologa.
63
31
Con base en su contenido, las bases de datos biolgicas se pueden dividir en tres
categoras: bases de datos primarias, bases de datos secundarias, y bases de
datos especializadas.
Las bases de datos primarias contienen datos biolgicos originales. Son archivos
de secuencia en bruto o datos estructurales presentados por la comunidad
cientfica. GenBank65 y Protein Data Bank66 son ejemplos de bases de datos
primarias. Las bases de datos secundarias contienen informacin procesada
computacionalmente o manualmente curada67, con base en la informacin original
a partir de bases de datos primarias. Las bases de datos de secuencias de
protenas traducidas contiene la anotacin funcional perteneciente a esta
categora. Ejemplos de esto son Swiss-Prot68 y PIR69. Las bases de datos
especializadas son aquellas que atienden a un inters de investigacin en
particular. Por ejemplo, Flybase, la base de datos de secuencias del
VIH, y Ribosomal Database Project son las bases de datos que se especializan en
un determinado organismo o un determinado tipo de datos.
Una lista de algunas bases de datos de uso frecuente se presenta en la Tabla 1.70
65
GenBank es la base de datos de secuencias genticas de los Institutos Nacionales de Salud (en ingls
National Institutes of Health, NIH), una coleccin anotada de todas las secuencias de ADN a disposicin del
pblico.
66
PDB: Banco de Datos de Proteinas.
67
Bases de Datos Curadas: los datos estn confirmados biolgicamente.
68
Base de datos biolgica de secuencia de protenas.
69
Protein Information Resource (Recursos de Informacin de Proteina).
70
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 14
32
33
Bases de Datos Primarias72. Hay tres principales bases de datos pblicas
de secuencias que almacenan los datos en bruto de las secuencias del
cido nucleico producido y presentado por los investigadores de todo el mundo: la
base de datos de secuencias genticas de los Institutos Nacionales de Salud
GenBank, el Laboratorio Europeo de Biologa Molecular (EMBL) y la base de
datos de ADN del Banco de datos de Japn (DDBJ), que estn disponibles
gratuitamente en Internet.
La mayor parte de los datos en las bases de datos son aportados directamente por
los autores con un nivel mnimo de anotacin. Un pequeo nmero de secuencias,
especialmente las publicadas en la dcada de 1980, se introdujeron
manualmente de la literatura publicada por el personal de gestin de base de
datos.
En la actualidad, el ingreso de una secuencia a cualquiera de las estas bases de
datos: GenBank, EMBL, o DDBJ, es una condicin previa para su publicacin en
la mayora de las revistas cientficas, para de esta manera asegurar que los
datos moleculares fundamentales sean puestos a libre disposicin. Estas
tres bases de datos pblicas se colaboran estrechamente y hacen intercambio de
datos diariamente.
GenBank, EMBL, o DDBJ en conjunto constituyen la base de datos
de colaboracin internacional de secuencias de nucletidos. Esto significa
que mediante la conexin a cualquiera de las tres bases de datos, se debe tener
acceso a los mismos datos de una secuencia de nucletidos.
A pesar de que las tres bases de datos contienen los mismos conjuntos de datos
en bruto, cada una de las bases de datos individuales tiene un tipo de formato
ligeramente diferente para representar los datos. Afortunadamente, para
la estructura tridimensional de macromolculas biolgicas, slo hay una base de
datos centralizada, el PDB73. Esta base de datos archiva las coordenadas
atmicas de las macromolculas (protenas y cidos nucleicos) determinadas por
cristalografa de rayos X74 y NMR.
PDB utiliza un formato de archivo plano para representar el nombre de la protena,
los autores, los datos experimentales, la estructura secundaria, cofactores, y las
coordenadas atmicas. La interfaz web de PDB tambin proporciona
herramientas de visualizacin para la manipulacin de imgenes simples.
72
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 14
PDB: Banco de Datos de Protenas.
74
Cristalografa de rayos X: es esencialmente una forma de microscopa de alta resolucin. Permite visualizar
estructuras de protenas a nivel atmico y mejorar la comprensin de la funcin de la protena.
73
34
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 21
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
77
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm. Se
genera por accin de la enzima trasncripta a la inversa y tiene mltiples usos tanto en investigacin bsica como
aplicada a biomedicina.
78
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 21
79
Disponible desde Internet en: <http://www.renabi.fr/article202.html>
80
Servicio de la Biblioteca Nacional de Medicina de los Estados Unidos de Amrica, que incluye ms de 20
millones de citas de la literatura biomdica a partir de MEDLINE, revistas de ciencias biolgicas, y libros en
lnea. Las citas pueden incluir vnculos a contenido de texto completo desde PubMed Central y los sitios web
de los editores.
76
35
37
38
Bases de Datos Secundarias. La informacin de la anotacin de la
secuencia en la base de datos primaria suele ser mnima. Para activar la
informacin
de
la
secuencia en
bruto
en ms
conocimientos
biolgicos sofisticados, es necesario ms post-procesamiento de la informacin de
la secuencia. Esto plantea la necesidad de bases de datos secundarias, que
contengan informacin de secuencias procesadas computacionalmente derivadas
de las bases de datos primarias.
La cantidad de trabajo de procesamiento computacional vara mucho entre las
bases de datos secundarias, algunos son simples archivos de datos de las
secuencias traducidas identificadas a partir de marcos de lectura abierta en el
ADN, en tanto que otras ofrecen anotacin e informacin adicional relacionada
con los niveles ms altos de la informacinrespecto a la estructura y las funciones.
Un ejemplo destacado de bases de datos secundarias es SWISS-PROT81, que
proporciona una anotacin detallada de la secuencia que incluye la estructura,
funcin y misin de la familia de protenas. Los datos de la secuencia se derivan
principalmente de TrEMBL82, una base de datos de traduccin de secuencias de
cidos nucleicos almacenadas en la base de datos EMBL83.
La anotacin de cada entrada es cuidadosamente curada por expertos humanos y
por lo tanto es de buena calidad. La anotacin de protenas incluye la
funcin, estructura
de
dominios, sitios
catalticos84,
unin
del
cofactor, modificacin post-traslacional, informacin va metablica, asociacin
con la enfermedad y similitud con otras secuencias. Mucha de esta informacin es
obtenida de la literatura cientfica e ingresada por los curadores de la base de
datos.
La anotacin proporciona un importante valor aadido a cada registro de la
secuencia original. El registro de datos tambin proporciona enlaces de
referencias cruzadas a otros recursos de inters en lnea.
Otras caractersticas tales como redundancia muy baja y alto nivel de
integracin con otras bases de datos primarias y secundarias han hecho a SWISSPROT85 muy popular entre
los
bilogos.
Un
esfuerzo
reciente para
combinar SWISS-PROT, TrEMBL86 y PIR87 ha llevado a la creacin de la base de
81
39
datos UniProt88, que tiene mayor cobertura que cualquiera de las tres bases de
datos, mientras que al mismo tiempo mantiene las caractersticas originales de
SWISS-PROT de baja redundancia, referencias cruzadas, y una alta calidad de la
anotacin.
Tambin hay bases de datos secundarias que se refieren a la clasificacin de las
familias de protenas de acuerdo a las funciones o estructuras. Las bases de
datos Pfam89 y Blocks90 contienen informacin de secuencias alineadas de
protenas, as como motivos91 derivados y patrones, que pueden ser
utilizados para la clasificacin de familias de protenas y la inferencia de las
funciones de las protenas.
La base de datos DALI es una base de datos de estructura de protenas
secundaria, la cual es vital para la clasificacin de la estructura de protenas para
identificar a distancia las relaciones evolutivas entre las protenas.
88
40
Adems, tambin hay bases de datos especializadas que contienen los datos
originales derivados del anlisis funcional. Por ejemplo, la base de datos de
GenBank EST97 y la Base de Datos de Microarray para la expresin gnica en el
Instituto Europeo de la Bioinformtica (EBI) son algunas de las bases de datos de
la expresin gnica disponibles.98
7.3.1.2 Interconexin entre las bases de datos biolgicas99. Segn lo
mencionado, las bases de datos primarias son los depsitos y los distribuidores
centrales de la informacin cruda de la secuencia y de la estructura. Ellas apoyan
casi el resto de los tipos de bases de datos biolgicas de una manera similar a la
Associated Press que proporciona nuevas noticias a los medios de noticias
locales, quienes entonces adaptan las noticias a sus propias necesidades
particulares.
Por lo tanto, en la comunidad biolgica, hay una frecuente necesidad de conectar
las bases de datos secundarias y especializadas a las bases de datos primarias, y
de actualizar permanentemente la informacin de la secuencia. Adems, un
usuario necesita a menudo conseguir la informacin de bases de datos primarias y
secundarias para completar una tarea porque la informacin en una sola base de
datos es a menudo insuficiente.
En lugar de permitir que los usuarios visiten mltiples bases de datos, es
conveniente que las entradas en una base de datos sean de una referencia
cruzada y vinculadas o linkeadas a las entradas relacionadas en otras bases de
datos que contengan informacin adicional. Todas estas generan una demanda de
ser linkeadas a diferentes bases de datos.
La barrera principal al enlazar diversas bases de datos biolgicas es la
incompatibilidad del formato que las bases de datos biolgicas actuales utilizan,
los tres tipos de estructuras de base de datos: archivos planos, relacionales y
orientados a objetos. Las estructuras de base de datos heterogneas limitan la
comunicacin entre las bases de datos.
Una solucin a las bases de datos de redes es el uso de un lenguaje de
especificacin llamado Common Object Request Broker Architecture100 (CORBA),
que permite a los programas de bases de datos en diferentes lugares comunicarse
en una red a travs de un "corredor de interfaz" sin tener que entender cada
97
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del cDNA, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
98
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
99
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
100
Common Object Request Broker Architecture (Arquitectura comn de intermediarios en peticiones a
objetos).
41
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 16
Ibid., p. 17
103
RODRIGUEZ T, Eduardo Dr. Bases de Datos Biolgicas [PDF]. Mxico: Centro de Investigacin y de
Estudios Avanzados del Instituto Politcnico Nacional, 2011. Disponible desde Internet en:
<http://www.tamps.cinvestav.mx/~ertello/bioinfo/sesion03.pdf> [citado en 17 de julio de 2011].
104
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del cDNA, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
102
42
National Center for Biotechnology Information (Centro Nacional de Informacin sobre Biotecnologa).
Reference Sequence (Secuencia de Referencia).
107
Base de datos biolgica de secuencia de protenas.
108
Base de datos NCBI EST cluster. Cada grupo es un conjunto de la superposicin de secuencias EST que son
procesados computacionalmente para representar a un solo gen expresado.
109
Divisin de GenBank que contiene los datos de la secuencia y otra informacin sobre "single-pass"
secuencias del ADNc, o "Etiquetas de Secuencias Expresadas", de un nmero de organismos.
110
Ver pag. 44. Disponible desde Internet en: <http://www.geneontology.org/>
111
Persona que ingresa las secuencias en las bases de datos biolgicas.
106
43
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250
44
Producto del gen: ARN o protena que resulta de la expresin de un gen. La cantidad de producto del
gen es una medida del grado de actividad del gen.
114
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 250
115
Ibid., p. 18
116
Portal de la NCBI para una variedad de bases de datos biolgicas.
117
XION, Jin, Op cit., p. 19
118
National Center for Biotechnology Information (Centro Nacional de Informacin sobre Biotecnologa).
119
Servicio de la Biblioteca Nacional de Medicina de los Estados Unidos de Amrica, que incluye ms de 20
millones de citas de la literatura biomdica a partir de MEDLINE, revistas de ciencias biolgicas, y libros en
45
disponible.
7.3.2
Bodegas de Datos. La Bioinformtica es el uso de herramientas
computacionales que permiten analizar, depurar y agilizar el manejo de grandes
cantidades de datos de la biologa en trminos fisicoqumicos y permitir
comprender y organizar la informacin asociada. La bioinformtica parte de datos
encontrados experimentalmente, los cuales son almacenados y sobre estos se
aplican tcnicas de consulta, de anlisis y de extraccin de conocimiento.
Uno de los asuntos centrales la actualidad en este campo es definir el esquema de
almacenamiento y las herramientas de anlisis de los grandes volmenes de
datos generados y disponibles.
lnea. Las citas pueden incluir vnculos a contenido de texto completo desde PubMed Central y los sitios web
de los editores.
120
Bilogo austriaco.
121
RODRGUEZ BAENA, Domingo Savio; SANTOS RIQUELME, Jos C. y AGUILAR RUIZ, Jess S. Anlisis de
datos de Expresin Gentica mediante tcnicas de Biclustering [en lnea]. Sevilla, Espaa. 2006. p. 12. [citado
29 marzo 2010]. Disponible desde internet: < http://www.lsi.us.es/docs/doctorado/memorias/Memoriav2.pdf>
46
7.3.2.2 Estado del arte de las Bodegas de Datos. Desde el ao 1980, las bases
de datos del Laboratorio de Biologa Molecular Europeo, EMBL (European
Molecular Biology Laboratory), del NCBI (Estados Unidos) y del laboratorio
japons DDBJ (DNA Databank of Japan) han recopilado las secuencias
nucleotdicas publicadas hasta hoy. Actualmente existe una colaboracin entre
todas ellas, de forma que cada nueva entrada es automticamente intercambiada
con las otras dos restantes.
Las secuencias proticas son almacenadas y distribuidas por las bases de datos
SWISS-PROT. Es una base de datos no redundante y mantiene numerosas
referencias cruzadas con 26 bases de datos diferentes (BIB-GEN124). Las
secuencias nucleotdicas son incorporadas a las bases de datos a un ritmo de 210
millones de pares de bases de datos al ao. Sus datos se encuentran divididos en
entradas, cada una de las cuales tiene un nmero de acceso, un conjunto de
anotaciones que incluyen la descripcin de la secuencia, informacin taxonmica
del organismo del que deriva, lista de nombres de autores, referencias
bibliogrficas, caractersticas generales as como regiones de inters biolgico y
finalmente, la secuencia en s.125
Pero este campo ha abierto muchos caminos y opciones a investigadores de
diferentes latitudes y disciplinas, mostrndose como un espacio de gran
dinamismo.
122
cido Desoxirribonucleico, molcula que contiene y transmite la informacin gentica de los organismos
excepto en algunos tipos de virus (retrovirus).
123
cido Ribonucleico, molcula formada por un poli-ribonucletido de longitud variable que contiene
Uracilo en vez de Timina.
124
Bases de datos genticas.
125
Bib-Gen Instituto de salud Carlos III. 18 de febrero de 2004. Acceso a fuentes de informacin genmica y
herramientas bioinformticas bsicas. Espaa. Disponible desde Internet en: <http://bvs.isciii.es/bibgen/Actividades/curso_virtual/Ftes_informacion/fteinformacion4.htm> [citado en 29 de marzo de 2011].
47
Aplicaciones virtuales en biomedicina [en lnea]. ESCOBAR ROA, Juan Miguel. Facultad de Ingeniera
Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de 2011]. Vol 1 No. 1. Disponible
desde
Internet
en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%206.pdf>
127
Central de procesamiento de imgenes mdicas para General Mdica de Colombia S.A. [en lnea]. PRIETO
REYES, Sandy Johana; SALCEDO LPEZ, Dennys Marcela y TORRES ROMERO, Oscar Mauricio. Facultad de
Ingeniera Electrnica, Universidad El Bosque: Bogot, 2006 - [citado el 30 de marzo de 2011]. Vol 1 No. 1.
Disponible
desde
Internet
en:
<http://artemisa.unbosque.edu.co/facultades/electronica/pdfs/RevistaN1/Articulo%202.pdf>
128
BioStar models of clinical and genomic data for biomedical data warehouse design [en lnea]. WANG,
Liangjiang; RAMANATHAN, Murali y ZHANG, Aidong. State University of New York at Buffalo: New York,
Estados Unidos de Amrica, 2005 - [citado el 30 de marzo de 2011]. Disponible desde Internet en:
<http://www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/ijbra05.pdf>
48
DARMONT, Jrme y OLIVIER, Emerson. A Complex Data Warehouse For Personalized, Anticipative
Medicine.
Francia:
University
of
Lyon,
2006.
Disponible
desde
Internet
en:
<http://arxiv.org/ftp/arxiv/papers/0809/0809.2688.pdf> [citado en 30 de marzo de 2011].
130
Almacenamiento de Datos.
131
Apache Tomcat es una implementacin de software de cdigo abierto de Java Servlet y tecnologas
JavaServer Pages.
132
La tecnologa Java Servlet proporciona a los desarrolladores web un mecanismo simple y consistente para
extender la funcionalidad de un servidor Web y para acceder a los sistemas empresariales existentes.
49
pequeas.
Un Data Warehouse Ligand Depot optimiza la consulta y el reporte ligando la
informacin presente en el PDB. Plantean como trabajos futuros la
implementacin de capacidades mejoradas de bsqueda y la incorporacin de una
ms sofisticada interfaz grfica de usuario133.
En un llamativo y avanzado trabajo presentado por Barton y otros (2008)134
exponen el software llamado EMAAS135 que es una rica aplicacin multi-usuario
en Internet con una facilidad simple y robusta para acceso a los recursos
actualizados a un microarray de almacenamiento de datos y anlisis, combinado
con herramientas integradas para optimizacin en tiempo real, apoyo a los
usuarios y la formacin.
El framework EMAAS permite a los usuarios importar datos de microarrays de
diversas fuentes hacia una base de datos subyacente, pre-procesar, evaluar y
analizar la calidad de los datos, realizar anlisis funcionales. Un nmero de
paquetes de anlisis, incluidos R-Bioconductor136 y Affymetrix Power Tools
(APT)137 se han integrado en el servidor y estan disponibles mediante libreras
Postgres-PLR138 o en Clusters Grid139. Los recursos integrados distribuidos
incluyen la herramienta de anotacin funcional DAVID140, GeneCards141 y los
133
FENG, Zukang, et al. Ligand Depot: a data warehouse for ligands bound to macromolecules. En: Bioinformatics
Applications Note [en lnea]. 1 de abril de 2004. vol. 20. no. 13. Disponible desde Internet en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc13fd-7bee-4364-829bef27e2d53032>
134
BMC Bioinformatics. 25 de noviembre de 2008. BARTON, G., et al. EMAAS: An extensible grid-based Rich Internet
Application for microarray data analysis and management. Frederick: Estados Unidos de Amrica, Londres. Disponible
desde Internet en: <http://www.biomedcentral.com/1471-2105/9/493> [citado en 30 de marzo de 2011].
135
Extensible MicroArray Analysis System (Sistema de Anlisis de MicroArray extensible).
136
Herramienta principal del anlisis integrado en EMMAS, resultante de la unin entre el lenguaje y entorno de
programacin para anlisis estadstico y grfico R y el proyecto de cdigo abierto para el anlisis de datos en gentica
Bioconductor.
137
Conjunto de programas multi-plataforma de lnea de comandos que implementan algoritmos para analizar y trabajar
con Affymetrix GeneChip matrices. APT es un proyecto de cdigo abierto bajo la licencia GNU General Public License
(GPL).
138
PL/R es un lenguaje procedural para PostgreSQL que le permite escribir las funciones de base de datos almacenada
en R.
139
Es una combinacin entre la Computacin Cluster que es un sistema de computacin basado en hardware estndar
conectado por una red dedicada dedicado a un propsito especfico, y la Computacin Grid que es un sistema que
coordina recursos que no estn sujetos a un control centralizado, utilizando protocolos de propsito general e
interfaces, ambos abiertos y estndares, para entregar servicios de calidad.
140
The Database for Annotation, Visualization and Integrated Discovery (La base de datos de Anotacin, Visualizacin y
Deteccin Integrada), un sitio web para el anlisis de enriquecimiento funcional, que permite el descubrimiento de los
grupos biolgicos de inters potenciales asociados con una lista particular de genes.
141
Base de datos de genes humanos que proporciona informacin concisa genmica relacionada a todos los genes
humanos conocidos y previstos.
50
142
Gene Expression Omnibus (Gen de expresin mnibus), Depsito publico internacional de archivos que
distribuye libremente microarrays, la secuenciacin de prxima generacin, y otras formas de datos
funcionales de alto rendimiento genmica presentadas por la comunidad cientfica.
143
Sistema de almacenamiento de datos para agregar archivos Affymetrix y los metadatos asociados.
144
Plataforma integrada para el intercambio de datos de microarrays, la minera y el anlisis.
145
HARJINDER S, Gill y PRAKASH C, Rao. Data Warehousing. La Integracion de Informacion para la Mejor
Toma de Decisiones. Mxico: Prentice Hall, 1996. 382p. ISBN 968-880-792-3.
146
DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la toma de decisiones
(Parte II). En: NOOS. Enero 2011. no.13.
51
central(es)147.
Los procesos asociados a Data Warehouse (Duque, 2001)148, (Escalante, 1996)149
como se muestra en la figura 1 son:
LIMPIEZA
TRANSPORTE/
EXTRACCION
ORDENACION/
MEZCLA
DATA WAREHOUSE
147
ORFALI, Robert; HARKEY, Dan y EDWARDS, Jeri. Cliente/Servidor Gua de Supervivencia. 2 ed. Mxico:
McGraw-Hill, 1997. ISBN 9701017609.
148
DUQUE. Op. cit.
149
ESCALANTE, Ivn. Data Warehouse. En: Soluciones Avanzadas. Junio 1996. no.34.
150
On-Line Analytical Processing (Procesamiento Analtico en lnea).
52
151
DUQUE, Nstor Daro y TAMAYO, Alonso. Data Warehouse: Herramienta para la toma de decisiones
(Parte I). En: NOOS. Enero 2011. no.12. p. 118-126.
152
Ibid.
153
Online transaction processing (Procesamiento de transacciones en lnea).
53
154
54
Cliente Servidor en dos capas. Solo existen servidores de datos y clientes que
los usan. En el servidor (o servidores) residen las fuentes de datos, el Data
Warehouse y los datamarts. En los clientes, se ejecutan las herramientas de
acceso del usuario final; stas son generalmente aplicaciones grficas.
BUSTOS RIOS, Ligia Stella; MORENO LAVERDE, Ricardo; DUQUE MENDEZ, Nestor Dario. MODELO DE UNA
BODEGA DE DATOS PARA EL SOPORTE A LA INVESTIGACIN BIOINFORMTICA. En: Scientia et Technica.
Universidad Tecnolgica de Pereira. ISSN 01221701.
156
FAYYAD, Usama M. Data mining and knowledge discovery: Making sense out of data. En: IEEE EXPERT.
vol. 11, Issue: 5. Octubre, 1996. p. 20
157
EVANGELOS, Simoudis. Reality check for data mining. En: IEEE Expert. vol. 1, Issue: 5. 1996. p.26
158
DUNHAM, Margaret H. Data mining: Introductory and advanced topics. New Jersey: Prentice Hall, 2003.
p.3.
55
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.63.
160
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
56
161
GEER, Renata C. y SAYERS, Eric W. Entrez: Making use of its power. En: Briefings in Bioinformatics. vol. 4,
no. 2. Junio, 2003. p. 179.
162
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
57
Las herramientas de comparacin de la secuencia de uso comn y
alineacin son BLAST163 y FASTA164. La principal caracterstica del BLAST es su
velocidad, pudiendo tomar pocos minutos para realizar cualquier bsqueda en la
totalidad de la base de datos. De hecho, los resultados se presentan en pantalla
inmediatamente despus de calculados.
BLAST puede hacer bsquedas en una base de datos no redundante (nr) la cual
tiene los registros no redundantes entre las dos bases de datos principales a nivel
mundial: GenBank en los Estados Unidos de Amrica y EMBL (European
Molecular Biology Laboratories) en Europa. Adems, BLAST tiene cinco mdulos
de bsqueda que amplan las posibilidades:
163
Basic Local Alignment Search Tool (Alineacin de base local de herramientas de bsqueda).
Fast
Alignment
(Alineamiento
Rpido).
Disponible
desde
internet
en:
<http://www.EBI.ac.uk/Tools/sss/fasta/>
165
EMBnet Colombia. s.f. Algoritmos de Comparacion de Secuencias BLAST [en lnea]. Bogot, Colombia.
Disponible desde internet en: <http://bioinf.ibun.unal.edu.co/documentos/BLAST/BLAST.php>. [citado en
julio 12 de 2011].
164
58
166
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.69.
167
Disponible desde internet en: <http://www.EBI.ac.uk/Tools/msa/clustalw2/>
168
Clustal: Multiple Sequence Alignment. 26 de junio de 2011. Multiple alignment of nucleic acid and protein
sequences [en lnea]. s.l. Disponible desde internet en: <http://www.clustal.org/#News> [citado en julio 12
de 2011].
169
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm>
59
170
171
Expresin Profiler: Next Generation es una abierta y extensible plataforma web de colaboracin para la expresin de
microarrays de genes, la secuencia y el anlisis de los datos de PPI, la exposicin de distintos componentes de conexin
de cadenas para clusters, el descubrimiento de patrones, las estadsticas (a travs de R), los algoritmos de aprendizaje
automtico y la visualizacin.
172
173
174
MARTZ, Eric. 3D molecular visualization with Protein Explorer. En: KRAWETZ, Stephen A., WOMBLE, David D.
Introduction to Bioinformatics: A Theoretical and Practical Approach. Totowa, New Jersey: Humana Press, 2003. p. 565.
175
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.71.
60
Comparacin y alineacin de secuencia. Despus de que se obtiene una
secuencia de ADN, el siguiente paso es estudiar la informacin estructural y
funcional codificada en dicha secuencia. Una forma de hacerlo es mediante la
comparacin de la nueva secuencia con las secuencias que ya estn bien
estudiadas y documentadas. Las secuencias que son similares probablemente
tienen la misma funcin, ya sea un papel funcional (es decir, ORFs176) que
codifican protenas similares, el papel de regulador, o las propiedades
estructurales en el caso de las protenas.
Adems, si dos secuencias de diferentes organismos son similares, puede haber
una secuencia ancestro comn, y se dice entonces que las secuencias son
homologas. La relacin entre las secuencias homlogas tiene importantes
implicaciones en el estudio de la especiacin y el anlisis filogentico.
Un mtodo para la comparacin de la secuencia es la alineacin de secuencias.
La alineacin de la secuencia es el procedimiento de comparacin de dos
(alineacin de pares) o ms (alineamiento de secuencias mltiples) secuencias
mediante la bsqueda de una serie de caracteres individuales o patrones de
caracteres que se encuentran en el mismo orden en dichas secuencias. Para la
comparacin, base por base de dos secuencias, se necesita una alineacin
rigurosa de las dos secuencias utilizando tcnicas de comparacin de cadenas.
El mtodo estndar de la alineacin por parejas se basa en la programacin
dinmica177 este mtodo compara todos los pares de caracteres en las dos
secuencias, y genera un alineamiento y una anotacin, que depende del sistema
de puntuacin utilizado (es decir, una matriz de puntuacin para las distintas
combinaciones de pares de bases). En esta alineacin se incluyen caracteres
coincidentes y no coincidentes y las brechas en las dos secuencias que se
colocan, por lo que el nmero de coincidencias entre los caracteres idnticos es el
mximo posible.
Los alineamientos de secuencias pueden ser globales178 o locales. El alineamiento
global trata de alinear toda la secuencia, de tal manera que se maximice el grado
de similitud entre las dos secuencias. Sin embargo, para la mayora de las
comparaciones de secuencias de ADN, por lo general estn ms interesados en
176
ORF: Open Reading Frame, es una herramienta de anlisis grfico que encuentra todos los frames de
lectura abierta de un tamao mnimo seleccionable en la secuencia de un usuario o en una secuencia que ya
estn en la base de datos.
177
SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En: Advances in applied
mathematics. 2 ed. California: Academic Press, 1981. p. 482.
178
SMITH, Temple F. y WATERMAN, Michael S. Comparison of biosequences. En: Advances in applied
mathematics. 2 ed. California: Academic Press, 1981. p. 487.
61
179
The European Molecular Biology Open Software Suite (La Suite Europe de Biologa Molecular de
Software Libre).
180
EMBnet. s.f. EMBOSS [en lnea]. Bari, Italia. Disponible desde internet en:
<http://www.embnet.org/en/node/114 > [citado en julio 15 de 2011].
62
181
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.77.
182
Knowledge Discovery from Database (Descubrimiento del Conocimiento de Bases de Datos).
183
FEBLES RODRGUEZ, Juan Pedro y GONZLEZ PREZ, Abel. Aplicacin de la minera de datos en la
bioinformtica. En: ACIMED Revista Cubana de los Profesionales de la Informacin y la Comunicacin en
Salud. vol.10 no. 2. Marzo - abril 2002. ISSN 1024-9435.
63
64
Las bases de datos biolgicas pueden ser clasificadas en dos tipos 188 de
bancos de datos estructurados, con registros sobre secuencias y
estructuras moleculares, tales como las bases de datos SwissProt7 o
GenBank; y 2) bases de datos textuales no-estructuradas, con registros en
lenguaje natural, tales como PubMed y MEDLINE. La relacin entre estas
dos formas de informacin estructura y no estructurada es clave.
El conocimiento sobre el genoma no se limita al ADN o las secuencia
genmicas, hay una gran cantidad de informacin sobre estos genes,
almacenada en formatos no-estructurados dentro de millones de
publicaciones. Los bilogos pueden extraer medidas entre dos secuencias
de ADN de un banco de datos, como GenBank, pero esta relacin puede
ser identificada y descrita semnticamente con relaciones conceptuales
extradas de PubMed o MEDLINE.
Generalmente, el conocimiento biolgico en las bases de datos textuales
puede ser descubierto a travs de tres procesos bsicos189 1) aproximacin
top-down, en la cual los investigadores formulan hiptesis que conducen a
experimentos especficos, o se crean ontologas para describir la
terminologa y el conocimiento en un dominio dado; 2) aproximacin
bottom-up, que persiguen descubrir patrones interesantes o asociaciones
en los datos existentes, que a su vez se usan para formular nuevas
hiptesis, las tcnicas de clustering son las que se usan de forma ms
frecuente para este propsito; y 3) mtodos hbridos, que implican la
combinacin de varias tcnicas y fuentes de conocimiento, tales como
mtodos de recuperacin de informacin y anlisis de co-ocurrencia, para
obtener conjuntos de documentos que puedan ayudar a los investigadores
a articular nuevas hiptesis.
En relacin con lo anterior, la minera de la literatura constituye un campo
de investigacin de la lingstica computacional que combina diversos
procedimientos y tcnicas de anlisis de textos con el propsito de
establecer relaciones entre entidades biolgicas (como relaciones gen-gen,
gen-enfermedad, gen-protena, o gen-drogas) para interpretar funciones
biolgicas o formular hiptesis de investigacin.
188
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
189
LEROY, G y CHEN, H. Genescene: An ontology-enhanced integration of linguistic and co-occurrence based
relations in biomedical texts. En: Journal of the American Society for Information Science and Technology.
vol. 56, no. 5. 2005. p. 457-468.
65
BLASCHKE, C. y VALENCIA, A. The frame-based module of the SUISEKI information extraction system. En:
IEEE Intelligent Systems. vol. 17, no. 2. 2002. p. 14-20.
191
TANABE, L., et al. MedMiner: an Internet tex-mining tool for biomedical information, with application
togene expression profiling. En: BioTechniques. vol. 27, no. 6. 1999. p. 1210-1217.
192
SAFRAN, M., et al. GeneCards 2000: towards a complete, objectoriented, human gene compendium. En:
Bioinformatics. vol. 18. 2002. p. 1542-1543.
193
PEREZ-IRATXETA, C., BORK, P. y ANDRADE, M. XplorMed: a tool for exploring MEDLINE abstracts. En:
Trends in Biochemical Sciences. vol. 26, no. 9. 2001. p. 573-575.
194
RINDFLESCH, T. C., et al. EDGAR: extraction of drugs, genes and relations from the biomedical literature.
En: Pacific Symposium on Biocomputing. 2000. p. 517-528.
195
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
196
FRIEDMAN, C., et al. GENIS: a natural-language processing system for the extraction of molecular
pathways from journal articles. En: Bioinformatics. vol. 17, no. 1. 2001. p. 74-82.
197
CHIANG, J.; YU, H. y HSU, H. GIS: a biomedical text-mining system for gene information discovery. En:
Bioinformatics. vol. 20, no. 1. 2004. p. 120-121.
66
198
STAPLEY, B.J. y BENOIT, G. Biobibliometrics: Information retrieval and visualization from co-occurences of
gene names in Medline abstracts. En: In Proceedings of the Fifth Annual Pacific Symposium on Biocomputing.
2000. p. 529-540.
199
NG y WONG, 1999; BLASCHKE y VALENCIA, 2002; y GALVEZ y MOYA-ANEGN, 2007.
200
RAYCHAUDHURI, S., et al. Associating genes with gene ontology codes using a maximum entropy analysis
of biomedical literature. En: Genome Research. vol. 12. 2002. p. 203-214.
201
La clasificacin predice una variable nominal, mientras que la regresin general predice una variable
continua, aunque hay tcnicas de regresin de las variables nominales tambin.
202
VOS, Wiesner y EVERS, Ludger. MSc in Bioinformatics: Statistical Data Mining. 14 de septiembre de 2004.
p. 8. Disponible desde internet en: <http://www.stats.ox.ac.uk/~nicholls/ms1/VosEversFullNotes.pdf>
[citado en julio 14 de 2011].
67
ADELI, 1995; FINLAY y DIX, 1996; KUONEN, 2004; NARAYANAN et al., 2002; NEGNEVITSKY, 2002;
NILSSON, 1996; BALDI y BRUNAK, 2001; y WESTHEAD et al., 2002.
204
FINLAY, Janet y DIX, Alan. An Introduction to Artificial Intelligence. Reino Unido: UCL Press, Taylor &
Francis Group, 1996. ISBN 1-85728-399-6.
68
205
Existen algunos problemas biolgicos en los que los expertos slo pueden
especificar pares de entrada/salida, pero no las relaciones entre las
entradas y salidas, tales como la prediccin de la estructura de la protena y
secuencias estructurales y funcionales. Esta limitacin puede ser abordada
por los mtodos de las mquinas de aprendizaje. Ellas son capaces de
ajustar su estructura interna para producir resultados aproximados para los
problemas planteados.
NARAYANAN, et al., 2002; NILSSON, 1996; BALDI y BRUNAK, 2001; y WESTHEAD, et al., 2002.
69
70
Aplicacin
BLAST
Referencia
http://www.ncbi.nlm.nih.gov/BLAST/
FASTA
ClustalW
http://www.ebi.ac.uk/fasta33/
http://www.ebi.ac.uk/clustalw/
MultiAlin
http://multalin.toulouse.inra.fr/multalin/
DiAlign
Prediccin de genes
http://www.genomatix.de/cgibin/dialign/dialign.pl
http://genes.mit.edu/GENSCAN.html
Genscan
http://genes.mit.edu/genomescan/
GenomeScan
http://exon.gatech.edu/GeneMark/
Anlisis de protenas e
identificacin de
dominio
GeneMark
Pfam
http://pfam.sanger.ac.uk/
BLOCKS
http://blocks.fhcrc.org/
ProDom
Patrn de identificacin
http://prodom.prabi.fr/prodom/current/
html/home.php
http://bayesweb.wadsworth.org/gibbs/
gibbs.html
Gibbs Sampler
AlignACE
http://atlas.med.harvard.edu/cgibin/alignace.pl
MEME
Plegamiento de
prediccin de proteinas
http://meme.sdsc.edu/meme/memeintro.html
http://www.predictprotein.org/
http://swissmodel.expasy.org/
PredictProtein
SwissModle
71
Alemania:
206
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.124.
72
ADELI, 1995; FREEMAN y SKAPURA, 1991; HAYKIN, 1994; MLLER Y REINHARDT, 1990; NEGNEVITSKY,
2002.
208
ROSENBLATT, F. The perceptron: a probabilistic model for information storage and organization in the
brain. En: Psychological Review. vol. 65, no. 6, 1958. p. 386-408.
73
209
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
p.125.
210
Redes Neuronales Artificiales.
211
FU, Limin. Knowledge Discovery Based on Neural Networks. En: Communications of the ACM (CACM). vol.
42, Issue: 11, Noviembre 1999. p. 47-50.
212
Disponible desde Internet en: <http://www.genecards.org/cgi-bin/carddisp.pl?gene=TP53v>
213
Spicker, Jeppe, et al. Neural network predicts sequence of TP53 gene based on DNA chip. En:
Bioinformatics. vol. 18, Issue: 8, Febrero de 2002. p. 1133-1134.
214
KALATE, Rupali; TAMBE, Sanjeev y KULKARNI, Bhaskar. Artificial neural networks for prediction of
mycobacterial promoter sequences. En: Computational Biology and Chemistry. vol. 27, Issue: 6. 2003. p. 555564.
215
UBERBACHER, Edward y Mural, Richard. Locating Protein Coding Regions in Human DNA Sequences Using
a Multiple Sensor-Neural Network Approach. En: Proceedings of the National Academy of Sciences of United
States of America. vol. 88, Diciembre de 1991. p. 11261-11265.
74
Loci: es una posicin fija sobre un cromosoma, como la posicin de un gen o de un biomarcador
(marcador gentico).
217
Single Nucleotide Polymorphism (SNP pronunciado "snip", Polimorfismo de Nucletido nico): es un
cambio de una sola letra en el ADN que contribuye a la variacin gentica en una poblacin, la creacin de la
diversidad.
218
Receive Side Scaling.
219
Catlogo completo de la variacin gentica humana, y mapas que se refieren a las enfermedades para
explorar sus causas y as mismo la historia evolutiva humana. Disponible desde Internet en:
<http://www.broadinstitute.org/news/258>
220
BROAD INSTITUTE. s.f. GRAIL: Gene Relationships Across Implicated Loci. Cambridge, Massachusetts.
Disponible desde Internet en: <http://www.broadinstitute.org/mpg/grail/> [citado en 14 de abril de 2011].
221
SNYDER y STORMO, 1993, 1997.
222
BOHR, et al., 1990; y QIAN y SEJNOWSKI, 1988.
75
223
224
225
226
BALDI, Pierre, et al., 2000; FAIRCHILD, S., et al., 1995; RIIS, Soren y KROGH, Anders, 1996; ROST, B. y SANDER, C.,1993.
WU, Cathy y SHIVAKUMAR, Sailaja. Back-Propagation And Counter-Propagation Neural Networks For Phylogenetic
Classification Of Ribosomal RNA Sequences. En: Nucleic Acids Research. vol. 22, Issue: 20, 1994. p. 4291-4299.
227
WU, Cathy, et al. Neural Networks For Full- Scale Protein Sequence Classification: Sequence Encoding With Singular
Value Decomposition. En: Machine Learning. vol. 21, no. 1-2, 1995. p. 177-193.
228
233
HERRERO, Javier; VALENCIA, Alfonso y DOPAZO, Joaqun. A hierarchical unsupervised growing neural network for
clustering gene expression patterns. En: Bioinformatics. vol. 17, Issue: 2, 2001. p. 126-136.
76
Estos tipos se han utilizado para analizar la expresin gnica de datos. ART se
utiliz para demostrar que las herramientas de aprendizaje sin supervisin de
redes neuronales superan el anlisis y visualizacin de perfiles de expresin
gnica. (ART fue usado para mostrar las mejoras de las herramientas de
aprendizaje no supervisado de redes neuronales para el anlisis y visualizacin de
perfiles de expresin gnica).
234
77
BRUSIC, Vladimir y ZELEZNIKOW, John. Knowledge discovery and data mining in biological databases. En:
The Knowledge Engineering Review. Septiembre de 1999. vol. 14, Issue 3. p. 257-277.
239
STORMO, G. D., et al. Use of Perceptron algorithm to distinguish translational initiation in E.coli. En:
Nucleic Acids Research. 11 de Mayo de 1982. vol. 10, no. 9. p. 2997-3011.
240
BALDI, Pierre y BRUNAK, Soren. Bioinformatics: the Machine Learning Approach. s.l.: MIT Press, Febrero
de 1998. 360p. ISBN 0-262-0244-X.
241
BRUSIC, V., et al. Prediction of MHC class-II binding peptides using an evolutionary algorithm and artificial
neural network. En: Bioinformatics. 1998. vol. 14, Issue 2. p. 121-130.
242
BRUSIC, Vladimir, et al. A Neural Network Model Approach to the Study of Human TAP Transporter. En: In
Silico Biology. 1998. vol. 1.
243
Bayesian Neural Network (Redes Neuronales Bayesianas).
244
WU, Cathy, et al., 1993, 1995, 1997, 2000.
245
QIAN, Ning y SEJNOWSKI, Terrence J. Predicting the secondary structure of globular proteins using neural
network models. En: Journal of Molecular Biology. vol. 202, 1988.
p. 865-884.
246
TORONEN, P, et al., 1999; WANG, Jason, et al., 2000; BICCIATO, Silvio, et al., 2001; y TORKKOLA, Kari, et
al., 2001.
247
NARAYANAN, A., et al. Single-Layer Artificial Neural Networks for Expression Analysis. En: Special Issue on
Bioinformatics of Neurocomputing. 2003b. vol. 61. p. 217-240.
78
Paso 1.
a. Codificar las variables del problema como un cromosoma, lo que representa
una cadena binaria de longitud fija.
b. Elegir un tamao de la poblacin, N.
248
HOLLAND, John H. Adaptation in Natural and Artificial Systems: an introductory analysis with applications
to biology, control, and artificial intelligence. Michigan (Estados Unidos de Amrica): University of Michigan
Press, 1975. 183p. ISBN 0472084607.
249
DARWIN, Charles. On the Origin of Species by means of natural selection: or, The preservation of favoured
races in the struggle for life. Londres: Yushodo Bookseller's, 1859. 502p.
250
COLEY, David A., 1999; GHANEA-HERCOCK, Robert, 2003; y GOLDBERG, David, 1989.
79
251
Funcin Fitness: La nica restriccin para usar un algoritmo gentico es que exista una funcin llamada
fitness, que le informe de cuan bueno es un individuo dado en la solucin de un problema. Esta funcin
fitness o de evaluacin es el principal enlace entre el Algoritmo Gentico a un problema real, es la
efectividad y eficiencia de la funcin fitness que se tome, por lo tanto debe procurarse que la funcin fitness
sea similar, si no igual a la funcin objetivo que se quiere optimizar. Esta medida se utiliza como parmetro
de los operadores y gua la obtencin de nuevas poblaciones.
80
optimizacin.
252
81
Adems de SAGA, existen algunos enfoques que han aplicado los algoritmos
genticos a multiples alineamientos de secuencias. Los algoritmos genticos han
sido comnmente aplicados a un conjunto de secuencias de ARN para encontrar
comunes estructuras secundarias de ARN255.
Los primeros mtodos propuestos slo pueden ocuparse de una sola secuencia
de ARN, mientras que la ltima mejora de los mtodos se puede utilizar para
determinar estructuras de ARN en las secuencias de ARN.
La tendencia a utilizar algoritmos genticos para analizar la expresin gnica de
datos ha disminuido. Las nuevas tcnicas tienden a combinar el algoritmo gentico
con otros mtodos computacionales, tales como el Mtodo K- del vecino ms
cercano256 y la Red Neuronal257, para resolver los problemas de la expresin
gnica, estos se denominan mtodos genticos hbridos neuronales.
Keedwell y Narayanan utilizan un algoritmo gentico para seleccionar un conjunto
de genes para la clasificacin y el uso de una red neuronal con el fin de determinar
la idoneidad de los genes.
Los pasos que deben seguirse en los mtodos genticos hbridos
neuronales. El pre-procesamiento, es el primer paso para convertir cada
atributo del conjunto de datos en el campo binario. A continuacin, el
algoritmo gentico inicializa aleatoriamente una poblacin de cromosomas.
La poblacin se convierte en la entrada de la red neuronal. La red se
entrena hasta que la salida deseada (mnimo error) es producida. El error
de cada cromosoma acta como una funcin fitness para determinar la
mutacin, cruce y seleccin para la siguiente generacin de cromosomas.
El proceso de creacin de generacin se itera hasta que el nmero mximo
de generaciones se cumple, es decir, hasta que la correcta clasificacin de
los genes es finalmente descubierta.
255
BENEDETTI, Giorgio y MOROSETTI, Stefano, 1995; CHEN, J.H.; LE, S.Y. y MAIZEL, J.V., 2000; GULTYAEV,
A.P.; VAN BATENBURG, F.H. y PLEIJ, C.W., 1995; SHAPIRO, Bruce y NAVETTA, Joseph, 1994; SHAPIRO, Bruce,
et al., 2001; y WU, Cathy y SHAPIRO, Bruce, 1999.
256
LI, Leping, et al. Gene selection for sample classification based on gene expression data: study of
sensitivity to choice of parameters of the GA/KNN method. En: Bioinformatics. 2001. vol. 17, Issue 12. p.
1131-1142.
257
KEEDWELL, E. y NARAYANAN, A. Genetic algorithms for gene expression analysis. En: Applications of
Evolutionary Computation: Proceedings of the 1st European Workshop on Evolutionary Bioinformatics.
Berlin, Heidelberg: Springer-Verlag, 2003. p. 76-86.
82
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 192.
259
Ibid., p. 193.
83
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 193
84
relacionadas con las entradas usando las sentencias if y este es el secreto detrs
de la facilidad de esta tcnica. Lo ms fascinante de la lgica difusa es la
aceptacin de las incertidumbres que se heredan en las entradas reales y trata
estas incertidumbres, de tal manera que su efecto es insignificante, por lo que
resulta en una salida precisa.
La lgica difusa es una tcnica en la que el significado es lo ms importante,
mientras que en otras lgicas la precisin es el aspecto ms importante. Tambin
ofrece una forma sencilla de llegar a una conclusin definitiva basada en vagas,
ambiguas, informacin imprecisa, ruidosa o inentendible, o datos que faltan. En
pocas palabras imita la lgica del humano.261
7.3.5.4 Aplicaciones en Bioinformtica262. Los sistemas difusos se han aplicado
con xito en varias reas en la prctica. En bioinformtica, los sistemas difusos
juegan un papel importante para la construccin de sistemas basados en el
conocimiento. Se puede controlar y analizar los procesos y diagnosticar y tomar
decisiones en las ciencias biomdicas.
Hay muchas reas de aplicacin de la ciencia biomdica y la bioinformtica, donde
las tcnicas de lgica difusa pueden ser aplicadas con xito. Algunas de las
aplicaciones importantes de la lgica difusa son las siguientes:
1. Para aumentar la flexibilidad de los motivos de protenas.
2. Para estudiar las diferencias entre polinucletidos.263
3. Para analizar los datos experimentales de expresin 264 utilizando la teora difusa
de resonancia adaptativa.
4. Para alinear las secuencias basadas en una difusa refundicin de un algoritmo
de programacin dinmica.265
5. La secuenciacin del ADN gentico utilizando sistemas difusos.266
261
JENA, Rabindra Ku., et al. Soft computing Methodologies in Bioinformatics. En: European Journal of
Scientific Research. vol 26, no.2. 2009. p. 195
262
Ibid., p. 196
263
TORRES, Angela y NIETO, Juan. The Fuzzy polynucleotide space: basic properties. En: Bioinformatics. vol.
19, Issue: 5. 2003. p. 92
264
TOMIDA, Shutta, et al. Analysis of expression profile using fuzzy adaptive resonance theory. En: Bioinformatics. vol.
18, Issue: 8. 2002. p.1073-1083
265
SCHLOSSHAUER, Maximilian y OHLSSON, Mattias. A novel approach to local reliability of sequence alignments. En:
Bioinformatics. vol 18, no.6. 2002. p. 847-854.
266
CORDN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and Systems. vol. 141, Issue: 1. 2004. p. 531.
85
267
HUANG, Ying y LI, Yanda. Prediction of protein subcellular locations using fuzzy k-NN method. En:
Bioinformatics. vol.20, Issue: 1. 2004. p.21
268
CARLEOS, C., et al. Simulating complex traits influenced by genes with fuzzy-valued effects in pedigreed
populations. En: Bioinformatics. vol. 19, Issue: 1. 2003. p. 144-148.
269
DEMBL, Doulaye y KASTNER, Philippe. Fuzzy C-means method for clustering microarray data.En:
Bioinformatics. vol. 19, Issue: 8. 2003. p. 973-980.
270
WOOLF, Peter y WANG, Yixing. A fuzzy logic approach to analyzing gene expression data. En:
Physiological Genomics. vol.3, Issue: 1. 2000. p. 9-15.
271
RESSOM, H.; REYNOLDS R. y VARGHESE R. Increasing the efficiency of fuzzy logic based gene expression
data analysis. En: Physiological Genomics. vol. 13, Issue: 2. 2003. p. 107117.
272
LUKAC, R., et al. cDNA microarray image processing using fuzzy vector filtering framework. En: Journal
Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005. p. 1735.
273
BANDYOPADHYAY, Sanghamitra. An efficient technique for super family classification of amino acid
sequences: feature extraction, fuzzy clustering and prototype selection. En: Journal Fuzzy Sets and Systems.
vol. 152, Issue: 1. 2005. p. 516.
86
Secuencia ADN. 30 de julio de 2009. Matlab Aplicado a la Bioninformtica [en lnea]. Buenos Aires,
Argentina.
Disponible
desde
internet
en:
<http://www.secuenciaadn.com.ar/index.php?option=com_content&view=article&id=46:matlab-aplicadoa-la-bioinformatica&catid=1:latest-news&Itemid=50> [Citado en julio 15 de 2011].
87
275
Ver pag. 44
88
276
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
89
Representaciones
alineamiento.
grficas
de
las
matrices
resultantes
del
277
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
90
7.3.7.1 Microarrays de ADN: las bases tcnicas. Los Microarrays de ADN son
pequeos y slidos soportes sobre las cuales las secuencias de miles de genes
diferentes son inmovilizadas o capturadas en ubicaciones fijas. Los soportes
suelen ser portaobjet os de vidrio, del tamao de dos meiques de lado a lado,
tambin pueden ser chips de silicio o membranas de nylon. El ADN es impreso,
manchado, o es sintetizado directamente sobre el soporte.
El American Heritage Dictionary define " matriz " o array como "colocar en una
disposicin ordenada. Es importante que las secuencias de los genes en un
microarray estn colocadas en su soporte slido de manera ordenada o fijas, ya
que el investigador utiliza la ubicacin de cada punto de la matriz para identificar
una secuencia gentica particular. Las manchas pueden ser AND, ADNc280 o de
oligonucletidos281.
Mediante el uso de la matriz que contiene muchas muestras de ADN, los
cientficos pueden determinar, en un solo experimento, los niveles de expresin de
cientos o miles de genes dentro de una clula mediante la medicin de la cantidad
de ARNm unido a cada sitio en la matriz. Con la ayuda de una computadora, la
cantidad de ARNm unido a las manchas en la micromatriz se mide con precisin,
lo que genera un perfil de expresin gnica en las clulas.
278
MathWorks. 27 de agosto de 2009. Bioinformatics Toolbox [en lnea]. Arlington, Estados Unidos de
Amrica. Disponible desde internet en: <http://www.mathworks.com/products/bioinfo/description5.html>
[citado en julio 16 de 2011].
279
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en lnea]. Julio de 2007.
Bethesda
Estados
Unidos
de
America.
Disponible
desde
internet
en:
<http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html> [citado en julio 16 de 2011].
280
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncriptasa inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
281
Un oligonucletido, u oligo como se le llama comnmente, es un breve fragmento de un ADN de cadena
simple que suele ser de 5 a 50 nucletidos de largo.
91
Exones: Secuencias de ADN especficas de genes, que codifican secuencias de aminocidos en las
protenas.
283
ARNm (ARN mensajero): Es el ARN que transporta la informacin gentica presente en los genes hasta los
ribosomas en el citoplasma, donde se realiza la traduccin de esa informacin a protena.
284
Una secuencia tag expresada o EST es una pequea porcin de un gen entero que puede ser usada para
ayudar a identificar genes desconocidos y para mapear sus posiciones dentro de un genoma.
285
STEKEL, Dov. Microarray Bioinformatics. Reino Unido: Cambridge University Press, 2003. p. 28.
286
Transcripcin: es el proceso de obtencin de un ARN mensajero (ARNm) a partir del ADN correspondiente
a un gen.
92
ADNc (ADN complementario cDNA) es una molcula de ADN complementaria a una molcula de ARNm.
Se genera por accin de la enzima trasncripta a la inversa y tiene mltiples usos tanto en investigacin bsica
como aplicada a biomedicina.
288
NCBI. s.f. UniGene: An organized view of the transcriptome [en lnea]. Bethesda Estados Unidos de
Amrica. Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/unigenel>. [citado en julio 16 de
2011].
93
289
NCBI. s.f. UniGene FAQ [en lnea]. Bethesda Estados Unidos de Amrica. Disponible desde internet en:
<http://www.ncbi.nlm.nih.gov/unigene/help.cgi?item=FAQ> [citado en julio 16 de 2011].
290
Reference Sequence (Secuencia de Referencia).
291
NCBI. s.f. NCBI Reference Sequences [en lnea]. Bethesda Estados Unidos de Amrica. Disponible desde
internet en: <http://www.ncbi.nlm.nih.gov/RefSeq>. [citado en julio 16 de 2011]
292
Representacin grafica de un grupo de relaciones basadas en la cercana o similitud entre los datos.
94
293
Algoritmo que opera agrupando iterativamente los genes o clusters que presentan la distancia media ms
pequea en cada paso sucesivo del clculo de la matriz de distancias.
294
Self-Organising Tree Algorithm (rbol de algoritmos auto-organizados).
95
295
296
SVM296: es una tcnica lineal que utiliza hiperplanos para separar los datos
en el espacio como puntos negativos o positivos. Los datos de estudio son
clasificados respecto de otro conjunto de datos previamente conocido.
Pereceptrones: estn basados en redes neuronales. Tienen algunas
ventajas sobre las SVM como por ejemplo la capacidad de clasificar
96
297
97
SWISS-PROT
GOLD
KEGG
BIOSILICO
DESCRIPCIN
Una anotada coleccin
de todas las secuencias
disponibles de
nucletidos y de
protenas
Base de datos curada
de secuencias de
protena con un alto
nivel de anotacin
Base de datos en lnea.
Contiene un listado de
proyectos de genoma
completados y en curso
La enciclopedia de
genes y genomas de
Kioto Sitio integrado
de bases de datos de
genes, protenas y vas
metablicas
Base de datos integrada
para el anlisis del
metabolismo y
composicin de
estructuras.
URL
http://www.ncbi.nlm.nih.gov/gen
bank/
http://www.expasy.org/sport
http://www.genomesonline.org
http://www.genome.jp/kegg/
http://biosilico.kaist.ac.kr:8017/bi
ochemdb/index.jsp
98
Alemania:
300
XION, Jin. Essential Bioinformatics. Estados Unidos de Amrica: Cambridge University Press, 2006. p. 7
99
Las bases de datos que existen en todo el mundo que contienen datos de ms de
milln y medio de secuencias siguen creciendo ao tras ao. La administracin de
esta informacin exige contar, con equipos ms potentes y con grandes
capacidades de procesamiento. Ya que cada vez ms, los estudios biolgicos
parten de la conexin de mltiples bases de datos, de complejos sistemas de
Datamining y Webs para formular hiptesis que versan sobre la organizacin de los
genes, el anlisis de su secuenciacin y la prediccin de su estructura y
comportamiento.
hace que las redes neuronales sean adecuadas para el anlisis de patrones de
expresin gnica, la prediccin de estructura de protenas y otros procesos
relacionados con la bioinformtica.
Segn YI-Ping Phoebe Chen301 cuando expresa como una dificultad del algoritmo
gentico el que en la prctica es difcil definir o recrear los parmetros como la
representacin, el tamao de la poblacin y la funcin fsica como parte del
algoritmo gentico, debido a la falta de directrices para la eleccin de dichos
parmetros, se considera que debido a que cuando no se tiene conocimiento
exacto de las correlaciones y las relaciones ocultas entre estas mtricas, es
posible que la investigacin siempre se encamine hacia destinos desconocidos
para el investigador. Para ello, se cree que las maquinas de aprendizaje son
herramientas que permiten ajustar la estructura interna para producir resultados
aproximados para los problemas planteados sin embargo, se considera que la
computacin siempre estar cada vez ms cerca de las soluciones absolutas de
cualquier problema presentado en las investigaciones sobre biologa.
8.6 MICROARRAYS
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag Berlin Heidelberg, 2005.
102
103
9. DISEO METODOLGICO
9.1 HIPTESIS
9.2 POBLACIN
9.3 MUESTRA
Centro de Investigacin CENBIOTEP302.
9.4 VARIABLES
9.5 INSTRUMENTOS
Se realiz una entrevista al Doctor Duverney Gaviria Arias, investigador del grupo
CENBIOTEP para conocer las necesidades de un investigador.
302
104
3. Qu desean hacer con los datos que poseen de las secuencias de ADN de
los pacientes con enfermedades cardiovasculares de la ciudad de Pereira?
R. Establecer una lnea base para realizar estudios posteriores.
4.
105
106
10. CONCLUSIONES
Affymetrix. 2009. Affymetrix Power Tools. Santa Clara, CA, Estados Unidos de
Amrica.
Disponible
desde
Internet
en:
<http://www.affymetrix.com/partners_programs/programs/developer/tools/powertoo
ls.affx> [citado en 18 de marzo de 2011].
AP Associated Press. Marzo de 2011. Facts & Figures [en lnea]. Estados Unidos
de
Amrica.
Disponible
desde
Internet
en:
<http://www.ap.org/pages/about/about.html> [citado en 17 de julio de 2011].
108
BALDI, Pierre, et al. Bidirectional IOHMMs and Recurrent Neural Networks for
Protein Secondary Structure Prediction. En: CASADIO, Rita y MASOTTI,
Lanfranco. Protein Sequence Analysis in the Genomic Era. Bolonia (Italia): CLUEB
Eds, 2000.
BARTON, G.J. y STERNBERG, M.J. A strategy for the rapid multiple alignment of
protein sequences: Confidence levels from tertiary structure comparisons. En:
Journal of Molecular Biology. Noviembre de 1987. vol. 198, Issue 2. p. 327-337.
Bioiformatics WEB server. s.f. Gene Finding: Gene models construction, Splice
sites, Protein coding exons [en lnea]. Londres. Disponible desde internet en: <
http://mendel.cs.rhul.ac.uk/mendel.php?topic=fgen-file> [citado en julio 19 de 2011].
BioStar models of clinical and genomic data for biomedical data warehouse design
[en lnea]. WANG, Liangjiang ; RAMANATHAN, Murali y ZHANG, Aidong. State
University of New York at Buffalo: New York, Estados Unidos de Amrica, 2005 [citado el 30 de marzo de 2011]. Disponible desde Internet en:
<http://www.cse.buffalo.edu/DBGROUP/bioinformatics/papers/ijbra05.pdf>
110
--------.--------. Server Side. Londres (Reino Unido). Disponible desde Internet en:
<http://www.biomedcentral.com/1471-2105/9/493> [citado en 1 de abril de 2011].
111
CARLEOS, C., et al. Simulating complex traits influenced by genes with fuzzyvalued effects in pedigreed populations. En: Bioinformatics. vol. 19, Issue: 1. 2003.
p. 144-148.
112
CHEN, J.H.; LE, S.Y. y MAIZEL, J.V. Prediction of common secondary structures
of RNAs: a genetic algorithm approach. Nucleic Acids Res. 15 de febrero de 2000.
vol. 28, Issue 4. p. 991-999.
CHIANG, J.; YU, H. y HSU, H. GIS: a biomedical text-mining system for gene
information discovery. En: Bioinformatics. vol. 20, no. 1. 2004. p. 120-121.
CORDN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and
Systems. vol. 141, Issue: 1. 2004. p. 5-31.
113
DARWIN, Charles. On the Origin of Species by means of natural selection: or, The
preservation of favoured races in the struggle for life. Londres: Yushodo
Bookseller's, 1859. 502p.
--------. Data Warehouse: Herramienta para la toma de decisiones (Parte II). En:
NOOS. Enero 2011. no.13.
114
Eisein Lab. 27 de noviembre de 2002. Microarray Image Analysis [en lnea]. s.l.
Disponible desde internet en: <http://rana.lbl.gov/EisenSoftware.htm> [citado en 9
de julio de 2011].
--------. 6 de septiembre de 2010. Groups at the EBI [en lnea]. Cambridge (Reino
Unido). Disponible desde Internet en: <www.ebi.ac.uk/Groups/> [citado en 14 de
octubre de 2010].
--------. s.f. ClustalW2 Multiple Sequence Alignment [en lnea]. Reino Unido.
Disponible desde internet en: <http://www.EBI.ac.uk/Tools/msa/clustalw2/> [citado
en 10 de julio de 2011].
--------.--------. Expression Profiler at the EBI [en lnea]. Cambidge, Reino unido.
Disponible desde internet en: <http://www.ebi.ac.uk/expressionprofiler/> [citado en
julio 13 de 2011].
--------.--------. FASTA/SSEARCH/GGSEARCH/GLSEARCH Protein Similiraty
Search [en lnea]. Reino Unido. Disponible desde internet en:
<http://www.EBI.ac.uk/Tools/sss/fasta/> [citado en 10 de julio de 2011].
--------.--------. Wise2 Intelligent algoritms for DNA searches [en lnea]. Reino
Unido. Disponible desde internet en: <http://www.ebi.ac.uk/Tools/Wise2/> [citado
en julio 19 de 2011].
115
EMBnet. s.f. EMBOSS [en lnea]. Bari, Italia. Disponible desde internet en:
<http://www.embnet.org/en/node/114 > [citado en julio 15 de 2011].
EMBOSS GUI v.1.12: est2genome. s.f. EST2GENOME [en lnea]. s.l. Disponible
desde
internet
en:
<http://imed.med.ucm.es/cgibin/emboss.pl?_action=input&_app=est2genome > [citado en julio 19 de 2011].
EVANGELOS, Simoudis. Reality check for data mining. En: IEEE Expert. vol. 1,
Issue: 5. 1996. p.26-33.
--------. 5 de octubre de 2010. PROSITE [en lnea]. Disponible desde Internet en:
<http://www.expasy.ch/prosite/> [citado en 14 de octubre de 2010].
FAYYAD, Usama M. Data mining and knowledge discovery: Making sense out of
data. En: IEEE EXPERT. vol. 11, Issue: 5. Octubre, 1996. p. 20-25.
116
FENG, Zukang, et al. Ligand Depot: a data warehouse for ligands bound to
macromolecules. En: Bioinformatics Applications Note [en lnea]. 1 de abril de
2004.
vol.
20.
no.
13.
Disponible
desde
Internet
en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc
13fd-7bee-4364-829b-ef27e2d53032>
117
GEER, Renata C. y SAYERS, Eric W. Entrez: Making use of its power. En:
Briefings in Bioinformatics. vol. 4, no. 2. Junio, 2003. p. 179-184.
GeneQuiz. s.f. GeneQuiz home page [en lnea]. s.l. Disponible desde internet en:
<http://swift.cmbi.kun.nl/swift/genequiz/> [citado en 9 de julio de 2011].
--------.--------.
ARN.
Disponible
desde
Internet
en:
<
http://ciencia.glosario.net/genetica/arn-rna-4843.html> [citado en 29 de marzo de
2011].
--------. Abril de 2007. Exones [en lnea]. s.l. Disponible desde internet en:
<http://ciencia.glosario.net/biotecnologia/exones-10096.html> [citado en julio 16 de
2011].
GOLUB, Todd R., et al. Molecular classification of cancer: class discovery and
class prediction by gene expression monitoring. En: Science. vol. 286, 15 de
octubre de 1999. p. 531-537.
GRANZOW, M, et al. Tumour classification by gene expression profiling:
118
comparison and validation of five clustering methods. En: ACM SIGBIO Newsletter.
Abril de 2001. vol. 21, Issue 1. p. 16-22.
GrupLAC Plataforma SCienceTI Colombia. s.f. GEPAMOL [en lnea]. Armenia
(Quindio),
Colombia.
Disponible
desde
internet
en:
<
http://201.234.78.173:8080/gruplac/jsp/visualiza/visualizagr.jsp?nro=00000000000
255> [citado en 9 de julio de 2011].
HAN, Jiawei y KAMBER, Micheline. Data Mining: Concepts and Techniques. San
Francisco, California: Morgan Kaufmann Publishers, 2001.
119
HUANG, Ying y LI, Yanda. Prediction of protein subcellular locations using fuzzy kNN method. En: Bioinformatics. vol.20, Issue: 1. 2004. p.21-28.
JAGOTA, Arun. Data Analysis and Classification for Bioinformatics. California: Bay
Press, 2000. 92p.
120
KUONEN, Diego. Challenges in bioinformatics for statistical data miners. En: The
Swiss Statistical Society. vol, 46. 2003. p. 10-17.
La Jornada. 20 de octubre de 2007. Watson y Crick, los padres del ADN. Mxico,
D.F.
Disponible
desde
Internet
en:
<http://www.jornada.unam.mx/2007/10/20/index.php?section=ciencias&article=a03
n1cie> [citado en 7 de octubre de 2010].
LI, Leping, et al. Gene selection for sample classification based on gene
expression data: study of sensitivity to choice of parameters of the GA/KNN
method. En: Bioinformatics. 2001. vol. 17, Issue 12. p. 1131-1142.
Lofti A. Zadeh. s.f. Zadeh, Lofti A. Argentina. Disponible desde Internet en:
<http://www.eltercertiempo.com.ar/ventanitas/Biog_Zadeh.htm> [citado en 17 de
mayo de 2011].
LUKAC, R., et al. cDNA microarray image processing using fuzzy vector filtering
framework. En: Journal Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005. p. 17
35.
122
Seymour
A.
Perceptrons.
Cambridge,
Bioinformatics.
En:
Applied
123
NCBI. Microarrays: chipping away at the mysteries of science and medicine [en
lnea]. Julio de 2007. Bethesda Estados Unidos de America. Disponible desde
internet en: <http://www.ncbi.nlm.nih.gov/About/primer/microarrays.html> [citado
en julio 16 de 2011].
--------. s.f. PubMed [en lnea]. Estados Unidos de Amrica. Disponible desde
Internet en: <http://www.ncbi.nlm.nih.gov/pubmed> [citado en 17 de julio de 2011].
NCBI. s.f. ORF FINDER [en lnea]. Bethesda, Estados Unidos de Amrica.
Disponible desde internet en: <http://www.ncbi.nlm.nih.gov/gorf/gorf.html> [citado
en julio 15 de 2011].
--------. s.f. Spidey [en lnea]. Estados Unidos de Amrica. Disponible desde internet
en: <http://www.ncbi.nlm.nih.gov/spidey/> [citado en julio 19 de 2011].
--------. s.f. UniGene [en lnea]. Estados Unidos de Amrica. Disponible desde
Internet en: <http://www.ncbi.nlm.nih.gov/unigene/> [citado en 17 de julio de 2011].
124
--------. Toward routine automatic pathway discovery from on-line scientific text
abstracts. En: Proceedings of Genome Informatics. 1999. p. 104-112.
PBIL. 5 de enero de 2008. SIM4 - a program to align cDNA and genomic DNA[en
lnea].
s.l.
Disponible
desde
internet
en:
<http://pbil.univlyon1.fr/members/duret/cours/inserm210604/exercise4/sim4.html> [citado en julio
19 de 2011].
PLR Postgres OnLine Journal. 28 de noviembre de 2010. What is R and PL/R and
why should you care? [en lnea]. Boston (Estados Unidos de Amrica). Disponible
desde Internet en: <http://www.postgresonline.com/journal/categories/13-PLR>
[citado en 1 de abril de 2011].
RAYCHAUDHURI, S., et al. Associating genes with gene ontology codes using a
maximum entropy analysis of biomedical literature. En: Genome Research. vol. 12.
2002. p. 203-214.
ReNaBi. 9 de febrero de 2011. Protein Database Genpept [en lnea]. s.l.
Disponible desde internet en: <http://www.renabi.fr/article202.html> [citado en julio
19 de 2011].
126
RINDFLESCH, T. C., et al. EDGAR: extraction of drugs, genes and relations from
the biomedical literature. En: Pacific Symposium on Biocomputing. 2000. p. 517528.
127
SHAPIRO, Bruce, et al. The massively parallel genetic algorithm for RNA folding:
MIMD implementation and population variation. En: Bioinformatics. 2001. vol. 17,
Issue 2. p. 137-148.
Spicker, Jeppe, et al. Neural network predicts sequence of TP53 gene based on
DNA chip. En: Bioinformatics. vol. 18, Issue: 8, Febrero de 2002. p. 1133-1134.
128
TAMAYO, Pablo., et al. Interpreting patterns of gene expression with selforganizing maps: methods and application to hematopoietic differentiation. En:
Proc. Natl. Acad. Sci, USA. vol. 96, Marzo de 1999. p. 2907-2912.
129
TORKKOLA, Kari, et al. Self-organizing maps in mining gene expression data. En:
Information Sciences. Noviembre de 2001. vol. 139, Issue 1-2. p. 79-96.
--------. Gene Expression Analysis Using Fuzzy ART. En: Genome Informatics. vol.
12, 2001. p. 245-246.
TORONEN, P., et al. Analysis of gene expression data using self-organizing maps.
En: FEBS Letters. vol. 451, Issue: 2, 21 de mayo de 1999. p. 142-146.
UNAV. s.f. Motivos y Dominos [en lnea]. Navarra, Espaa. Disponible desde
Internet en: <http://www.unav.es/genetica/bioinfo/motivos.html> [citado en 11 de
julio de 2011].
130
--------. s.f. Unigene [en lnea]. Bogot, Colombia. Disponible desde internet en:
<http://bioinf.ibun.unal.edu.co/cbib/estudiantes/1-07/expoEst/unigene.pdf> [citado
en julio 17 de 2011].
VAPNIK, Vladimir N. The nature of statistical learning theory. Berlin: SpringerVerlag, 1996. ISBN 0387945598.
WANG, Jason T.L., et al. Application of neural networks to biological data mining: a
case study in protein sequence classification. En: Proceedings of the 6th ACM
SIGKDD International Conference on Knowledge Discovery and Data Mining. New
York (Estados Unidos de Amrica): ACM, 2000. p. 305-309. ISBN 1-58113-233-6.
131
Welcome trust sanger institue. s.f. Pfam: Home Page [en lnea]. Reino Unido.
Disponible desde internet en: <http://pfam.sanger.ac.uk/ > [citado en julio 19 de
2011].
WU, Cathy. Artificial neural networks for molecular sequence analysis. En:
Computers and Chemistry. 1997. vol. 21, Issue 4. p. 237-256.
WU, Cathy, et al. Neural Networks For Full- Scale Protein Sequence Classification:
Sequence Encoding With Singular Value Decomposition. En: Machine Learning.
vol. 21, no. 1-2, 1995. p. 177-193.
--------. Protein Classification Artificial Neural System. En: Protein Science. vol. 1,
Mayo 1992. p. 667- 677.
132
WU, Cathy y SHAPIRO, Bruce. A Boltzmann filter improves the prediction of RNA
folding pathway in a massively parallel genetic algorithm. En: Journal of
Biomolecular Structure and Dynamics. Diciembre de 1999. vol. 17, Issue 3. p. 581595.
133