Anda di halaman 1dari 150

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/322869209

Una aproximación conceptual a las ciencias ómicas

Book · November 2017

CITATIONS READS

0 279

11 authors, including:

Simon Orozco Arias Romain Guyot


University of Caldas Institute of Research for Development
13 PUBLICATIONS   8 CITATIONS    141 PUBLICATIONS   3,040 CITATIONS   

SEE PROFILE SEE PROFILE

Diana Lopez-Alvarez Andrea Garavito

29 PUBLICATIONS   256 CITATIONS    26 PUBLICATIONS   112 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Parallelization of LTR retrotransposon analysis with OpenMPI View project

Proceso de clasificación de contigs provenientes del ensamblaje de Coffea Arabica a su subgenoma ancestral View project

All content following this page was uploaded by Simon Orozco Arias on 01 February 2018.

The user has requested enhancement of the downloaded file.


Una aproximación conceptual
a las ciencias ómicas
OBJETIVO ESTRATÉGICO 4
Desarrollar e implementar investigaciones y servicios en las
áreas biotecnológicas e informáticas en el CBBC.

El Proyecto Caldas BioRegión como mecanismo para desarrollar e implementar investigaciones y


servicios en las áreas de biotecnología e informática, desarrolló un documento como punto de partida
para comprender la aplicación de la Bioinformática en los procesos de investigación y desarrollo.

www.bios.co
Una Aproximación Conceptual
a Las Ciencias Ómicas
Una aproximación Centro de Bioinformática y Biología
conceptual Computacional de Colombia (958-59498)

las ciencias ómicas


ISBN 978-958-59498-5-0

Autor(es)
González Muñoz, Andrea
Alvarez Yela, Astrid Catalina
López Alvarez, Diana
Quintero, Andrés
Orozco Arias, Simón
Guyot, Romain
Cristancho Ardila, Marco Aurelio
Zuluaga, Martha
Botero, Kelly
Mosquera Rendón, Jeanneth
Garavito, Andrea

Corrector
Grafos Soluciones S.A.S

Diagramación e Impresión
Editorial Blanecolor S.A.S

Descripción Física
Propalibro Beige de 70 gr
148 páginas
tamaño 17 x 24 cm

70 Ejemplares

Manizales, Colombia.
Conceptos en Ciencias Ómicas

PREFACIO
Nunca antes se han tenido tantos datos de secuenciación disponibles y la posibilidad
de contar con tecnologías que se actualizan constantemente, que permiten estudiar
de forma masiva y simultánea cientos de especies para diferentes objetivos, entre los
cuales se destacan los estudios de taxonomía molecular, evolución y la producción de
compuestos potenciales con uso industrial. Sin duda, la generación de datos biológicos
basados en la secuenciación de alto rendimiento tiene un futuro prometedor, dado que el
potencial vislumbrado para esta área proyecta que la secuenciación directa de ARN y de
proteínas, así como la medicina personalizada de alta precisión, dejan de ser posibilidad
para convertirse en realidad.

El acelerado aumento de genomas parciales o completos secuenciados y, a su vez, de


estudios basados en tecnologías de secuenciación usando alguna de las ciencias ómicas,
requiere considerables esfuerzos que no involucran el mejoramiento de los equipos de
secuenciación, sino principalmente el traslado de la información generada a un contexto
biológico útil para solucionar problemas de carácter médico, agrícola o ambiental. Además,
se crea la necesidad de que los investigadores tengan una experticia para conseguir el
análisis adecuado de los datos generados y que los centros de investigación posean
mejores infraestructuras computacionales para hacer frente a estos desafíos. Lo anterior,
con el propósito de garantizar apropiados diseños experimentales para la explotación de
la información, que constituye la mayor preocupación en la investigación científica hoy en
día.

Este libro pretende ser un abre bocas al entendimiento y la adopción de los temas
mencionados, como insumo a estudiantes e investigadores interesados en comprender
estas nuevas temáticas.

1
AGRADECIMIENTOS
Agradecemos a la Gobernación de Caldas en Colombia por la financiación de
este libro a través del proyecto de regalías, Caldas-Bioregión

2
Conceptos en Ciencias Ómicas

ÍNDICE
Prefacio 1
Agradecimientos 2

I. PRINCIPIOS FUNDAMENTALES DE LA BIOLOGÍA MOLECULAR,


LA BIOINFORMÁTICA Y LA BIOLOGÍA COMPUTACIONAL 9

1. PRINCIPIOS EN BIOLOGÍA MOLECULAR 10


1.1. Biomoléculas de la vida: ADN, ARN y proteínas 10
1.1.1. Ácido desoxirribonucleico 10
1.1.2. Ácido ribonucleico 11
1.1.3. Proteínas 16
1.2 Dogma central de la biología molecular 19
1.3. Genomas y genes 20
1.3.1. Genomas procariotas 21
1.3.2. Genomas eucariotas 22
1.3.3. Anotación de genomas 23
1.4. Variación genética en los genomas 23
1.4.1. Tipos de variación genética 24
1.4.2. Tasas de mutación 26
1.4.3. Epigenética como fuente adicional de variación genética 27
1.5. Referencias 29

2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL 32


2.1. Orígenes e historia de la bioinformática 32
2.1.1. Nacimiento de la Bioinformática: convergencia de información biológica,
teoría evolutiva y computadores 32
2.2. Bioinformática y biología computacional: hardware, sistemas operativos,
sistemas de conectividad, lenguajes de programación,
bases de datos y repositorios 36
2.2.1. Computación de alto rendimiento (HPC) y computación en paralelo 36
2.2.2. Sistema operativo Linux/UNIX 37
2.2.3. Lenguajes de programación 38
2.2.4. Bases de datos y repositorios 39
2.3. ‘Big Data’ en Bioinformática 39
2.4. Referencias 42

3. SECUENCIACIÓN 44
3.1. Secuenciación de primera generación 44
3.1.1. Secuenciación Sanger 44
3.2. Secuenciación de segunda generación 46
3.2.1. Secuenciación 454 46
3.2.2. Secuenciación SOLiD 48

3
3.2.3. Secuenciación Ion TorrentTM 49
3.2.4. Secuenciación Illumina® 50
3.3. Secuenciación de tercera generación 52
3.3.1. Secuenciación HeliScope 52
3.3.2. Secuenciación PacBio® 53
3.3.3. Secuenciación Oxford Nanopore 54
3.4. Referencias 57

II. “ÓMICAS”: GENÓMICA, METAGENÓMICA, TRANSCRIPTÓMICA,


PROTEÓMICA Y METABOLÓMICA 98

4. GENÓMICA 59

4.1. Consideraciones para la determinación de la estrategia de


secuenciación genómica a implementar 62
4.2. Diseño experimental 65
4.2.1. Muestreo 66
4.2.2. Réplicas 66
4.2.3. Extracción del ADN 67
4.2.4. Tipos de secuenciación genómica 67
4.2.5. Control de calidad 74
4.2.6. Ensamblaje 75
4.2.7. Anotación 78
4.2.8. Visualización de la anotación 81
4.3. Referencias 82

5. METAGENÓMICA 88
5.1. Definición 89
5.2. Enfoques de la metagenómica 92
5.3. Diseño Experimental 93
5.3.1. Estudios metagenómicos mediante el enfoque de amplificación
de gen marcador o metagenómica dirigida 94
5.3.2. Estudios metagenómicos mediante el enfoque de genomas completos 94
5.4. Referencias 97

6. TRANSCRIPTÓMICA 100
6.1. Tecnologías para el estudio del transcriptoma 100
6.2. Diseño experimental 103
6.2.1. Experimento 105
6.2.2. Preparación de las librerías y secuenciación 106
6.2.3. Flujo de análisis bioinformáticos de datos de RNA-Seq 108
6.3. Referencias 113

4
Conceptos en Ciencias Ómicas

7. METABOLÓMICA 117
7. 1. Diseño experimental 118
7.1.1. Reconocimiento de patrones (Metabolite fingerprinting) 118
7.1.2. Identificación de biomarcadores (biomarker discovery) 119
7.1.3. Metabolómica no dirigida (Untargeted metabolomics) 120
7.2. Preparación de muestra y técnicas instrumentales analíticas 121
7.2.1. Aspectos generales de la espectrometría de masas 123
7.3. Procesamiento de datos metabolómicos 126
7.3.1. Formato y filtrado 128
7.3.2. Detección de picos 129
7.3.3. Deconvolución de señales 129
7.3.4. Identificación de Isótopos 130
7.3.5. Identificación de aductos 130
7.3.6. Identificación y anotación de compuestos 130
7.3.7. Alineación 131
7.3.8. Valores perdidos 132
7.4. Análisis de datos 132
7.4.1. Normalización 133
7.4.2. Transformación y escalado 133
7.4.3. Análisis de componentes principales 134
7.4.4. Regresión lineal de mínimos cuadrados parciales con
análisis discriminante (PLS-DA) 135
7.4.5. Validación cruzada 135
7.4.6. Test de permutaciones 135
7.4.7. Análisis de redes: del análisis estadístico a la interpretación biológica 136
7.5. Referencias 138

8. PROTEÓMICA 140
8.1. Diseño experimental 140
8.1.1. Extracción y separación de proteínas. 141
8.1.2. Espectrometría de masas (MS) 142
8.1.3. Análisis bioinformáticos 143
8.2. Referencias 144

5
ÍNDICE DE TABLAS
Tabla 1.1. El código genético universal. 17
Tabla 2.1. Principales plataformas de secuenciación y sus características. 56
Tabla 5.1. Listado de algunos proyectos pioneros en metagenómica 91
Tabla 7.1. Diferencias entre analizadores de masa. 126
Tabla 7.2. Plataformas para el procesamiento de señales cromatográficas
y espectros de masas. 127
Tabla 7.3. Métodos de escalado, objetivo, ventajas y desventajas. 134

6
Conceptos en Ciencias Ómicas

ÍNDICE DE FIGURAS
Figura 1.1. Estructura del ADN. Se muestran las bases nitrogenadas A, T, C y G; la
secuencia de nucleótidos del ADN y las cadenas complementarias que conforman la
estructura de la doble hélice. 10
Figura 1.2. Proceso de la transcripción del ADN a ARN. 12
Figura 1.3. Procesamiento del ARN mensajero maduro. 13
Figura 1.4. Esquematización de la transferencia de información y procesos de
replicación, transcripción y traducción del Dogma Central de la Biología Molecular. 19
Figura 1.5. Expresión génica y estructura del ARN mensajero en eucariotas vs
procariotas. 22
Figura 2.1. Línea del tiempo del origen de la bioinformática. 36
Figura 4.1. Número de genomas de plantas publicados: representación gráfica
del número de genomas de plantas publicados en los últimos 18 años. Los datos
provienen de la página http://www.plabipd.de/ 69
Figura 5.1. Contribuciones de la metagenómica en diferentes áreas del
conocimiento. 90
Figura 5.2. Enfoques de los estudios metagenómicos. 93
Figura 6.1. Etapas de un estudio transcriptómico basado en RNA-Seq. 104
Figura 7.1. Características principales de un estudio metabolómico. En verde
componente correspondiente al área de la biología, química en azul y bioinformática
en amarillo. 118
Figura 7.2. Reacciones de derivatización de compuestos semivolátiles. Primero
metoximación, segundo silanización. 122
Figura 7.3. Tipos de ionización de muestras. 124
Figura 7.4. Analizadores de masas 125

7
8
Conceptos en Ciencias Ómicas

I. PRINCIPIOS FUNDAMENTALES DE LA BIOLOGÍA


MOLECULAR, LA BIOINFORMÁTICA Y LA BIOLOGÍA
COMPUTACIONAL
ANDREA GONZÁLEZ MUÑOZ

Los innumerables avances en las tecnologías de secuenciación de ácidos nucleicos,


proteínas y otros compuestos químicos, sumado a los desarrollos en las ciencias de la
computación en la última década, han promovido la generación masiva de datos biológicos
a nivel molecular y el aumento de la capacidad computacional para el análisis de esta gran
cantidad de información. Esto ha dado lugar a la era post-genómica, en la que la generación
de información no representa un gran obstáculo para la investigación genética en diversas
áreas de las ciencias biológicas. Los desafíos de la era post-genómica consisten en descifrar
el libro de la vida que está inmerso dentro de las millones de bases comprendidas en los
genomas, así como en las complejas redes de interacción entre proteínas y en la redes de
las vías metabólicas.

La manipulación, organización, predicción y modelización de los datos genéticos se han


llevado a cabo gracias a la bioinformática, que caracteriza genomas, transcriptomas,
proteomas y metabolomas; además, la bioinformática permite reconstruir filogenias,
estudiar la variación genética, identificar marcadores en fenotipos de interés y rasgos
complejos, realizar tamizajes de biomarcadores para mejoramiento genético, diagnóstico
y tratamiento de enfermedades, analizar la expresión de los genes y comprender la
interacción gen x ambiente, entre muchas otras líneas de investigación.

El análisis e interpretación de estos datos biológicos se sustentan sobre un entendimiento


profundo de las bases genéticas de los seres vivos, la expresión del ADN, ARN y
proteínas, y los procesos moleculares y celulares mediados por las vías del metabolismo.
Complementario a esto, la variación genética en los genomas cumple un rol fundamental
en la generación de diversidad y la evolución de los seres vivos, sobre la cual se soporta el
interés por identificar las potenciales variaciones genéticas que diferencian las especies e
individuos.

9
 1. PRINCIPIOS EN BIOLOGÍA MOLECULAR
ANDREA GONZÁLEZ MUÑOZ

1.1. Biomoléculas de la vida: ADN, ARN y proteínas

1.1.1. Ácido desoxirribonucleico

Las instrucciones de la vida en la Tierra se encuentran en el material genético de los seres


vivos, alojado en el núcleo de las células eucariotas o de libre circulación en las células
procariotas. Este material está compuesto por ácido desoxirribonucleico (ADN), un tipo de
ácido nucleico conformado químicamente por cuatro bases nitrogenadas que componen el
alfabeto del libro de la vida: adenina (A), timina (T), guanina (G) y citosina (C). Estas bases
están compuestas por un azúcar pentosa (desoxirribosa) y un grupo fosfato (Figura 1.1),
y están unidas repetitivamente en numerosas combinaciones de secuencia (4n secuencias
posibles para una cadena de ADN de longitud n), mediante enlaces fosfodiéster covalentes
que unen el carbono 5’ del azúcar de una base nitrogenada con el carbono 3’ del azúcar
de otra base (Figura 1.1). Estructuralmente, el ADN está constituido por dos cadenas
de bases nitrogenadas, unidas de manera complementaria A con T y C con G, mediante
puentes (dobles y triples) de hidrógeno, respectivamente. Estas cadenas complementarias
se pliegan en forma tridimensional en estructura de doble hélice (Figura 1.1), que se puede
considerar como una estructura de escalera en espiral, donde las bases nitrogenadas
complementarias y los puentes de hidrógeno que las unen conforman los peldaños de la
escalera y las pentosas y grupos fosfatos constituyen los lados de soporte. Las cadenas
de la doble hélice se orientan en sentido contrario, es decir, la secuencia de una de las
cadenas se orienta en sentido 5’ – 3’ y la secuencia de la cadena complementaria se orienta
en sentido 3’ – 5’.
Terminal Puente de Hidrógeno Terminal
H
5´ H O
3´ 3´
O H N H H H
N H H
O O HC C C C C
P 5´
O N C G N H N C CH
O H2C
5´ O C C N O
H2C N
N O O P O
H H H
H H H H H O
3´ H CH3 3´
H N
O N H H
C CH
H H
O O O C C
P HC C 5´
O N
T N H
N A C N
O H2C
5´ O C N
O
H2C C
O P O
H H O H
H H H H H O
3´ H 3´ G C
O C N H
H H
HC O H H
C N
O P O
N
C N
C C
CH
O H2C
5´ T A
O
H2C
5´ O
C H N G C N
O C G
O C N O P O
H H H N A T
H H H H O
3´ H H 3´
O H H
N H H
O O N H O CH3
P HC
C 5´
C C C O H2C

H2C
O
5´ O
N C A N
H N T CH O
N C
C N O P O
H H H
H H O
Terminal 3´ OH OPO3
H
3´ Terminal Terminal 3´ Terminal 5´

10
Conceptos en Ciencias Ómicas

Figura 1.1. Estructura del ADN. Se muestran las bases nitrogenadas A, T, C y G; la secuencia
de nucleótidos del ADN y las cadenas complementarias que conforman la estructura de la
doble hélice.

El ADN en el núcleo está asociado a proteínas llamadas histonas, sobre las cuales se
enrolla para conformar la cromatina, la estructura organizacional del ADN. La cromatina
contiene más del doble de proteína que de ADN y está conformada por nucleosomas,
enrollamientos que contienen ~200 pares de bases de ADN, organizadas repetitivamente
en octámeros de histonas en forma de collar. La máxima compactación de la cromatina se
presenta en forma de cromosomas, los cuales se observan en la metafase de la división
celular.

La cromatina se puede clasificar de acuerdo a dos tipos de organización: heterocromatina


y eucromatina. La primera es una forma densamente compactada que no es
transcripcionalmente activa, es decir, en este estado, los genes en estas regiones no se
están expresando debido al superenrollamiento del ADN. El segundo tipo comprende
regiones de ADN no condensadas, donde ocurre transcripción o expresión del material
genético. Un cromosoma puede contener regiones de heterocromatina y eucromatina
al mismo tiempo, las cuales pueden variar de acuerdo a la etapa del ciclo celular o las
necesidades metabólicas de la célula.

1.1.2. Ácido ribonucleico

La información genética contenida en el ADN está representada por la secuencia lineal


de la molécula, esto quiere decir que diferentes secuencias de nucleótidos transmiten
distintos mensajes biológicos. No obstante, si el ADN se encuentra en el núcleo y jamás
sale de éste, excepto durante la división celular, entonces ¿cómo es que el ADN transmite
las instrucciones genéticas al resto de la célula? En este proceso participa la molécula
de ácido ribonucleico (ARN), un segundo tipo de ácido nucleico compuesto también por
cuatro bases nitrogenadas, tres de las cuales comparte químicamente con el ADN: adenina
(A), guanina (G) y citosina (C), y una que difiere con respecto al ADN: uracilo (U).

La correspondencia en composición de bases nitrogenadas entre el ADN y ARN permite


que el ADN sirva como molde para la síntesis de moléculas de ARN de cadena sencilla y
con secuencia complementaria al ADN, que se lleva a cabo en un proceso conocido como
transcripción (Figura 1.2). Aunque el ARN no contiene timina, existe complementariedad
entre la adenina del ADN y el uracilo del ARN. Por su parte, la timina del ADN encuentra
su base complementaria en la adenina del ARN, tal como ocurre entre las dos cadenas del
ADN.

11
Hebra Antisentido 3’ 5’
AT G A C G G A T C AG C C G C AA G C GGAA T T GG
U A C U G CC U A GU C GGC GUU
Transcrito de ARN ARN Polimerasa

T A C T G CC T A G T C GGC G T T C GCC T T A ACC


5’ 3’
Hebra Sentido

Figura 1.2. Proceso de la transcripción del ADN a ARN.

La transcripción es un proceso fundamental en la célula, puesto que permite la expresión


de la información contenida en el ADN a través del ARN, el cual puede salir del núcleo
y ejercer su función en el citoplasma. Existen diferentes tipos de ARN: ARN mensajero;
ARN ribosomal; ARN de transferencia y otros tipos de ARN involucrados en diversos
procesos celulares como regulación de la expresión de los genes, replicación del ADN y
modificaciones a proteínas. A continuación, se describe cada tipo.

ARN mensajero (ARNm)

Las moléculas de ARNm, también llamadas transcritos, son portadoras de la información


genética contenida en el ADN, que posteriormente son traducidas a proteínas en los
ribosomas de la célula. En otras palabras, el ARNm es una molécula intermediaria producto
de la expresión de los genes en una célula. No todos los genes se transcriben al mismo
tiempo o al mismo nivel de expresión ni todas las células de un organismo expresan los
mismos genes. Así mismo, una célula no expresa el mismo conjunto de genes durante todo
su ciclo celular ni bajo todas las condiciones. Además, las moléculas de ARNm presentes
en una célula en un momento dado dependen de los genes que se requieran para los
procesos celulares que se producen en ese momento en particular.

12
Conceptos en Ciencias Ómicas

La transcripción del ADN a ARNm genera una molécula precursora conocida como
pre-ARNm, la cual debe pasar por etapas de procesamiento en el núcleo para crear una
molécula de ARNm capaz de ser traducida a proteína. En los procariotas, sin embargo, no
es necesario este procesamiento; en eucariotas, poco después de iniciar la transcripción,
cuando el ARNm alcanza una longitud entre 25 y 30 bases, se da la adición de una caperuza
metilada (7-metilguanilato) en el extremo 5’ de la molécula, con el fin de proteger el ARNm
de degradación por exonucleasas y también proporcionar un sitio de reconocimiento
del ARNm en el ribosoma. Adicionalmente, finalizada la transcripción ocurre un clivaje
enzimático en el extremo 3’ del ARNm, seguido por la adición de cientos de bases de
adenina (conocida como cola poli A) por un proceso de poliadenilación, realizado por la
enzima poli-A polimerasa. Un tercer paso del procesamiento incluye el clivaje de secuencias
intrónicas (no codificantes para proteína) y ligación de los exones (secuencias codificantes)
adyacentes, en un proceso conocido como splicing. La Figura 1.3 muestra la molécula de
ARNm precursora originando una molécula madura de ARNm en eucariotas.

Núcleo

Exon Intron Exon Intron Exon


ADN

Caperuza Transcripción y adición


de caperuza y cola poliA
Transcrito
precursor AAAA
Eliminación de Intrones
Cola
AAAA

Empalme de Exones
ARNm AAAA

Transcrito Maduro

Citoplasma

Figura 1.3. Procesamiento del ARN mensajero maduro.

13
ARN ribosomal (ARNr)

Los ARNr son las principales moléculas constituyentes de los ribosomas, los organelos
celulares encargados de la traducción del ARNm a proteína. Estas moléculas no portan
información que se traduce a proteína, es decir, no son codificantes; no obstante, son
fundamentales para la síntesis de las proteínas, catalizando los enlaces químicos (enlaces
peptídicos) que componen una proteína. Los ARNr se transcriben a partir de los genes
del ADN ribosomal (ADNr), que varían en número, secuencia y longitud entre las células
procariotas y eucariotas. En procariotas, existen tres moléculas de ARNr: 23S, 16S y 5S,
que en conjunto abarcan alrededor de 4500 bases y componen el ribosoma, junto con
54 proteínas. Los nombres de estas moléculas provienen de su tamaño en términos de la
tasa de sedimentación de la partícula por centrifugación, medido en unidades Svedberg
(S). Por su parte, las moléculas de ARNr en eucariotas son cuatro: 28S, 18S, 5.8S y 5S,
que comprenden más de 5500 bases y componen el ribosoma eucariota, junto con 82
proteínas.

Los ARNr son de cadena sencilla y presentan una estructura plegada altamente conservada
entre los linajes de la vida, aspecto que se debe a su actividad catalítica importante para
la función del ribosoma; aunque a nivel de secuencia los ARNr no son tan conservados. De
hecho, los genes que transcriben los ARNr se han constituido en marcadores moleculares
para reconstruir la historia evolutiva de los linajes de la vida, así como para identificar las
especies. Algunas regiones del ADNr evolucionan lentamente, mientras que otras regiones
divergen rápidamente entre linajes.

ARN de transferencia (ARNt)

Los ARNt son moléculas pequeñas de cadena sencilla y 74-95 bases, transcritas a partir
de los genes de ADNt en el núcleo o en la mitocondria, que de manera similar al ARNr no
son codificantes, sino que cumplen variadas funciones en la célula. Su función principal
es la de ser moléculas conectoras entre el ARNm y el ribosoma durante la síntesis
proteica. Todos los ARNt comparten una estructura secundaria y terciaria que permiten el
reconocimiento por parte del ribosoma, dando lugar a su participación en la traducción del
ARNm, mediante la incorporación de aminoácidos en la proteína naciente.

Los ARNt presentan una estructura secundaria en forma de trébol, con unión por
complementariedad entre los terminales 5’ y 3’ de su secuencia, así como complementariedad
entre regiones internas de la molécula que forman estructuras plegadas en forma de bucle.
Adicionalmente, los ARNt terminan en una secuencia aceptora –CCA–, que caracteriza
a este tipo de moléculas y es incorporada durante la transcripción del ADN o agregada
enzimáticamente como una modificación post-transcripcional. Como parte de la
estructura secundaria también se encuentra el anticodón, ubicado en el mismo lugar en
todas los ARNt y en el extremo contrario a la secuencia aceptora, el cual compone el sitio

14
Conceptos en Ciencias Ómicas

de unión y reconocimiento del codón del ARNm (secuencia de tres nucleótidos del ARNm
que determina el aminoácido a incorporar en la proteína sintetizada, de acuerdo con el
código genético, Tabla 1.1). Los ARNt pueden estar sujetos a modificaciones químicas en
sus bases, como metilaciones o deamidaciones, que pueden cambiar la interacción de la
molécula con el ribosoma o alterar sus propiedades de reconocimiento del codón, en caso
tal de que se den en el anticodón.

En la biogénesis de la molécula de ARNt hay pasos importantes en la maduración de la


molécula para que esta pueda llevar a cabo su función. Estos pasos incluyen procesamiento,
splicing, adición de la secuencia aceptora CCA y modificaciones post-transcripcionales;
algunos ocurren en el núcleo y otros en el citoplasma. A partir del transcrito primario
(pre-ARNt), ocurre la eliminación de secuencias 5’ y 3’ adicionales no necesarias, así como
de secuencias intrónicas, mediante la acción de nucleasas y endonucleasas en eucariotas
y arqueas, o por auto-clivaje en bacterias. Tras la eliminación de intrones se requiere la
ligación de los exones, actividad que es realizada por una ligasa de ARNt. Posteriormente,
algunos pre-ARNt requerirán la adición enzimática de la secuencia aceptora CCA, debido
a que esta no se encuentra originalmente en el gen correspondiente. Finalmente, las
modificaciones post-transcripcionales de algunas bases de la molécula constituyen una
característica de todos los ARNt maduros, y tienen el propósito de regular la localización
subcelular de los ARNt, estabilizar la molécula estructuralmente, decodificar, brindar un
control de calidad y/o incluso participar en la respuesta inmune contra agentes infecciosos
(Hori et al., 2014).

En los diferentes linajes se ha encontrado a nivel genómico que los ARNt varían en número
de genes, organización genómica (e.g. repeticiones en tándem por eventos de duplicación)
y número de pseudogenes (genes que han perdido su función total o función canónica),
lo que indica patrones linaje-específicos complejos. En el genoma humano, por ejemplo,
se ha encontrado un número mayor al esperado de genes de ARNt, por lo cual, se podrían
atribuir funciones no canónicas para algunos de estos genes, más allá de su participación
en la traducción. Además, los proyectos de secuenciación de genomas en mamíferos han
identificado un gran número de genes de ARNt isodecodificadores, es decir, que producen
ARNt que comparten el mismo anticodón. En el genoma humano se ha identificado que
más de la mitad de genes de ARNt son de este tipo, lo cual indica una alta redundancia
de ARNt en el genoma. Sin embargo, lo interesante de los ARNt isodecodificadores es
que difieren en su secuencia interna y presentan un menor grado de aminoacilación en
comparación con los ARNt canónicos involucrados en traducción, de ahí que algunos
puedan participar en funciones diversas (Parisien, Wang & Pan, 2013).

Entre las otras funciones descubiertas o sugeridas para los ARNt, se ha referenciado su
participación en regulación (e.g. en la organización de genomas eucariotas separando
dominios de cromatina activos de los no activos y en la regulación de la expresión génica
ante eventos de estrés por vía de ARN de interferencia o ARNi), así como en la señalización
y biosíntesis de aminoácidos, grupos hemo, clorofila y antibióticos. Además, pueden

15
participar en la replicación viral, el remodelamiento de la pared celular, el etiquetado de
proteínas para degradación, la supervivencia celular por interferencia de la vía apoptótica
mediada por citocromo C en la mitocondria y el metabolismo energético, entre otras
funciones (Kirchner & Ignatova, 2015; Raina & Ibba, 2014).

OTROS TIPOS DE ARN


Existen otros tipos de ARN no codificantes que están involucrados en varios procesos
celulares y llevan a cabo funciones diferentes a las de los ARNm, ARNr y ARNt. Estos ARN
han cobrado mayor importancia a partir de los proyectos de secuenciación de genomas,
en los que se ha encontrado una alta abundancia de este tipo de moléculas, con funciones
predichas o demostradas en procesos regulatorios principalmente. Por ejemplo, en
eucariotas se encuentran diversos tipos de ARNs involucrados en modificaciones post-
transcripcionales o replicación de ADN, tales como: ARN pequeño nuclear (small nuclear
RNA, snRNA) que participa en splicing; ARN pequeño nucleolar (small nucleolar RNA,
snoRNA) que lleva a cabo la modificación de nucleótidos en otros ARNs; ribonucleasa
P y MRP (RNase P, RNase MRP) involucrados en la maduración del ARNt y la replicación
de ADN, en el caso del RNase MRP; el componente de ARN de la telomerasa (TERC),
importante en la síntesis telomérica en muchos eucariotas; y el ARN líder de splicing (SL
RNA) que participa en trans-splicing del ARNm y en el procesamiento del ARN (Cech &
Steitz, 2014; Malone & Hannon, 2009; Palazzo & Lee, 2015; Woodhams, Stadler, Penny &
Collins, 2007).

Por otro lado, otros tipos de ARN no codificantes participan principalmente en funciones
reguladoras de la expresión génica, incluyendo: ARN largos no codificantes (long noncoding
RNA, lncRNA) que regulan la transcripción génica por regulación epigenética; micro ARNs
(miRNA) y ARNs cortos de interferencia (siRNA) involucrados en regulación génica; ARN
piwi de interacción (piRNA) que actúan en defensa de transposones y otras potenciales
funciones; ARN antisentido (asRNA) que participan en atenuación transcripcional,
estabilización del ARNm y bloqueo traduccional (Bartel, 2009; Malone & Hannon, 2009;
Ørom & Shiekhattar, 2013; Ponting, Oliver & Reik, 2009). Finalmente, un tipo de ARN
regulador de recién gran interés es el ARN CRISPR (crRNA), el cual se encuentra en bacterias
y arqueas cumpliendo un rol en resistencia a parásitos mediante acción dirigida al ADN,
cuya aplicación actual se ha centrado en la edición génica dirigida (Sander & Joung, 2014).

1.1.3. Proteínas

Las proteínas son moléculas muy diversas en secuencia, estructura y función. Se estima
que una célula humana puede tener entre 250000 a un millón de proteínas diferentes,
localizadas en todos los compartimientos y procesos celulares, cumpliendo funciones
estructurales, enzimáticas, transportadoras, hormonales, mensajeras, de almacenamiento,
defensa, entre otras; todas indispensables para el funcionamiento y mantenimiento

16
Conceptos en Ciencias Ómicas

celular. Las proteínas constituyen gran parte del fenotipo de un organismo, por lo tanto,
su diversidad es tan amplia como la cantidad de fenotipos observados en los seres vivos.

AMINOÁCIDOS
Las proteínas son las macromoléculas ejecutoras de las instrucciones del ADN, traducidas
a partir del ARNm. Químicamente, están conformadas por una secuencia de aminoácidos,
unidos por enlaces peptídicos. Existen 20 aminoácidos que conforman todas las proteínas
posibles (Tabla 1.1), los cuales presentan una composición química con un grupo funcional
amino (-NH2) en un extremo (conocido como amino terminal o N-terminal) y un grupo
funcional carboxilo (-COOH) en el otro extremo (carboxi-terminal o C-terminal). El centro
de la molécula lo compone un carbono alfa unido a los dos grupos funcionales mencionados
y a una cadena lateral o grupo R, que difiere químicamente entre los 20 aminoácidos y
confiere las propiedades bioquímicas a cada uno, por ejemplo, hidrofobicidad, polaridad
y aromaticidad.

Tabla 1.1. El código genético universal.

Segunda letra
U C A G
UUU Phe UCU UAU Tyr UGU Cys U
Primera Letra

Tercera Letra
UUC UCC
Ser
UAC UGC C
U UUA UCA UAA UGA Terminación A
Leu Terminación
UUG UCG UAG UGG Trp G
CUU CCU CAU
His
CGU U
CUC
Leu
CCC
Pro
CAC CGC
Arg C
C CUA CCA CAA CGA A
CUG CCG CAG Gln CGG
G
AUU ACU AAU
Asn
AGU
Ser
U
AUC Ile ACC
Thr
AAC AGC C
A AUA ACA AAA AGA A
AUG Met ACG AAG Lys AGG Arg
G
GUU GCU GAU
Asp
GGU U
GUC
Val
GCC
Ala
GAC GGC
Gly C
G GUA GCA GAA GGA A
GUG GCG GAG Glu GGG
G

17
CÓDIGO GENÉTICO
Los aminoácidos son traducidos en los ribosomas a partir del ARNm, siguiendo el código
genético, el cual establece la combinación de tripletes de nucleótidos o codones, que
traducen para uno de los 20 aminoácidos (Tabla 1.1). Varios codones (2-6) pueden traducir
para un mismo aminoácido, por lo que se dice que el código genético es degenerado;
esto implica que partiendo de un codón se sabe el aminoácido exacto que traduce, pero
a partir de un aminoácido no se conoce la secuencia exacta del codón que lo genera.
Los únicos dos aminoácidos que están traducidos por un solo codón son metionina y
triptófano. No obstante, a pesar de ser degenerado, en algunas especies puede existir un
sesgo hacia la utilización de ciertos codones para traducir determinado aminoácido, por
ejemplo, en el genoma humano es más probable encontrar que la alanina corresponda
al codón GCC, que a GCG, aunque ambos la traducen.Esto puede deberse a una mejor
eficiencia en la traducción de ciertos codones en los ribosomas. Por otra parte, cabe
resaltar dos codones de gran importancia en el código genético: el codón que marca el
inicio de la traducción de una proteína –AUG– , que traduce al aminoácido metionina y
los codones que marcan la terminación de la traducción, UAA, UAG y UGA. De acuerdo
con lo anterior, todas las proteínas deberían comenzar con una metionina, sin embargo,
no es así, debido a procesamientos post-traduccionales, ya que estos pueden eliminar la
metionina de inicio en la proteína madura. Además, existen excepciones al código genético
universal, en las que los codones de terminación mencionados anteriormente codifican
para un aminoácido, como en mitocondrias, levaduras, plantas, Mycoplasma capricolum y
los protozoos Paramecium y Tetrahymena.

ESTRUCTURA DE LAS PROTEÍNAS


Estructuralmente, las proteínas se describen de acuerdo con cuatro niveles. La estructura
primaria corresponde a la secuencia lineal de aminoácidos, determinada por el genoma.
La estructura secundaria involucra un plegamiento local dirigido por la interacción entre
aminoácidos adyacentes y por los ángulos de torsión de los enlaces de los aminoácidos,
dando lugar a estructuras en alfa hélice y lámina beta, conectadas por giros de la
molécula y estabilizadas por puentes de hidrógeno. La estructura terciaria obedece a
la conformación tridimensional más estable de la proteína, es decir, al arreglo espacial
de las conformaciones secundarias, mediado por interacciones no-covalentes, puentes
disulfuro y la interacción con el ambiente acuoso de la célula. La función de una proteína
está asociada con su organización a nivel terciario, ya que a este nivel se conforman los
sitios catalíticos o sitios activos de enzimas y se evidencian los motivos estructurales,
que hacen referencia a segmentos de la proteína que están cercanos espacialmente pero
no en secuencia. Los motivos estructurales generalmente se encuentran conservados en
diferentes proteínas, esto permite agruparlas por su función o estructura. Además, la
presencia de un motivo estructural o determinada estructura terciaria en una proteína
desconocida permite inferir su posible función por asociación. Finalmente, la estructura
cuaternaria involucra la interacción entre diferentes cadenas (polipéptidos) que se unen
para conformar una proteína funcional.

18
Conceptos en Ciencias Ómicas

MODIFICACIONES POST-TRADUCCIONALES
Las proteínas pueden estar conformadas sólo por aminoácidos o estar conjugadas
con carbohidratos (glicoproteínas), fosfatos (fosfoproteínas), lípidos (lipoproteínas)
o combinaciones de estos. De igual forma, los residuos de aminoácidos pueden
estar modificados con grupos químicos como glicosil, provenientes de carbohidratos
(glicosilaciones), fosforilo (fosforilaciones), metilo (metilaciones), acilo, acetilo, ubiquitina,
nitroxilo, etc. Estas modificaciones cambian las propiedades de una proteína, aportan a
la diversidad funcional de la misma e influyen en su interacción con otras proteínas y
moléculas. Además, muchos procesos celulares, como la replicación y transcripción del
ADN, cascadas de señalización, transducción de señales, procesos regulatorios y de
transporte, entre otros, requieren la formación de complejos proteicos que actúan de
manera sinérgica para cumplir determinadas funciones.

1.2 Dogma central de la biología molecular

Como se ha mencionado en varias ocasiones, el ADN es la unidad de herencia de


las células y los seres vivos, que contiene las instrucciones que rigen en gran parte el
funcionamiento del ARN y las proteínas. El ADN se puede replicar para generar más copias
de ADN o se puede transcribir a diferentes tipos de ARN, incluyendo el ARNm, la principal
molécula mensajera de las células. Esta secuencia de eventos en los que se evidencia una
transferencia lineal de información biológica desde ADN a ARN a proteína constituye el
dogma central de la biología molecular (Figura 1.4), propuesto por Francis Crick en 1956
- 1970, quien fue el co-descubridor de la estructura del ADN junto con James Watson,
Francis Crick, Maurice Wilkins y Rosalind Franklin en 1953.

Replicación

Traducción

Transcripción

Proteína
ADN ARN

19
Figura 1.4. Esquematización de la transferencia de información y procesos de replicación,
transcripción y traducción del Dogma Central de la Biología Molecular.

El dogma central de la biología molecular en su manera clásica, se puede considerar


algo simplificado con respecto a la complejidad biológica que se evidencia a partir de
los estudios en genómica, transcriptómica, proteómica y metabolómica. El dogma central
conocido actualmente es mucho más amplio y la transferencia de información no es lineal;
a este respecto, el ARN también se puede retrotranscribir a ADN y replicar para producir
más copias de ARN como ocurre en muchos virus.

De igual manera, la función del ARN y las proteínas no solo constituyen el resultado de
las instrucciones genéticas del ADN, debido a que otra parte de su funcionalidad puede
estar determinada por modificaciones post-transcripcionales, post-traduccionales o
epigenéticas. Sin embargo, el planteamiento clásico del dogma central aún se sostiene y
constituye la base del funcionamiento celular, aunque reconociendo la amplia gama de
procesos que ocurren adicionales a ese esqueleto central. Los tres procesos principales del
dogma central de la biología molecular son los siguientes: replicación del ADN, transcripción
del ADN a ARN y traducción del ARNm a proteína. Estos se encuentran detallados en un
amplio repertorio de la literatura, así que no serán tratados en este capítulo.

1.3. Genomas y genes

El genoma constituye el manual de instrucciones para el funcionamiento y sostenimiento


de los seres vivos, ya que está compuesto por el conjunto de genes y secuencias no
génicas que determinan el nivel más fundamental de los procesos celulares. Los linajes
de la vida presentan una gran diversidad en sus tamaños genómicos, desde los genomas
virales y bacterianos más pequeños, con 3 kilobases y 160 kilobases, hasta el genoma
humano con alrededor de 3,1 gigabases (Gb), el genoma vegetal más grande con 150
Gb, correspondiente a la especie Paris japónica, o el de la ameba Amoeba dubia, con el
genoma más grande conocido que alcanza 670 Gb. El tamaño genómico, sin embargo, no
es indicativo del nivel de complejidad de un organismo, dado que un mayor tamaño de
genoma no necesariamente está correlacionado con un mayor número de genes presentes.

Aunque los tamaños de genoma entre el nemátodo Caenorhabditis elegans, el pez cebra
Danio rerio, la planta Arabidopsis thaliana, el ratón Mus musculus y el humano Homo
sapiens difieren en varios órdenes de magnitud (desde 100,2 Mb – 3,1 Gb), estas especies
comparten un número similar de genes codificantes entre ~20000 hasta ~ 25000. La
diferencia radica en el contenido de secuencias de ADN no codificantes y repetitivas que
se encuentran en alta abundancia en genomas de gran tamaño, las cuales en un principio
fueron consideradas ADN “basura” por no codificar para proteínas.

No obstante, los proyectos de secuenciación de genomas han mostrado que estas


secuencias están lejos de ser basura, de hecho, se ha postulado que estas regiones pueden

20
Conceptos en Ciencias Ómicas

tener funciones bastante importantes para la regulación de diversos procesos y vías


metabólicas en la célula, lo cual se atribuye a que participan en el control de la expresión
de genes y hasta cromosomas completos, al participar en la estructuración de la cromatina
(Mehrotra & Goyal, 2014).

Recientemente se han identificado variaciones y modulaciones en estas secuencias de


ADN que están asociadas a enfermedades y síndromes graves en humanos (López-Flores
& Garrido-Ramos, 2012). Además, las secuencias de ADN no codificante y repetitivas son
muy informativas para estudios evolutivos y filogenéticos, así como para el entendimiento
de la organización y comportamiento de los genomas eucariotas (Mehrotra & Goyal, 2014),
porque son regiones genómicas que acumulan variaciones en secuencia y en número de
copias.

1.3.1. Genomas procariotas

Los genomas procariotas presentan una estructura de genoma compacta, con una alta
proporción de contenido génico en relación con el resto del genoma y poco espacio entre
los genes. El mayor conocimiento del genoma de los procariotas ha provenido del estudio
de la bacteria modelo Escherichia coli.

No obstante, cabe resaltar que su organización de genoma no es necesariamente


representativo de todos los procariotas, dada la considerable diversidad genómica entre
los miembros de este grupo. Aun así, es necesario mencionar algunas características de
los genomas procariotas, ejemplificadas por el genoma de E. coli, como: un bajo contenido
de secuencias no codificantes, baja frecuencia de secuencias repetitivas y la presencia de
operones, los cuales corresponden a un grupo de genes que están ubicados con proximidad
en el genoma, separados incluso por uno o dos nucleótidos, cuya expresión se da como
una sola unidad.

En cepas de E. coli se ha encontrado solo un 11% de secuencias no codificantes y hasta 600


operones, compuestos por genes con función relacionada, de tal manera que participan en
una misma vía bioquímica o vías asociadas (Griswold, 2008).

Por último, los genes procariotas no contienen secuencias intrónicas (a excepción de


algunas Archaea) y presentan una longitud más corta que la de los genes de organismos
eucariotas, incluso después del clivaje de las secuencias de intrones de los eucariotas.
La Figura 1.5 muestra la estructura de un gen procariota comparada con la de un gen
eucariota.

21
Procariotas

ADN
Región
codificante
ARNm
Policistrónico P PP
5´ 3´
Región no codificante

Policistrónico

Múltiples Proteínas
Eucariotas

ADN
Región codificante
Región
Región no codificante 5’
no codificante 3’

ARNm G PPP AAAAA


CH3 5´ 3´ Poli-A

Caperuza

Figura 1.5. Expresión génica y estructura del ARN mensajero en eucariotas vs procariotas.

1.3.2. Genomas eucariotas

La organización de los genomas eucariotas ha mostrado ser mucho más compleja que la
de los procariotas. Los eucariotas presentan una variedad de regiones genómicas, que
se han descrito como genes, secuencias codificantes (CDS), secuencias no codificantes,
secuencias regulatorias, elementos repetitivos, elementos transponibles, entre otros.
La proporción de cada una de estas regiones genómicas varía entre especies, aunque
en general la presencia de grandes cantidades de secuencias de ADN no codificantes y
repetitivas es una característica de los genomas eucariotas, alcanzando hasta un 90% del
contenido de algunos genomas (López-Flores & Garrido-Ramos, 2012). En este sentido,
muchas plantas presentan un alto tamaño de genoma, no obstante, en algunos casos su
contenido génico no difiere bastante con respecto a otros grupos taxonómicos, por lo que
su gran tamaño se debe a un alto contenido de ADN repetitivo y no codificante.

22
Conceptos en Ciencias Ómicas

En el linaje eucariota se ha identificado un conjunto de 458 genes que están altamente


conservados y se encuentran virtualmente en todos los eucariotas, debido a su
participación en las funciones básicas celulares, y que en inglés se han denominado
Core Eukaryotic Genes (COG). La identificación de los COG se basó en los genomas
disponibles de seis organismos modelo: Homo sapiens, Drosophila melanogaster (mosca
de la fruta), Arabidopsis thaliana, Caenorhabditis elegans, Saccharomyces cerevisiae
(levadura) y Schizosaccharomyces pombe (levadura) (Parra et al., 2009). Este conjunto
de genes ortólogos (que tienen su origen en un ancestro eucariota común) ha sido útil
para determinar la calidad de las descripciones de genomas nuevos, de tal manera que es
una medida de cuán completa o correcta es la secuencia de un genoma. Incluso, los COG
también han sido útiles como modelos de genes para la búsqueda de genes en genomas
eucariotas.

1.3.3. Anotación de genomas

El proceso de describir un genoma con respecto a su contenido de genes, así como a la


localización, estructura y función de las secuencias génicas y no génicas se denomina
anotación. La anotación de genomas ha sido un área muy importante y ha representado un
desafío científico y computacional extenso en los proyectos de secuenciación genómica, ya
que el conocimiento de la secuencia de un genoma es apenas un primer paso en el proceso
de descifrar el potencial genómico de un organismo o especie (Yandell & Ence, 2012).

Para un genoma desconocido y sobre el cual no hay información de referencia disponible, la


anotación involucra la implementación de herramientas bioinformáticas para la predicción
del contenido de secuencias génicas, en términos de su posición en el genoma y estructura,
seguido de la traducción de las secuencias codificantes a proteínas y la predicción de la
función o actividad de las proteínas predichas. La predicción de genes generalmente se
basa en modelos génicos de organismos conocidos, con los cuales se asume una estructura
génica conservada para la mayoría de genes.

En esta sección vimos que los genomas presentan una gran diversidad en su tamaño,
organización de secuencia y estructura. Lo anterior es producto de la variabilidad que
ha tenido lugar durante la evolución de los genomas de las diferentes especies y que se
evidencia a través de los diferentes tipos de variaciones genéticas que se han identificado
con el estudio de los genomas y secuencias genéticas.

1.4. Variación genética en los genomas

La diversidad de la vida en la Tierra es el resultado de variaciones genéticas acumuladas a


través del tiempo, que constituyen la base de la evolución de las especies. Esta variación
ha resultado de eventos aleatorios como mutaciones puntuales, rearreglos cromosómicos
y eventos de recombinación homóloga en el material genético de los organismos. Las
mutaciones son cambios en la secuencia de nucleótidos del ADN que pueden producir
modificaciones a nivel génico y, posteriormente, proteico, influyendo en el fenotipo de un
organismo. Estos cambios pueden ser heredables, como ocurre con las mutaciones de la

23
línea germinal, heredadas de los padres a la progenie, y que estarán presentes en todas las
células de un organismo.

Por otro lado, las mutaciones pueden ser somáticas (mutaciones de novo), que se adquieren
en algún momento de la vida de un individuo a causa de factores ambientales o de errores
en la replicación del ADN. Estas mutaciones no están presentes en todas las células del
organismo, excepto que ocurran en la línea germinal, y no pueden ser heredadas a la
progenie.

1.4.1. Tipos de variación genética

SNVs y SNPs

Las mutaciones pueden corresponder a cambios puntuales en un nucleótido de la secuencia


de ADN, conocidas como variantes de nucleótido sencillo (single nucleotide variants, o
SNVs), algunas de las cuales se denominan polimorfismos de nucleótido sencillo (single
nucleotide polymorphisms, o SNPs) cuando se presentan con una frecuencia mínima del
1% en una población. La mayoría de diferencias fenotípicas entre los individuos se deben a
polimorfismos que no representan efectos adversos sobre el organismo, aunque algunos sí
pueden llevar a efectos deletéreos. A nivel de fenotipo, una SNV presente en una secuencia
codificante se considera sinónima si no genera un cambio en la secuencia de la proteína
codificada; por el contrario, se considera no-sinónima si se traduce a un cambio en el
amino ácido codificado por el codón en el que se presenta la mutación, lo que puede
conducir a potenciales repercusiones en la función de la proteína mutada producida.

Indels

Las mutaciones también pueden abarcar varios nucleótidos que pueden estar insertados
(inserciones) o ausentes (deleciones) en la secuencia del material genético de un
organismo con respecto a otro, y que en conjunto son conocidas como indels. Los indels
más frecuentes son aquellos que involucran elementos de secuencias repetitivas como las
repeticiones en tándem de número variable (variable number tandem repeats, o VNTRs) y
las repeticiones en tándem sencillas (simple tandem repeats, o STRs); por eso la presencia
de repeticiones puede predisponer esa región del ADN a la presencia de indels.

Los eventos de inserción también pueden deberse a elementos transponibles o


transposones, los cuales están esparcidos por el genoma y pueden transportarse de
manera directa desde una región cromosómica a otra. A nivel biológico, un indel en la
secuencia de un gen puede afectar el marco abierto de lectura del mismo y generar una
secuencia codificante errónea que producirá una proteína diferente a la original o generar
un codón de parada prematuro que produzca una secuencia codificante incompleta y, por
consiguiente, una proteína truncada. En ambos casos, se verá afectada la funcionalidad

24
Conceptos en Ciencias Ómicas

del producto proteico, lo cual podrá tener repercusiones leves a graves sobre el fenotipo
del organismo, dependiendo de la importancia y función de la proteína en la célula.

Recombinación homóloga

La recombinación homóloga es el intercambio de fragmentos de secuencia entre dos


moléculas de ADN homólogas, lo cual ocurre durante el entrecruzamiento de cromosomas
homólogos en la meiosis para la producción de gametos. Por otro lado, la recombinación
homóloga también tiene lugar durante la división celular somática (mitosis) como
mecanismo de reparación de rupturas en la doble cadena del ADN. La recombinación
homóloga es un generador de variación genética, ya que da lugar a nuevas combinaciones
de secuencia (alelos) de los genes en la progenie durante la meiosis, o a mutaciones
somáticas durante la mitosis.

Rearreglos cromosómicos

Los rearreglos cromosómicos también constituyen un tipo de mutaciones ocasionadas por


rupturas en la doble cadena de ADN como producto de daño al ADN por radiación, agentes
químicos o errores durante la recombinación homóloga o replicación, los cuales pueden
cambiar la estructura cromosómica, alterar la función y transmisión de algunos genes.

Los rearreglos pueden repercutir en deleciones que representan la pérdida de todo un


gen, una parte de éste o incluso en deleciones más grandes que abarcan múltiples genes.
Este tipo de deleciones estructurales difieren de un indel, ya que comprenden regiones
más grandes del genoma, mientras que un indel abarca menos bases (≤1000 pares de
bases, pb). Por su parte, contrario a una deleción, una duplicación implica un aumento en
el número de copias de una región cromosómica. Si las regiones duplicadas se encuentran
en proximidad se considera que se encuentran en tandem, en el mismo orden o en orden
reverso. Las duplicaciones génicas representan eventos importantes en la evolución de los
genomas, dado que las copias adicionales de genes pueden promover que algunas copias
adquieran nuevas funciones y con ello nuevos genes. Las duplicaciones y deleciones son
producto de eventos de recombinación homóloga desiguales, errores en la reparación de
rompimientos en la doble cadena del ADN o errores en la replicación. Las deleciones y
duplicaciones de genes y segmentos cromosómicos en el orden de los multi-kilobases se
conocen como variantes en el número de copias (copy number variants, CNVs). Los CNVs
pueden afectar el equilibrio génico normal, porque cambian la dosis génica de la parte
cromosómica afectada, tanto por la pérdida de una copia de un segmento como por la
adición de una o varias copias extras de un segmento del material genético.

Las deleciones y duplicaciones están relacionadas con otro tipo de rearreglo que son
las translocaciones. Una translocación ocurre entre cromosomas no homólogos y hace
referencia a la unión de una región de un cromosoma con otro (translocación no recíproca)
o al intercambio de segmentos entre dos cromosomas (translocación recíproca). Estos
eventos de translocación se deben a rupturas en la doble cadena del ADN en dos lugares

25
distintos, seguido por la reinserción de los segmentos en otro lugar. Una translocación se
considera balanceada si hay un intercambio equivalente de material genético entre los
cromosomas, o desbalanceada si la translocación produce una deleción o duplicación de
segmentos genéticos.

Otro tipo de rearreglo está representado por las inversiones. En una inversión, un segmento
cromosómico sufre una rotación de 180°, debido a un evento de recombinación en un
mismo cromosoma o a rupturas en la doble cadena del ADN en dos lugares distintos y a
la liberación de la región cromosómica, seguido por la reinserción del segmento en una
orientación diferente a la original. Un cambio en el orden de los genes en un segmento
invertido no necesariamente implica una alteración en el fenotipo, a no ser que el punto
de ruptura en el ADN se haya producido al interior de un gen, que se altere la regulación
y expresión de un gen o grupo de genes en el segmento invertido, o que la inversión se
presente en estado homocigoto.

Un último tipo de rearreglo corresponde a variaciones en el número de cromosomas,


incluyendo la ausencia o copia adicional de un cromosoma completo (aneuploidía) o la
presencia de más de dos juegos cromosómicos completos (poliploidía). Un organismo con
un solo juego cromosómico se denomina haploide, un organismo con dos juegos es un
diploide y un organismo con juegos cromosómicos adicionales es poliploide. La aneuploidía
generalmente tiene repercusiones graves sobre el fenotipo, ocasionando enfermedades
genéticas graves e incluso inviabilidad del embrión dependiendo de la naturaleza del
cromosoma ausente o con copia adicional.

1.4.2. Tasas de mutación

Teniendo en cuenta que las mutaciones son la base de la evolución de los seres vivos,
es importante el conocimiento de las tasas de mutación en los diferentes linajes de los
seres vivos. La tasa de mutación es una medida de la ocurrencia de cambios en el material
genético a través del tiempo. La acumulación de mutaciones y la tasa de mutación en las
poblaciones son importantes para evaluar el estado y salud genética de las mismas.

Existe una relación inversamente proporcional entre la tasa de mutación y el tamaño


del genoma, la cual es aplicable para virus, procariotas y eucariotas unicelulares. Por el
contrario, los organismos multicelulares presentan una relación directamente proporcional
entre la tasa de mutación y el tamaño del genoma. Los procariotas presentan mayores
niveles de fidelidad en los procesos de replicación, transcripción y traducción que los
eucariotas. No obstante, a diferencia de los eucariotas, las procariotas y los virus acumulan
un mayor número de mutaciones en menor tiempo debido en gran parte a sus cortos
tiempos generacionales, por lo cual sus poblaciones evolucionan más rápidamente que las
de los eucariotas con mayores tiempos generacionales.

En los organismos unicelulares y multicelulares, la tasa de mutación por base replicada


es de similar magnitud (10-9 - 10-10), por lo tanto, en función del tamaño del genoma se

26
Conceptos en Ciencias Ómicas

observa que a mayor tamaño de este, mayor número de mutaciones por genoma replicado.
De lo contrario, los virus presentan las mayores tasas de mutación con respecto a los
demás organismos, aunque tienen los genomas más pequeños; en particular los virus de
ARN acumulan un número elevado de mutaciones por genoma replicado con respecto a los
demás, incluso otros virus de ADN.

Como caso especial, los virus con genomas de ARN presentan tasas de mutación en
órdenes de magnitud más altas que las tasas para procariotas, eucariotas e incluso virus
de ADN, con valores entre 10-6 y 10-3 de tasa de mutación por base replicada. Los virus
de ARN presentan altas frecuencias de mutaciones debido a la ausencia de enzimas ARN
exonucleasas que corrigen errores durante la replicación, y esto sumado a eventos de
recombinación y altas tasas de replicación, repercute en que la tasa de evolución de los
virus de ARN sea millones de veces más rápida que la de sus hospederos eucariotas,
permitiendo una mayor diversificación y adaptación a presiones del ambiente. Por ejemplo,
el ADN humano requiere periodos de tiempo a escala geológica para evolucionar al mismo
nivel que los virus de ARN, los cuales evolucionan durante una sola generación humana.

1.4.3. Epigenética como fuente adicional de variación genética

Existe un tipo de variación genética que no radica en cambios en la secuencia del ADN, sino
que tiene otro origen en el genoma. Gemelos monocigotos con la misma secuencia de ADN
pueden exhibir fenotipos diferentes, pero ¿a qué se debe esta variación?, ¿es susceptible
de ser heredada? En parte, la respuesta yace en la epigenética, más precisamente, en los
cambios heredables en la expresión de los genes, más no en la secuencia de los mismos.
Es decir, la epigenética es una fuente de variación que involucra la modificación de las
bases nucleotídicas del ADN, que afecta la forma en que son ‘leídos’ los genes, activando
o desactivando genes (Allis & Jenuwein, 2016; Chadwick, 2015; Cortini et al., 2016). Los
eventos epigenéticos ocurren de manera normal en las células; a este respecto, contribuyen
a que existan diferentes tipos de células en los organismos, que llevan a cabo diferentes
procesos celulares y son fenotípicamente diferentes, aunque todas las células contienen
la misma secuencia de material genético.

Los mecanismos que participan en la epigenética, que dan lugar a la expresión diferencial
de los genes por modificación de la transcripción de los mismos, incluyen metilaciones,
modificaciones de las histonas, ARN de interferencia y elementos transponibles. A
continuación, se describe cada uno:

Metilación del ADN

Consiste en la adición enzimática de un grupo metilo al ADN, por acción de un tipo de ADN
metiltransferasa. Es un proceso con alta especificidad que ocurre en sitios CpG, que hacen
referencia a la ubicación de una citosina adyacente a una guanina unidas por un fosfato.

27
Modificaciones de histonas

Las histonas son proteínas acopladas al ADN en el núcleo, sobre las cuales se enrolla el
ADN para constituir la cromatina. Las modificaciones post-traduccionales de las histonas
repercuten en la organización de la cromatina y, por consiguiente, en las regiones del
ADN que quedarán accesibles para ser transcritas y expresadas. Estas modificaciones
comprenden acetilaciones, metilaciones, fosforilaciones y ubiquitinaciones.

Las metilaciones pueden activar o desactivar una región de la cromatina para la transcripción
dependiendo de la región donde ocurren; mientras que las acetilaciones y ubiquitinaciones
generalmente están asociadas a cromatina activa y las desacetilaciones con cromatina
inactiva. Un ejemplo de la importancia de las modificaciones de histonas como mecanismo
epigenético es la participación en la inactivación de uno de los cromosomas X en las
hembras, con el fin de evitar efectos de dosis génica por la presencia de dos copias de este
cromosoma (Brockdorff, 2011).

ARN de interferencia (ARNi)

Constituye el silenciamiento transitorio de genes por acción de moléculas cortas de ARN


que pueden inhibir la traducción de moléculas de ARNm o inactivar la transcripción de
genes por estructuración de la cromatina. En el primer caso, moléculas cortas de ARN
encuentran complementariedad con transcritos de ARNm (formando ARNs de doble cadena
o dsARN) y se acoplan a proteínas específicas, formando un complejo de silenciamiento
inducido por ARN (ARN-induced silencing complex, o RISC), que lleva a cabo la degradación
del ARNm impidiendo la traducción a proteína. El segundo caso de ARNi involucra la
interacción de un complejo proteico en el núcleo que se une a moléculas cortas de ARN e
interactúa con residuos metilados de histonas, dando lugar a un complejo transcripcional
de silenciamiento inducido por ARN (ARN-induced transcriptional silencing, o RITS). Entre
las moléculas de ARN que participan en estas funciones se encuentran los small interfering
ARNs (siARN) y microARNs.

Elementos transponibles

Los elementos transponibles son secuencias móviles en el ADN que pueden contener
promotores, aisladores y señales involucradas en la regulación de la expresión génica,
los cuales tienen la capacidad de integrarse en diferentes regiones del genoma. De esta
manera, pueden afectar la expresión génica a nivel epigenético por intervención en los
sitios promotores de iniciación de la transcripción.

28
Conceptos en Ciencias Ómicas

1.5. Referencias

Allis, C. D., & Jenuwein, T. (2016). The molecular hallmarks of epigenetic control.
Nature Reviews Genetics, 17(8), 487–500. https://doi.org/10.1038/nrg.2016.59.
Balin, S. J., & Cascalho, M. (2009). The rate of mutation of a single gene. Nucleic Acids
Research, 38(5), 1575–1582. https://doi.org/10.1093/nar/gkp1119.
Barrick, J. E. (2016). What is the mutation rate during genome replication? Cell Biology
by the Numbers.
Bartel, D. P. (2009). MicroRNAs: Target Recognition and Regulatory Functions. Cell,
136(2), 215–233. https://doi.org/10.1016/j.cell.2009.01.002.
Bentley, S. D., & Parkhill, J. (2004). Comparative genomic structure of prokaryotes.
Annual Review of Genetics, 38(13), 771–792. https://doi.org/10.1146/annurev.
genet.38.072902.094318.
Bermudez-Santana, C., Attolini, C. S.-O., Kirsten, T., Engelhardt, J., Prohaska, S. J.,
Steigele, S., y Stadler, P. F. (2010). Genomic organization of eukaryotic tRNAs. BMC
Genomics, 11, 270. https://doi.org/10.1186/1471-2164-11-270.
Brockdorff, N. (2011). Chromosome silencing mechanisms in X-chromosome
inactivation: unknown unknowns. Development, 138(23), 5057–5065. https://doi.
org/10.1242/dev.065276.
Campbell, C. D., & Eichler, E. E. (2013). Properties and rates of germline mutations
in humans. Trends in Genetics, 29(10), 575–584. https://doi.org/10.1016/j.
tig.2013.04.005.
Cech, T. R., & Steitz, J. A. (2014). The Noncoding RNA Revolution- Trashing Old Rules
to Forge New Ones. Cell, 157(1), 77–94. https://doi.org/10.1016/j.cell.2014.03.008.
Chadwick, B. P. (Ed.). (2015). Epigenetics: Current research and emerging trends.
Poole: Caister Academic Press. https://doi.org/doi.org/10.21775/9781910190074.
Cortini, R., Barbi, M., Car, B. R., Lavelle, C., Lesne, A., Mozziconacci, J., & Victor, J. M.
(2016). The physics of epigenetics. Reviews of Modern Physics, 88(2), 1- 29. https://
doi.org/10.1103/RevModPhys.88.025002.
Daniell, H., Lin, C.-S., Yu, M., & Chang, W.-J. (2016). Chloroplast genomes: diversity,
evolution, and applications in genetic engineering. Genome Biology, 17(1), 134.
https://doi.org/10.1186/s13059-016-1004-2.
De Koning, A. P. J., Gu, W., Castoe, T. A., Batzer, M. A., y Pollock, D. D. (2011). Repetitive
elements may comprise over Two-Thirds of the human genome. PLoS Genetics, 7(12).
https://doi.org/10.1371/journal.pgen.1002384.
Drake, J. W., & Holland, J. J. (1999). Mutation rates among RNA viruses. Proceedings of
the National Academy of Sciences of the United States of America, 96(24), 13910- 3.
https://doi.org/10.1073/pnas.96.24.13910.
Dupont, C., Armant, D. R., & Brenner, C. A. (2009). Epigenetics: Definition, mechanisms
and clinical perspective. Seminars in Reproductive Medicine, 27(5), 351– 357. https://
doi.org/10.1055/s-0029-1237423.
Ekblom, R., & Wolf, J. B. W. (2014). A field guide to whole-genome sequencing,
assembly and annotation. Evolutionary Applications, 7(9), 1026– 1042. https://doi.
org/10.1111/eva.12178.

29
Elena, S. F., & Sanjuán, R. (2005). Adaptive Value of High Mutation Rates of RNA
Viruses : Separating Causes from Consequences. Journal of Virology, 79(18), 11555-
11558. https://doi.org/10.1128/JVI.79.18.11555.
Fischer, S., Bernard, S., Beslon, G., & Knibbe, C. (2014). A model for genome size
evolution. Bulletin of Mathematical Biology, 76(9), 2249–2291. https://doi.
org/10.1007/s11538-014-9997-8
Francioli, L. C., Polak, P. P., Koren, A., Menelaou, A., Chun, S., Renkens, I., … Sunyaev,
S. R. (2015). Genome-wide patterns and properties of de novo mutations in humans.
Nature Genetics, 47(7), 822–826. https://doi.org/10.1038/ng.3292.
Geslain, R., & Pan, T. (2011). tRNA: Vast reservoir of RNA molecules with unexpected
regulatory function. Proceedings of the National Academy of Sciences of the United
States of America, 108(40), 16489 - 16490. https://doi.org/10.1073/pnas.1113715108.
Goodenbour, J. M., & Pan, T. (2006). Diversity of tRNA genes in eukaryotes. Nucleic
Acids Research, 34(21), 6137–6146. https://doi.org/10.1093/nar/gkl725.
Griffiths, A., Gelbart, W., Lewontin, R., & Miller, J. (2002). Modern Genetic Analysis.
New York: W Freeman and Co.
Holland, J., Spindler, K., Horodyski, F., Grabau, E., Nichol, S., & VandePol, S. (1982).
Rapid evolution of RNA genomes. Science (New York, N.Y.), 215(4540), 1577- 85.
https://doi.org/10.1126/science.7041255.
Hori, H., Tomikawa, C., Hirata, A., Toh, Y., Tomita, K., Ueda, T., & Watanabe, K. (2014).
Transfer RNA Synthesis and Regulation. In Encycopledia of Life Sciences eLS (pp.
1–17). Ltd. https://doi.org/10.1002/9780470015902.a0000529.pub2.
Hou, Y., & Lin, S. (2009). Distinct gene number-genome size relationships for eukaryotes
and non-eukaryotes: Gene content estimation for dinoflagellate genomes. PLoS
ONE, 4(9). https://doi.org/10.1371/journal.pone.0006978.
Kirchner, S., & Ignatova, Z. (2015). Emerging roles of tRNA in adaptive translation,
signalling dynamics and disease. Nature Reviews Genetics, 16, 98 - 112. https://doi.
org/10.1038/nrg3861.
Krebs, J. E., Goldstein, E. S., & Kilpatrick, S. T. (2013). Lewin’s Genes. United States:
Jones & Bartlett Learning.
Ku, C.-S., Vasiliou, V., & Cooper, D. N. (2012). A new era in the discovery of de novo
mutations underlying human genetic disease. Human Genomics, 6(1), 27. https://
doi.org/10.1186/1479-7364-6-27.
Li, Y., & Zhou, H. (2009). tRNAs as regulators in gene expression. Science in China
Series C: Life Sciences, 52(3), 245–252. https://doi.org/10.1007/s11427-009-0039-y.
Lodish, H., Berk, A., Kaiser, C. A., Krieger, M., Bretscher, A., Ploegh, H., … Scott, M. P.
(2012). Molecular Cell Biology. New York: W Freeman and Co.
López-Flores, I., & Garrido-Ramos, M. A. (2012). The repetitive DNA content of eukaryotic
genomes. Genome Dynamics, 7, 1–28. https://doi.org/10.1159/000337118.
Lynch, M. (2010a). Evolution of the mutation rate. Trends in Genetics, 26(8), 345–352.
https://doi.org/10.1016/j.tig.2010.05.003.
Lynch, M. (2010b). Rate, molecular spectrum, and consequences of human mutation.
Proceedings of the National Academy of Sciences of the United States of America,
107(3), 961–8. https://doi.org/10.1073/pnas.0912629107.

30
Conceptos en Ciencias Ómicas

Malone, C. D., & Hannon, G. J. (2009). Small RNAs as Guardians of the Genome. Cell,
136(4), 656- 668. https://doi.org/10.1016/j.cell.2009.01.045.
Mehrotra, S., & Goyal, V. (2014). Repetitive Sequences in Plant Nuclear DNA: Types,
Distribution, Evolution and Function. Genomics, Proteomics and Bioinformatics,
12(4), 164–171. https://doi.org/10.1016/j.gpb.2014.07.003.
Miller, G. (2010). The Seductive Allure of Behavioral Epigenetics. Science, 329, 24 - 27.
https://doi.org/10.1126/science.329.5987.24.
Milo, R., Jorgensen, P., Moran, U., Weber, G., & Springer, M. (2009). BioNumbers The
database of key numbers in molecular and cell biology. Nucleic Acids Research,
38(SUPPL.1), 750–753. https://doi.org/10.1093/nar/gkp889.
Ørom, U. A., & Shiekhattar, R. (2013). Long Noncoding RNAs Usher In a New Era
in the Biology of Enhancers. Cell, 154(6), 1190–1193. https://doi.org/10.1016/j.
cell.2013.08.028.
Palazzo, A. F., & Lee, E. S. (2015). Non-coding RNA: what is functional and what is
junk? Frontiers in Genetics, 6, 2. https://doi.org/10.3389/fgene.2015.00002.
Parisien, M., Wang, X., & Pan, T. (2013). Diversity of human tRNA genes from the
1000-genomes project. RNA Biology, 10(12), 1853–1867. https://doi.org/10.4161/
rna.27361.
Parra, G., Bradnam, K., Ning, Z., Keane, T., & Korf, I. (2009). Assessing the gene space
in draft genomes. Nucleic Acids Research, 37(1), 289–297. https://doi.org/10.1093/
nar/gkn916.
Ponting, C. P., Oliver, P. L., & Reik, W. (2009). Evolution and Functions of Long
Noncoding RNAs. Cell, 136(4), 629–641. https://doi.org/10.1016/j.cell.2009.02.006.
Raina, M., & Ibba, M. (2014). TRNAs as regulators of biological processes. Frontiers in
Genetics, 5(JUN), 1 - 14. https://doi.org/10.3389/fgene.2014.00171.
Sander, J. D., & Joung, J. K. (2014). CRISPR-Cas systems for editing, regulating and
targeting genomes. Nat Biotech, 32(4), 347–355. Recuperado de http://dx.doi.
org/10.1038/nbt.2842.
Tchurikov, N. A. (2005). Molecular mechanisms of epigenetics. Biochemistry (Moscow),
70(4), 406 - 423. https://doi.org/10.1007/s10541-005-0131-2.
Treangen, T. J., & Salzberg, S. L. (2012). Repetitive DNA and next-generation sequencing:
computational challenges and solutions. Nature Reviews. Genetics, 13(1), 36 - 46.
https://doi.org/10.1038/nrg3117.
Veltman, J. a, & Brunner, H. G. (2012). De novo mutations in human genetic disease.
Nature Reviews. Genetics, 13(8), 565–75. https://doi.org/10.1038/nrg3241.
Weinhold, B. (2006). Epigenetics: the science of change. Environmental Health
Perspectives., 114(3), A160–A167. https://doi.org/10.1289/ehp.114-a160.
Wilson, D. N., & Cate, J. H. D. (2012). The Structure and Function of the Eukaryotic
Ribosome. Cold Spring Harbor Perspect Biol, 4, a011536. https://doi.org/10.1101/
cshperspect.a011536.
Woodhams, M. D., Stadler, P. F., Penny, D., & Collins, L. J. (2007). RNase MRP and
the RNA processing cascade in the eukaryotic ancestor. BMC Evolutionary Biology,
7(Suppl 1), S13–S13. https://doi.org/10.1186/1471-2148-7-S1-S13.
Yandell, M., & Ence, D. (2012). A beginner’s guide to eukaryotic genome annotation.
Nature Rev Genet, 13(5), 329–342. https://doi.org/10.1038/nrg3174.

31
2. BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ROMAIN GUYOT
SIMÓN OROZCO-ARIAS
ANDREA GONZÁLEZ MUÑOZ
MARCO AURELIO CRISTANCHO ARDILA

2.1. Orígenes e historia de la bioinformática

La bioinformática es un campo científico muy nuevo (de unas pocas décadas) y sus
orígenes aún no están claros. Además, la verdadera definición y áreas de aplicación de
la bioinformática no están bien definidas ni comprendidas por numerosos científicos. La
principal explicación para esta confusión en sus orígenes y definiciones radica en que
la bioinformática es un campo híbrido derivado de diversas disciplinas, tales como la
genética, biología, genómica, bioquímica, informática, matemática, entre otras.

La definición corta para la bioinformática puede ser el uso de la informática para manejar
y analizar la información biológica. En el 2001, el Centro Nacional de Información en
Biotecnología (NCBI, por sus siglas en inglés) definió claramente bioinformática como:

La bioinformática es conceptualizar la biología en términos de las macromoléculas (en el


sentido físico-químico) y luego aplicar técnicas “informáticas” (derivadas de disciplinas
como las matemáticas aplicadas, ciencia computacional y estadística) para entender y
organizar la información asociada con estas moléculas a gran escala (Luscombe et al,
2001).

No obstante ¿cuándo fue creada la bioinformática y qué tipo de información permite


entender y organizar? En la era de la secuenciación de genomas y transcriptomas a gran
escala, la tercera generación de tecnologías de secuenciación y la computación en la
nube, es interesante rastrear el origen y la historia de la bioinformática. En este capítulo
describiremos brevemente su historia y veremos numerosos conceptos y herramientas
descritos y establecidos hace más de 40 años por científicos pioneros. ¿Están estas
herramientas y conceptos adaptados a los nuevos desafíos de la secuenciación de alto
rendimiento?

2.1.1. Nacimiento de la Bioinformática: convergencia de información biológica,


teoría evolutiva y computadores

Los orígenes e historia de la bioinformática están cercanamente relacionados con la


disponibilidad de información biológica a “gran escala” (moléculas biológicas: proteínas
y nucleótidos) y la disponibilidad de computadores y lenguajes de programación para
investigadores académicos. Esta convergencia se logró en 1960 cuando surgieron
las primeras proteínas secuenciadas, los computadores y lenguajes de programación

32
Conceptos en Ciencias Ómicas

accesibles a no informáticos. La primera proteína secuenciada fue realizada por Frederick


Sanger (1955), la insulina bovina, de 51 aminoácidos, mientras el primer método de
secuenciación de nucleótidos fue establecido por Ray Wu de la Universidad de Cornell,
obteniéndose las primeras secuencias en 1970-1971. Rápidamente, se establecieron las
metodologías y técnicas para secuenciar proteínas y posteriormente nucleótidos (Métodos
de secuenciación de nucleótidos de Sanger, Maxam y Gilbert en 1977).

Además del mejoramiento técnico de la secuenciación, la teoría general que sugería que
las moléculas (proteínas y nucleótidos) podrían ser portadoras de información biológica y
evolutiva se expandió por la comunidad científica (Hagen, 2000). En 1954, surgió uno de los
lenguajes de programación de alto nivel de más amplia aceptación científica, denominado
Fortran, que fue desarrollado por Backus e IBM, y liberado por IBM en 1957. Fortran fue
considerado de fácil aprendizaje por científicos, incluso es usado hoy en día.

Posterior a esta convergencia, aparecen los primeros programas bioinformáticos para


determinar las secuencias de aminoácidos, las primeras bases de datos y herramientas
para extraer información de estas. Adicionalmente, el código de aminoácidos de una
sola letra fue desarrollado y liberado por Margaret Dayhoff de la Fundación Nacional de
Investigación Biomédica (NBRF, por sus siglas en inglés) (Dayhoff, 1965; Dayhoff, 1974;
Dayhoff et al., 1980; Orcutt & Dayhoff, 1983). Margaret Dayhoff y sus colegas también
organizaron proteínas en familias de acuerdo a sus similitudes, mediante el desarrollo
de la primera matriz de similitud (PAM) y describieron métodos para predecir relaciones
evolutivas, creando de facto la nueva rama científica de la evolución molecular.

Por todos estos logros pioneros, Margaret Dayhoff es considerada la fundadora del campo
de la bioinformática en sus definiciones modernas (en 1980 desarrolló incluso un sistema
de bases de datos en línea al que se podía acceder vía línea telefónica, la primera base de
datos de secuencias disponible para la búsqueda desde computadores remotos). Aunado
a lo anterior, la base de datos pionera de Margaret Dayhoff –llamada el “Atlas de Secuencia
y Estructura Proteica” – fue usada para establecer en 1984 la base de datos PIR (Recurso
de Información de Proteína), que aún es usada 33 años después por numerosos científicos
en todo el mundo.

La relativa acumulación de información biológica en los años 70 y 80 llevó al desarrollo


de bases de datos de secuencias de ADN. GenBank fue fundada en 1979 por Walter Goad
(la tercera liberación de GenBank en 1982 tenía 606 secuencias, contrastado con las ~201
millones a hoy). El EMBL fue fundado en 1980 en el Laboratorio Europeo de Biología
Molecular y el DDBJ fue creado en 1984 (Banco de datos de ADN de Japón). Más adelante,
herramientas de búsqueda como Entrez (Sistema de búsqueda global en base de datos
cruzada) fueron desarrolladas para permitir búsquedas rápidas en bases de datos vía
interfaz web y palabras clave.

33
Por lo tanto, con la primera base de datos de secuencias proteicas y los trabajos
pioneros de homología de proteínas surgió un gran interés en detectar homología y
similitud estadísticamente significativa entre proteínas lejanamente relacionadas,
creando herramientas y algoritmos para los alineamientos de secuencias (desarrollados
inicialmente en los años 70). El algoritmo Needleman y Wunsch, que continúa siendo un
método estándar y preciso para alinear dos secuencias, fue desarrollado para encontrar un
alineamiento óptimo mediante un enfoque de ventana corrediza o sliding window (usando
programación dinámica) (Needleman & Wunsch, 1970). Dicho alineamiento se conoce
ahora como “alineamiento global” entre dos secuencias, puesto que el algoritmo pretende
encontrar un alineamiento óptimo entre todos los residuos de las dos secuencias.

Más adelante, Smith y Waterman también estudiaron y desarrollaron métodos de


alineamiento local (Smith & Waterman, 1981), que consistieron en identificar y alinear
subregiones de secuencias basado en un sistema de puntuación usando una matriz de
similitud y un sistema de puntuación de gaps. Posteriormente, los algoritmos de alineamiento
múltiple (más de dos secuencias) fueron desarrollados por Johnson & Doolittle (1986), y
están basados en alineamientos sucesivos entre el par de secuencias más cercanas, que
ahora son comúnmente usados como paso inicial para estudios filogenéticos.

Otra convergencia basada en el desarrollo de bases de datos de secuencias (GenBank,


EMBL y DDBJ), así como los algoritmos para realizar alineamientos globales y locales
y el descubrimiento de diferentes organismos que comparten homología de secuencia,
promovieron el desarrollo de herramientas para la búsqueda de homología de secuencia
en bases de datos. De esta forma, se desarrollaron FASTA y BLAST en 1988 y 1990,
respectivamente, los cuales proporcionaron un método rápido para encontrar tramos cortos
de secuencias en grandes bases de datos de secuencia. La aplicación BLAST, actualmente
usada en numerosos sitios web, hace parte de las herramientas bioinformáticas más
populares, citada más de 50000 veces en artículos científicos y constituye una de las más
utilizadas por los científicos.

Desde los años 80, la secuenciación de ADN, que se hizo popular en los laboratorios de
biología molecular de todo el mundo, junto con el desarrollo de algoritmos y bases de
datos, llevaron a la determinación de los científicos de disponer de programas capaces
de manipular y analizar secuencias individuales o en conjunto. En los inicios, el Grupo
de Computación Genética de la Universidad de Wisconsin (UWGCG) desarrolló un primer
conjunto de programas sobre computadores VAX (Devereux, Haeberli & Smithies, 1984)
para analizar y manipular secuencias. Más tarde, se hizo disponible una suite comercial
de 130 programas para el análisis de secuencias (también llamado el Paquete Wisconsin
(Wisconsin PackageTM) (Womble, 1999)).

Con su instalación en un servidor Unix y disponibilidad vía remota por terminal de línea
de comandos, GCG fue muy popular para proyectos que abarcaban un gran número de

34
Conceptos en Ciencias Ómicas

secuencias, mediante el uso de una sucesión de programas. Una suite de programas


bioinformáticos libre y equivalente a GCG fue la llamada EMBOSS (Suite Europea de
Software Libre para Biología Molecular) (European Molecular Biology Open Software
Suite), creada en 1998 con un espíritu de código abierto (Rice, Longden & Bleasby, 2000)1.
Esta suite de programas reemplazó a GCG en un gran número de sitios en el mundo.

Finalmente, en los años 2000 los proyectos de secuenciación de genoma completo


de organismos eucariotas y procariotas (tales como levadura (Goffeau et al., 1996),
Arabidopsis (Kaul et al., 2000) y humano (Lander et al., 2001)) llevaron a una revolución
total en el campo de la bioinformática con el acelerado desarrollo de herramientas capaces
de analizar y ensamblar miles de secuencias, junto con herramientas para anotar y analizar
genomas completos. Fue en este momento en que la bioinformática salió del lado oscuro
de la ciencia y se hizo ampliamente popular y esencial para las ciencias biológicas. Entre
todos los institutos que participaron en el desarrollo de la bioinformática en los años
1990-2000, cabe destacar como pionero el Instituto para Investigación Genómica (TIGR,
por sus siglas en inglés), fundado por Craig Venter en 1992 (ahora integrado al Instituto
J. Craig Venter, http://www.jcvi.org/cms/home/), que participó en el desarrollo de
algoritmos pioneros para el ensamblaje y anotación de genomas, y ofrece cursos prácticos
en genómica, bioinformática para estudiantes y científicos de todo el mundo.

En este capítulo hemos visto que numerosos conceptos y herramientas que estaban
disponibles desde inicios de los años 70 y 80 permitieron el desarrollo de la bioinformática
en el contexto del análisis de cientos a miles de secuencias (Figura 2.1). Actualmente
existen más de 201 millones de entradas en GenBank (que representan más de 234 Giga
pares de bases (Gpb)), 487 millones de secuencias en la división de proyectos de Whole
genome shotgun (WGS) (que representan 2164 Gpb), junto con mucha más información
almacenada en el sistema repositorio de lecturas de secuencia Sequence Read Archive
(SRA) del NCBI (más de 100 Tera pb (Tpb) para el 2011).

Estos valores se duplican cada 18 meses. Esta cantidad de información, más lo que se
producirá con las nuevas tecnologías de secuencias, constituye uno de los retos de la
bioinformática, en términos del desarrollo de bases de datos y herramientas de análisis. Se
estima que para el año 2025 se tendrán datos de secuencia de al menos 1 billón de seres
humanos, sin contar los datos que se obtendrán a partir de otros grupos de organismos
(Stephens et al., 2015). Los retos que se presentan para una ciencia como la bioinformática
ante esta avalancha de datos son enormes en el desarrollo de sistemas eficientes de
transferencia, análisis, visualización y almacenamiento de datos.

1 Información disponible en http://emboss.sourceforge.net.

35
Alineamiento global Alineamientos Genoma
Primera secuencia Un sistema de base
Needlman & Wunsch múltiples humano
proteica (insulina de datos de
bovina) por F. Sanger proteínas "en línea" Genoma de
Arabidopsis
Primera colección de Técnicas de Alineamiento local ~20000
secuencias proteicas secuenciación de Smith & Waterman Genoma de genomas
(M. Dayhoff) ADN Sanger la levadura secuenciados

1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015

Primer modelo
probabilístico de
evolución proteica Base de
PAM (M. Dayhoff) datos PIR
DDBJ
Primeros
programas
Construcción de CGC
árboles filogenéticos
(Fitch & Margoliash)
GenBank

Primer
microprocesador EMBL FASTA
Liberación del Intel 4004
lenguaje de Fundación de BLAST EMBOSS
programación Microso
Fortran Protocolo
TCP
Creación de la WWW

Figura 2.1. Línea del tiempo del origen de la bioinformática.

2.2. Bioinformática y biología computacional: hardware, sistemas operativos,


sistemas de conectividad, lenguajes de programación, bases de datos y
repositorios

La bioinformática hace parte de un área mayor que es la biología computacional, la


cual involucra la combinación de las ciencias computacionales para la solución de
problemas biológicos. Como ciencia computacional, la bioinformática requiere del uso de
tecnologías e infraestructura de alto rendimiento para el almacenamiento, procesamiento
y manipulación de datos, las cuales están basadas en: hardware, sistemas operativos,
sistemas de conectividad y lenguajes de programación adecuados para su aplicación a
grandes volúmenes de datos. Además, la bioinformática depende fuertemente de bases de
datos y repositorios para el almacenamiento, disponibilidad pública y búsqueda de toda
la información biológica.

2.2.1. Computación de alto rendimiento (HPC) y computación en paralelo

Respecto al hardware, la bioinformática se sustenta actualmente en el uso de clústeres


(conjunto de equipos de cómputo, llamados nodos, unidos a través de una red de datos
de alta velocidad, que se comportan como un solo equipo de computación de alto

36
Conceptos en Ciencias Ómicas

rendimiento (High Performance Computing HPC), o computación en la nube, que se basa


en procesamiento de datos llevado a cabo en máquinas virtuales alojadas en servidores
remotos (Stephens et al., 2015).

Una arquitectura de clúster HPC está compuesta generalmente por uno o varios nodos
maestros, los cuales se encargan de la administración de toda la arquitectura, la interacción
directa con el usuario y el monitoreo de servicios; varios nodos de procesamiento, que
se encargan de ejecutar los procesos solicitados por el usuario; un sistema de archivos
distribuido; y un esquema de interconexión de alto rendimiento, como Ethernet, Myrinet
o Infiniband, que permiten una conexión en red veloz, con baja latencia, para transferir
datos entre nodos del clúster. Además, cada nodo está compuesto por unidades de
procesamiento, bien sea solo CPUs o en combinación con GPUs y MICs, con memoria
compartida y/o distribuida (Barrios, Ceballos & Bedoya, 2014).

Para sacar provecho de este tipo de infraestructuras se deben usar estrategias de


paralelismo que contemplen múltiples recursos al mismo tiempo, como varios CPUs de un
mismo nodo, varios computadores o incluso usar más de una tecnología de procesamiento
simultáneamente (CPUs, GPUs, MICs, entre otros), a través de computación paralela
(Ocaña & de Olieira, 2015; Orozco-Arias et al., 2017). La interfaz de paso de mensajes (MPI)
es considerada el estándar por defecto en la programación paralela (Khan, Jameel & Shafi,
2014), la cual permite la comunicación de procesos que corren en simultáneo sobre la misma
máquina o incluso en diferentes nodos. Existen diferentes paradigmas de paralelismo, tales
como: ejecutar procesos independientes simultáneamente, descomponer el problema en
tareas y ejecutarlas en paralelo, y añadir paralelismo a nivel de instrucciones, dividiendo
el problema en pasos y ejecutándolos en paralelo, cada uno procesando diferentes datos
(Aguilar & Leiss, 2004).

La capacidad de procesamiento de los supercomputadores actuales alcanza los petaflops2


y ha generado impacto en innovación en diferentes áreas de la ciencia y la ingeniería, al
convertirse en uno de los tres pilares de la ciencia (Fernández-González et al., 2015).

2.2.2. Sistema operativo Linux/UNIX

Con respecto a sistemas operativos usados para análisis bioinformáticos, es muy


importante que quien desee adentrarse en el mundo de la biología computacional y la
bioinformática aprenda a trabajar con facilidad desde la línea de comandos de UNIX/
Linux. Una impresión que aún se conserva entre la mayoría de los usuarios de PCs es que
Linux es muy complicado de instalar y de entender, pero en los últimos años la instalación
y el acceso a las diferentes distribuciones de Linux se ha simplificado dramáticamente,
hasta tal punto que ya no es necesario tener vastos conocimientos informáticos para
instalar alguna de estas en un computador personal. Así mismo, ha ayudado mucho en
la transición a sistemas operativos Linux, el hecho de que muchas de las distribuciones
2 Flops (Floating point operations per second) (Operaciones de coma flotante por segundo) es la unidad de medida de rendimiento en HPC.

37
están prestando especial atención a crear interfaces gráficas amigables y que no suponen
un cambio drástico para usuarios tradicionales.

La importancia de familiarizarse con cualquier sistema operativo basado en Linux radica


en que la mayoría de las mejores herramientas disponibles en este campo están diseñadas
para ser utilizadas desde la línea de comandos, debido a que permite un gran control
sobre la forma en que se ejecuta el programa, desde especificar las opciones hasta poder
correr múltiples trabajos al mismo tiempo y tener un control total de los procesos. Al
respecto, en la publicación de Junio de 2017 de la reconocida lista Top500 de las 500
supercomputadoras más rápidas del mundo, el 99,6% de estas supercomputadoras corren
bajo un sistema operativo Linux. Las supercomputadoras restantes (2) funcionan bajo un
sistema operativo IBM AIX, que es una variante del sistema UNIX.

2.2.3. Lenguajes de programación

Además de un sistema operativo que administre los recursos de hardware de manera


eficiente, los análisis bioinformáticos también dependen de programas y herramientas
para realizar el procesamiento y tareas de análisis sobre los datos. Estos programas están
escritos en lenguajes de programación (y aunque existen muchos), los más usados son
Perl, Python, Java, R, C y C++, entre otros.

Un lenguaje de programación se emplea para crear programas, scripts y algoritmos, y es


un lenguaje formal de computación que permite la realización de procesos a través de
instrucciones que son comunicadas al computador (Ben-Ari, 2006).

En tanto existen diferentes lenguajes de programación, un mismo programa desarrollado


en diferentes lenguajes puede variar frente a la eficiencia y velocidad para llevar a cabo
las tareas (Fourment & Gillings, 2008). Esto se debe a que los lenguajes pueden variar en
cuanto a la forma de ser implementados (compilados o interpretados), el paradigma que
siguen (imperativos, declarativos u orientados a objetos) y la forma de manipular datos o
variables, entre muchos otros aspectos. Por lo anterior, cada lenguaje tiene sus ventajas y,
por lo tanto, es más adecuado para uno u otro fin.

En este sentido, Perl es un lenguaje potente para escribir scripts; Python es un lenguaje
de fácil codificación; Java es un lenguaje portable orientado a objetos; R es un lenguaje y
ambiente para computación estadística; finalmente, C y C++ son muy eficientes en sistemas
operativos y controladores. De esta manera, la programación en bioinformática determina
varios aspectos computacionales en un análisis de datos, como espacio de memoria y
almacenamiento requerido, velocidad de computación y vinculación entre diferentes
programas involucrados en un mismo análisis global (implementado en los llamados
pipelines o flujos), entre otros (Fourment & Gillings, 2008).

38
Conceptos en Ciencias Ómicas

2.2.4. Bases de datos y repositorios

¿Cuánta información hay disponible? Si nos basáramos en los datos de secuencias de


genes obtenidos hasta ahora –201663568– se requerirían aproximadamente unos 20
exabytes de espacio de almacenamiento [un exabyte equivale a 200000 películas de Blu-
ray], desde que Genbank hizo accesible su base de datos de secuencias de ADN en 1992.
Sin embargo, con las nuevas tecnologías de secuenciación masiva estos datos rápidamente
se han convertido en el doble de secuencias – 487891767–, generadas en tan solo 15 años.

¿Dónde se almacena toda esta información? La información existente actualmente


se almacena, procesa, usa y mantiene en bases de datos que se incrementan por la
incorporación de secuencias proporcionadas por investigadores de todas partes del
mundo. Estas bases de datos son accesibles desde cualquier lugar del mundo a través de
Internet y contienen información no solo de secuencias de ADN o secuencias proteicas,
sino que tienen asociada toda una colección de publicaciones y textos científicos.
Las secuencias de ADN se mantienen en tres grandes bases de datos que sirven a la
comunidad científica: EMBL (European Molecular Biology Laboratory); GenBank (the NIH
genetic sequence database) y DDBJ (DNA Database of Japan). La más reciente edición
especial de la revista científica Nucleic Acids Research describe que existen al menos 1685
bases de datos de biología molecular (Rigden, Fernández-Suárez & Galperin, 2015), lo que
demuestra la explosión de datos con que cuentan los investigadores de las áreas de las
ciencias biológicas.

2.3. ‘Big Data’ en Bioinformática

Hemos visto que la bioinformática está orientada al análisis de los datos que se producen
en las ciencias ómicas, las cuales incluyen la genómica, transcriptómica, metagenómica,
proteómica, metabolómica, entre otras. En conjunto, estas ómicas componen un
conocimiento extensivo e integral de los sistemas biológicos a diferentes niveles y
representan cantidades masivas de información, hasta tal punto que la cantidad de datos
biológicos existente actualmente alcanza los exabytes (EB), equivalente a 106 Terabytes
(TB) (Li & Chen, 2014). Por esta razón, se habla actualmente de ‘Big Data’ en bioinformática,
por lo cual esta disciplina se está enfrentando a los desafíos tecnológicos que surgen a la
hora de adquirir, almacenar, distribuir, analizar e integrar Big Data para la extracción de
nuevo conocimiento.

Big Data se ha definido como todo el conjunto de datos que no se pueden procesar o
analizar utilizando procesos o herramientas tradicionales como bases de datos relacionales
o tablas de Excel. Así, la bioinformática se ha enfrentado al reto de optimizar procesos
en relación con el manejo del volumen de datos, la velocidad de procesamiento de los
datos y la variabilidad inherente a los datos biológicos. Tratar con Big Data en biología es
esencial, puesto que la naturaleza compleja y heterogénea de un sistema biológico amerita

39
investigaciones que abarquen grandes tamaños de muestra e integren datos de diferentes
niveles biológicos, con el fin de obtener una visión global y dinámica de los procesos y
fenómenos biológicos.

Un aspecto que ha contribuido a la acelerada producción de datos ha sido la posibilidad de


que investigadores particulares puedan generar grandes volúmenes de datos de secuencia,
lo cual hace una década requería de una red de centros de secuenciación (McCulloch,
2013). A este respecto, el proyecto de secuenciación del genoma humano representó un
esfuerzo de 13 años de trabajo y la colaboración internacional de investigadores científicos
de diferentes centros de investigación altamente reconocidos, con un presupuesto
aproximado de 2,7 mil millones de dólares, financiado principalmente por los Institutos
Nacionales de Salud (National Institutes of Health NIH) y el Departamento de Energía
(Department of Energy DOE) de los Estados Unidos, así como por otros grupos a nivel
mundial. Actualmente, un grupo de investigación pequeño puede obtener un genoma
humano secuenciado en tan solo 26 horas y por un costo cercano a los $1000 dólares.
Este panorama ha empoderado a investigadores en todo el mundo para poder realizar
investigaciones científicas a nivel ómico, permitiendo la disponibilidad de datos que lleven
a formular diversas preguntas de investigación a partir de los mismos, en comparación
con la generación de datos para responder una pregunta determinada (McCulloch, 2013).

Existen cinco tipos principales de datos en bioinformática, a saber: datos de expresión


génica; datos de secuencia de ADN, ARN y proteínas; datos de interacción proteína-
proteína; datos de vías metabólicas y datos de Gene Ontology (Kashyap et al., 2014). Por
consiguiente, la bioinformática también cumple la función de contribuir con repositorios y
bases de datos para toda esta variedad de información biológica, además de proporcionar
mejores recursos y herramientas computacionales para la manipulación y análisis de datos
(Stephens et al., 2015).

Como vimos anteriormente, la computación en paralelo y la computación de alto


rendimiento (HPC) –representada en nubes, clústeres, redes y unidades de procesamiento
gráfico–, implican un gran avance porque reducen el tiempo total de procesamiento de
grandes volúmenes de datos y facilitan el manejo de los mismos, dado que no es posible
analizar Big Data biológica en computadores personales (Ocaña & de Oliveira, 2015).

La enorme cantidad de datos ómicos, inexplorados en su gran mayoría, ha conducido a un


cambio de enfoque en las ciencias biológicas, desde una ciencia impulsada por hipótesis
a una ciencia de datos impulsada por el descubrimiento de conocimiento nuevo a partir
de datos disponibles, siguiendo metodologías libres de hipótesis (Ratti, 2015). Esto ha
apoyado el auge de la generación de datos, puesto que un gran número de investigaciones
en años recientes se han orientado a obtener secuencias de genomas, transcriptomas o
proteomas completos con el fin de explorar la información contenida en ellos, sin tener
alguna hipótesis específica que se desee comprobar.

40
Conceptos en Ciencias Ómicas

En este sentido, la extracción e interpretación de la información a partir de bases de datos


y repositorios ómicos usando algoritmos bioinformáticos es de gran importancia (Trifonova
et al., 2013). No obstante, con el gran volumen de datos capaces de ser generados, también
ha surgido una alta redundancia en los datos en cada nivel analizado, lo que a su vez
presenta un desafío para analizar la información y extraer conocimiento (Sarkar, 2016).
De esta forma, para Big Data en datos biológicos, igualmente ha sido muy necesaria la
aplicación de técnicas estadísticas y matemáticas para la integración de datos, así como de
estrategias para reducir el espacio de búsqueda en un conjunto grande de datos (Sarkar,
2016), con el fin de extraer información relevante en un contexto biológico dado, evitando
perderse en un océano de Big Data.

41
2.4. Referencias

Aguilar, J.L., & Leiss, E. (2004). Introducción a La Computación Paralela. Mérida:


editorial venezolana.
Barrios, C.J., Ceballos,D., & Bedoya, D. (2014). SC Camp 2014: Conceptos Generales
Sobre HPC Con Ejercicios Prácticos Aplicados a Bioinformática. Manizales,
Colombia: Memorias del SC Camp 2014.
Ben-Ari, M. (2006). Understanding Programming Languages. Chichester: John Wiley
& Sons, Ltd.
Dayhoff, M. O. (1974). Computer Analysis of Protein Sequences. En Computers in Life
Science Research (pp. 9–14) .Estados Unidos: Springer.
Dayhoff, M. O., Schwartz, R. M., Chen, H. R., Hunt, L. T., Barker, W. C., & Orcutt, B. C.
(1980). Nucleic acid sequence bank. Science, 209(4462), 1182-1182.
Dayhoff, M.O. (1965). Computer Aids to Protein Sequence Determination. Journal of
Theoretical Biology, 8(1), 97–112.
Devereux, J., Haeberli, P., & Smithies, O. (1984). A Comprehensive Set of Sequence
Analysis Programs for the VAX. Nucleic Acids Research, 12(1), 387–95.
Fernández, A., Rosillo, R., Dávila, J., & Matellán, V. (2015). Historical Review and Future
Challenges in Supercomputing and Networks of Scientific Communication. The
Journal of Supercomputing, 71(12), 4476 – 4503.
Fourment, M., & Gillings, M. (2008). A Comparison of Common Programming
Languages Used in Bioinformatics. BMC Bioinformatics, 9(1), 82.
Goffeau, A., Barrell, B. G., Bussey, H., Davis, R. W., Dujon, B., Feldmann, H., & Louis, E.
(1996). Life with 6000 Genes. Science, 274(5287), 546–567.
Hagen, J.B. (2000). The Origins of Bioinformatics. Nature Reviews Genetics, 1(3), 231–
36.
Johnson, M.S., & Russell, F. D. (1986). A Method for the Simultaneous Alignment of
Three or More Amino Acid Sequences. Journal of Molecular Evolution, 23(3), 267–78.
Kashyap, H., Ahmed, H. A., Hoque, N., Roy, S., & Bhattacharyya, D. K. (2015). Big Data
Analytics in Bioinformatics: A Machine Learning Perspective. Journal of Latex Class
Files, 13(9), 1–20.
Kaul, S., Koo, H. L., Jenkins, J., Rizzo, M., Rooney, T., Tallon, L. J., & Town, C. D. (2000).
Analysis of the Genome Sequence of the Flowering Plant Arabidopsis Thaliana.
Nature, 408(6814), 796–815.
Khan, O., Jameel, M., & Shafi, A. (2014). High Performance Message-Passing InfiniBand
Communication Device for Java HPC. Procedia Computer Science, 29, 1468–79.
Lander, E. S., Linton, L. M., Birren, B., Nusbaum, C., Zody, M. C., Baldwin, J., ... &
Funke, R. (2001). Initial Sequencing and Analysis of the Human Genome.
Li, Y., & Chen, L. (2014). Big Biological Data: Challenges and Opportunities. Genomics,
Proteomics & Bioinformatics, 12, 187–89.
Luscombe, N. M., Greenbaum, D., & Gerstein, M. (2001). What Is Bioinformatics? A
Proposed Definition and Overview of the Field. Methods of Information in Medicine,
40(4), 346–58.

42
Conceptos en Ciencias Ómicas

McCulloch, E. S. (2013). Harnessing the Power of Big Data in Biological Research.


BioScience, 63(9), 715–16.
Needleman, S. B., & Wunsch, C. D. (1970). A General Method Applicable to the Search
for Similarities in the Amino Acid Sequence of Two Proteins. Journal of Molecular
Biology, 48(3), 443–53.
Ocaña, K., & de Oliveira, D. (2015). Parallel Computing in Genomic Research: Advances
and Applications. Advances and Applications in Bioinformatics and Chemistry,
AABC (8), 23–35.
Orcutt, B. C., George, D. G., & Dayhoff, M. O. (1983). Protein and Nucleic Acid Sequence
Database Systems. Annual Review of Biophysics and Bioengineering, 12(1), 419–41.
Orozco, S., Tabares, R., Ceballos, D., & Guyot, R. (2017). Parallel Programming in
Biological Sciences, Taking Advantage of Supercomputing in Genomics. En Colombian
Conference on Computing (pp. 627–43). Cham, Alemania: Springer International
Publisching.
Ratti, E. (2015). Big Data Biology : Between Eliminative Inferences and Exploratory
Experiments. Philosophy of Science, 82(2),198–218.
Rice, P., Longden, I., & Bleasby, A. (2000). EMBOSS: The European Molecular Biology
Open Software Suite.
Rigden, D.J., Fernández-Suárez, X.M., & Galperin, M.Y. (2015). The 2016 Database Issue
of Nucleic Acids Research and an Updated Molecular Biology Database Collection.
Nucleic Acids Research, 44(D1), D1-D6.
Sarkar, R.R. (2016). The Big Data Deluge in Biology: Challenges and Solutions. Journal
of Informatics and Data Mining 1(2), 14.
Smith, T.F., & Waterman, M.S. (1981). Identification of Common Molecular
Subsequences. Journal of Molecular Biology, 147(1), 195–97.
Stephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Efron, M. J., & Robinson,
G. E. (2015). Big Data: Astronomical or Genomical? PLoS Biology 13(7), 1–11.
Trifonova, O. P., Il’in, V. A., Kolker, E. V., & Lisitsa, A. V. (2013). Big Data in Biology and
Medicine. Acta Naturae 5(3(18)), 13–16.
Womble, D.D. (1999). GCG: The Wisconsin Package of Sequence Analysis Programs.
Bioinformatics Methods and Protocols, 3–22.

43
3. SECUENCIACIÓN
ASTRID CATALINA ALVAREZ-YELA

El descubrimiento de la estructura de doble hélice del ácido desoxirribonucleico (ADN),


hecho por Watson & Crick en 1953, fue sin duda uno de los hechos más trascendentales
de todos los tiempos en la biología molecular. A partir de ese momento se empezaron a
descifrar los procesos celulares que subyacen en el dogma central de la biología molecular
y que determinan las características biológicas de los seres vivos. Desde entonces los
esfuerzos en investigación se enfocarían en entrar en esa doble hélice, leerla y descifrar la
distribución de las bases nitrogenadas que habían sido descritas en 1953.

En este capítulo haremos un recorrido a través del tiempo para conocer los métodos
y técnicas bioquímicas que han sido desarrolladas para determinar la secuencia de
nucleótidos del ADN. Describiremos las principales características de las tecnologías
desarrolladas comercialmente, teniendo en cuenta los métodos bioquímicos que emplean,
sus rendimientos, tasas de error y las ventajas que ofrecen.

3.1. Secuenciación de primera generación

3.1.1. Secuenciación Sanger

En 1977, el laboratorio de Frederick Sanger publicó el método de la terminación de la


cadena para secuenciación de material genético (Morozova & Marra, 2008), que más tarde
sería reconocido como el método Sanger, y que se convirtió en el primer paso hacia un
mundo de posibilidades ilimitadas en investigación científica a nivel genético. El método
se basa en la síntesis de la cadena complementaria de un molde de ADN en presencia de
2’, 3’-dideoxinucleótidos (ddNTPs), que actúan como terminadores de cadena irreversibles.

En este método el ADN que se analiza es clonado in vivo usando vectores bacterianos, para
obtener una cantidad suficiente de la muestra. Posteriormente, el ADN se extrae de los
vectores y se usa para el proceso de secuenciación en cuatro reacciones independientes.
Las reacciones se llevan a cabo en cuatro tubos diferentes que contienen los reactivos de
polimerización de ADN (cebadores, polimerasa, 2’-deoxinucleótidos (dNTPs), etc.) y sólo
uno de los cuatro diferentes ddNTPs. Cuando un ddNTP es introducido en la cadena, el
proceso de extensión termina y, como se desarrolla simultáneamente en las diferentes
copias del genoma, se obtienen fragmentos de diferentes longitudes con un último
nucleótido en común.

Los productos de reacción son analizados en un gel de electroforesis de poliacrilamida en


el que se cargan en cuatro pozos y se revelan gracias a la fluorescencia incorporada en
cada base. Finalmente, las bandas de corrida se analizan y la posición de cada nucleótido
en el gel es registrada para elucidar la composición de la secuencia estudiada (Kircher &
Kelso, 2010).

44
Conceptos en Ciencias Ómicas

Posteriormente, diferentes avances en los instrumentos de detección y en materiales


permitieron que el método Sanger tuviera mejoras importantes en la cantidad de datos
que podía generar y en el tiempo del proceso. La reacción de secuenciación se basa
en una modificación de la cadena de polimerasa (PCR, por sus siglas en inglés) con
dideoxinucleótidos marcados con fluoróforos y se mejora la velocidad de separación
de los fragmentos de ADN por el reemplazo de los geles de poliacrilamida por los de
electroforesis capilar en 1990 (Prober et al., 1987). Además se introduce el análisis paralelo
de varias muestras por medio de arreglos de capilares (Cohen et al., 1988), y se disminuye
las cantidades de material genético requerido para el proceso.

Con la tecnología Sanger disponible actualmente, alrededor de 384 muestras pueden


analizarse de forma paralela y pueden generarse lecturas de 600 a 1000 pb. Los
rendimientos con un equipo de 96 capilares han sido estimados en 6 megabytes (Mb) de
secuencias por día con costos aproximados de USD $500 por Mb (Kircher & Kelso, 2010).
Los errores principales de la secuenciación se deben a sesgos durante la amplificación
in vivo, que pueden presentarse dependiendo del vector utilizado, baja resolución de la
polimerasa en regiones repetitivas y homopoliméricas, poca reproductividad de variantes en
los extremos de las secuencias, mala asignación de bases y deleciones que se incrementan
con la longitud de las lecturas. Sin embargo, esta tecnología es una de las que presentan
menores tasas de error, alrededor de ≈ 10-6, y ha sido ampliamente usada en investigación
científica. Estas características marcaron la capacidad del primer equipo de secuenciación,
denominado posteriormente como equipo de primera generación.

Algunas de las plataformas comerciales basadas en el método de Sanger fueron:

• ABI Prism 310: fue lanzada en 1996 como el primer secuenciador capilar.
• GE Healtcare MegaBACE - ABI Prism 3700 DNA Analyzer: lanzadas en
1998 y 1999 como los primeros secuenciadores capilares paralelizados con
96 capilares en un solo sistema.
• ABI 3710xl: equipo lanzado en el 2000 con un arreglo de 96 capilares y
capaz de producir 900 lecturas con un Phred de 20, para un rendimiento
total de 96 kb/3 horas.

La tecnología Sanger dominó el mercado durante 30 años en los que permitió la obtención
del primer genoma secuenciado, correspondiente al bacteriófago φX174 (5.386 pb),
facilitó el estudio de genomas pequeños de diferentes microorganismos y contribuyó
significativamente a la secuenciación del genoma humano. Estos resultados impulsaron
iniciativas para el desarrollo de nuevas tecnologías, como por ejemplo, el programa de los
1000 genomas del Instituto Nacional de Salud (NIH) y el Instituto Nacional de Investigación
del Genoma Humano (NHGRI) de los Estados Unidos, financiado con más de 70 millones
de dólares (Mardis, 2011). Dicho desarrollo se hizo tangible en el 2005, con un cambio
total en la concepción de los equipos de secuenciación y el surgimiento de las plataformas
de nueva generación (del inglés: Next Generation Sequencing).

45
3.2. Secuenciación de segunda generación

La secuenciación de nueva generación o NGS, ha supuesto una revolución en las ciencias


de la vida en los últimos diez años, teniendo mayor relevancia en la biomedicina y en
la agronomía, sin embargo también ha adquirido una importancia en el estudio de la
diversidad biológica permitiendo el genotipado de miles de marcadores en cientos de
individuos (Schmutz, 2010).

Las nuevas plataformas centran sus esfuerzos en la creación de librerías genómicas para
secuenciación, en la paralelización del proceso y en el análisis de grandes cantidades de
datos; estas son las tres principales características que compararemos en este capítulo
porque representan a los equipos lanzados al mercado como equipos de segunda
generación, y las que han determinado el éxito y la permanencia de las grandes compañías
a través del tiempo.

Otra de las características novedosas de las tecnologías NGS es la probabilidad de


secuenciar fragmentos de ADN desde sus dos extremos, generando librerías pareadas para
el análisis. Si dichas secuencias pareadas se obtienen de fragmentos lineales, se denominan
librerías paired end (PE) y si se obtienen de fragmentos circulares, nos referiremos a
librerías mate pair (MP). Los tamaños de inserto aproximados para las librerías paired
end van desde 300 a 500 pb, mientras que las mate pair alcanzan longitudes de 1,5 a
20 kilobytes (Kb), generando mayor información sobre topologías estructurales del ADN
(Mardis, 2011). La ventaja de este tipo de implementaciones es que permiten descubrir
variaciones estructurales en el genoma, porque se reduce la probabilidad de que los
alineamientos a un genoma de referencia sean al azar, al restringirlos por dos lecturas que
deben ir acopladas.

3.2.1. Secuenciación 454

La primera tecnología de NGS lanzada al mercado se denominó 454, fue producida por
Roche Life Science en 2005 e inauguró el uso de PCR en emulsión para procesos de
secuenciación. Para iniciar el análisis, el ADN es particionado en diferentes fragmentos
a los que se les agregan adaptadores en los extremos, dichos adaptadores permiten su
captura dentro de perlas de estreptavidina que son incorporadas en gotas de emulsión.
Estas gotas tienen todos los reactivos de una reacción de PCR y actúan como pequeños
reactores en los que se producen alrededor de 107 copias de un molde de ADN (Margulies
et al., 2005). Idealmente, en cada gota de emulsión se ha cargado un único fragmento de
ADN y, por tanto, las copias son idénticas y altamente fieles al molde.

Cuando las copias están listas se procede a su secuenciación sobre una placa picotituladora,
la cual permite el análisis de los millones de fragmentos generados de manera simultánea
a través de un proceso denominado pirosecuenciación. Esta tecnología identifica
incorporaciones individuales de nucleótidos por medio de una cascada de reacción que

46
Conceptos en Ciencias Ómicas

termina en la producción de luz fácilmente detectada por el equipo. El proceso inicia


cuando las soluciones de polimerización, con cada uno de los dNTPs marcados, son
adicionadas de forma secuencial a la placa picotituladora y se libera pirofosfato (PPi)
cuando un nucleótido es incorporado a la cadena en extensión.

Este pirofosfato es transformado a ATP por una ATP sulfurilasa y el ATP es captado
por una luciferasa que lo usa para emitir luz (Kircher & Kelso, 2010). La producción de
quimioluminiscencia es detectada por una cámara con dispositivo de carga acoplada. Los
resultados son analizados y la presencia de los picos de luz permite establecer el orden de
los nucleótidos en la secuencia analizada. El método fue paralelizado posteriormente para
poder incorporar cerca de 2 millones de pozos en una única placa, donde se alojan perlas
de 28 µm de diámetro cubiertas con las cadenas sencillas a ser analizadas. Esta tecnología
fue adquirida por Roche en 2007.

Con 454 pueden generarse lecturas de 100 a 500 pb con un rendimiento aproximado de 80
a 120 Mb en 4 horas (750 Mb en un día), con un costo estimado de USD $20 por Mb (Kircher
& Kelso, 2010; Morozova & Marra, 2008). Sin embargo, algunas de las limitaciones de la
tecnología residen en la incorrecta estimación de regiones homopoliméricas, pequeñas
inserciones/deleciones, errores asociados a la incorporación de más de un fragmento
en una perla de amplificación o la reducción de la eficiencia de las enzimas, con una
consecuente disminución en la intensidad de la señal emitida.

Lo anterior conlleva tasas de error más altas que las de Sanger, alrededor de ≈ 10-3 ó
10-4, pero menores a las de otras tecnologías. Debido a sus características, 454 ha sido
la tecnología más utilizada en investigaciones científicas con más de 100 publicaciones
y ha sido altamente recomendada para la identificación de polimorfismos de nucleótido
simple (SNPs). Roche descontinuó su producción en 2016 por los bajos rendimientos y
altos costos frente a sus competidores.

Algunas de las plataformas comerciales de 454 fueron:

• 454 GS20: fue lanzada en el 2005 como el primer secuenciador comercial de


Roche. Producía lecturas de 100 pb y tenía una capacidad de 20 mega pares de
bases (Mpb) por corrida.
• 454 GS FLX Titanium: este equipo fue lanzado comercialmente en 2007, generaba
lecturas de 300 a 500 pb y tenía una capacidad de 450 Mpb por corrida. Fue
ampliamente usado para estudios que involucraban el mapeo y ensamblaje de
genomas.
• 454 GS Junior: equipo lanzado en 2009 como la versión de escritorio del GS FLX,
con una capacidad de 35 Mb por corrida, produciendo lecturas de 400 pb. Sus
características lo hicieron útil para proyectos de transcriptómica y metagenómica.

47
3.2.2. Secuenciación SOLiD

En búsqueda de innovación y con una tecnología diferente, Applied Biosystems desarrolló


la plataforma de secuenciación SOLiD que llegó al mercado con su primer equipo comercial
en 2007. Esta tecnología se basa en secuenciación por ligación que, de forma equivalente
a como se hace en 454, utiliza PCR en emulsión para la creación y amplificación de
las librerías. La diferencia radica en que, en este caso, los productos de reacción son
transferidos a una placa de vidrio donde se produce la secuenciación por medio de rondas
secuenciales de hibridación y ligación.

La secuenciación inicia con la adición de cebadores universales que son complementarios


a los adaptadores de los productos de PCR y de sondas de nucleótidos marcadas
fluorescentemente, sobre la placa de vidrio. Cada sonda está compuesta por dos bases
conocidas y una serie de seis bases degeneradas y universales, que pueden parearse con
cualquier molde de nucleótidos (Goodwin et al., 2016). Estas sondas se interceptan con los
amplicones a analizar y una ligasa se encarga de hacer la incorporación química, se lava
el exceso de reactivos y se revela la identidad de las bases incorporadas. Posteriormente,
se remueve el fluoróforo y las tres últimas bases degeneradas de la cadena en extensión,
se lava nuevamente la celda y se completa un ciclo de ligación. Este proceso se repite de
tal modo que se genera una cadena en la que se conocen dos bases cada tres bases sin
identidad.

La cadena generada se desnaturaliza y se remueve del molde para iniciar otro ciclo de
hibridación. En los siguientes cinco ciclos de hibridación se utilizan cebadores más cortos
que los utilizados previamente, con la diferencia en una base (n-1), de modo que al completar
el proceso cada nucleótido es analizado por duplicado permitiendo la discriminación
entre un error de secuenciación y un polimorfismo en la secuencia (Moorthie, Mattocks &
Wright, 2011). Existen 16 sondas de acuerdo a las combinaciones de dinucleótidos que se
pueden rastrear y que están marcadas fluorescentemente por cuatro colorantes, dando
como resultado un campo de color que debe ser registrado y analizado por el dispositivo
para generar la secuencia completa (Goodwin et al., 2016).

En 2008, y después de muchas transiciones corporativas, Applied Biosystems pasó a ser


Life Technologies. En el 2013, Thermo Fisher adquirió la compañía y es quien actualmente
comercializa equipos basados en la tecnología inicial. SOLiD puede generar lecturas de
25 a 75 pb con un rendimiento aproximado de 1-3 gigabyte (Gb) en ocho días. Uno de
los principales errores de la plataforma es la baja representación de regiones ricas en
GC, errores de sustitución y el llamado de falsas variantes, que contribuyen al error total
aproximado de ≈ 10-3 a 10-4 (Goodwin et al., 2016; Kircher & Kelso, 2010). Así mismo, se
presentan errores asociados a la creación de las librerías, mezcla de secuencias dentro
de las perlas de reacción, desfase en la secuenciación, remoción incompleta de los
colorantes y detrimento de la señal de los marcadores (Kircher & Kelso, 2010). En general,
sus características han hecho que sea utilizada con éxito en proyectos de genómica,
transcriptómica y epigenética, puesto que presenta altas tasas de precisión para detección
de mutaciones y variabilidad genética.

48
Conceptos en Ciencias Ómicas

Algunas de las plataformas comerciales de SOLiD son:

• SOLiD 3 plus: equipo comercial desde 2009 con un rendimiento de 60 Gb por


corrida y una precisión de 99,94% en los procesos de secuenciación. Puede
generar lecturas MP 2 x 50 pb y lecturas individuales de 50 pb.
• 5500xl SOLiD: equipo de escritorio lanzado al mercado en el 2011, puede producir
lecturas MP 2 x 60 pb y PE 75 pb x 35 pb, con una capacidad total de 600 Gb por
corrida (Life technologies).
• 5500w SOLiD: equipo lanzado en 2012 con una precisión de 99,99%.
Recomendado para detección de alelos de baja frecuencia en investigaciones
asociadas a enfermedades. Puede producir hasta 320 Gb por corrida, con lecturas
PE 2 x 50 pb.

3.2.3. Secuenciación Ion TorrentTM

En 2010, la compañía Life Technologies lanzó la primera plataforma basada en detección


óptica de los iones H+ que son liberados como resultado de la incorporación de un
nucleótido en un proceso de síntesis de ADN. El sistema usa un sistema semiconductor
integrado y un transistor de efecto de campo sensible a iones (ISFET), para detectar el
cambio en el pH generado por los iones liberados (Goodwin et al., 2016). Inicialmente, se
preparan las librerías de forma equivalente a la descrita para 454, de modo que se usa PCR
en emulsión para clonar los fragmentos de ADN a analizar. Posteriormente, las perlas con
los amplicones son distribuidas en micropozos donde se da la secuenciación por síntesis,
los nucleótidos son adicionados a la reacción de forma secuencial, se incorporan y generan
una señal de voltaje, como resultado del cambio de pH, que es detectada por el sensor
(Reuter, Spacek & Snyder, 2015).

Ion TorrentTM puede generar lecturas de 35 a 400 pb con un rendimiento aproximado de


50 Mb-15 Gb en 2-7 horas (Goodwin et al., 2016). Sus tasas de error se deben a la poca
discriminación de las regiones homopoliméricas que son mayores a seis pb e inserciones/
deleciones.

Algunas de las plataformas comerciales de Ion TorrentTM son:

• Ion Proton: equipo comercializado desde el 2012, produce lecturas de 200 pb con
una capacidad hasta de 10 Gb (Reuter, Spacek & Snyder, 2015). Recomendado
para secuenciación de exomas y análisis de transcriptoma completo.
• IonPersonal Genome Machine (PGM) Dx: equipo lanzado en el 2016, produce
lecturas de 400 pb con una capacidad de 1 Gb por corrida (Reuter et al., 2015). Útil
para resecuenciación de genomas y análisis de genomas pequeños.
• Ion S5 XL: equipo lanzado en 2016 con un sistema de preparación de librerías (Ion
Chef) y de cargado del sistema para automatizar todo el proceso. Sin embargo,
no genera librerías pareadas (Goodwin, McPherson & McCombie, 2016). Produce
lecturas de 200 a 600 pb, con una capacidad máxima de 16 Gb por corrida.

49
3.2.4. Secuenciación Illumina®

En el 2006, Solexa introdujo su primer equipo comercial basando su tecnología en


una secuenciación por síntesis que emplea ddNTPs modificados. Estos nucleótidos
tienen marcadores fluorescentes removibles y actúan como terminadores reversibles.
En el 2007 Solexa fue adquirido por Illumina® y la compañía inició su carrera de éxito
en la secuenciación de cientos de genomas de microorganismos, plantas y animales,
convirtiéndose en una de las más importantes a nivel mundial.

El proceso de secuenciación de Illumina® inicia con la disrupción del ADN y la creación


de librerías a partir de fragmentos de cadena sencilla que son ligados a dos tipos de
adaptadores. Los primeros adaptadores permiten que los fragmentos a analizar se unan
a una celda de flujo y contienen una zona para ligación de cebadores. Cuando están en la
celda, las moléculas se flexionan y se hibridan con oligonucleótidos complementarios al
adaptador del extremo libre, de modo que se forma una estructura de puente en la que se
da la síntesis de racimos de cadenas complementarias. Al final del proceso, cada racimo
puede contener hasta 1000 copias de un solo fragmento (Morozova & Marra, 2008). Las
cadenas complementarias constituyen amplicones obtenidos por PCR y representan las
cadenas principales y reversas de la secuencia original, con las que se inicia el proceso de
secuenciación en las dos direcciones.

La secuenciación se da en ciclos consecutivos en los que se dispone una mezcla con los
reactivos necesarios y un solo dNTP marcado y bloqueado para que se dé la síntesis de la
cadena complementaria a los amplicones iniciales. Los nucleótidos no ligados son lavados
junto con los residuos de reacción, se revela la identidad del que fue incorporado por la
fluorescencia emitida, se remueve el fluoróforo y el grupo bloqueado para que comience
el nuevo ciclo (Goodwin, McPherson & McCombie, 2016). Algunos de los nuevos equipos
producidos por Illumina® funcionan con un sistema de dos fluoróforos en lugar de cuatro,
requiriendo menos reactivos, mejorando el rendimiento y acelerando los procesos de
secuenciación (Reuter, Spacek & Snyder, 2015).

Con Illumina® pueden generarse lecturas desde 25 hasta 300 pb, con rendimientos
aproximados desde 36 Gb a 1,8 Tb en tiempos de 24 horas a tres días (Buermans & Den
Dunnen, 2014). A pesar de que la tecnología es más efectiva determinando regiones
homopoliméricas (99,5% de precisión), no es viable para resolver regiones repetitivas
cortas, por el tamaño pequeño de las lecturas producidas. Se han reportado tasas de
error alrededor de ≈ 10-2 - 10-3 asociadas a problemas de sustitución de nucleótidos, baja
representación de regiones ricas en AT y GC, ruido introducido durante la creación de las
librerías o desfases en la lectura de los racimos durante la secuenciación (Morozova &
Marra, 2008; Kircher & Kelso, 2010). A pesar de estas limitaciones, la secuenciación con
Illumina® es una de las más utilizadas actualmente para todo tipo de análisis genéticos e
investigaciones científicas.

50
Conceptos en Ciencias Ómicas

Algunas de las plataformas comerciales de Illumina® son:

• Solexa 1G analyzer: equipo lanzado en el 2006, genera lecturas 35 pb con


capacidad para producir 1 Gb de datos por corrida (Kircher & Kelso, 2010).
• NextSeq 500: lanzado en el 2014 como un secuenciador de escritorio y rápido para
pequeños laboratorios. Produce lecturas PE 2 x 150 pb y a su máxima capacidad
puede secuenciar 120 Gb o un genoma humano a 30x en 30 horas (Reuter et al.,
2015).
• HiSeq 2000: equipo introducido al mercado en 2014, genera lecturas 2 x 100 pb y
es capaz de producir 600 Gb de información por corrida. Fue el primer instrumento
en leer datos de las dos superficies de las celdas de flujo, doblando el rendimiento
de los equipos.
• MiSeq: lanzado en 2015 como un secuenciador de mesa personal, ideal para
secuenciación dirigida y de genomas pequeños (Reuter et al., 2015). Puede generar
lecturas PE 2 x 300 pb con un rendimiento de 15 Gb por corrida.
• HiSeq X Ten: es el instrumento con mayor capacidad generado hasta el 2016 y
lanzado en 2014 como un secuenciador a escala población. Produce lecturas PE
2 x 150 y su capacidad es de 1,8 Tb en tres días o 18000 genomas humanos por
año, a una profundidad de 30x (Reuter et al., 2015). Sin embargo, esta condición
limita su uso a pocas aplicaciones, como es el caso de la secuenciación de genoma
completo (WGS) (Buermans & Den Dunnen, 2014).
• HiSeq 2500: secuenciador lanzado al mercado en el 2015, produce lecturas PE 2
x 250, tienen un rendimiento de 1 Tb por corrida y en su configuración más rápida
puede generar un genoma humano a una profundidad de 30x en 27 horas (Reuter
et al., 2015).
• HiSeq 3000/4000: lanzada al mercado con una distribución de celdas compuesta
de billones de pozos de tamaño y espacio estandarizados de modo que permiten
mayor densidad de los racimos a secuenciar. Su capacidad es intermedia entre la
del HiSeq 2500 y el HiSeq X Ten y puede generar lecturas sencillas de 50 pb o PE
2 × 75 pb - 2 × 150 pb.
• NovaSeq 5000/6000: lanzada en 2017 incorpora tecnología de célula de flujo
modelada para generar un nivel de rendimiento sin precedentes para una amplia
gama de aplicaciones de secuenciación. Además aprovecha la tecnología de
secuenciación por síntesis (SBS) de Illumina® con el fin de ofrecer datos precisos
y un rendimiento robusto puede generar lecturas de 2 × 50 pb, 2 x 100 pb y 2 × 150
pb con una capacidad entre 167 Gb a 3000 Gb.

Una de las limitaciones más grandes de las lecturas cortas obtenidas a partir de los
equipos de segunda generación es que no son apropiadas para realizar ensamblaje de
novo de genomas porque éstos presentan regiones altamente repetitivas, con alteraciones
en el número de copias o variaciones estructurales, que son relevantes en los procesos de
evolución y adaptación de las especies (Morozova & Marra, 2008). Como se ha mencionado
previamente, el uso de lecturas pareadas facilita un poco la localización de estas regiones

51
y, por tanto, mejora en cierta medida el uso de estas tecnologías para estas aplicaciones,
sin ser suficiente.

Es por ello que las tecnologías más recientes, denominadas de tercera generación, buscan
generar una mayor resolución de estas regiones mediante la generación de lecturas más
largas (Kbs), lo cual eliminaría las ambigüedades de elementos problemáticos para la
secuenciación previa. Adicionalmente, las plataformas eliminan los errores asociados a la
amplificación inicial de los fragmentos de ADN por PCR, basándose en la secuenciación de
molécula única.

3.3. Secuenciación de tercera generación

3.3.1. Secuenciación HeliScope

En el 2009, Helicos Bioscience Corporation fue la primera compañía en introducir la


secuenciación en tiempo real de moléculas únicas y eliminar el uso de la PCR para
amplificar el material de estudio. El proceso de secuenciación inicia con el fraccionamiento
del ADN y la separación de las cadenas, después se adhiere una cola de poli-A a cada una
de las hebras por medio de una polimerasa que al mismo tiempo introduce una adenina
fluorescentemente marcada. Los fragmentos procesados son dispuestos en una celda
de flujo donde se ligan a nucleótidos de poli-T y donde su captura puede revelarse por
la emisión de fluorescencia de las adeninas. Con las coordenadas establecidas para las
cadenas, se elimina la marcación fluorescente e inicia la identificación de bases (Kircher &
Kelso, 2010).

Las polimerasas encargadas de hacer la extensión de la cadena reversa a partir de la


región de poli-T son dispuestas sobre la superficie de la celda, junto con uno de los cuatro
dNTPs marcados fluorescentemente. Debido a una ralentización de la incorporación de
los nucleótidos por la presencia del marcador, se espera que un único nucleótido sea
incorporado antes de que se revele la celda y los reactivos sean lavados de la plataforma
para repetir el proceso con los siguientes nucleótidos. Debido a sus características, no
todas las moléculas se secuencian de forma sincronizada y el proceso es un poco más
lento. A pesar de su innovación, esta tecnología no ha tenido mayor acogida en el mercado
y su alto costo ha impedido que sea comercializada exitosamente.

HeliScope puede generar lecturas de 24 a 70 pb con un rendimiento aproximado de 4150


Mb por día y un costo aproximado de USD $0,33 por Mb (Kircher & Kelso, 2010). Las tasas
de error asociadas al sistema son un poco mayores con respecto a otras tecnologías y se
asocian principalmente a problemas de inserciones/deleciones que limitan la resolución
de las lecturas a la hora de mapear adecuadamente genomas complejos.

52
Conceptos en Ciencias Ómicas

3.3.2. Secuenciación PacBio®

La plataforma más usada hasta el momento para la generación de lecturas largas fue
lanzada por Pacific Bioscience® en 2010 y se basa en la secuenciación de moléculas
únicas en tiempo real (SMRT). La preparación de los fragmentos a secuenciar inicia ligando
adaptadores en forma de horquilla sobre los extremos de moléculas de ADN o ADNc
digeridas, generando un molde con tapa (campana SMRT). Este molde es leído varias veces
por una polimerasa, aumentando así la precisión y generando cadenas complementarias
con una secuencia consenso circular para cada molde (Goodwin et al., 2016; Reuter et al.,
2015).

Este proceso ocurre en celdas de flujo especializadas para detección de señales, con miles
de pozos de fondo transparente (ZMW), en los que se fija la polimerasa para permitir que
la cadena de ADN a analizar sea procesada. La síntesis de las cadenas complementarias
de ADN es visualizada en tiempo real en cada pozo por medio de una cámara que registra
el color y la duración de la luz emitida por los nucleótidos marcados, que se incorporan en
el fondo de la celda. Las señales emitidas se van registrando de forma secuencial porque la
polimerasa rompe el enlace del fluoróforo durante la incorporación y éste se difunde fuera
del pozo y lejos del sensor.

PacBio® puede generar lecturas de 10 a 15 Kb con un rendimiento aproximado de 1 Gb en


cuatro horas, empleando librerías con tamaños de inserto que van desde 250 pb hasta 40
Kb (Reuter et al., 2015). Las tasas de error del sistema son altas, pueden llegar hasta un
15% y son dominadas por problemas de inserción/deleción de nucleótidos. Sin embargo,
se puede superar esta limitación con una cobertura suficientemente alta y la compañía ha
anunciado mejoras en los equipos que ayuden a corregir este problema. Así, PacBio® se
ha convertido en la mejor opción para las aplicaciones que requieren ensamblaje de novo
de humanos, animales o plantas, en tanto que permite revelar las estructuras genómicas
complejas (variación estructural, isoformas, etc.), para generar transcritos de longitud
importante y, adicionalmente, para análisis de bases modificadas por seguimiento a las
cinéticas de polimerización.

Las plataformas comerciales de PacBio® son (Pacific bioscience, 2016):

• PacBio® RS II: después del PacBio® RS, que fue vendido a un grupo limitado de
clientes, el PacBio® RS II llegó al mercado en 2013. Es capaz de producir lecturas
promedio 15 Kb con algunos fragmentos individuales que pueden alcanzar hasta
los 60 Kb y tiene un rendimiento máximo de 1 Gb por corrida.
• PacBio® Sequel System: equipo lanzado en 2015 con una capacidad de
secuenciación diez veces mayor a la del RS II.

53
Tras la eliminación de la amplificación del ADN por PCR, con la tecnología de secuenciación
de molécula única, y de los ciclos iterativos de procesamiento, con la secuenciación en
tiempo real, una nueva generación de tecnologías llegaría al mercado con la eliminación
final de la necesidad de usar la polimerasa para mediar la lectura de los nucleótidos en una
secuencia de interés. La única tecnología de cuarta generación que ha llegado al mercado
elimina esta dependencia y ofrece una concepción diferente de la secuenciación.

3.3.3. Secuenciación Oxford Nanopore

En 2014, Oxford Nanopore Technologies lanzó al mercado el primer prototipo de


un secuenciador basado en nanoporos. La tecnología cambió la concepción de los
secuenciadores tradicionales al detectar directamente la composición del ADN a partir de
una molécula de cadena sencilla que se transloca por un poro y bloquea el paso de voltaje
a través del sistema. La translocación requiere el acoplamiento de un motor secundario
que, por lo general, es otra proteína. Los bloqueos generados en el poro producen cambios
en el voltaje que son característicos para cada secuencia de ADN y se relacionan con las
cerca de 1000 posibles señales detectables por el equipo.

La preparación de las librerías para la secuenciación es sencilla, el ADN es fragmentado y


se agregan adaptadores a los extremos: uno para ligar la enzima translocadora y el otro
para formar una estructura de horquilla que permite el paso de la cadena líder, seguida
de la cadena reversa (Reuter et al., 2015). Tras el proceso se generan lecturas 1D y 2D que
pueden alinearse para crear la secuencia consenso. Las plataformas actuales son celdas
de flujo con cientos de micropozos independientes que contienen bicapas sintéticas en
donde están insertados los nanoporos, ya sea de origen biológico o de estado sólido
(Goodwin et al., 2016). Los nanoporos de estado sólido han sido diseñados en membranas
inorgánicas de nitrilo de silicona, aluminio o grafeno. Los nanoporos de origen biológico
más usados corresponden a canales de α-hemolisina, de la porina MspA o de canales del
bacteriófago phi29 (Feng, Zhang, Ying, Wang & Du, 2015; Moorthie et al., 2011). Para hacer
la identificación de las bases, la molécula completa de ADN puede pasar a través del poro
o los nucleótidos individuales pueden ser alimentados consecutivamente por el sistema
de detección, después de escindirse de la cadena. Mejoras en la tecnología resolverán los
problemas actuales del sistema con respecto al control sobre la velocidad de translocación
del ADN a través de los poros, mejorando la precisión en la identificación de bases y
ampliando su rango de aplicaciones.

Con esta plataforma las tasas de error por inserción/deleción y sustitución son alrededor
del 30%, convirtiénlas en una limitante para su uso. Adicionalmente, se han reportado fallas
en el sistema a la hora de identificar bases modificadas, ya que estas alteran los cambios
reportados en el voltaje. Se espera que mejoras en la parte química y los algoritmos del
sistema permitan superar estas dificultades.

54
Conceptos en Ciencias Ómicas

Las plataformas de Oxford nanopore son:

• MK1 MinION: este equipo fue lanzado en el 2014 como el secuenciador más
pequeño del mercado con 3x10 cm, solo requiere un computador personal y es
una gran opción para trabajos de campo por su alta portabilidad. Genera lecturas
de 5 a 60 Kb de longitud y tienen una capacidad máxima de 10 Gb por corrida.
• GridIONx5: este equipo es un sistema de mesa compacto diseñado para ejecutar
y analizar hasta cinco celdas de Flujo MinION. Es ideal para laboratorios con
múltiples proyectos que necesitan las ventajas de la secuenciación nanopore:
preparación simple de las librerías genómicas, análisis en tiempo real y lecturas
largas. La versión actual de la química y el programa permiten la generación de
hasta 100 Gb de datos durante una ejecución y el módulo de cálculo es capaz de
analizar esos datos en tiempo real.
• PromethION: es un instrumento de mesa diseñado para análisis de alto
rendimiento y alto número de muestras. Su diseño modular permite un nuevo
paradigma de flujo de trabajo versátil en el que muchos experimentos diferentes
se pueden ejecutar en tiempo real, sin restricciones de tiempos de ejecución fijos.
Usa la misma tecnología que el secuenciador MinION. Planea ser la plataforma
más grande de generación de datos con 48 celdas de flujo, cada una con 3000
poros que detectan 500 pb por segundo. Su rendimiento total puede ser de 2 a 4
Tb por corrida a toda capacidad.

55
A continuación, se resumen las principales características de las plataformas de
secuenciación a través del tiempo (Tabla 2.1).

Longitud
Costo
Método de de Tasa de
Plataforma Fabricante Rendimiento estimado Link
secuenciación lecturas error
($USD)
(pb)
Sanger Applied Terminación de la 600 - 6 Mb/día ≈10-3 500/Mb https://www.
Biosystems cadena 1000 thermofisher.
- Life com/co/
Technologies en/home/
- Thermo life-science/
Fisher sequencing/
Scientific sanger-
sequencing.html
454 Life Science - Pirosecuenciación 700 - 35 - 700 Mb/ 10-3 ó 10-4 20/Mb http://allseq.
Roche >1000 día com/knowledge-
bank/
sequencing-
platforms/454-
roche/
SOLiD Applied Secuenciación por 25 - 75 125 - 400 10-3 ó 10-4 5,81/Mb https://www.
Biosystems ligación Mb/día thermofisher.
- Life com/co/
Technologies en/home/
- Thermo life-science/
Fisher sequencing/
Scientific next-generation-
sequencing/
solid-next-
generation-
sequencing.html
Ion Torrent Life Detección óptica 35 - 400 25 Mb - 2 ≈ 10-2 25 - https://www.
Technologies de iones H+ pb Gb/h 3500/Gb thermofisher.
- Thermo com/co/en/
Fisher home/brands/
Scientific ion-torrent.html
Illumina® Solexa - Secuenciación 25 - 500 1,5 - 25 Gb/h ≈ 10-2 - 10-3 20 - https://www.
Illumina® por síntesis con pb 1000/Gb Illumina.com/
terminadores
reversibles
Heliscope Helicos Secuenciación por 24 - 70 pb 4150 Mb/día ≈ 10-2 0,33/Mb http://seqll.
Bioscience síntesis com/
PacBio® Pacific Secuenciación de 10 - 15 Kb 1 Gb/4 horas 15% 1000/Gb http://www.
Bioscience moléculas únicas pacb.com/
en tiempo real
(SMRT)
Oxford Oxford Traslocación en 5 - 60 Kb 1,5 Gb/48 h 30% 750/Gb https://
Nanopore Nanopore nanoporos nanoporetech.
Technologies com/

56
Conceptos en Ciencias Ómicas

3.4. Referencias

Buermans, H. P. J., & Den Dunnen, J. T. (2014). Next generation sequencing technology:
Advances and applications. Biochimica et Biophysica Acta, 1842(10), 1932 - 1941.
http://doi.org/10.1016/j.bbadis.2014.06.015.
Cohen, A. S., Najarian, D. R., Paulus, A., Guttman, A., Smith, J. A., & Karger, B. L. (1988).
Rapid separation and purification of oligonucleotides by high-performance capillary
gel electrophoresis. Proceedings of the National Academy of Sciences, 85, 9660–
9663.
Deamer, D., Akeson, M., & Branton, D. (2016). Three decades of nanopore sequencing.
Nature Biotechnology, 34(5), 518–524. http://doi.org/10.1038/nbt.3423.
Feng, Y., Zhang, Y., Ying, C., Wang, D., & Du, C. (2015). Nanopore-based fourth-
generation DNA sequencing technology. Genomics, Proteomics and Bioinformatics,
13(1), 4–16. http://doi.org/10.1016/j.gpb.2015.01.009.
Goodwin, S., McPherson, J. D., & McCombie, W. R. (2016). Coming of age: ten years of
next-generation sequencing technologies. Nature Reviews Genetics, 17(6), 333 - 351.
http://doi.org/10.1038/nrg.2016.49.
Illumina. (2009). Go where the biology takes you. Recuperado de https://www.
Illumina.com/documents/products/brochures/brochure_genome_analyzer.pdf.
Kircher, M., & Kelso, J. (2010). High-throughput DNA sequencing - Concepts and
limitations. BioEssays, 32(6), 524–536. http://doi.org/10.1002/bies.200900181.
Life technologies. (Sin fecha). discover what comes from accuracy. Retrieved from
https://www3.appliedbiosystems.com/cms/groups/global_marketing_group/
documents/generaldocuments/cms_088661.pdf.
Mardis, E. R. (2011). A decade’s perspective on DNA sequencing technology. Nature,
470(7333), 198 - 203. http://doi.org/10.1038/nature09796.
Mardis, E. R. (2013). Next-Generation Sequencing Platforms. Annu. Rev. Anal. Chem,
6, 287–303. http://doi.org/10.1146/annurev-anchem-062012-092628.
Margulies, M., Egholm, M., Altman, W. E., Attiya, S., Bader, J. S., & Bemben, L. A. (2005).
Genome sequencing in microfabricated high-density picolitre reactors. Nature, 437,
376–380.
Metzker, M. L. (2010). Sequencing technologies - the next generation. Nature Reviews.
Genetics, 11(1), 31– 46. http://doi.org/10.1038/nrg2626.
Moorthie, S., Mattocks, C. J., & Wright, C. F. (2011). Review of massively parallel DNA
sequencing technologies. The HUGO Journal, 5(1– 4), 1 - 12. http://doi.org/10.1007/
s11568 011 9156-3.
Morozova, O., & Marra, M. A. (2008). Applications of next-generation sequencing
technologies in functional genomics. Genomics, 92(5), 255–264. http://doi.
org/10.1016/j.ygeno.2008.07.001.
Pacific bioscience. (2016). The Sequencing Marketplace. Recuperado de http://allseq.
com/knowledge bank/sequencing platforms/pacific-biosciences/.
Prober, J. M., Trainor, G. L., Dam, R. J., Hobbs, F. W., Robertson, C. W., Zagursky, R. J.,
… Baumeister, K. (1987). A system for rapid DNA sequencing with fluorescent chain-
terminating dideoxynucleotides. Science, 238, 336–341.

57
Reuter, J. A., Spacek, D. V., & Snyder, M. P. (2015). High-Throughput Sequencing
Technologies. Molecular Cell, 58(4), 586–597. http://doi.org/10.1016/j.
molcel.2015.05.004.
Watson, J. D., & Crick, F. H. C. (1953). Molecular structure of nucleic acids. Nature.
Recuperado de http://doi.org/10.1097/BLO.0b013e3181468780.

58
Conceptos en Ciencias Ómicas

II. “ÓMICAS”: GENÓMICA, METAGENÓMICA,


TRANSCRIPTÓMICA, PROTEÓMICA Y METABOLÓMICA
DIANA LÓPEZ-ALVAREZ

La era de las ciencias ómicas, que incluyen la genómica, transcriptómica, proteómica,


metabolómica, exómica, metagenómica y epigenética, ha surgido para describir diferentes
técnicas del campo de la biología con gran cantidad de datos a gran escala, y a su vez, ha
llegado para quedarse con miras a un futuro muy prometedor, que junto con los avances
informáticos, pretende ser la solución a miles de preguntas e inquietudes del diario
vivir, como por ejemplo: ¿cuántos microorganismos podemos encontrar en una muestra
ambiental?, ¿cómo se expresa en una determinada enfermedad un individuo enfermo
comparado con otro sano? o ¿cómo las variaciones del genoma de un individuo y su
relación con la enfermedad son importantes para entender, diagnosticar, tratar y prevenir
su salud?, ¿cómo responden las plantas respecto a eventos extremos ocasionados por el
cambio climático?, ¿cómo se pueden suplir las necesidades de abastecer una población
mundial en crecimiento a través de una agricultura sostenible que requiere de desarrollos
biotecnológicos?

De igual forma, estas ciencias están asociadas con el desarrollo de algoritmos basados
en modelos matemáticos y estadísticos, con el fin de almacenar, recuperar y compartir
datos de alto rendimiento, para la comparación de secuencias, la construcción del
árboles filogenéticos/evolutivos, el reconocimiento de patrones específicos en el genoma,
la anotación de secuencias, el desciframiento de rutas metabólicas o el diseño de
medicamentos (modelado molecular) (Yadav, 2015).

Mientras que el genoma, exoma, transcriptoma, epigenoma y el metagenoma se relacionan


con secuencias de ADN (ácido desoxirribonucleico) y ARN (ácido ribonucleico), y aprovechan
las mismas tecnologías que han impulsado la secuenciación genómica; el proteoma y el
metaboloma, se basan en tecnologías totalmente diferentes para generar datos. Este
volumen de datos está siendo gestionado con éxito por expertos en bioinformática a
través del desarrollo de bases de datos biológicas de acceso abierto a nivel mundial.

Además, tenemos a nuestra disposición y alcance, información no solo de datos, sino


también de literatura y programas computacionales, que con un pestañar siguen
apareciendo a un ritmo vertiginoso, en tanto surge un gran número de herramientas, que
ha fomentado iniciativas dirigidas a recogerlas y enumerarlas, un ejemplo de esto lo ofrece
la plataforma OMICtools con una recopilación de plataformas y bases de datos empleados
en la actualidad.

Otros casos son, el EBI, que tiene un portal de servicios de bioinformática que enumera
una variedad de bases de datos y herramientas adaptadas para temas específicos;
Bioconductor que proporciona herramientas de análisis y scripts desarrollados por los

59
estadísticos para una variedad de análisis y soluciones bioinformáticas; GitHUB el cual
es un repositorio gratuito que facilita la colaboración y el intercambio de herramientas y
funciones informáticas, y finalmente, Expert Protein Analysis System que es una biblioteca
particularmente reconocida por las herramientas de proteómica. Sin embargo, con esta
gran cantidad de posibilidades, es necesario ser precavidos con el uso de las herramientas,
ya que ninguna es integral e infalible, y se hace imperativo la elección con sensatez de las
más adecuadas para los propósitos del proyecto del usuario final. Por lo tanto, la gestión
y la minería de datos son dos temas importantes para la investigación generada por las
“ómicas”, exigiendo la intervención inmediata de la bioinformática.

En la actualidad, no hablamos de un genoma secuenciado sino de cientos y miles. Desde la


secuenciación del primer organismo vivo, la bacteria Haemophilus influenzae (Fleischmann
et al., 1995), se ha completado la secuencia completa o parcial de los genomas de 1236
arqueas, 103760 bacterias, 492 protistas, 2520 hongos, 401 plantas, 1153 animales, 46
viroides, 7465 virus y 19 genomas de otros organismos eucariotas (www.ncbi.nlm.nih.gov/
genome/browse). Además se cuentan con genomas de varios organismos modelos, con la
iniciativa del genoma de Arabidopsis thaliana en el año 2000, se obtuvo el primer genoma
de una planta modelo para identificar genes y determinar sus funciones, y abrió las puertas
a la secuenciación de otras plantas modelos de importancia para la agricultura debido
a su importancia económica y alimenticia como lo son Brachypodium distachyon (The
International Brachypodium Initiative, 2010) para los cereales templados; Lotus japonicus
(Sato et al., 2008) para estudiar el fenómeno propio de leguminosas en la fijación de
nitrógeno, de la misma manera que es usado el Medicago truncaluta (Young et al., 2007),
además se secuenció el primer cultivo de importancia mundial como lo es el arroz asiático
(Oryza sativa) (Goff et al., 2002a).

Estas especies junto con el sorgo (Paterson et al., 2009); maíz (Schnable et al., 2009);
soja (Schmutz et al., 2014); papa (The Potato Genome Sequencing Consortium, 2011);
garbanzo (Jain et al., 2013); cebada (The Barley Genome Sequencing Consortium, 2012);
sandía (Guo et al., 2013), melón (Garcia-Mas et al., 2012) y trigo (Brenchley et al., 2012)
tienen diferentes bases de datos con un genoma completo disponible al público que quiera
consultarlo y usarlo para estudios de mejora genética. En la actualidad hay más de 52
genomas de cultivos y árboles secuenciados y publicados.

¿Pero en qué se basa la elección de la secuenciación de un genoma? Se basa principalmente


en la importancia del organismo en nuestro entorno, en este caso, si causa enfermedades
en el hombre o son plantas base de nuestra alimentación o son especies de importancia
económica, o modelos representativos de los grandes grupos (plantas, mamíferos, insectos,
etc.) y resultan útiles para extrapolar su información a otros grupos mediante un enfoque
genómico comparativo. Lo anterior hace de la genómica, la ciencia de las “ómicas” con
mayor desarrollo y menores limitaciones económicas y técnicas.

Las ómicas también presentan una relación e impacto estrecho en el campo de la salud

60
Conceptos en Ciencias Ómicas

abarcando la medicina, epidemiología, nutrición y biotecnología, incluso, incluyendo otras


ómicas como la farmacogenómica, puesto que desde la secuenciación del genoma humano
presentado en 2001 (International Human Genome Sequencing Consortium, 2001), estas
ciencias han ido acercándonos a una medicina de precisión, cada vez más personalizada
y preventiva, porque una especificación exacta de todas las patologías a nivel individual,
pueden desencadenar a largo plazo en la erradicación completa de la enfermedad. Fuera
de presentarnos aplicaciones en evaluación de riesgos, prevención, diagnóstico de muy
alta tecnología y tratamiento, en los que los médicos, enfermeras, consejeros genéticos
y otros profesionales del cuidado de la salud pueden trabajar con las personas para
concentrar los esfuerzos en iniciativas que mantengan la salud de un individuo (Heinner,
2015); incluso desarrollando biomarcadores de seguimiento en enfermedades trasmisibles
y no trasmisibles para optar por nuevas intervenciones y guías de tratamiento médico
(Heinner, 2015).

Ha cobrado tanta importancia la medicina de precisión, que la administración del


presidente Barack Obama anunció en 2015 la secuenciación de un millón de genomas
humanos para este fin. Por consiguiente, el aumento de todos estos estudios basados en
ómicas necesita educación en las tecnologías asociadas y en bioinformática para llevar
a cabo buenos diseños y análisis experimentales adecuados. En este capítulo, nosotros
pretendemos proporcionar una visión general de las tecnologías actuales para generar,
analizar, usar y compartir datos de las ómicas.

61
4. GENÓMICA
DIANA LÓPEZ-ALVAREZ
ANDREA GARAVITO

El genoma incluye la totalidad de la información genética que posee un organismo,


tanto codificante (genes) como la no-codificante (regiones repetitivas, regulatorias e
intergénicas), de la cual dependen todas sus funciones biológicas. Se encuentra registrado
dentro del ADN de cada una de sus células, a nivel del núcleo y de organelos como las
mitocondrias y los cloroplastos.

La genómica es la ciencia que estudia los diferentes ámbitos del genoma, desde su
estructura y función hasta la interacción existente entre los genes y el ambiente en el
que se desarrolla el organismo. La genómica se subdivide en cuatro principales áreas,
dependiendo del ámbito de estudio que implican:

1. La genómica estructural, relacionada con el estudio de la naturaleza física del


genoma y la localización de los genes dentro de éste. Se basa en la secuenciación,
mapeo, ensamblaje y anotación del genoma, permitiendo la identificación e
utilización de variaciones estructurales. Es tal vez el área más conocida de la
genómica por las implicaciones actuales que tiene a nivel de la investigación
biológica.
2. La genómica funcional busca poder entender la relación entre los genes de un
organismo y sus características físicas (el fenotipo). Se basa en el estudio de
la función y la expresión de los genes, al analizar sus niveles de transcripción,
traducción, y las posibles interacciones entre ellos.
3. La genómica comparativa se encarga de analizar las diferencias y similitudes a
nivel estructural entre los genomas de múltiples organismos, determinando los
cambios evolutivos existentes y sus posibles implicaciones.
4. La genómica de poblaciones, que investiga de qué manera los procesos evolutivos
afectan el genoma, basándose en una evaluación de los cambios existentes en
el genoma de los individuos dentro de cada población y entre las diferentes
poblaciones. En el presente capítulo hablaremos principalmente de la genómica
estructural, y tocaremos algunos de los aspectos de la genómica comparada,
funcional y de poblaciones.

4.1. Consideraciones para la determinación de la estrategia de secuenciación


genómica a implementar

Determinar la estrategia para llevar a cabo una secuenciación del genoma de interés es
el primer paso a seguir, siendo crucial interrogarse sobre varias cuestiones básicas antes
de planificar y llevar a cabo el proyecto. El primer y más importante cuestionamiento es
determinar el por qué la secuencia del genoma del organismo es necesaria, y cuál es el

62
Conceptos en Ciencias Ómicas

objetivo al que se busca llegar con ella. Si se parte del hecho de que la secuenciación
completa de un genoma es un proceso largo, complejo y costoso, se debe considerar si
es posible o no responder a la pregunta biológica utilizando algún otro tipo de técnica
menos demandante. Si definitivamente la pregunta a responder requiere la secuenciación
del genoma, es importante determinar el nivel de refinamiento esperado, puesto que de
éste dependerá la metodología a utilizar y los recursos económicos y computacionales
requeridos para completar el proyecto.

Dependiendo de la tasa de error y la representatividad obtenida, los genomas se pueden


clasificar dentro de categorías que describen la calidad del ensamblaje (Chain et al., 2009):

1. Borrador estándar: secuencias provenientes de diferentes plataformas de


secuenciación, ensambladas en contigs (secuencia contigua de ADN construida a
partir del consenso entre secuencias más cortas).
2. Borrador de alta calidad: secuencia con una cobertura de al menos 90% del genoma.
3. Borrador de alta calidad mejorado: secuencia en donde se ha ejecutado la
corrección de los errores del ensamblaje por curación manual o automática, construido
supercontigs (unión de contigs, también llamados scaffolds), y colmado de brechas.
4. Genoma mejorado por anotación: las anomalías en las regiones codificantes han
sido corregidas, más no aquellas localizadas en las regiones repetidas. Es el estándar
base para muchos de los análisis que requieren secuencias genómicas como las
comparaciones de sitios de splicing alternativo y las reconstrucciones metabólicas.
5. Terminado, no contiguo: ensamblaje de alta calidad, que ha sido sometido a
mejoramiento manual o automático, en donde la mayoría de brechas, errores y
regiones de baja calidad han sido corregidos, por medio de datos y metodologías
complementarias a la secuenciación.
6. Terminado: secuencias con menos de un error por cada 100000 pares de bases, y en
donde cada replicón (cromosomas en el caso de eucariotas) está ensamblado en una
sola secuencia contigua.

Cabe anotar que bajo las anteriores premisas, solo unos cuantos genomas eucariotas se
encuentran a nivel de un genoma terminado. De hecho, en la base de datos GOLD, de más
de 132000 proyectos de secuenciación de genomas reportados hasta el momento, solo
unos 6500 genomas bacterianos y 287 eucariotas se consideran como terminados3. En
la actualidad solo existen unos cuantos genomas totalmente secuenciados y finalizados,
tales como: el genoma humano, el del ratón, el de Arabidopsis (pequeña planta de la
familia de las brasicáceas, que ha sido utilizada como modelo en plantas), y el del arroz,
todos ellos obtenidos con base en la metodología de clon por clon. Es de esperar que
con el avance en las tecnologías de secuenciación, muchos más genomas lleguen a estar
totalmente terminados en los años venideros.

Otro de los puntos importantes para tener en cuenta en la secuenciación de un genoma,


proviene de las características intrínsecas a la biología del organismo de interés, como la
3 Datos consultados en abril 2017 en la página https://gold.jgi.doe.gov/.

63
complejidad de su genoma y su nivel de heterocigosidad. Dichas consideraciones pueden
ser menos relevantes para la mayoría de animales y microorganismos, sin embargo, son
importantes al momento de secuenciar genomas de plantas.

Respecto a la complejidad del genoma, varios aspectos son altamente relevantes para un
programa de secuenciación genómica. El primero es el tamaño del genoma en estudio,
puesto que de él dependerá el número de lecturas necesarias para alcanzar la cobertura o
profundidad, y por ende, la calidad del ensamblaje deseado. Las variaciones en el tamaño
del genoma dentro de los taxones se encuentran en su mayoría dentro de una escala de
una a una y media orden de magnitud (Fedoroff, 2012). Pero existen casos excepcionales
como el de las angiospermas, donde el rango de tamaños genómicos varía en más de tres
órdenes de magnitud (con genomas haploides que se encuentran entre los 63 Mb y 150
Gb) (Kelly et al., 2012). Las variaciones pueden ocurrir entre organismos relativamente
cercanos, haciendo necesario conocer de antemano el tamaño estimado para la especie
de interés.

El segundo aspecto es el nivel de ploidía, porque tiene un efecto directo en el tamaño del
genoma, y a su vez en el grado de complejidad al momento del ensamblaje. Dicha complejidad
está ligada al alto grado de redundancia y a los posibles errores en la resolución de regiones
homólogas (Renny-Byfield & Wendel, 2014). En tercer lugar, se encuentra la existencia de
duplicaciones genómicas ancestrales recientes, que de la misma forma que los eventos de
poliploidización, pueden aumentar los errores en el ensamblaje de las regiones parálogas.
El último aspecto, aunque no menos importante, es el porcentaje de secuencias repetitivas.
Las secuencias repetitivas pueden representar hasta un 90% del genoma (Wegrzyn et
al., 2014), y puesto que dicho porcentaje está altamente correlacionado con el tamaño
del mismo, se esperan porcentajes altos en los genomas de mayor tamaño. La mayoría
de las secuencias repetitivas corresponden a elementos transponibles, principalmente
retrotansposones con LTR (Long Terminal Repeats), los cuales por su gran tamaño son los
responsables de muchas de las variaciones estructurales encontradas entre los genomas
de organismos relacionados y de la consecuente expansión en el tamaño del genoma
(Fedoroff, 2012).

La complejidad en el ensamblaje de un genoma está altamente ligada con el tamaño y


la cantidad de los retrotransposones presentes, puesto que éstos crean ambigüedades
en el ensamblaje que los programas no pueden resolver sin información adicional. Las
repeticiones pueden entonces ser colapsadas por los ensambladores en una sola secuencia,
crear quimeras al concatenar secuencias alejadas en el genoma o ser separadas en contigs
más pequeños dando ensamblajes altamente fragmentados (Treangen & Salzberg, 2012).

Para terminar, el último aspecto importante a tener en cuenta antes de un programa


de secuenciación genómica es el nivel de heterocigosidad del organismo en estudio. El
grado de heterocigosidad depende de varios parámetros poblacionales y de la biología
del organismo, siendo un indicador de la variabilidad genética dentro de la especie. El
ensamblaje de genomas con regiones altamente heterocigotas puede resultar en secuencias

64
Conceptos en Ciencias Ómicas

fragmentadas, debido a la falta de resolución de los márgenes entre las regiones altamente
heterocigotas, ensambladas en contigs alternativos y aquellas homocigotas ya colapsadas.

4.2. Diseño experimental

El diseño experimental es un término usado para planear eficientemente los métodos para
la obtención de los datos, con el fin de obtener la máxima cantidad de información a
partir de la menor cantidad de trabajo. Cuando se va a llevar a cabo un estudio en el
campo de las ómicas, es necesario establecer ciertas consideraciones antes de comenzar el
experimento, mencionadas previamente, todo esto con el fin de tener claro los pasos para
la generación de los datos de secuenciación. En la siguiente sección vamos a poner a su
disposición algunas consideraciones pertinentes:

• ¿Cuál es la pregunta que se quiere responder?


• ¿Cómo se decide cuántos datos se van a generar para responder a la pregunta?
• ¿Cuáles factores pueden influenciar la cantidad de los datos que se van a generar?

a. Número de muestras: ¿cuántas muestras son necesarias para llevar a cabo un


experimento?, ¿es necesario tener replicas biológicas y técnicas?, ¿es necesario tener
controles?
b. Tipo de lectura: una lectura es una secuencia simple de un fragmento que proviene
de una librería secuenciada. Pueden ser secuenciadas en una sola dirección y ser
lecturas simples provenientes de librerías single-end o tener dos lecturas provenientes
de librerías paired-end secuenciadas en dos direcciones. Las lecturas mate pair
provenientes de librerías Jumping, son largos fragmentos de ADN circularizados, en
los que la unión es capturada por un adaptador biotinilado. Finalmente tenemos las
lecturas Linked, cuya longitud está entre 50-100Kb.
c. Tipo de librerías: una librería es una colección de fragmentos de ADN que ha sido
preparada para ser secuenciada. Existen tres tipos de librería para datos cortos:
las provenientes de single-end, las de paired-end y las de mate-paired. En el caso
de datos PacBio®, se construyen dos tipos: CLR (Continuous Long Reads, por sus
siglas en inglés, reads largos continuos) y CCS (Circular Consensus Sequences, por
sus siglas en inglés, secuencias consenso circulares).
d. Número de lecturas: dependerá del nivel de exactitud y robustez que se quiera
llevar a cabo en el experimento. La profundidad de secuenciación (o cobertura
de secuenciación), corresponde al número de veces que se espera que cada
nucleótido sea representado en un cierto número de lecturas a una longitud dada,
puede reducir la tasa de error de las lecturas en los proyectos de secuenciación.
En términos generales, una mayor cobertura disminuye la tasa de error de cada
nucleótido en un ensamblaje de secuencias, no obstante, la selección de una mayor
o menor cobertura dependerá del propósito de estudio.
e. Longitud de las lecturas: para la mayoría de los experimentos son útiles las
lecturas más largas, aunque, si estas lecturas son de una calidad baja la utilidad se

65
perderá. Existen lecturas cortas de alta calidad; dependiendo del experimento será
la exigencia de una mínima longitud de lectura.
f. Complejidad de la librería: es considerado el número de distintos fragmentos en
una librería. No obstante, después de la amplificación, se pueden tener muchas
copias de un mismo fragmento inicial que no ayudan a aumentar dicha complejidad
e incluso puede ser perjudicial para su análisis.
g. ¿Cuál equipo de secuenciación se utilizará?: considerar qué tipos de lecturas se
obtienen y cuál es la longitud de las lecturas.

4.2.1. Muestreo

En caso de contar con tratamientos, las unidades experimentales se asignan a los


mismos de manera azarosa, con el fin de eliminar el efecto de las variables y los factores
incontrolados que pueden ocasionar variaciones a lo largo de la duración del experimento,
haciéndose necesario aleatorizar:

• Las muestras con respecto a los tratamientos.


• El orden de manipulación de las muestras.
• Las corridas, geles, librerías, geles y días en respecto a las muestras.

4.2.2. Réplicas

La replicación consiste en repetir la creación de un fenómeno, de modo que se puede


estimar la variabilidad asociada al mismo. En el diseño experimental de un estudio existen
diferentes tipos de réplicas, las cuales pueden ser biológicas o técnicas de la siguiente
naturaleza:

Réplicas Biológicas: son la unidad experimental con la que se lleva a cabo el


proyecto, por ejemplo, planta/animal, muestra ambiental, tejidos, etc. Deben ser
independientemente muestreadas de la población.

Réplicas Técnicas: cualquier repetición por debajo de la unidad experimental,


asociadas a un instrumento o a la preparación de las muestras, son útiles cuando la
variabilidad técnica es grande y pueden ser más económicas. Solo informarán sobre
la variabilidad en la medición media de una muestra única, como diferentes hojas
de la misma planta; diferentes alícuotas de la misma muestra ambiental y diferentes
alícuotas de la misma extracción.

Siempre damos más importancia a las réplicas biológicas que a las técnicas, no obstante,
cuando estamos pensando en evaluar una tecnología esa importancia se invierte, debido
a que es necesario estudiar la variación a diferentes niveles. Hay que tener en cuenta que
las repeticiones biológicas son a menudo más eficaces en el aumento de la potencia para
detectar metabolitos / genes diferenciales.

66
Conceptos en Ciencias Ómicas

Otra opción que tenemos en el muestreo es llevar a cabo, agrupaciones de “muestras”;


teóricamente, la agrupación puede reducir la varianza biológica, pero no las diferencias
técnicas. Cuando la cantidad de muestra individual es limitada o la tecnología es
extremadamente costosa, la agrupación de muestras puede aumentar la precisión de la
estimación del nivel de cambio entre dos grupos.

4.2.3. Extracción del ADN

Para secuenciar un genoma el primer paso es recuperar el ADN del organismo. Para
ello se necesita una muestra suficientemente grande de material (sangre, saliva, hojas,
dependiendo del tipo de organismo), a partir de la cual se busca obtener las moléculas
de ADN lo más intactas posibles, por medio de un proceso que busca liberar el ADN de
cada una de las células presentes en la muestra y purificarlo. Una vez obtenido el ADN es
procesado para permitir su secuenciación, siendo los pasos requeridos dependientes del
tipo de tecnología utilizada.

4.2.4. Tipos de secuenciación genómica

Como se mencionó anteriormente, la genómica estructural estudia la naturaleza física del


genoma, los genes, secuencias regulatorias y no codificantes presentes dentro de éste. Se
basa en la secuenciación, mapeo, ensamblaje y anotación del genoma, ya sea a nivel de
una muestra ambiental, como en algunos de los estudios en metagenómica (ver Capitulo
5), un organismo, o como se ha desarrollado en los últimos años, a nivel de una sola
célula (Gawad et al., 2016). Dependiendo de los objetivos y de los recursos disponibles, la
secuenciación puede focalizarse en la totalidad de un genoma o centrarse solo en algunos
segmentos específicos de éste.

4.2.4.1. Secuenciación del genoma completo o Whole genome Sequencing

Como su nombre lo indica, la secuenciación del genoma completo se basa en la obtención,


por medio de diferentes tecnologías, de la totalidad del genoma de un organismo, ya sea
por la primera vez (de novo) o usando una referencia como base (re-secuenciación).

La secuenciación de novo, se caracteriza por la obtención de un genoma ensamblado


a partir de secuencias cortas sin la utilización de un genoma de referencia previo. La
complejidad que revela secuenciar un genoma completo de novo es equivalente a tomar
una copia de una obra literaria, fotocopiar cada una de las páginas de ella varias veces,
pasar cada hoja por una trituradora de papel, y luego tratar de re-ensamblar una de las
copias completa para que pueda ser leída. De ninguna manera es lo mismo secuenciar
el genoma de una bacteria que el de un humano o el de un pino, porque el primero
equivaldría a un pequeño libro de algunas páginas, el segundo a un clásico de la literatura
universal, mientras que el tercero equivaldría a varios tomos de una enciclopedia. Para la
obtención de un genoma nuevo ensamblado correctamente se requiere obtener un número

67
de secuencias que representen varias veces la totalidad del genoma del organismo. El
número de veces dependerá del grado de complejidad, el tipo de tecnología utilizada y la
calidad deseada del ensamblaje final (Sims et al., 2014).

Por su parte, en la re-secuenciación de un genoma se utiliza una secuencia de referencia para


ayudar en el ensamblaje, proveniente de un organismo lo más próximo taxonómicamente
al organismo en estudio. La re-secuenciación sirve principalmente para encontrar las
diferencias entre los genomas de individuos de la misma especie o especies fuertemente
aparentadas. Dicho tipo de análisis se lleva a cabo, por lo general, en los estudios de
genómica comparativa (Guo et al., 2013), diversidad (Weigel & Mott, 2009), filogenia
(Rosenblum et al., 2013), y más recientemente de pangenómica (Hirsch et al., 2014).

Secuenciación de genomas completos

Desde la publicación de los primeros genomas completamente secuenciados, el bacteriano


Haemophilus influenzae (Fleischmann et al., 1995) y el eucariota Saccharomyces cerevisiae
(Goffeau et al., 1996), hasta nuestros días, ha habido un aumento casi exponencial en
el número de genomas publicados. Los primeros genomas secuenciados: H. influenzae
(Fleischmann et al., 1995); S. cerevisae (Goffeau et al., 1996); Caenorhabditis elegans
(The C.elegans Sequencing Consortium, 1998); Drosophila melanogaster (Adams et al.,
2000); Arabidopsis thaliana (The Arabidopsis Genome Initiative, 2000); Homo sapiens
(International Human Genome Sequencing Consortium, 2001) y Oryza sativa (Goff et al.,
2002b), dieron la pauta a nivel técnico y tecnológico para la secuenciación de genomas
completos.

Dichos genomas fueron obtenidos por secuenciación de tipo Sanger (ver Capítulo 3),
requiriendo pasar por la clonación del genoma fragmentado dentro de vectores moleculares
como los BACs (Cromosomas artificiales bacterianos).

Esta técnica, así como la secuenciación Sanger en sí misma, son procesos dispendiosos
tanto en el tiempo (13 años para alcanzar el primer borrador del genoma humano) y costos
derivados (300 millones de dólares para el mismo). A partir de 2005, con la comercialización
de las nuevas tecnologías de secuenciación Next generation sequencing o NGS, hemos
sido testigos de la creciente facilidad con la que se puede obtener la secuencia de un
genoma completo, del aumento en la resolución obtenida, y de la impresionante reducción
en los costos derivados.

Para finales del año 2015, el costo de obtención de un borrador de alta calidad de un
genoma humano estaba en menos de 1500 dólares, tardando 26 horas para su consecución
(sin incluir el tiempo necesario para los análisis bioinformáticos posteriores)4 .
Un ejemplo de las impresionantes repercusiones que ha tenido la espectacular reducción
de costos es el hito de 50 genomas de plantas secuenciados (ver Figura 4.1), que fue
alcanzando en 2013 (Michael & Jackson, 2013). Se espera en los años por venir que la
4 Para mayor información consultar la página https://www.genome.gov/sequencingcosts/.

68
Conceptos en Ciencias Ómicas

tendencia se conserve, e incluso que se acentúe, con la popularización en aumento de


las tecnologías de secuenciación de tercera generación o de secuenciación de una sola
molécula.

NovaSeq
Número acumulado de genomas

200

PACBIO Sequel
de plantas publicadas

Picea abies (120Gb)


150 Oryza sativa ssp japonica (430Mb)
Oryza sativa ssp indica (430Mb)

MinION
Populus trichocarpa (500Mb)

Sorghum bicolor (730Mb)


Arabidopsis thaliana (125Mb)

Genome Analyzer Solexa

Vitis vinifera (500Mb)

Zea mays (2.4Gb)

PACIBIO RS
100

Hiseq2000
ABI Solid
50 454

0
2000

2006

2009
2008
2004
2002
2003

2005

2007
2001

2010

2016
2014
2012
2013

2015

2017
2011
Año

Figura 4.1. Número de genomas de plantas publicados: representación gráfica del número
de genomas de plantas publicados en los últimos 18 años. Los datos provienen de la página
http://www.plabipd.de/

Estudios de epigenética

Los estudios de epigenética hacen referencia al análisis de los procesos de regulación


que no involucran la secuencia de ADN, sino que suceden durante la etapa de expresión.
Los principales casos de epigenética involucran la metilación de ADN en los residuos de
citosina, la modificación post-traduccional de las colas de las histonas que soportan el
ADN y posicionamientos de nucleosomas, entre otros. Su estudio es importante porque
dichas modificaciones están implicadas en procesos de oncogénesis y desarrollo en todo
tipo de cáncer. Dentro de las técnicas desarrolladas para hacer análisis de epigenética
encontramos la methyl-seq que consiste en la captura y enriquecimiento del ADN metilado,
seguido de una digestión selectiva de las regiones metiladas y no metiladas, modificación
de las bases con el grupo metil y secuenciación.

4.2.4.2. Secuenciación dirigida

Existen técnicas que permiten estudiar una parte representativa del genoma de un
individuo, caracterizar su genotipo y compararlo con el de otros individuos mediante

69
diferentes marcadores genéticos. Esto porque en ocasiones cuando el objetivo del
proyecto no requiere la realización de una secuenciación completa, existe la posibilidad
de hacer una selección de los fragmentos genómicos a secuenciar. Dicha selección pasa
por un enriquecimiento o una selección previa de los fragmentos, haciendo uso de una
gran variedad de técnicas fundamentadas en cuatro métodos moleculares: la captura por
hibridación, la amplificación por PCR, la amplificación utilizando sondas invertidas que
equivale a una combinación de las dos primeras y la utilización de enzimas de restricción.

La secuenciación dirigida presenta varias ventajas a la hora de la obtención de datos,


porque incrementa la profundidad de secuenciación para cada uno de los fragmentos
blancos, por lo tanto, la sensibilidad de detección, reduce los costos relativos por cada una
de las muestras al permitir agrupar varias de ellas en una sola línea de secuenciación (el
llamado multiplexing), disminuye la cantidad de ADN necesario por muestra, y finalmente,
incrementa la especificidad y la uniformidad de las secuencias obtenidas (Mamanova et
al., 2010).

La captura por hibridación, la amplificación por PCR y la amplificación por sondas invertidas
son comúnmente utilizadas en la secuenciación de exomas, mientras que la amplificación
por PCR y la utilización de enzimas de restricción se focalizan más en la obtención de
variantes y SNPs utilizados como marcadores moleculares, como en el caso del Genotyping
by sequencing o GBS (ver más adelante).

Las técnicas moleculares brindan información a diferentes niveles taxonómicos.


Todas tienen sus limitaciones y su aplicación estará determinada en gran medida por
la información que estamos buscando con la utilización de un sistema de marcadores
moleculares, así como por la disponibilidad de recursos necesarios para el desarrollo de
este tipo de técnicas.

Hay muchos tipos de marcadores moleculares disponibles, pero el que debe seleccionarse
de acuerdo a un determinado proyecto depende de:

• Los objetivos del proyecto.


• Las variables del germoplasma.
• Las poblaciones a analizar.
• El nivel de resolución.
• La existencia o no de un trabajo anterior del cual se pueda tomar ventaja para el
diseño de un marcador.

Sin embargo, una vez obtenidos los datos del secuenciador, la bioinformática nos permite
disponer de herramientas para identificar posibles marcadores a partir de los datos crudos.
No hay un método estándar para el procesamiento de los mismos, pero si existen unos
pasos mínimos que se llevan a cabo, en tanto el procesamiento puede variar dependiendo
de la construcción de las librerías y el método de secuenciación empleado.

70
Conceptos en Ciencias Ómicas

Empleando enzimas de restricción

Este método emplea el uso de enzimas de restricción (ER), para realizar cortes en regiones
específicas del genoma (enzimas sensibles a las regiones metiladas), obteniendo muchos
loci distribuidos al azar por el genoma. Entre los diferentes métodos que emplean ER se
encuentran la secuenciación de representación reducida (RRL), la secuenciación de ADN
asociada a los sitios de restricción (RAD-seq) y la secuenciación de baja cobertura para
genotipado (GBS).

Para su análisis bioinformático, el método emplea la detección de SNPs dentro de los


genomas, siendo el SNP un cambio en una base dentro de una secuencia de ADN y la forma
más común de variación genética. Con respecto a otras técnicas, este método incrementa
la rapidez a la hora de llevar a cabo la genotipificación de especies y permite la obtención
de un gran número de datos de alta precisión y costos moderadamente bajo.

De igual manera el ER efectúa análisis genotípicos y taxonómicos para construir mapas


genéticos y para identificar marcadores unidos a un carácter en particular. A este respecto,
si se muestrea una población es posible estimar su variabilidad genética al utilizar un
carácter o marcador que propicie la medición de dicha variabilidad, muy útil para varios
aspectos de la biología poblacional (análisis de paternidad, flujo de genes, etc.) y
mejoramiento genético. Ciertamente, es posible elaborar un mapa del genoma cuando se
tiene información sobre un número suficiente de marcadores genéticos repartidos de forma
representativa. La resolución de este mapa aumenta de forma proporcional a la cantidad
de datos disponibles. Una vez que se tiene el mapa del genoma se puede establecer la
correlación de los marcadores situados en este con una característica particular (como el
color, sabor, tamaño y resistencia a patógenos) e identificar la localización del gen o los
genes asociados a un carácter fenotípico.

RAD-seq “Restriction Associated DNA Sequencing”

Esta técnica fue originalmente descrita por Miller y colaboradores (2007) y está basada
en la plataforma de matriz de oligonucleótidos sonda (microarrays). Baird y colaboradores
(2008), adaptaron posteriormente los RAD-seq a la plataforma de secuenciación masiva
(amplificación por puente y secuenciación por síntesis) para detectar de manera eficiente
los polimorfismos de ADN sin necesidad de ningún conocimiento molecular de las especies
objeto de estudio.

Posteriormente, usando una secuenciación RAD de pares de fragmentos (paired-end


reads, RAD-PE), en la cual los dos extremos finales del fragmento de ADN (lecturas directa
y reversa; forward and reverse reads) son secuenciados, se puede mejorar la técnica para
generar a partir de ellos secuencias ensambladas (contigs) de mayor longitud y con buena
profundidad de cobertura (coverage), con el fin de genotipar las muestras (Etter et al.,
2011; Peterson et al., 2012).

71
Lo anterior se puede llevar a cabo, en tanto se dispone o no de un genoma de referencia.
Cuando se dispone de dicho genoma los reads pueden mapearse y localizarse en sus
cromosomas. En el caso de no disponer de tal genoma, como ocurre en la mayoría de
las especies no modelo, se procede al ensamblaje de novo de los reads obtenidos de la
secuenciación de los extremos de fragmentos amplificados en clústeres. La solidez de este
método ha sido corroborada por simulaciones en ordenador y mapeo (Amores et al., 2014).

El procesado y el análisis bioinformático de los datos generados (reads), de las distintas


muestras a genotipar, secuenciadas aleatoriamente en todo el genoma, y su posterior
alineación contra un genoma de referencia, permite identificar variaciones genéticas de
cambios en una única base nucleotídica o SNPs (Single Nucleotide Polimorphism), así como
inserciones y/o deleciones de las mismas. Los marcadores SNP han cobrado importancia
debido a su abundancia y variabilidad intraspecífica en los genomas de los individuos en
estudio (Gupta et al., 2008).

La técnica RAD consiste en la preparación de librerías genómicas empleando ER,


permitiendo obtener una representación fragmentada del genoma (Davey et al., 2011).
Tras la digestión del ADN genómico se añaden dos adaptadores terminales en los extremos
de los fragmentos, que se emplean para amplificar los fragmentos (fase clustering) y para
secuenciar sus regiones terminales directas y reversas (fase de secuenciación). Uno de
los adaptadores lleva en su secuencia un código de barras que permite identificar cada
muestra individual, y de esta manera es posible secuenciar hasta 96 muestras distintas en
una calle de la plataforma (lane) conjuntamente, formando una mezcla multiplex, previa
selección de los tamaños de fragmentos adecuados. La calidad de la librería de fragmentos
amplificados se verifica a través de la visualización en un gel de agarosa y cuantificando su
concentración (Davey et al., 2011); de esta forma se pueden secuenciar un gran número de
individuos, aunque a una baja cobertura.

Esta tecnología se ha aplicado principalmente en animales y plantas, algunos ejemplos en


plantas alógamas son: vid (Wang et al., 2012); cardo (Cynara cardunculus) (Scaglione et
al., 2012); girasol (Helianthus annuus) (Pegadaraju et al., 2013); eucalipto (Grattapaglia
and Sederoff, 1994), en el caso de las autógamas encontramos la cebada (Elshire et al.,
2011); el trigo (Poland et al., 2012) y Lolium (Hegarty et al., 2013) que se está empleando
actualmente en el estudio de diversas especies silvestres.

Los datos SNPs obtenidos de la técnica RAD están siendo utilizados para reconstruir
filogeografías y arboles filogénicos en diversos organismos (Lemmon & Lemmon, 2012;
McCormack et al., 2013; Zellmer et al., 2012), incluso sin disponer de un conocimiento
previo sobre la diversidad de sus genomas (Catchen et al., 2013; Mastretta-Yanes et al.,
2015; Nadeau et al., 2012; Rubin et al., 2012). El hecho de que los SNPs estén distribuidos
a lo largo del genoma nuclear y que vayan asociados a una variación neutra o adaptativa,
además de su relativa facilidad de genotipado y de transferencia tecnológica entre los
laboratorios (Ogden et al., 2013), ha permitido que un gran número de complejos de

72
Conceptos en Ciencias Ómicas

especies incluyendo las plantas poliploides comiencen a ser estudiadas con estos
marcadores (Buggs et al., 2012; Ilut et al., 2012; Lai et al., 2012; Wang et al., 2013).

GBS “Genotyping by sequencing”

Es un método para reducir la complejidad del genoma que también emplea enzimas
de restricción, pero sensibles a metilación para su digestión. Se diferencia de los RAD-
seq y RRL porque no lleva a cabo una selección de fragmentos por tamaño antes de la
secuenciación. Este método fue descrito la primera vez por Elshire et al. (2011).

La metodología es similar a RAD-seq, la ER más empleada es ApeKI, requiere de dos


tipos de adaptadores, incluyendo los barcodes, haciendo posible secuenciar hasta 384
muestras de forma simultánea en una corrida. La amplificación de los fragmentos con
los adaptadores ocurre mediante PCR y se realiza una purificación para eliminar restos
de adaptadores y reactivos, los que son evaluados mediante una electroforesis en gel de
agarosa y un espectrofotómetro antes de la secuenciación.

Empleando amplificación de PCR, hibridización por selección o amplificación


dirigida del genoma

Exoma

El exoma es la parte del genoma formado por los exones, los cuales son las regiones
codificantes que se van a transcribir para dar lugar a las proteínas. El estudio del exoma ha
cobrado relevancia en los últimos años y corresponde a una de las formas más completas
y complejas de estudiar nuestro ADN; un exoma humano consiste en, aproximadamente,
180000 exones que constituyen cerca del 1% del total del genoma (unas 30 megabases de
ADN). Su importancia radica en que se ha centrado en mapear variantes codificantes que
permiten identificar causas de enfermedades, ya que la mayoría de alelos involucrados
en enfermedades mendelianas afectan directamente la secuencia codificante. Además,
una alta proporción de las variantes que alteran una proteína afectan su función y son
deletéreas.

Genome Skimming

“Genome Skimming” es un término que comenzó a emplearse desde el 2012 (Straub


et al., 2012) para describir enfoques de secuenciación poco profunda, cuyo fin es el
descubrimiento de secuencias ortólogas conservadas para estudios filogenómicos. Se basa
en el enriquecimiento dirigido de regiones genómicas específicas, que son secuenciadas
empleando plataformas el alto rendimiento, proporcionando la oportunidad de ensamblar
y analizar fracciones genómicas de alta copia, como genomas plastídicos, mitocondriales
y ADN ribosomal nuclear (ADNr). Esta técnica también puede proporcionar secuencias
parciales de loci nucleares de baja copia, suficientes para diseñar cebadores de PCR o

73
sondas para aproximaciones de reducción del genoma basados en hibridación (Straub et
al., 2012).

Esta técnica se ha utilizado con éxito para una variedad de propósitos (Bock et al., 2014;
Malé et al., 2014), compensando el reducido número de marcadores independientes
recuperados frente a otras ventajas; no haciéndose necesario un genoma de referencia.
Teniendo en cuenta que se necesita una menor cobertura y se pueden secuenciar más
muestras con códigos de barras, reduciendo de manera crucial el coste por muestra, su
uso es bastante empleado para estudios poblacionales o filogenéticos que emplean altos
números de muestra.

Chip-seq

Busca identificar sitios de unión de proteínas al ADN usando inmunoprecipitación de


cromatina, enriquecimiento de los fragmentos de unión y su secuenciación con NGS. El
posterior mapeo de las secuencias obtenidas al genoma revela la ubicación de los sitios de
regulación o modificación de la cromatina.

4.2.5. Control de calidad

El control de calidad de los datos crudos permite llevar a cabo un análisis rápido del
estado de las lecturas obtenidas con el fin de identificar y excluir datos con problemas
serios de calidad. Las herramientas usadas permiten determinar la calidad de las bases
(probabilidad de que la base asignada sea la correcta), la distribución de los nucleótidos,
la distribución del contenido de GC, secuencias repetidas, entre otros parámetros, como
es el caso del programa FastQC 5.

Entre las estrategias para excluir datos, existe la tendencia a filtrar las lecturas que tengan
poca calidad, o cortarlos a partir de la posición en la cual la calidad comienza a decaer.
Entre los programas más usados encontramos Cutadapt6 , Trimmomatic (Bolger et al.,
2014) y FASTX-Toolkit7 . En el caso de lecturas largas, se han desarrollado flujos de trabajo
como el HGAP8 , sin embargo, hay que tener en cuenta que con los avances informáticos
actuales, todos los días tenemos nuevos programas en uso.

Otra situación a tener en cuenta frente al control de calidad son los contaminantes. En
la actualidad existen diferentes herramientas disponibles que sirven para realizar una
comprobación rápida de posibles contaminantes en lecturas de secuenciación de muestras
o librerías. Esto se lleva a cabo dándole a cada una de esas lecturas una asignación
taxonómica, que en algunos casos puede llegar hasta nivel de especie, detectando, de esta
manera, si las mismas están contaminadas con ADN de otras fuentes. Es decir, si se está
realizando un ensamblaje de novo de una especie X que desafortunadamente presenta
5 Al respecto se recomienda visitar la página http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
6 Para obtener más información sobre el programa se recomienda visitar la página http://code.google.com/p/cutadapt/.
7 Hay información disponible sobre el programa en http://hannonlab.cshl.edu/fastx_toolkit.com.
8 Hay información disponible sobre el programa en https://github.com/PacificBiosciences/Bioinformatics.Training/wiki/HGAP.

74
Conceptos en Ciencias Ómicas

secuencias de ADN de múltiples organismos que no han sido eliminados, el usuario se


arriesgará a obtener resultados pobres y contigs quiméricos.

Los contaminantes pueden ser el resultado de problemas a la hora de la extracción, como


consecuencia del tipo de colecta o muestreo realizado. Esto es bastante frecuente en el
caso de algas u otros simbiontes. Entre las herramientas más usadas para llevar a cabo la
asignación taxonómica de las lecturas, tenemos:

• Blast.
• Kraken9.
• Centrifuge10.
• Blobology11.

4.2.6. Ensamblaje

Una vez que se han limpiado restos de adaptadores en las lecturas obtenidas por el
secuenciador, y las secuencias de baja calidad han sido retiradas, es posible comenzar con
el ensamblaje del genoma. Idealmente, un ensamblaje de genoma es el set de secuencias
reunidas que mejor se aproxima al genoma secuenciado.

Dependiendo del tipo de genoma existen diferentes programas, cuya escogencia dependerá
principalmente del organismo con el que se está trabajando, y del tipo de secuenciación
utilizado. Para secuencias cortas, como las que se obtienen en la secuenciación Illumina®,
se utilizan programas basados en los grafos de Bruijn (DBG - De Bruijn graph assembly),
que son representaciones de los solapamientos entre fragmentos cortos de secuencias
llamados k-meros; mientras que para las secuencias más largas, como las obtenidas con
PacBio® o Nanopore® se usan los ensambladores basados en el consenso por solapamiento
(OLC – Overlap/Layout/Consensus assembly), que utilizan la similitud entre secuencias
para determinar los solapamientos.

En ambos casos las lecturas obtenidas son introducidas a los programas de ensamblaje,
capaces de entregar fragmentos únicos reconstruidos (llamados contigs). Lo que se busca
posteriormente es reorganizar dichos contigs con la ayuda de informaciones adicionales
que permitan organizarlos para construir lo que se llama scaffolds (supercontigs).

Como es de esperar, la reconstrucción de un genoma es un proceso dispendioso, cuyos


resultados dependerán de muchos factores ya explicados previamente (calidad de la
secuenciación, la metodología utilizada, la cobertura utilizada, y la información adicional
que se disponga). La mayor parte de los proyectos de secuenciación de genomas se basan
en la secuenciación aleatoria (shotgun), por consiguiente, es de esperarse que en su gran
mayoría lo que se obtiene al final es un borrador aproximativo del genoma en estudio,

9 Acerca de Kraken se sugiere visitar https://ccb.jhu.edu/software/kraken/ https://github.com/DerrickWood/kraken.


10 Sobre Centrifuge se recomienda visitar https://ccb.jhu.edu/software/centrifuge/.
11 Sobre Blobology se recomienda visitar https://github.com/blaxterlab/bloboloy.

75
cuyo nivel de refinamiento depende de los factores ya mencionados. A continuación, se
detallan algunos programas bioinformáticos para el ensamblaje de genomas, clasificados
de acuerdo con los pasos de análisis: 1. Ensamblaje y 2. Evaluación de la calidad del
ensamblaje.

Ensamblaje

SPAdes

Es un set de herramientas diseñando para ensamblar genomas, concebido como una


plataforma escalable y fácil de modificar, se fue ampliando gradualmente en una familia
de herramientas SPAdes, dirigidas a varias tecnologías y aplicaciones de secuenciación,
utilizando por defecto una mezcla de valores de k en sus k-meros. Requiere como archivos
de entrada lecturas en “paired-end”, “mate-pairs”, y no pareadas, en formatos BAM, FASTA
y FASTQ. Acepta lecturas de Illumina®, Ion TorrentTM, y PacBio®12 (Bankevich et al., 2012).

Además del ensamblador SPAdes constantemente actualizado, ahora incluye:

• MetaSPAdes: ensamblador para datos metagenómicos.


• RnaSPAdes: ensamblador de novo para RNA-seq (en preparación, Comunicación
personal).
• PlasmidSPAdes: ensamblaje de plásmidos a partir de los datos de secuenciación
del genoma completo.
• ExSPAnder: módulo para la resolución de repetición.
• HybridSPAdes: módulo para el ensamblaje híbrido de lecturas cortas precisas con
lecturas largas y propensas a errores, como las lecturas de Pacific Biosciences y
Oxford Nanopore.
• GeneSPAdes: herramienta dirigida a la reconstrucción exacta de los grupos
de genes biosintéticos utilizando su estructura de dominio (en preparación,
comunicación personal).

Velvet

Es un ensamblador basado en los grafos de Bruijn, diseñado para manipular secuencias


cortas tipo Illumina®. Velvet elimina eficientemente los errores y resuelve las repeticiones
de manera independiente. La corrección de errores se basa en la fusión de secuencias
iguales, y la resolución de repeticiones se hace al separar los caminos que comparten
solapamientos. Requiere archivos de entrada lecturas en formatos FASTA, FASTQ, SAM y
BAM, entre otros13 .

12 Al respecto puede encontrarse información en http://bioinf.spbau.ru/en/spades.


13 A este respecto se sugiere visitar la página https://github.com/dzerbino/velvet.

76
Conceptos en Ciencias Ómicas

ABySS

Es un ensamblador de novo para secuencias cortas, de tipo “paired-end”, obtenidas a


partir de grandes set de datos. Se basa en una representación distribuida de los grafos de
Bruijn, lo que permite computar de forma paralela el algoritmo en muchos procesadores. El
algoritmo procede en dos etapas. En la primera todas los posibles k-meros son generados
a partir de las lecturas, posteriormente los errores son retirados a partir de los sets de
k-meros, y los primeros contigs son así construidos. En la segunda etapa, la información
derivada de las lecturas “mate-pair” es utilizada para extender los contigs y para resolver
las ambigüedades en los solapamientos entre contigs14 .

MaSuRCA

Es un ensamblador que combina la eficiencia de los grafos de Bruijn con las características
del ensamblaje OLC, permitiendo longitudes de lecturas variables y tolerando un nivel
significativo de errores en el secuenciamiento. MaSuRCA transforma las lecturas en
“paired-end” en un número menor de “super-lecturas” de mayor longitud. Las super-
lecturas son una extensión base a base de la lectura original, desde sus dos extremidades
siempre y cuando la extensión sea única. Dichas super-lecturas permite el ensamblaje de
datos provenientes de lecturas cortas (Illumina®), o mezclas entre lecturas cortas y largas.

FALCON

Es un set de herramientas pensadas para el alineamiento de lecturas largas derivadas de la


secuenciación en tiempo real de una sola molécula (plataforma PacBio®) y su ensamblaje
de genomas haploides y diploides. Preserva rastro de los contigs alternativos, lo que
permite crear haplotipos en fase, de los organismos diploides e identificar la presencia de
heterocigocidades entre cromosomas homólogos15 .

CANU

Fue diseñado para aceptar lecturas de PacBio® RS II o del MinION de Nanopore. Su


arquitectura modulable permite que el programa corra desde en computadores personales
hasta en clústeres de forma paralelizada. La ejecución de Canu maneja y ejecuta cada una
de las tareas principales del ensamblador: corrección, recorte y construcción de contigs
únicos.

Evaluación en la calidad del ensamblaje

Cuando el genoma ha sido ensamblado, es recomendable determinar la calidad del


ensamblaje logrado, calculando algunos parámetros de evaluación de la efectividad
como los tamaños de contigs, número de ensamblajes incorrectos, porcentaje de la
representación del genoma.
14 Puede encontrarse más información en http://www.bcgsc.ca/platform/bioinfo/software/abyss.
15 Al respecto, se sugiere ver https://github.com/PacificBiosciences/FALCON.

77
QUAST

Es un conjunto de herramientas para la evaluación y comparación de la calidad del


ensamblaje del genoma. Compara aquellos que disponen de genoma de referencia y los que
no lo hacen. Produce reportes de los parámetros de evaluación, tablas de sumario y gráficos
para ayudar a la interpretación y publicación de datos. Los pasos computacionalmente
más demandantes pueden ser corridos en paralelo. Presenta una modificación para la
evaluación de ensamblajes metagenómicos llamada, MetaQUAST16 .

4.2.7. Anotación

La anotación se refiere a dos procesos: en primer lugar, los genes y sus estructuras
intrónicas-exónicas (anotación estructural) y en segundo lugar, agregar metadatos, tales
como asociaciones con términos de Ontología de genes (GO, del inglés Gene Ontology) y
descripciones funcionales, a anotaciones estructurales (anotación funcional). La anotación
de estructuras génicas se divide en una fase “computacional”, en la cual se generan
predicciones de genes ab initio, basadas en modelos matemáticos, y predicciones basadas
en evidencias, como secuencias de expresión, transcritos y proteínas conocidas. La fase
siguiente consiste en la “anotación”, en la cual se asignan descripciones funcionales a los
genes predichos en la primera fase.

La mayoría de programas actualmente disponibles para anotación están enfocados en


genes codificantes de proteínas y no en la anotación de otro tipo de secuencias genómicas
como elementos transponibles, secuencias repetitivas y genes codificantes de ARNs de
transferencia, ribosomal u otros. La razón de esto es que las secuencias y elementos
repetitivos complican el proceso computacional de anotación, y las herramientas utilizadas
para estos, son diferentes a las que se utilizan en los pipelines comunes de anotación
genómica.

Un pipeline para anotación genómica debe integrar y manejar diferentes tipos de evidencias
en la forma de secuencias expresadas (ESTs), datos de proyectos de RNA-Seq, homologías
de proteínas y predicciones de genes, con la capacidad de poder sintetizar todos estos
datos en modelos de genes consistentes, para luego generar predicciones robustas de
sus atributos funcionales. Por lo anterior se obtienen archivos de salida con los datos de
anotación organizados, de tal manera que se puedan ver gráficamente en visualizadores
genómicos y almacenar en bases de datos de anotación.

En las próximas páginas se detallan algunas herramientas bioinformáticas bastante usadas


para la anotación de genomas, genes y proteínas, clasificadas de acuerdo con los pasos
de análisis:

1. Predicción de genes y secuencias codificantes.


2. Predicción de atributos funcionales de proteínas.
16 Sobre MetaQUAST, se sugiere ver http://quast.sourceforge.net.

78
Conceptos en Ciencias Ómicas

4.2.7.1. Programas bioinformáticos para la anotación

Augustus

Predice genes en secuencia genómicas eucariotas, basándose en la evaluación de


evidencias de regiones potencialmente codificantes de proteínas mediante un Modelo
Oculto de Markov Generalizado (GHMM)17 que integra información intrínseca y extrínseca.

Glimmer

Un sistema para encontrar genes en ADN microbiano, especialmente en genomas de


bacterias, arqueas y virus18.

Glimmerhmm

Un predictor de genes basado también en Modelos Ocultos de Markov Generalizado


(GHMM), pero adicionalmente incorpora modelos de sitios de splicing obtenidos a partir
de otro programa, GeneSplicer, y de un árbol de decisiones adaptado del programa
GlimmerM. También utiliza Modelos Interpolados de Markov para la generación de
los modelos codificantes y no codificantes. Actualmente, GlimmerHMM incluye en sus
estructuras intrones, regiones intergénicas y cuatro tipos de exones (inicial, internos,
finales y sencillos)19.

Repeatmasker

Realiza un tamizaje de las secuencias de ADN para buscar regiones repetitivas y de baja
complejidad. La salida del programa es una anotación detallada de las repeticiones
presentes en las secuencias de entrada, así como una versión modificada de la secuencia
de entrada, en la cual se han enmascarado todas las repeticiones anotadas (reemplazas
por Ns).

Actualmente más del 56% de la secuencia genómica del humano es identificada y


enmascarada por el programa20.

Transdecoder v3.0.0

Predice regiones codificantes en transcritos reconstruidos a partir de datos de RNA-Seq21.

17 Al respecto se sugiere ver http://bioinf.uni-greifswald.de/augustus/.


18 Se sugiere ver http://ccb.jhu.edu/software/glimmer/index.shtml.
19 A este respecto se sugiere ver http://ccb.jhu.edu/software/glimmerhmm/.
20 Información disponible en http://www.repeatmasker.org/.
21 Información disponible en http://transdecoder.github.io.

79
NCBI-blast

Es un suite de programas proporcionados por el National Center for Biotechnology (NCBI)


para el alineamiento local (comparación) de secuencias de entrada contra una base de
datos blanco22.

Rapsearch.

Es una herramienta de búsqueda rápida de proteínas por similitud23.

Interproscan

Es una herramienta que combina diferentes métodos de reconocimiento de patrones


proteicos en un solo recurso24.

Hmmer

Proporciona acceso a los algoritmos de búsqueda de homología encontrados en la suite del


programa de HMMER. Desde el primer lanzamiento de la página web en 2011, el repertorio
de búsqueda se ha expandido para incluir el algoritmo de búsqueda iterativa, jackhammer.
El crecimiento continuo de las bases de datos de secuencias significa que la cantidad
de coincidencias obtenidas en una búsqueda puede ser exuberante. Por consiguiente,
se han desarrollado maneras adicionales de presentar los resultados de búsqueda por
homología, permitiendo que puedan resumirse de acuerdo con su distribución taxonómica
o arquitectura de dominios. Estos dos criterios se pueden usar de forma combinada para
filtrar los resultados de acuerdo con las necesidades del usuario25 .

Tmhmm

Programa para la predicción de hélices transmembrana en proteínas26.

Signalp

Predice la presencia y ubicación de sitios de clivaje de péptido señal en secuencias de


amino ácidos de diferentes organismos: procariotas Gram-positivos y Gram-negativos y
eucariotas27 .

22 Información disponible en http://blast.ncbi.nlm.nih.gov/Blast.cgi.


23 Información disponible en http://omics.informatics.indiana.edu/mg/RAPSearch2/.
24 Información disponible en https://code.google.com/archive/p/interproscan/.
25 Información disponible en http://www.ebi.ac.uk/Tools/hmmer/.
26 Información disponible en http://www.cbs.dtu.dk/services/TMHMM/.
27 Información disponible en http://www.cbs.dtu.dk/services/SignalP/.

80
Conceptos en Ciencias Ómicas

Blast2GO

Una herramienta bioinformática para la anotación funcional de secuencia y minería de


datos sobre las anotaciones resultantes, basadas principalmente en términos de Ontología
de genes (GO, del inglés Gene Ontology). Blast2GO optimiza la transferencia de función
entre secuencias homólogas a través de un algoritmo elaborado que tiene en

cuenta similitud, extensión de la homología, base de datos de referencia, la jerarquía del


GO y la calidad de las anotaciones originales. La herramienta incluye numerosas funciones
para la visualización, manejo y análisis estadístico de resultados de anotación, incluyendo
un análisis de enriquecimiento de genes. La aplicación soporta anotaciones con InterPro,
códigos enzimáticos, vías KEGG, grafos acíclicos directos GO (DAGs) y GOslim28.

Maker

Es una herramienta de anotación genómica y de manejo de datos diseñada para proyectos


de genoma de segunda generación (no modelo). MAKER2 puede procesar conjuntos de
datos de segunda generación de virtualmente cualquier tamaño, produciendo anotaciones
precisas para genomas nuevos, para los cuales los datos de entrenamiento son limitados,
de baja calidad y casi inexistentes. Permite el uso de datos de RNA-Seq para mejorar
la calidad de la anotación y se pueden usar estos datos para actualizar anotaciones
existentes, mejorando significativamente su calidad. MAKER2 también permite evaluar la
calidad de las anotaciones genómicas e identificar y priorizar anotaciones problemáticas
para su curación manual29.

4.2.8. Visualización de la anotación

El resultado de las anotaciones de los genes puede ser visto directamente en el computador
o puede ser cargado en páginas web que permiten encontrar las características de los genes
anotados, a través de herramientas diseñadas para la descripción, el análisis, visualización
y la distribución de la anotación. Uno de los programas más utilizados actualmente para
la visualización y exploración de datos de genoma es JBrowse, derivado de GBrowse, uno
de los primeros visualizadores.

28 Información disponible en https://www.blast2go.com/.


29 Información disponible en http://www.yandell-lab.org/software/maker.html.

81
4.3. Referencias

Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D., Amanatides P.G.,
Scherer S.E., Li P.W., Hoskins R.A., Galle R.F., George R.A., Lewis S.E., Richards S.,
Ashburner M., Henderson S.N., Sutton G.G., Wortman J.R., Yandell M.D., Zhang
Q., Chen L.X., Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Pfeiffer B.D.,
Wan K.H., Doyle C., Baxter E.G., Helt G., Nelson C.R., Gabor G.L., Miklos, Abril
J.F., Agbayani A., An H.-J., Andrews-Pfannkoch C., Baldwin D., Ballew R.M., Basu
A., Baxendale J., Bayraktaroglu L., Beasley E.M., Beeson K.Y., Benos P.V., Berman
B.P., Bhandari D., Bolshakov S., Borkova D., Botchan M.R., Bouck J., Brokstein P.,
Brottier P., Burtis K.C., Busam D.A., Butler H., Cadieu E., Center A., Chandra I.,
Cherry J.M., Cawley S., Dahlke C., Davenport L.B., Davies P., Pablos B.d., Delcher A.,
Deng Z., Mays A.D., Dew I., Dietz S.M., Dodson K., Doup L.E., Downes M., Dugan-
Rocha S., Dunkov B.C., Dunn P., Durbin K.J., Evangelista C.C., Ferraz C., Ferriera
S., Fleischmann W., Fosler C., Gabrielian A.E., Garg N.S., Gelbart W.M., Glasser K.,
Glodek A., Gong F., Gorrell J.H., Gu Z., Guan P., Harris M., Harris N.L., Harvey D.,
Heiman T.J., Hernandez J.R., Houck J., Hostin D., Houston K.A., Howland T.J., Wei
M.-H., et al. (2000). The Genome Sequence of Drosophila melanogaster. Science,
287:2185.
Amores, A., Catchen, J., Nanda, I., Warren, W., Walter, R., Schartl, M., Postlethwait J.H.
(2014). A RAD-Tag Genetic Map for the Platyfish (Xiphophorus maculatus). Reveals
Mechanisms of Karyotype Evolution Among Teleost Fish. Genetics, 197, 625-U307.
DOI: 10.1534/genetics.114.164293.
Baird N.A., Etter P.D., Atwood T.S., Currey M.C., Shiver A.L., Lewis Z.A., Selker E.U.,
Cresko W.A., Johnson E.A. (2008). Rapid SNP Discovery and Genetic Mapping Using
Sequenced RAD Markers. Plos One 3.
Bankevich A., Nurk S., Antipov D., Gurevich A.A., Dvorkin M., Kulikov A.S., Lesin V.M.,
Nikolenko S.I., Pham S., Prjibelski A.D., Pyshkin A.V., Sirotkin A.V., Vyahhi N., Tesler
G., Alekseyev M.A., Pevzner P.A. (2012). SPAdes: A New Genome Assembly Algorithm
and Its Applications to Single-Cell Sequencing. Journal of Computational Biology,
19, 455-477. DOI: 10.1089/cmb.2012.0021.
Bock, D.G., Kane N.C., Ebert, D.P., Rieseberg, L.H. (2014). Genome skimming reveals
the origin of the Jerusalem Artichoke tuber crop species: neither from Jerusalem nor
an artichoke. New Phytologist, 201, 1021-1030. DOI: 10.1111/nph.12560.
Bolger, A.M., Lohse, M., Usadel, B. (2014). Trimmomatic: a flexible trimmer for Illumina
sequence data. Bioinformatics, 30, 2114-2120. DOI: 10.1093/bioinformatics/btu170.
Brenchley R., Spannagl M., Pfeifer M., Barker G.L.A., D’Amore R., Allen A.M., McKenzie
N., Kramer M., Kerhornou A., Bolser D., Kay S., Waite D., Trick M., Bancroft I., Gu
Y., Huo N., Luo M.C., Sehgal S., Gill B., Kianian S., Anderson O., Kersey P., Dvorak
J., McCombie W.R., Hall A., Mayer K.F.X., Edwards K.J., Bevan M.W., Hall N. (2012).
Analysis of the breadwheat genome using whole-genome shotgun sequencing.
Nature, 491, 705-710. DOI: 10.1038/nature11650.
Buggs R.J.A., Renny-Byfield S., Chester M., Jordon-Thaden I.E., Viccini L.F., Chamala

82
Conceptos en Ciencias Ómicas

S., Leitch A.R., Schnable P.S., Barbazuk W.B., Soltis P.S., Soltis D.E. (2012). Next-
generation sequencing and genome evolution in allopolyploids. American Journal of
Botany, 99, 372-382. DOI: 10.3732/ajb.1100395.
Catchen, J., Bassham, S., Wilson, T., Currey, M., O’Brien, C., Yeates, Q., Cresko, W.A.
(2013). The population structure and recent colonization history of Oregon threespine
stickleback determined using restriction-site associated DNA-sequencing. Molecular
Ecology, 22, 2864-2883. DOI: 10.1111/mec.12330.
Chain P.S.G., Grafham D.V., Fulton R.S., FitzGerald M.G., Hostetler J., Muzny D., Ali
J., Birren B., Bruce D.C., Buhay C., Cole J.R., Ding Y., Dugan S., Field D., Garrity
G.M., Gibbs R., Graves T., Han C.S., Harrison S.H., Highlander S., Hugenholtz P.,
Khouri H.M., Kodira C.D., Kolker E., Kyrpides N.C., Lang D., Lapidus A., Malfatti S.A.,
Markowitz V., Metha T., Nelson K.E., Parkhill J., Pitluck S., Qin X., Read T.D., Schmutz
J., Sozhamannan S., Sterk P., Strausberg R.L., Sutton G., Thomson N.R., Tiedje J.M.,
Weinstock G., Wollam A., Detter J.C. (2009). Genome Project Standards in a New Era
of Sequencing. Science, 326, 236.
Davey, J.W., Hohenlohe, P.A., Etter, P.D., Boone, J.Q., Catchen, J.M., Blaxter, M.L.
(2011) Genome-wide genetic marker discovery and genotyping using next-generation
sequencing. Nature Reviews Genetics 12:499-510.
Elshire, R.J., Glaubitz, J.C., Sun, Q., Poland, J.A., Kawamoto, K., Buckler, E.S., Mitchell,
S.E. (2011). A Robust, Simple Genotyping-by-Sequencing (GBS). Approach for High
Diversity Species. Plos One 6.
Etter, P.D., Bassham, S., Hohenlohe, P.A., Johnson, E.A., Cresko, W.A. (2011). SNP
discovery and genotyping for evolutionary genetics using RAD sequencing. Methods
in molecular biology (Clifton, N.J.). 772, 157-78. DOI: 10.1007/978-1-61779-228-1_9.
Fedoroff, N.V. (2012) Transposable Elements, Epigenetics, and Genome Evolution.
Science, 338, 758-767. DOI: 10.1126/science.338.6108.758.
Fleischmann R.D., Adams M.D., White O., Clayton R.A., Kirkness E.F., Kerlavage A.R.,
Bult C.J., Tomb J.F., Dougherty B.A., Merrick J.M., et al.(1995). Whole-genome
random sequencing and assembly of Haemophilus influenzae Rd. Science, 269, 496.
Garcia-Mas J., Benjak A., Sanseverino W., Bourgeois M., Mir G., Gonzalez V.M., Henaff
E., Camara F., Cozzuto L., Lowy E., Alioto T., Capella-Gutierrez S., Blanca J., Canizares
J., Ziarsolo P., Gonzalez-Ibeas D., Rodriguez-Moreno L., Droege M., Du L., Alvarez-
Tejado M., Lorente-Galdos B., Mele M., Yang L.M., Weng Y.Q., Navarro A., Marques-
Bonet T., Aranda M.A., Nuez F., Pico B., Gabaldon T., Roma G., Guigo R., Casacuberta
J.M., Arus P., Puigdomenech P. (2012). The genome of melon (Cucumis melo L.).
Proceedings of the National Academy of Sciences of the United States of America
109, 11872-11877. DOI: 10.1073/pnas.1205415109.
Gawad, C., Koh, W., Quake, S.R. (2016). Single-cell genome sequencing: current state
of the science. Nat Rev Genet, 17, 175-188. DOI: 10.1038/nrg.2015.16.
Goff S.A., Ricke D., Lan T.H., Presting G., Wang R.L., Dunn M., Glazebrook J., Sessions
A., Oeller P., Varma H., Hadley D., Hutchinson D., Martin C., Katagiri F., Lange B.M.,
Moughamer T., Xia Y., Budworth P., Zhong J.P., Miguel T., Paszkowski U., Zhang S.P.,

83
Colbert M., Sun W.L., Chen L.L., Cooper B., Park S., Wood T.C., Mao L., Quail P., Wing
R., Dean R., Yu Y.S., Zharkikh A., Shen R., Sahasrabudhe S., Thomas A., Cannings R.,
Gutin A., Pruss D., Reid J., Tavtigian S., Mitchell J., Eldredge G., Scholl T., Miller R.M.,
Bhatnagar S., Adey N., Rubano T., Tusneem N., Robinson R., Feldhaus J., Macalma T.,
Oliphant A., Briggs S.…(2002a). A draft sequence of the rice genome (Oryza sativa
L. ssp japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275.
Goffeau A., Barrell B.G., Bussey H., Davis R.W., Dujon B., Feldmann H., Galibert F.,
Hoheisel J.D., Jacq C., Johnston M., Louis E.J., Mewes H.W., Murakami Y., Philippsen
P., Tettelin H., Oliver S.G. (2002b). A Draft Sequence of the Rice Genome (Oryza
sativa L. ssp. japonica). Science, 296, 92-100. DOI: 10.1126/science.1068275.
Goffeau, A., Barrell, B.G., Bussey, H., Davis, R.W., Dujon, B., Feldmann, H., Galibert, F.,
Hoheisel, J.D…(1996). Life with 6000 Genes. Science, 274, 546.
Grattapaglia, D., Sederoff, R. (1994) Genetic-Linkage Maps of Eucalyptus-Grandis
and Eucalyptus-Urophylla Using a Pseudo-Testcross - Mapping Strategy and Rapd
Markers. Genetics, 137, 1121-1137.
Guo, S., Zhang, J., Sun, H., Salse, J., Lucas, W.J., Zhang, H., Zheng Y., Mao, L., Ren, Y…
(2013). The draft genome of watermelon (Citrullus lanatus) and resequencing of 20
diverse accessions. Nat Genet, 45, 51- 58. DOI: http://www.nature.com/ng/journal/
v45/n1/abs/ng.2470.html#supplementary-information.
Gupta, P.K., Rustgi, S., Mir, R.R. (2008). Array-based high-throughput DNA markers for
crop improvement. Heredity, 101, 5-18.
Hegarty, M., Yadav, R., Lee, M., Armstead, I., Sanderson, R., Scollan, N., Powell, W.,
Skot, L. (2013). Genotyping by RAD sequencing enables mapping of fatty acid
composition traits in perennial ryegrass (Lolium perenne (L.)). Plant Biotechnology
Journal, 11, 572-581.
Heinner, G. (2015). Hacia la medicina personalizada: implicancias de las ciencias básicas
y las “ómicas” en la práctica clínica. Revista Peruana de Medicina Experimental y
Salud Publica, 32, 629-632.
Hirsch, C.N., Foerster, J.M., Johnson, J.M., Sekhon, R.S., Muttoni, G., Vaillancourt, B.,
Peñagaricano, F., Lindquist, E…(2014). Insights into the Maize Pan-Genome and
Pan-Transcriptome. The Plant Cell, 26, 121-135.
Ilut, D.C., Coate, J.E., Luciano, A.K., Owens, T.G., May, G.D., Farmer, A., Doyle, J.J.
(2012). A comparative transcriptomic study of an allotetraploid and its diploid
progenitors illustrates the unique advantages and challenges of rna-seq in plant
species. American Journal of Botany. 99, 383-396. DOI: 10.3732/ajb.1100312.
International Human Genome Sequencing Consortium. (2001). Initial sequencing and
analysis of the human genome. Nature, 409, 860 - 921. DOI: http://www.nature.
com/nature/journal/v409/n6822/suppinfo/409860a0_S1.html.
Jain, M., Misra, G., Patel, R.K., Priya, P., Jhanwar, S., Khan, A.W., Shah, N., Singh, V.K…
(2013). A draft genome sequence of the pulse crop chickpea (Cicer arietinum L.).
Plant Journal, 74, 715-729. DOI: 10.1111/tpj.12173.
Kelly, L.J., Leitch, A.R., Fay, M.F., Renny-Byfield, S., Pellicer, J., Macas, J., Leitch, I.J.
(2012). Why size really matters when sequencing plant genomes.

84
Conceptos en Ciencias Ómicas

Plant Ecology & Diversity, 5, 415-425. DOI: 10.1080/17550874.2012.716868.


Lai, Z., Kane, N.C., Kozik, A., Hodgins, K.A., Dlugosch, K.M., Barker, M.S., Matvienko,
M., Yu, Q…(2012). Genomics of compositae weeds: est libraries, microarrays, and
evidence of introgression. American Journal of Botany. 99, 209-218. DOI: 10.3732/
ajb.1100313.
Lemmon, A.R., Lemmon, E.M. (2012). High-Throughput Identification of Informative
Nuclear Loci for Shallow-Scale Phylogenetics and Phylogeography. Systematic
Biology, 61, 745-761.
Malé, P.-J.G., Bardon, L., Besnard, G., Coissac, E., Delsuc, F., Engel J., Lhuillier, E.,
Scotti-Saintagne, C…(2014). Genome skimming by shotgun sequencing helps resolve
the phylogeny of a pantropical tree family. Molecular Ecology Resources, 14, 966-
975. DOI: 10.1111/1755-0998.12246.
Mamanova, L., Coffey, A.J., Scott, C.E., Kozarewa, I., Turner, E.H., Kumar A., Howard E.,
Shendure J…(2010). Target-enrichment strategies for next-generation sequencing.
Nat Meth, 7, 111-118. DOI: http://www.nature.com/nmeth/journal/v7/n2/suppinfo/
nmeth.1419_S1.html.
Mastretta-Yanes, A., Arrigo, N., Alvarez, N., Jorgensen, T.H., Pinero, D., Emerson, B.C.
(2015). Restriction site-associated DNA sequencing, genotyping error estimation
and de novo assembly optimization for population genetic inference. Molecular
Ecology Resources, 15, 28-41. DOI: 10.1111/1755-0998.12291.
McCormack, J.E., Hird, S.M., Zellmer, A.J., Carstens, B.C., Brumfield, R.T. (2013).
Applications of next-generation sequencing to phylogeography and phylogenetics.
Molecular Phylogenetics and Evolution, 66, 526-538.
Michael, T.P., Jackson, S. (2013). The First 50 Plant Genomes. Plant Gen, 6. DOI:
10.3835/plantgenome2013.03.0001in.
Miller, M.R., Dunham, J.P., Amores, A., Cresko, W.A., Johnson, E.A. (2007). Rapid and
cost-effective polymorphism identification and genotyping using restriction site
associated DNA (RAD) markers. Genome Research, 17, 240-248.
Nadeau, N.J., Whibley, A., Jones, R.T., Davey, J.W., Dasmahapatra, K.K., Baxter,
S.W., Quail, M.A., Joron M…(2012). Genomic islands of divergence in hybridizing
Heliconius butterflies identified by large-scale targeted sequencing. Philosophical
Transactions of the Royal Society B-Biological Sciences, 367, 343-353. DOI: 10.1098/
rstb.2011.0198.
Ogden, R., Gharbi, K., Mugue, N., Martinsohn, J., Senn, H., Davey, J.W., Pourkazemi, M.,
McEwing, R…(2013). Sturgeon conservation genomics: SNP discovery and validation
using RAD sequencing. Molecular Ecology, 22, 3112-3123. DOI: 10.1111/mec.12234.
Paterson, A.H., Bowers, J.E., Bruggmann, R., Dubchak, I., Grimwood, J., Gundlach, H.,
Haberer, G., Hellsten, U... (2009). The Sorghum bicolor genome and the diversification
of grasses. Nature, 457, 551-556. DOI: 10.1038/nature07723.
Pegadaraju, V., Nipper, R., Hulke, B., Qi, L.L., Schultz, Q. (2013). De novo sequencing of
sunflower genome for SNP discovery using RAD (Restriction site Associated DNA)
approach. Bmc Genomics, 14.
Peterson, B.K., Weber, J.N., Kay, E.H., Fisher, H.S., Hoekstra, H.E. (2012). Double Digest

85
RADseq: An Inexpensive Method for de novo SNP Discovery and Genotyping in Model
and Non-Model Species. Plos One 7, e37135. DOI: 10.1371/journal.pone.0037135.
Poland, J.A., Brown, P.J., Sorrells, M.E., Jannink, J.L. (2012). Development of High-
Density Genetic Maps for Barley and Wheat Using a Novel Two-Enzyme Genotyping-
by-Sequencing Approach. Plos One 7.
Renny-Byfield, S., Wendel, J.F. (2014). Doubling down on genomes: Polyploidy and
crop plants. American Journal of Botany, 101, 1711-1725.
Rosenblum, E.B., James, T.Y., Zamudio, K.R., Poorten, T.J., Ilut, D., Rodriguez, D.,
Eastman, J.M., Richards-Hrdlicka, K…(2013). Complex history of the amphibian-
killing chytrid fungus revealed with genome resequencing data. Proceedings of the
National Academy of Sciences, 110, 9385-9390.
Rubin, B.E.R., Ree, R.H., & Moreau, C.S. (2012). Inferring Phylogenies from RAD
Sequence Data. Plos One 7. DOI: 10.1371/journal.pone.0033394.
Sato S., Nakamura Y., Kaneko T., Asamizu E., Kato T., Nakao M., Sasamoto S., Watanabe
A…(2008). Genome Structure of the Legume, Lotus japonicus. DNA Research: An
International Journal for Rapid Publication of Reports on Genes and Genomes, 15,
227-239. DOI: 10.1093/dnares/dsn008.
Scaglione, D., Acquadro, A., Portis, E., Tirone, M., Knapp, S.J., & Lanteri, S. (2012). RAD
tag sequencing as a source of SNP markers in Cynara cardunculus L. Bmc Genomics,
13.
Schmutz, J., McClean, P.E., Mamidi, S., Wu, G.A., Cannon, S.B., Grimwood, J., Jenkins, J.,
Shu, S.Q…(2014). A reference genome for common bean and genome-wide analysis
of dual domestications. Nature Genetics, 46, 707-713. DOI: 10.1038/ng.3008.
Schnable, P.S., Ware, D., Fulton, R.S., Stein, J.C., Wei, F.S., Pasternak, S., Liang, C.Z.,
Zhang, J.W…(2009). The B73 Maize genome: Complexity, diversity, and dynamics.
Science, 326, 1112-1115. DOI: 10.1126/science.1178534.
Sims, D., Sudbery, I., Ilott, N.E., Heger, A., & Ponting, C.P. (2014). Sequencing depth
and coverage: key considerations in genomic analyses. Nat Rev Genet, 15, 121-132.
DOI: 10.1038/nrg3642.
Straub, S.C.K., Parks, M., Weitemier, K., Fishbein, M., Cronn, R.C., & Liston, A. (2012).
Navigating the tip of the genomic iceberg: next-generation sequencing for plant
systematics. American Journal of Botany, 99, 349-364. DOI: 10.3732/ajb.1100335.
The Arabidopsis Genome Initiative. (2000). Analysis of the genome sequence of the
flowering plant Arabidopsis thaliana. Nature, 408, 796- 815. DOI: http://www.
nature.com/nature/journal/v408/n6814/suppinfo/408796a0_S1.html.
The Barley Genome Sequencing Consortium. (2012). A physical, genetic and functional
sequence assembly of the barley genome. Nature, 491, 711-716.
The C.elegans Sequencing Consortium. (1998). Genome Sequence of the Nematode C.
elegans: A Platform for Investigating Biology. Science, 282, 2012.
The International Brachypodium Initiative. (2010). Genome sequencing and analysis
of the model grass Brachypodium distachyon. Nature, 463, 763- 768. DOI: Doi
10.1038/Nature08747.

86
Conceptos en Ciencias Ómicas

The Potato Genome Sequencing Consortium. (2011). Genome sequence and analysis of
the tuber crop potato. Nature, 475, 189 - 195. DOI: http://www.nature.com/nature/
journal/v475/n7355/abs/nature10158-f1.2.html#supplementary-information.
Treangen, T.J., & Salzberg, S.L. (2012). Repetitive DNA and next-generation sequencing:
computational challenges and solutions. Nat Rev Genet, 13, 36-46.
Wang, N., Fang, L.C., Xin, H.P., Wang, L.J., & Li, S.H. (2012). Construction of a high-
density genetic map for grape using next generation restriction-site associated DNA
sequencing. Bmc Plant Biology, 12.
Wang, N., Thomson, M., Bodles, W.J.A., Crawford, R.M.M., Hunt, H.V., Featherstone,
A.W., Pellicer, J., & Buggs, R.J.A. (2013). Genome sequence of dwarf birch (Betula
nana) and cross-species RAD markers. Molecular Ecology, 22, 3098-3111. DOI:
10.1111/mec.12131.
Wegrzyn, J.L., Liechty, J.D., Stevens, K.A., Wu, L.-S., Loopstra, C.A., Vasquez-Gross,
H.A., Dougherty, W.M., Lin, B.Y…(2014). Unique Features of the Loblolly Pine (Pinus
taeda L.) Megagenome Revealed Through Sequence Annotation. Genetics, 196, 891-
909. DOI: 10.1534/genetics.113.159996.
Weigel D., Mott R. (2009). The 1001 Genomes Project for Arabidopsis thaliana. Genome
Biology, 10, 107. DOI: 10.1186/gb-2009-10-5-107.
Yadav, D. (2015). Relevance of Bioinformatics in the era of Omics driven research.
Journal of Next Generation Sequencing & Applications, 2, e102. DOI: 10.4172/2469-
9853.1000e102.
Young, B., Beck, S., Córdova, J., Embert, D., Franke, I., Hernandez, P., Herzog, S.,
Pacheco, V…(2007). Digital distribution maps of species endemic to the east slope
of the Andes in Peru and Bolivia. NatureServe. Virginia, USA: Arlington.
Zellmer, A.J., Hanes, M.M., Hird, S.M., & Carstens, B.C. (2012). Deep Phylogeographic
Structure and Environmental Differentiation in the Carnivorous Plant Sarracenia
alata. Systematic Biology, 61, 763-777.

87
 5.METAGENÓMICA
JEANNETH MOSQUERA RENDÓN
DIANA LÓPEZ-ALVAREZ

En la Tierra encontramos que los microorganismos son los seres vivos con mayor
abundancia, incluso encontramos más células bacterianas en un cuerpo humano que sus
propias células. Además, las bacterias y las arqueas pueden vivir en toda clase de ambientes
–incluyendo ambientes extremos de 340°C (Wooley, Godzik & Friedberg, 2010)–; éstas son
esenciales para la vida, ya que son fuente primaria de nutrientes. Sin embargo, solo un
pequeño porcentaje de estos microorganismos pueden ser cultivados y secuenciados de
manera aislada, lo que hace difícil su estudio.

La metagenómica aparece para revolucionar y solventar esos problemas, permitiendo


estudiar directamente comunidades microbianas en sus hábitats naturales a través de
la obtención de la información genómica, caracterizando desde 10 a 10000 especies en
un estudio. Los análisis metagenómicos de ácidos nucleicos proveen acceso directo a los
genomas de la mayoría de microorganismos no cultivados (Nesme et al., 2016). Por lo
tanto, surgen muchas definiciones de metagenómica como las que veremos más adelante,
pero en general se define como el estudio genómico de microorganismos sin cultivar
muestreados desde sus hábitats.

Sus aplicaciones son inmensas, dado que podemos secuenciar toda la vida en la Tierra,
desde el suelo, pasando por el mar, hasta el aire; acelerando el descubrimiento de nuevos
filos, clases, géneros y especies, así como nuevos genes, enzimas y funciones que tengan
impacto en sectores como la agroindustria y la farmacéutica. Además, tiene aplicación en
el monitoreo de ecosistemas naturales o sometidos a presiones ambientales con el fin
de proponer medidas que ayuden a su restauración. Finalmente, una de las medidas más
importantes desde el punto de vista antropocéntrico es el conocimiento del microbioma
humano, porque puede aportarnos información de la salud de las personas.

El estudio metagenómico ha tomado tanta fuerza, que la administración del expresidente


de los Estados Unidos Barack Obama anunciaba en mayo de 2016, una nueva Iniciativa
Nacional del Microbioma, con el fin de crear herramientas científicas, descubrimientos y
técnicas de entrenamiento que permitirían avanzar en los esfuerzos para curar el asma
y la depresión, limpiar los derrames de petróleo e incluso aumentar los rendimientos de
los cultivos. Los microbiomas ya han sido foco de intensos estudios de interés público
con iniciativas como el Proyecto del Microbioma de la Tierra (Earth Microbiome Project
-EMP) (Gilbert, Jansson & Knight, 2014), TerraGenome (Vogel et al., 2009), el Proyecto
del Microbioma Brasilero (Pylro et al., 2014), la iniciativa China del Microbioma del
Suelo30, EcoFINDERS31 , MicroBlitz32 , MetaHIT, el Proyecto Microbioma Humano
30 Información disponible en http://english.issas.cas.cn/.
31Información disponible en http://ecofinders.dmu.dk/.
32 Información disponible en http://www.microblitz.com.au/.

88
Conceptos en Ciencias Ómicas

(Human Microbiome Project), Tara Oceans y la Expedición de Muestreo Oceánica Global


(The Global Ocean Sampling Expedition). Incluso, el Consorcio de Estándares Genómicos
(Genomics Standards Consortium -GSC) ha definido la información mínima que debe
contener un metadato para la secuenciación de un metagenoma.

Actualmente, el problema no radica en poder estudiar los metagenomas, sino, en el


análisis complejo de este conjunto de datos, que incluyen un alto volumen de secuencias y
requiere nuevas aproximaciones y recursos computacionales. El primer paso de un análisis
de esta índole involucra análisis comparativos de varios ribosomas y proteínas y bases de
datos de nucleótidos. Esto genera un costo computacional elevado, requiriendo servidores
o clúster que puedan permitir su realización y que incluyan comparaciones filogenéticas,
anotaciones funcionales, clasificación de secuencias (binning), perfiles filogenómicos,
reconstrucciones metabólicas y modelización.

5.1. Definición

La metagenómica se ha convertido en una importante herramienta para explorar y


analizar la colección de genomas microbianos presentes en diversas comunidades o nichos
ambientales (marinas, agua dulce, suelo), en plantas, en animales o en el hombre; siendo
muy útil para la detección de microorganismos que no habían podido ser cultivados de
manera tradicional. El término de “Metagenómica” fue acuñado por Handelsman en 1998,
luego de haber realizado clonaciones de ADN directamente de muestras ambientales
(Handelsman, Rondon, Brady, Clardy & Goodman, 1998). En la actualidad, la metagenómica
se basa en el estudio del material genético recuperado de muestras biológicas o
medioambientales que, junto con la aplicación de diferentes aproximaciones genómicas y
herramientas bioinformáticas, han permitido describir la estructura taxonómica presente
en las comunidades microbianas en diferentes entornos y su función potencial, lo que
nos acerca a descubrir nuevos genes, enzimas o metabolitos de gran interés médico e
industrial.

La metagenómica permite obtener información relacionada con:

I. diversidad filogenética, al lograr la identificación de los microrganismos presentes


en una comunidad microbiana, su cuantificación, su distribución, sus relaciones
filogenéticas y su dinámica.
II. metagenómica funcional, con la cual es posible realizar la búsqueda de actividades
enzimáticas o nuevas rutas metabólicas.
III. metagenómica comparativa, permite relacionar especies con funciones específicas
o funciones específicas con determinados hábitats.
IV. la evolución de genes.

Adicionalmente, la metagenómica contribuye en la búsqueda de soluciones a problemas


prácticos de diferentes áreas del conocimiento como las ciencias de la vida, ciencias de

89
la tierra, ciencias biomédicas, bioenergía, biorremediación, biotecnología y agricultura
(Figura 5.1).

Ciencias
biomédicas
Ayuda en la comprensión
del papel del microbioma
humano en la salud, y en el
desarrollo de nuevas estrategias
de diagnóstico y tratamiento
de diferentes Biotecnología
Ciencias de la vida Permite la identificación
enfermedades.
Aporta en el avance del y explotación de
entendimiento de las metabolitos y enzimas
comunidades microbianas, su presentes en las comunidades
ecología y su evolución. microbianas que generan
productos industriales
Bioenergía (alimentos, cosméticos,
Favorece el desarrollo de farmaceúticos, etc)
sistemas y procesos

Metagenómica microbianos de nuevos recursos


bioenergéticos más económicos
y ambientalmente Agricultura
Ciencias de la tierra sostenibles. Contribuye en el
Contribuye en el desarrollo desarrollo de métodos más
de modelos de ecosistemas eficaces e integrales para la
microbianos para describir y detección temprana de
precidir los porcesos enfermedades de los cultivos y
ambientales globales, su detección de contaminantes
cambio y sostenibilidad. Biorremediación en los alimentos.
La metagenómica permite
el desarrollo de herramientas
para el control de daños al medio
ambiente en todos los niveles.

Figura 5.1. Contribuciones de la metagenómica en diferentes áreas del conocimiento.

Desde el primer registro de una célula bacteriana en 1663, por Antonie van Leeuwenhoek,
se han desarrollado diferentes estrategias para estudiar los microorganismos presentes
en los diferentes ambientes. En la actualidad, se ha logrado describir diferentes especies
microbianas mediante el análisis de secuencias de ADN de microrganismos sin necesidad
de ser cultivados. Esto se evidencia en los diferentes proyectos pioneros desarrollados en
metagenómica (Tabla 5.1), dentro de los cuales cabe resaltar uno de los primeros estudios
realizados y publicados sobre comunidades microbianas de aguas superficiales oceánicas
en el Mar de los Sargazos (Bermudas), que fueron secuenciadas empleando tecnología
Sanger, obteniendo 1045 mil millones de pares de bases, correspondientes a 1,66 millones
de lecturas, donde fueron encontrados aproximadamente 1800 distintas especies y más
de 1,2 millones de nuevos genes codificantes incluyendo 782 nuevos genes fotorreceptores
(Venter, 2004).

Uno de los estudios más ambiciosos de los últimos años ha sido el proyecto de Expedición
de Muestreo Oceánica Global (GOS), desarrollado durante los años 2006 y 2007, en el
que fueron analizados 200 litros de agua del Océano Atlántico noroeste y del Pacífico

90
Conceptos en Ciencias Ómicas

tropical, obteniendo 7,7 millones de lecturas de 800 pb, con la identificación de nuevas
especies de bacterias y nuevas familias de proteínas (Rusch et al., 2007). Otro proyecto
de gran dimensión fue el Proyecto del Microbioma Humano (HMP), desarrollado en el
2008, cuyo objetivo fue identificar y caracterizar los microorganismos residentes en cinco
diferentes zonas del cuerpo humano (cavidad oral, piel, vagina, intestinos y cavidad nasal/
pulmonar), buscando correlaciones entre los cambios de los microbiomas de pacientes
enfermos y sanos. En este proyecto fueron secuenciadas más de 2000 muestras,
generando aproximadamente 23 millones de lecturas de alta calidad, las cuales pudieron
ser asignadas a 674 clados taxonómicos (Nelson et al., 2010).

Los estudios anteriores fueron realizados en virtud de los avances en el desarrollo de las
tecnologías de secuenciación de los últimos años (ver Capitulo 3), permitiendo la reducción
de los costos y haciéndolas más asequibles a los investigadores, con mejores rendimientos
de producción de datos y calidad, impulsando así la revolución de los estudios de
diversidad microbiana, la búsqueda e identificación de nuevas enzimas, metabolitos, rutas
metabólicas, la comprensión de la dinámica de comunidades microbianas y su importancia
en diferentes áreas como salud, agricultura, biotecnología, entre otras. Por consiguiente,
en la actualidad se cuenta con 17412 metagenomas, 1312 metatranscriptomas, 78221
amplicones, 138 ensamblajes, los cuales se encuentran dispuestos en bases de datos
públicas33.

Tabla 5.1. Listado de algunos proyectos pioneros en metagenómica


Proyecto Descripción Resultado Referencia bibliográfica
Biopelícula en un efluente En primera instancia Lograron ensamblar casi (Tyson et al., 2004)
de minas hicieron una librería de el genoma completo de
16S ARNr para averiguar Leptospirillum group II
si la diversidad era baja. and Ferroplasma type II,
Luego produjeron una y parcialmente otros tres
librería con fragmentos de genomas.
3,2 kb e hicieron 103462 Análisis de cada genoma
lecturas mediante ‘shotgun reveló rutas para la fijación
sequencing’ para obtener de carbono y nitrógeno y la
76,2 millones pb de generación de energía.
secuencia. Estimaron la diversidad
de 1800 especies distintas
SANGER incluidos 148 nuevos
Mar de Sargasso. 1,66 millones de lecturas filotipos.Encontraron 1,2 (Venter, 2004)
resultaron en 1045 mil millones de genes nuevos
millones de pb en secuencia incluyendo 782 nuevos
fotorreceptores.
SANGER Consiguieron definir nuevas
especies de bacterias y casi
Global Ocean Sampling Secuenciaron 7,7 millones de consiguieron ensamblar (Rusch et al., 2007)
(41 muestras en 8000 km lecturas de 800 pb cada uno el genoma de una especie
desde el Norte de Océano (6,3 mil millones de bases). dominante e identificaron
Atlántico a Sur del Océano nuevas familias de
Pacifico). SANGER proteínas.

33 Disponibles en EBI Metagenomics (2017) https://www.ebi.ac.uk/metagenomics/.

91
Proyecto Descripción Resultado Referencia bibliográfica
Nueve medioambientes: 1040665 lecturas Este estudio comparativo (Dinsdale et al., 2008)
Subterráneo, salino, bacterianas de 45 muestras demuestra que, aunque
marino, agua dulce, coral, distintas y 541979 la diversidad funcional se
microbialitos, pescado, secuencias virales de 41 mantiene en los distintos
animal, mosquito. muestras distintas. Resultó medio ambiente existen
en aproximadamente 150 mil diferencias relativas que
millones de pb de secuencia. permiten predecir las
condiciones biogeoquímicas
PIROSECUENCIACIÓN de cada medio ambiente.
Los resultados revelan
Océano Ártico. 195107 lecturas de 16S ARNr las características (Galand, Casamayor,
Ocho muestras en de arqueas de 8 muestras biogeográficas de las Kirchman, Potvin, y Lovejoy,
distintas localizaciones y con una media de 24388 arqueas marinas del ártico 2009).
profundidades lecturas por muestra. y como ciertos tipos de
arqueas dominan en las
PIROSECUENCIACIÓN distintas profundidades del
océano ártico.
Los datos revelaron que
Cinco manantiales 14000 a 15000 lecturas por ciertos filos predominan (Inskeep et al., 2010).
geotermales del parque muestra. según las condiciones
nacional de Yellowstone de cada manantial. Las
con distintas propiedades SANGER actividades enzimáticas
fisicoquímicas. que encontraron
indican cuales son las
funciones importantes
en cada medioambiente
especialmente actividades
relacionados con el
transporte de electrones.

5.2. Enfoques de la metagenómica

Los estudios de metagenómica presentan dos enfoques: el primero se denomina


“metagenómica de amplificación del gen marcador” o “metagenómica dirigida” (Figura 5.2),
donde regiones específicas de ADN de las comunidades microbianas son amplificadas
empleando cebadores informativos taxonómicos como el gen ARNr 16S (procariotas), el
ITS (hongos) o el gen LSU (eucariotas). El segundo enfoque denominado “metagenómica
aleatoria” o “Whole Genome Sequencing, WGS” (Figura 5.2), ayuda a reconstruir
fragmentos grandes o genomas completos de los microorganismos presentes en diferentes
comunidades, permitiendo caracterizar una gran cantidad de secuencias codificantes y
no codificantes, analizar la composición taxonómica y, a su vez, el potencial metabólico y
funcional de las comunidades microbianas estudiadas.

92
Conceptos en Ciencias Ómicas

Estudios Metagenómicos

Metagenómica dirigida o Metagenómica aleatoria o


amplificación del gen marcador Enfoques Whole Genome Sequencing

¿Qué hace? ¿Qué hace?

Estudia la composición y abundancia Estudia los genomas y genes


de especies en las muestras analizadas preentes en las muestras analizadas

¿Para Qué? ¿Para Qué?

Evaluar la distribución Contrastar la composición


Relacionar poblaciones Determinar el perfil funcional
taxonómica en las muestras con diferentes factores de las muestras analizadas taxonómica y funcional de
analizadas diferentes muestras

Determinar la diversidad Contrastar la composición Obtención de genes Relacionar funciones y


microbiana presente en las taxonómica de diferentes de interés especies de procedencia
muestras analizadas muestras

Figura 5.2. Enfoques de los estudios metagenómicos.

5.3. Diseño Experimental

Un estudio metagenómico está constituido por cuatro pasos básicos:

1. Aislamiento del material genético, en este paso se realiza la extracción de ADN


directamente de las muestras ambientales y se da la generación de los fragmentos
de ADN del tamaño indicado.
2. Preparación de la librería metagenómica, ya sea (i) amplicones del gen 16S ARNr ó
(ii) genomas completos.
3. Secuenciación.
4. Análisis bioinformático, en esta etapa se hace uso de diferentes herramientas
bioinformáticas con el fin de analizar regiones específicas de ADN o genomas
completos de microorganismos presentes (bacterias, hongos o arqueas) en el
ambiente estudiado, dependiendo del enfoque del estudio metagenómico. Este
paso nos permite encontrar secuencias de ADN desconocidas que describen
funciones novedosas de microorganismos ambientales, imposibles de descubrir
por técnicas basadas en el cultivo (Mukherjee, Huntemann, Ivanova, Kyrpides &
Pati, 2015), o explorar la diversidad funcional, las rutas metabólicas y conocer las
interacciones entre especies en ambientes determinados.

93
5.3.1. Estudios metagenómicos mediante el enfoque de amplificación de gen
marcador o metagenómica dirigida

Los estudios metagenómicos mediante el enfoque de amplificación de gen marcador o


metagenómica dirigida presentan la siguiente metodología en el análisis bioinformático:

• Procesamiento de las secuencias obtenidas por las técnicas de secuenciación.


Este paso comprende el demultiplexado de las muestras, es decir, se realiza la
identificación del barcode de cada secuencia obtenida para agruparlas por muestras.

• Agrupación de las secuencias según el porcentaje de similitud. En este paso se


asume que las secuencias con un porcentaje de similitud mayor a 97% corresponden a
una misma especie o género, si el porcentaje de similitud es más del 90% corresponden
a un mismo orden o familia y por encima de un 80% corresponde a filo o clase. Las
agrupaciones o clústeres generados en este paso se denominan como Unidades
Taxonómicas Operacionales (OTU). Para lograr estas agrupaciones de secuencias por
similitud se han desarrollado diferentes algoritmos, dentro de los más conocidos o
empleados encontramos a UCLUST y USEARCH (Edgar, 2010), MOTHUR (Schloss et
al., 2009) y CD-HIT (W. Li & Godzik, 2006).

• Asignación taxonómica. Aquí se emplean bases de datos como Greengenes


(McDonald et al., 2012), Silva (Yilmaz et al., 2014), RDP (Cole et al., 2014) y NCBI
(Federhen, 2012), para la identificación de la taxonomía de cada uno de los OTU
agrupados. Posteriormente, se procede al análisis de diversidad microbiana (alfa y
beta diversidad).

5.3.2. Estudios metagenómicos mediante el enfoque de genomas completos

El análisis bioinformático de los estudios metagenómicos donde son secuenciados


genomas completos comprenden los siguientes pasos:
I. Preprocesamiento de lecturas.
II. Ensamblaje de secuencias.
III. Anotación de secuencias.
IV. Agrupamiento de secuencias y clasificación taxonómica de especies microbianas.
V. Análisis de diversidad y estadístico de los datos metagenómicos.

I. Preprocesamiento de lecturas

Se requiere una serie de pasos de preprocesamiento de las lecturas para la realización de


todo el análisis bioinformático. Esta etapa incluye: (a) limpieza de las lecturas de bajas
de calidad, empleando herramientas como FASTX-Toolkit (HannonLab, 2014) o FastQC
(Andrews, 2010), (b) remoción de lecturas de contaminación o lecturas de baja complejidad
realizadas con herramientas como DUK (M. Li, Copeland & Han, 2011) y (c) remoción de
quimeras o secuencias que son más del 95% idénticas.

94
Conceptos en Ciencias Ómicas

II. Ensamblaje de secuencias

En este paso se emplean las lecturas para construir o ensamblar contigs, que permitan
obtener secuencias lo suficientemente confiables que cubran parcial o totalmente el
genoma de los microorganismos analizados. Las secuencias generadas en este paso sirven
de suministro para la detección de marcos abiertos de lectura ORFs, es decir, las zonas
del genoma que contienen secuencias que codifican genes. Este paso reside en una tarea
de gran requerimiento computacional, debido a los altos recursos de procesamiento de
memoria que requieren los diferentes algoritmos dedicados al ensamblaje, los cuales
disponen de dos estrategias: ensamblaje basado en referencia o ensamblaje de novo.

La elección de alguno de ellos depende del conjunto de datos que será analizado y las
necesidades específicas de la pregunta de investigación. El ensamblaje de novo, se refiere
al ensamblaje de secuencias contiguas largas o contigs sin la utilización de un genoma
conocido. Contrario al ensamblaje de referencia que emplea uno o más genomas de
referencia para realizar la creación de contigs.

III. Anotación de secuencias

Seguido del ensamblaje de los contigs y la predicción de los ORFs, se encuentra el paso
de la asignación funcional de las secuencias mediante: (a) predicción de funciones al
realizar la identificación de características de interés dentro de los genes como dominios
conservados, motivos o patrones funcionales empleando diferentes bases de datos de
proteínas curadas; y (b) la asignación funcional de genes putativos, la cual se basa en la
búsqueda de secuencias homólogas en bases de datos curadas de proteínas. Gracias a la
predicción de genes, secuencias peptídicas o enzimas de las secuencias metagenómicas
es posible realizar el análisis del potencial metabólico de las comunidades microbianas
estudiadas.

Existen diferentes herramientas tales como MG-RAST (Meyer, Paarmann, D’Souza, &
Etal., 2008), IMG/M (Markowitz et al., 2012), FragGeneScan (Rho, Tang & Ye, 2010),
MetaGeneMark (Zhu, Lomsadze & Borodovsky, 2010), Metagene (Noguchi, Park & Takagi,
2006) y Orphelia (Hoff, Lingner, Meinicke & Tech, 2009), desarrolladas para la clasificación
de tramos de secuencia, tanto codificantes o no codificantes. Adicionalmente, encontramos
bases de datos de referencia ampliamente utilizadas para obtener anotaciones para el
conjunto de datos metagenómicos como: KEGG, SEED, COG/KOG, PFAM y TIGRFAM
(Oulas et al., 2015).

IV. Agrupamiento de secuencias y clasificación taxonómica

Este paso representa el proceso de agrupación de las lecturas o contigs en clústeres


denominados OTUs para la asignación o clasificación de los grupos taxonómicos específicos
de filo, orden, familia, género o especie de cada uno de los OTUs. Actualmente existen

95
diferentes herramientas para lograr esta labor, dentro de las que cabe resaltar: Phylopythia,
S-GSOM, PCAHIER, TACAO, IMG/M, MG-RAST, Mothur, MEGAN, QIIME, TANGO, CARMA,
SOrt-ITEMS, MetaPhyler, PhymmBL and MetaCluster (Neelakanta & Sultana, 2013).

V. Análisis de biodiversidad y estadístico

Un estudio de metagenómica contiene una gran cantidad de datos que requieren ser
cuidadosamente evaluados utilizando métodos estadísticos apropiados. Por este motivo,
existen diferentes herramientas bioinformáticas como MOTHUR (Schloss et al., 2009),
QIIME (Caporaso et al., 2010), MEGAN (Huson, Auch, Qi & Schuster, 2007), que permiten
llevar a cabo:

• Análisis de alfa-diversidad, que evalúa la riqueza de microorganismos de una


muestra y la uniformidad de la distribución de la abundancia de los mismos, por
medio de curvas de rarefacción, estimadores de riqueza, índices de diversidad y
equitatividad (como Índice de Shannon, Índice de Simpson, Diversidad filogenética
(PD), Índice de Chao, entre otros).
• Análisis de beta-diversidad, el cual evalúa la similitud (o diferencia) en la
composición de microorganismos entre las muestras a través de índices de Bray
Curtis, Weighted Unifrac y Unweighted Unifrac, PCoA, entre otros.
• Gráficos de abundancia de la composición taxonómica y análisis filogenéticos.
• Análisis multivariados, medidas de disimilitud y análisis de similaridad.
• Análisis de significancia estadística.

96
Conceptos en Ciencias Ómicas

5.4. Referencias

Andrews, S. (2010). FastQC: A quality control tool for high throughput sequence data.
Recuperado de //www.bioinformatics.babraham.ac.uk/projects/fastqc/.
Caporaso, J. G., Kuczynski, J., Stombaugh, J., Bittinger, K., Bushman, F. D., Costello,
E. K., Knight, R…. (2010). QIIME allows analysis of high-throughput community
sequencing data. Nature Methods, 7(5), 335– 6. Recuperado de http://www.nature.
com/naturemethods/.%5Cnhttp://dx.doi.org/10.1038/nmeth.f.303.
Cole, J. R., Wang, Q., Fish, J. A., Chai, B., McGarrell, D. M., Sun, Y., & Tiedje, J. M. (2014).
Ribosomal Database Project: Data and tools for high throughput rRNA analysis.
Nucleic Acids. Recuperado de https://doi.org/10.1093/nar/gkt1244.
Dinsdale, E. A., Edwards, R. A., Hall, D., Angly, F., Breitbart, M., Brulc, J. M., Rohwer,
F…(2008). Functional metagenomic profiling of nine biomes. Nature. Recuperado de
https://doi.org/10.1038/nature06810.
Edgar, R. C. (2010). Search and clustering orders of magnitude faster than BLAST.
Bioinformatics.Recuperado de https://doi.org/10.1093/bioinformatics/btq461.
Federhen, S. (2012). The NCBI Taxonomy. Nucleic Acids Res. DOI: https://doi.
org/10.1093/nar/gkr1178.
Galand, P. E., Casamayor, E. O., Kirchman, D. L., Potvin, M., & Lovejoy, C. (2009).
Unique archaeal assemblages in the Arctic Ocean unveiled by massively parallel tag
sequencing. The ISME Journal. DOI: https://doi.org/10.1038/ismej.2009.23.
Gilbert, J. A., Jansson, J. K., & Knight, R. (2014). The Earth Microbiome project:
successes and aspirations. BMC Biology, 12(1), 69.DOI: https://doi.org/10.1186/
s12915-014-0069-1.
Handelsman, J., Rondon, M. R., Brady, S. F., Clardy, J., & Goodman, R. M. (1998).
Molecular biological access to the chemistry of unknown soil microbes: a new
frontier for natural products. Chemistry & Biology. DOI:https://doi.org/10.1016/
S1074-5521(98)90108-9.
HannonLab. (2014). FASTX toolkit.
Hoff, K. J., Lingner, T., Meinicke, P., & Tech, M. (2009). Orphelia: Predicting genes
in metagenomic sequencing reads. Nucleic Acids Research. DOI: https://doi.
org/10.1093/nar/gkp327
Huson, D. H., Auch, A. F., Qi, J., & Schuster, S. C. (2007). MEGAN analysis of
metagenomic data MEGAN analysis of metagenomic data. Genome Research. DOI:
https://doi.org/10.1101/gr.5969107.
Inskeep, W. P., Rusch, D. B., Jay, Z. J., Herrgard, M. J., Kozubal, M. A., Richardson, T.
H., Frazier, M… (2010). Metagenomes from high-temperature chemotrophic systems
reveal geochemical controls on microbial community structure and function. PLoS
ONE. DOI: https://doi.org/10.1371/journal.pone.0009773.
Li, M., Copeland, A., & Han, J. (2011). DUK – A Fast and Efficient Kmer Matching Tool.
Lawrence Berkeley National Laboratory. LBNL Paper LBNL-4516E-Poster P.
Li, W., & Godzik, A. (2006). Cd-hit: A fast program for clustering and comparing
large sets of protein or nucleotide sequences. Bioinformatics. DOI: https://doi.
org/10.1093/bioinformatics/btl158.

97
Markowitz, V. M., Chen, I. M. A., Chu, K., Szeto, E., Palaniappan, K., Grechkin, Y.,
Kyrpides, N. C… (2012). IMG/M: The integrated metagenome data management and
comparative analysis system. Nucleic Acids Research. DOI:https://doi.org/10.1093/
nar/gkr975.
McDonald, D., Price, M. N., Goodrich, J., Nawrocki, E. P., DeSantis, T. Z., Probst, A.,
Hugenholtz, P…(2012). An improved Greengenes taxonomy with explicit ranks for
ecological and evolutionary analyses of bacteria and archaea. The ISME Journal.
DOI: https://doi.org/10.1038/ismej.2011.139.
Meyer, F., Paarmann, D., D’Souza, M., & Etal. (2008). The metagenomics RAST
server—a public resource for the automatic phylo- genetic and functional analysis of
metagenomes. BMC Bioinformatics. DOI:https://doi.org/10.1186/1471-2105-9-386.
Mukherjee, S., Huntemann, M., Ivanova, N., Kyrpides, N. C., & Pati, A. (2015). Large-
scale contamination of microbial isolate genomes by Illumina PhiX control. Standards
in Genomic Sciences. DOI:https://doi.org/10.1186/1944-3277-10-18.
Neelakanta, G., & Sultana, H. (2013). The Use of Metagenomic Approaches to Analyze
changes in Microbial communities. Microbiology Insights, 6, 37– 48. DOI:https://
doi.org/10.4137/MBI.S10819.
Nelson, K. E., Weinstock, G. M., Highlander, S. K., Worley, K. C., Creasy, H. H., Wortman,
J. R., Zhu, D… (2010). A Catalog of Reference Genomes from the Human Microbiome.
Science. DOI:https://doi.org/10.1126/science.1183605.
Nesme, J., Achouak, W., Agathos, S. N., Bailey, M., Baldrian, P., Brunel, D., Bodelier,
P…(2016). Back to the Future of Soil Metagenomics Edited by . 7(February), 1–5.
DOI:https://doi.org/10.3389/fmicb.2016.00073.
Noguchi, H., Park, J., & Takagi, T. (2006). MetaGene: Prokaryotic gene finding from
environmental genome shotgun sequences. Nucleic Acids Research. DOI:https://
doi.org/10.1093/nar/gkl723.
Oulas, A., Pavloudi, C., Polymenakou, P., Pavlopoulos, G. A., Papanikolaou, N.,
Kotoulas, G., Iliopoulos, I…(2015). Metagenomics: Tools and insights for analyzing
next-generation sequencing data derived from biodiversity studies. Bioinformatics
and Biology Insights. DOI:https://doi.org/10.4137/BBI.S12462.
Pylro, V. S., Roesch, L. F. W., Ortega, J. M., do Amaral, A. M., Tola, M. R., Hirsch, P.
R., Azevedo, V…(2014). Brazilian Microbiome Project: Revealing the Unexplored
Microbial Diversity-Challenges and Prospects. Microbial Ecology, 67(2), 237–241.
DOI:https://doi.org/10.1007/s00248-013-0302-4.
Rho, M., Tang, H., & Ye, Y. (2010). FragGeneScan: Predicting genes in short and error-
prone reads. Nucleic Acids Research.DOI: https://doi.org/10.1093/nar/gkq747.
Rusch, D. B., Halpern, A. L., Sutton, G., Heidelberg, K. B., Williamson, S., Yooseph, S.,
Venter, J. C…(2007). The Sorcerer II Global Ocean Sampling expedition: Northwest
Atlantic through eastern tropical Pacific. PLoS Biology.DOI: https://doi.org/10.1371/
journal.pbio.0050077.
Schloss, P. D., Westcott, S. L., Ryabin, T., Hall, J. R., Hartmann, M., Hollister, E. B., Weber,
C. F…(2009). Introducing mothur: Open-source, platform-independent, community-
supported software for describing and comparing microbial communities. Applied
and Environmental Microbiology. DOI:https://doi.org/10.1128/AEM.01541-09.

98
Conceptos en Ciencias Ómicas

Tyson, G. W., Chapman, J., Hugenholtz, P., Allen, E. E., Ram, R. J., Richardson, P. M.,
Banfield, J. F…(2004). Community structure and metabolism through reconstruction
of microbial genomes from the environment. Nature.DOI: https://doi.org/10.1038/
nature02340.
Venter, J. C. (2004). Environmental Genome Shotgun Sequencing of the Sargasso Sea.
Science. DOI:https://doi.org/10.1126/science.1093857.
Vogel, T. M., Simonet, P., Jansson, J. K., Hirsch, P. R., Tiedje, J. M., van Elsas, J. D.,
Philippot, L…(2009). TerraGenome: a consortium for the sequencing of a soil
metagenome. Nat Rev Micro, 7(4), 252. Recuperado de http://dx.doi.org/10.1038/
nrmicro2119.
Wooley, J. C., Godzik, A., & Friedberg, I. (2010). A primer on metagenomics. PLoS
Computational Biology. DOI:https://doi.org/10.1371/journal.pcbi.1000667.
Yilmaz, P., Parfrey, L. W., Yarza, P., Gerken, J., Pruesse, E., Quast, C., Glöckner, F. O…
(2014). The SILVA and “all-species Living Tree Project (LTP)” taxonomic frameworks.
Nucleic Acids Research. DOI:https://doi.org/10.1093/nar/gkt1209.
Zhu, W., Lomsadze, A., y Borodovsky, M. (2010). Ab initio gene identification in
metagenomic sequences. Nucleic Acids. Recuperado de https://doi.org/10.1093/
nar/gkq275.

99
6. TRANSCRIPTÓMICA
KELLY BOTERO OROZCO
ANDREA GONZÁLEZ MUÑOZ

La expresión génica es un proceso celular que intermedia la transferencia de las


instrucciones genéticas contenidas en el ADN para dar lugar a la síntesis de los productos
génicos finales, como proteínas y ARN no codificantes funcionales. El conjunto de todos
los transcritos expresados en una célula, tejido u organismo en un momento dado se
denomina transcriptoma. El transcriptoma presenta una expresión variable, por ejemplo,
se pueden diferenciar transcritos expresados por genes constitutivos, que generalmente
presentan niveles de expresión constantes en todas las células y condiciones en un
organismo, mientras que la expresión de muchos otros transcritos es resultado del efecto
de estímulos externos en determinadas condiciones o momentos fisiológicos (Wang,
Gerstein & Snyder, 2009).

Esta naturaleza variable del transcriptoma en el espacio y tiempo hace que su estudio,
denominado transcriptómica, nos permita conocer diferencias cuantitativas y cualitativas
entre múltiples moléculas de ARNm (Tan, Ipcho, Trengove, Oliver & Solomon, 2009) para
entender los elementos funcionales del genoma y los constituyentes de las redes génicas de
los diferentes tipos y procesos celulares ante determinados eventos inductores (Weake &
Workman, 2010). Así mismo, la transcriptómica provee información que permite catalogar
todos los transcritos de la célula, con el fin de determinar el perfil transcripcional de los
genes, identificar los extremos 5’ y 3’ del genoma e identificar patrones de empalme y
regulación coordinada de los genes (Imadi, Kazi, Ahanger, Gucel & Ahmad, 2015).

El transcriptoma no es sintetizado de novo, todas las células reciben durante la división


celular parte del transcriptoma de su célula precursora y éste es mantenido por la
transcripción, que reemplaza sucesivamente las moléculas de ARN que van siendo
degradadas (Brown, 2002). Este proceso depende de estímulos intra o extracelulares para
desencadenar cascadas de señalización que determinan la expresión de los genes. El ARNm
rara vez representa más del 4% del ARN total de la célula (Brown, 2002) y su abundancia
está asociada con la función que desempeña en un proceso celular específico. Eventos
celulares, tales como la replicación, la diferenciación, la división celular y otros rasgos
fenotípicos a nivel morfológico y funcional son el resultado de la expresión diferencial de
genes a través del proceso de transcripción (Soto & Lopez, 2012).

6.1. Tecnologías para el estudio del transcriptoma

Varias tecnologías se han desarrollado para caracterizar transcriptomas, incluyendo


enfoques basados en hibridación de sondas con genes candidatos, etiquetas de secuencia

100
Conceptos en Ciencias Ómicas

y secuenciación de ARN (Tan et al., 2009; Wang et al., 2009). Antes del avance de las
tecnologías de secuenciación de nueva generación (NGS), el estudio de la expresión
génica se centraba en uno o pocos transcritos a la vez, a través de tecnologías como
Northern Blot, basado en la separación del ARN por peso molecular usando electroforesis
en gel desnaturalizante y su transferencia a un soporte sólido, donde la presencia y la
abundancia del ARN de interés son inferidas con sondas de hibridación (VanGuilder,
Vrana & Freeman, 2008). Otra técnica consiste en la reacción en cadena de la polimerasa
cuantitativa con transcriptasa inversa (RT-qPCR), que utiliza la transcriptasa inversa para
convertir el ARNm en ADN complementario (ADNc), luego amplifica las secuencias de un
gen de interés usando cebadores específicos y permite cuantificar la abundancia de ARNm
mediante la medición de los productos de la amplificación (Becker-André & Hahlbrock,
1989; Noonan et al., 1990).

Por otro lado, la técnica de los microarreglos permite la detección y cuantificación de miles
de transcritos conocidos o putativos de una célula (Schena, Shalon, Davis & Brown, 1995),
mediante la medición de la intensidad de una señal fluorescente emitida en la hibridación
entre el ADNc y una sonda oligo-nucleotídica inmovilizada en una matriz sólida (Pozhitkov,
Tautz & Noble, 2007). Debido a su costo y eficiencia, los microarreglos son aún comúnmente
utilizados por muchos laboratorios alrededor del mundo para diferentes análisis de
expresión génica (Morozova, Hirst & Marra, 2009), entre ellos, la identificación de perfiles
de expresión (Nowrousian, 2007), detección y cuantificación de isoformas y evaluación
de genes relacionados con respuestas a estímulos o a condiciones particulares (Schenk
et al., 2000). No obstante, los microarreglos no permiten la detección de transcritos
desconocidos, ni estudiar la secuencia de los transcritos detectados (Morozova et al.,
2009). Además, la cuantificación de los transcritos puede resultar imprecisa, debido a que
está determinada por la señal fluorescente emitida durante la hibridación.

En términos generales, los métodos previamente descritos, basados en hibridación,


requieren conocimientos previos sobre las secuencias y tienen un limitado rango de
detección de los transcritos (Okoniewski & Miller, 2006; Royce, Rozowsky & Gerstein,
2007). Por el contrario, enfoques basados en etiquetas de secuencia permiten determinar
la identidad y la abundancia de los transcritos directamente a partir de la secuenciación
de secuencias de ADNc (Imadi et al., 2015). No obstante, los principales métodos bajo este
enfoque usan secuenciación Sanger, los cuales por el alto costo y la necesidad de clonación,
resultan no ser costo-efectivos ni técnicamente viables para caracterizar exhaustivamente
transcriptomas completos (Morozova et al., 2009).

Entre estos métodos cabe mencionar la secuenciación de etiquetas de secuencias


expresadas (ESTs, del inglés Expressed Sequence Tag), desarrollada para el descubrimiento
de nuevos genes y la identificación de regiones genómicas codificantes (Adams et al., 1991),
que hace referencia a secuencias de lectura única producidas a partir de la secuenciación

101
del extremo 3’ o 5’ de un clon de ADNc (Pozhitkov et al., 2007; Bouck & Vision, 2007;
Morozova et al., 2009).

Las ESTs representan típicamente sólo secuencias parciales de los transcritos originales,
incluso, los ensamblajes rara vez cubren los transcritos completos, por lo cual resultan
difíciles de evaluar cuando no existe un genoma de referencia (Bouck & Vision, 2007).
Sumado a esto, debido al costo del método para generar las ESTs, estas no son secuenciadas
con una profundidad suficiente para proporcionar un análisis cuantitativo de la expresión
génica (Tan et al., 2009).

Por otra parte, el Análisis en Serie de la Expresión Génica (SAGE, del inglés Serial
Analysis of Gene Expression) (Velculescu, Zhang, Vogelstein & Kinzler, 1995) se basa en
la secuenciación y cuantificación de oligoetiquetas de 14 o 21 pb que van del extremo
3’ al extremo 5’ del ARNm, y luego se comparan contra bases de datos de ESTs o de
genomas para identificar los correspondientes genes expresados. Los experimentos SAGE
impusieron ventajas sobre los microarreglos, como la capacidad para detectar transcritos
nuevos y obtener mediciones directas de la abundancia de los transcritos detectados.

De igual forma, existen múltiples variantes del SAGE como MicroSAGE (Datson, van der
Perk-de Jong, van den Berg, de Kloet y Vreugdenhil, 1999), SAGE-lite (Peters et al., 1999),
SADE (Virlon et al., 1999), (Virlon et al., 1999), Long-SAGE (Saha et al., 2002), SuperSAGE
(Irie, Matsumura, Terauchi & Saitoh, 2003) y DeepSAGE (Nielsen, Hogh & Emmersen,
2006), que fueron desarrolladas para mejorar la técnica (Tan et al., 2009).

Por último, el advenimiento de las tecnologías NGS contribuyó al desarrollo de la


secuenciación de ARN (RNA-Seq) (Imadi et al., 2015), un enfoque que transformó el alcance
y la escala de los estudios transcriptómicos, proporcionando fácil acceso y alta resolución
de secuencia y abundancia de los transcritos (Martin, Fei, Giovannoni & Rose, 2013). Este
técnica tiene diferentes ventajas, a saber: no requiere genoma de referencia para generar
información útil sobre los transcritos celulares (Strickler, Bombarely & Mueller, 2012); no
hay restricción para la detección de transcritos que corresponden a secuencias genómicas
existentes; revela la posición precisa de los límites de la transcripción génica; no tiene
límite superior de cuantificación de transcritos; y es el primer método que permite obtener
la secuencia y la abundancia de los transcritos a escala genómica (Cloonan et al., 2008;
Mortazavi, Williams, McCue, Schaeffer & Wold, 2008).

Su implementación ha permitido la identificación de transcritos y polimorfismos de


nucleótido simple (SNPs), obtener perfiles de expresión génica entre diferentes muestras,
conocer la estructura de los exones y realizar análisis tanto de expresión diferencial de
genes como de variantes de splicing alternativo (Sims, Sudbery, Ilott, Heger & Ponting,
2014).

102
Conceptos en Ciencias Ómicas

Debido a su exactitud en términos de identidad y abundancia de los transcritos y a la


facilidad para realizar comparaciones significativas de los transcritos entre diferentes
muestras, RNA-Seq ha remplazado, en buena medida, los otros métodos de cuantificación
de la expresión génica. Además, las tecnologías de RNA-Seq permiten la exploración
de transcriptomas completos, lo cual es poco accesible con los métodos previamente
desarrollados (Martin et al., 2013). A pesar de estas ventajas, RNA-Seq tiene sus propios
retos, ya que se producen grandes y complejos conjuntos de datos, cuya interpretación no
siempre es fácil.

El análisis de datos se puede enfrentar a problemas en la variación (no biológica) de


las muestras estudiadas y a problemas técnicos inherentes a las tecnologías NGS,
la secuenciación de las lecturas y los protocolos de preparación de las librerías de
secuenciación. Estos problemas pueden generar un sesgo en los análisis, por lo que se
requiere un cuidadoso diseño experimental y un adecuado control y normalización de los
datos generados (Conesa et al., 2016; Finotello & Di Camillo, 2015).

6.2. Diseño experimental

Un estudio transcriptómico aplicando RNA-Seq comprende las siguientes etapas


principales (Figura 6.1):

I. Experimento.
II. Preparación de las librerías y secuenciación.
III. Flujo de análisis bioinformáticos de datos de RNA-Seq.

103
Extracción de ARN Biología
experimental

Fragmentación del ARN y transcripción reversa

Construcción de librerías y secuenciación

Millones de lecturas cortas Biología


computacional
Control de calidad y preprocesamiento

Alineamiento a genoma de referencia o ensamblaje de novo

Indexado a regiones codificantes/exones/empalmes

Análisis de genes
diferencialmente Biología
expresados (DEGs) Anotación estructural de sistemas
del transcriptoma

Análisis de vías metabólicas Análisis integrativos con datos


o redes de coexpresión epigenómicos/proteómicos

Análisis de enriquecimiento

Inferencias biológicas

Figura 6.1. Etapas de un estudio transcriptómico basado en RNA-Seq.

Dado que múltiples factores (biológicos y externos) influyen en la expresión génica en


un momento dado, el diseño de un experimento de RNA-Seq debe ser cuidadosamente
planeado para controlar y/o identificar la variación generada por la naturaleza de las
muestras, la manipulación de las mismas, la condición de experimentación, entre otros.
Por lo tanto, implica tener en cuenta aspectos en el diseño experimental como el número
de muestras, las réplicas biológicas y/o técnicas y controles. Luego, la preparación de las
librerías de ARN y secuenciación requieren una alta calidad e integridad de la muestra de
ARN total extraída y la definición del tipo de librería y método de enriquecimiento del ARN
que se desea estudiar (e.g. la mayoría de estudios transcriptómicos se han centrado en
ARNm, aunque también hay estudios enfocados en ARNs no codificantes como miRNAs,
lncRNAs, siRNAs, etc.).

104
Conceptos en Ciencias Ómicas

De igual manera, se debe definir la tecnología de NGS a emplear, el número óptimo de


lecturas requeridas para cumplir con el objetivo del estudio, el tamaño de las lecturas de
secuenciación, entre otros. Por último, los estudios de RNA-Seq generalmente siguen un
flujo de análisis bioinformático que comprende la reconstrucción de transcritos de novo
o por mapeo sobre genoma o transcriptoma de referencia; descubrimiento de isoformas
y variantes; anotación de transcritos; estimación de la abundancia de transcritos
expresados mediante mapeo y conteo de lecturas sobre un genoma o transcriptoma de
referencia; y análisis de expresión diferencial usando métodos estadísticos. Finalmente,
se incluyen análisis para identificar funciones enriquecidas o sobrerrepresentadas entre
los genes diferencialmente expresados, que incluyen enriquecimiento funcional, redes de
coexpresión de genes y de interacción, entre otros.

6.2.1. Experimento

Los datos generados a partir de un experimento de RNA-Seq se orientan a responder


preguntas biológicas de interés. Con tal fin, es determinante hacer un buen diseño
experimental de las muestras a secuenciar, es decir, la elección del tipo de librería, la
profundidad de la secuenciación (o número de lecturas por muestras) y el número de
réplicas biológicas necesarias para el estudio. Un diseño experimental inadecuado puede
llevar a confundir variaciones técnicas con variaciones biológicas, lo cual repercute
en conclusiones erradas. Así, un error en el diseño experimental solo podrá corregirse
remplazando las muestras con una nueva secuenciación.

De esta manera, y de acuerdo con las más recientes directrices del proyecto ENCODE34
para las mejores prácticas en RNA-Seq, en el diseño del experimento se debe definir el
número de réplicas biológicas y técnicas que deben ser secuenciadas por cada tratamiento.
Las réplicas experimentales son importantes para evaluar y aislar fuentes de variación en
las medidas de un experimento, con el propósito de controlar el efecto del ruido sobre los
resultados de los análisis y pruebas de hipótesis. Las réplicas biológicas corresponden a
muestras biológicamente diferentes e independientes, que se miden de manera paralela
y aportan una medida de la variación biológica aleatoria que puede ser fuente de ruido.
Por su parte, las réplicas técnicas son mediciones repetidas de una misma muestra y
representan la variación aleatoria y fuente de ruido asociado a aspectos técnicos como
equipos y protocolos (Blainey, Krzywinski & Altman, 2014).

El proyecto ENCODE recomienda incluir dos o más réplicas biológicas. Algunos autores
recomiendan de dos a cuatro (Liu, Zhou, & White, 2013), y otros reportan que menos de
doce réplicas pueden inducir a la identificación tanto de verdaderos negativos como falsos
positivos (Schurch et al., 2016). De otro lado, en términos de réplicas técnicas, ENCODE
menciona que no se requieren réplicas de la misma librería de ARN, excepto en casos
donde se conoce o sospecha de una variabilidad biológica inusualmente alta, en los cuales
es crítico separar la variación técnica de la biológica. A este respecto, estudios de ARNs de

34 Disponible en https://www.encodeproject.org/.

105
baja abundancia pueden requerir un alto número de réplicas biológicas y, eventualmente,
réplicas técnicas, debido a que son por naturaleza más variables que los ARNs de alta
abundancia. En cualquier caso, determinar con cuidado el número de réplicas es clave para
el éxito de un análisis de expresión diferencial (Anders & Huber, 2010; Eduardo et al., 2014;
Soneson & Delorenzi, 2013).

6.2.2. Preparación de las librerías y secuenciación

Para la preparación de las librerías de RNA-Seq se requiere la extracción del ARN total de
la muestra y su posterior procesamiento para enriquecer el ARN de interés. Como en todo
experimento de NGS, la calidad e integridad del material genético es clave para garantizar
la calidad de las librerías y de los datos de secuenciación generados. La selección del
protocolo de extracción de ARN total y su posterior estabilización y almacenamiento
es determinante para evitar la degradación de este ácido nucleico inestable y de rápida
degradación, dada su naturaleza transitoria en la célula como molécula mensajera.

Una vez extraído el ARN total de la muestra, se deben emplear protocolos para remover el
ARNr que se encuentra de manera abundante en las células, hasta un 90% del ARN total.
En este capítulo nos centraremos en el estudio del RNA-Seq orientado al ARNm, por ser
la aplicación más ampliamente usada. El enriquecimiento de ARNm a partir de muestras
de eucariotas generalmente implica el enriquecimiento selectivo de estas moléculas por
captura de colas poli(A) o la eliminación del ARNr por degradación. La selección de uno u
otro método depende de la cantidad inicial de ARNm en la muestra, de tal manera que, si se
encuentra en baja proporción con respecto al ARN total, se debe optar por la eliminación del
ARNr. Por su parte, en procariotas, la ausencia de poliadenilación del ARNm hace que sólo
sea viable realizar eliminación del ARNr (Conesa et al., 2016). Finalmente, la preparación de
una librería concluye con la síntesis de ADNc a partir del ARNm a través de la transcriptasa
inversa. Las moléculas de ADNc están ligadas a adaptadores para obtener librerías de
ADNc, que son amplificadas mediante variantes de la PCR. Las librerías son secuenciadas
masivamente y en paralelo con tecnologías NGS (las más empleadas actualmente para
RNA-Seq son Illumina® e Ion TorrentTM), donde millones de secuencias cortas –llamadas
lecturas– son generadas.

Un segundo aspecto a considerar en la preparación de las librerías es el tipo de las mismas,


en este caso, dependiendo del propósito de estudio, la librerías de secuenciación se pueden
generar a partir de lecturas sencillas desde un solo extremo del fragmento secuenciado
(SE, del inglés single-end sequencing reads) o de lecturas pareadas desde ambos extremos
(PE, del inglés paired-end sequencing reads). Es aconsejable utilizar PE cuando la
predicción de genes en el genoma no es muy buena, o se quieren analizar isoformas y
splicing alternativo, mientras que SE es suficiente cuando la anotación es muy buena y se
quiere tener una idea de la expresión a nivel de locus. Las librerías SE son recomendables
para el análisis y la predicción de ARNs no codificantes, en las que las PE puedan resultar

106
Conceptos en Ciencias Ómicas

en la sobreestimación de transcritos y complejizan el ensamblaje de los mismos, debido al


riesgo inherente de secuenciar por duplicado cada transcrito. Las lecturas PE pueden ser
mejores para mapear en varias ubicaciones, ensamblar de novo y diferenciar isoformas.

Sumado al tipo de librería, la longitud de las lecturas secuenciadas también es relevante,


por ejemplo, se recomiendan lecturas de mayor tamaño si se desea detectar nuevos
transcritos e isoformas, puesto que permiten obtener un mejor mapeo e identificación de
transcritos.

Por otro lado, en años recientes ha sido de interés construir librerías de RNA-Seq ‘hebra-
específicas’, las cuales conservan la información sobre la hebra o cadena de ADN de la cual
se transcribió la molécula de ARN (sentido o antisentido). Esta información es útil para los
análisis de descubrimiento de nuevos transcritos y cuantificación de la expresión, porque
evita confusiones o errores en las estimaciones de abundancia debido al solapamiento de
transcritos (Conesa et al., 2016).

Sumado a los aspectos anteriormente discutidos, otro punto clave para considerar
en un experimento de RNA-Seq es la profundidad de secuenciación (o cobertura de
secuenciación), que corresponde al número de veces que cada nucleótido está representado
en un cierto número de lecturas de longitud dada. En términos generales, una mayor
cobertura disminuye la tasa de error de cada nucleótido en un ensamblaje de secuencias,
no obstante, la selección de una mayor o menor cobertura dependerá del propósito de
estudio y la naturaleza de la muestra de ARN.

A diferencia de estudios de secuenciación de genoma, en los que la profundidad de


secuenciación se expresa como el número de bases totales secuenciadas sobre el tamaño
estimado del genoma haploide (e.g. 50X, 100X), en RNA-Seq se dificulta esta estimación
de la profundidad, porque la transcripción no se produce a partir de todo el genoma, sino
que aproximadamente el 2% del genoma humano transcribe ARN que codifica a proteína,
y es incierta la proporción transcrita en un momento dado.

Por consiguiente para RNA-Seq, ENCODE ha establecido un número óptimo de lecturas


por muestra según el objetivo deseado, con un mínimo de 30 millones (M) de lecturas
por muestra para cualquier estudio de RNA-Seq. Así, si se pretende reconstruir un perfil
transcripcional basado en un transcriptoma o genoma de referencia con el fin de evaluar
expresión diferencial, se recomiendan 30 M de lecturas SE o PE de longitud mayor a 30
pb; si se desea descubrir nuevos transcritos e isoformas, cuantificar transcritos de baja
abundancia y/o se están analizando muestras complejas, se recomiendan entre 100 M
y 200 M de lecturas PE de longitud mayor a 76 pb. En particular, para estudios de RNA-
Seq a partir de muestras humanas, con fines de determinar expresión diferencial, se
recomiendan 30-50 M de lecturas SE o PE por muestra. Varios autores concuerdan con
estas recomendaciones de profundidad de secuenciación (Conesa et al., 2016).

107
Después de la secuenciación de las librerías de RNA-Seq, se obtienen las lecturas crudas de
secuenciación. Estas se procesan mediante un flujo de análisis bioinformático que permite
obtener información acerca de los transcritos expresados, los perfiles de expresión y el
potencial metabólico de las muestras analizadas, con el fin de asociar esta información
genética a un fenotipo de interés.

6.2.3. Flujo de análisis bioinformáticos de datos de RNA-Seq

No existe un sólo flujo de análisis aplicable a todos los tipos de experimentos e


investigaciones basadas en RNA-Seq, dada la diversa naturaleza de las muestras, diseños
experimentales, técnicas de secuenciación y datos. No obstante, un flujo de análisis de
RNA-Seq comprende a grandes rasgos las siguientes etapas principales:

I. Control de calidad y preprocesamiento de los datos crudos de secuenciación.


II. Ensamblaje de novo y reconstrucción de transcritos por mapeo.
III. Estimación de abundancias y conteos de transcritos.
IV. Análisis de expresión diferencial.

I. Control de calidad y preprocesamiento de los datos crudos de secuenciación

Al igual que para los demás datos de NGS, las lecturas crudas producto de RNA-Seq se
deben someter a control de calidad para determinar la calidad por base secuenciada
y por lectura secuenciada, contenido de A, T, G y C, distribución de la longitud de las
lecturas, presencia de secuencias de adaptadores, secuencias sobrerrepresentadas y
posible contaminación, así como otros sesgos técnicos que pueden afectar el análisis de
los datos. Para datos de secuenciación generados en la plataforma Illumina®, el análisis
de calidad de las lecturas se realiza más comúnmente con el programa FastQC, mientras
que para datos de la plataforma Ion TorrentTM, por ejemplo, se recomienda el programa
MAPQ, debido a las diferencias en codificación de valores de calidad de las bases y otras
características propias de la plataforma de secuenciación. Con base en los reportes de
calidad generados por los dos programas anteriormente mencionados, generalmente
se determina si las lecturas crudas requieren de un preprocesamiento antes de pasar a
ensamblaje y análisis posteriores. Este paso consiste en la eliminación de secuencias de
adaptadores, corte (trimming) y filtrado de bases de baja calidad, entre otros, para lo cual
se emplean comúnmente programas como Trimmomatic, Cutadapt y FastX-Toolkit.

Además de este filtro aplicado, el preprocesamiento de los datos de secuenciación también


incluye la detección y eliminación de lecturas correspondientes a ARN ribosomal u otro
tipo de lecturas no correspondientes a ARNm. De esta manera, para la eliminación de ruido
ocasionado por secuencias ribosomales se utiliza el programa riboPicker, una herramienta
que alinea las lecturas de secuenciación contra secuencias ribosomales proporcionadas por
las bases de datos Silva, GreenGenes, RDP, Rfam y NCBI, con el objetivo de identificarlas
y eliminarlas del conjunto de datos. Sin un enriquecimiento previo del ARN total, la

108
Conceptos en Ciencias Ómicas

mayoría de ARN recuperado de estudios transcriptómicos es ribosomal y no mensajero,


por este motivo, es necesario eliminar las secuencias que interfieren en el ensamblaje
de un transcriptoma. Después de esta etapa, las lecturas filtradas son utilizadas para el
ensamblaje del transcriptoma.

II. Ensamblaje de novo y reconstrucción de transcritos por mapeo

En la ausencia de un genoma o transcriptoma de referencia para el organismo de estudio,


existen herramientas capaces de realizar ensamblaje de novo. Para tal fin, se emplean
programas como Trinity, Trans-Abyss y SOAPdenovo-Trans; entre los cuales Trinity es
el más ampliamente utilizado, porque integra un flujo de trabajo que incluye no solo el
ensamblaje de los transcritos y sus variantes, sino también el cálculo de estadísticas de
calidad de ensamblaje, predicción de secuencias codificantes y presenta compatibilidad
con la suite estadística R para análisis de expresión diferencial.

En caso de contar con un genoma o transcriptoma de referencia, las lecturas pueden ser
mapeadas a la referencia disponible, utilizando programas como BWA, Bowtie o Bowtie2,
MAQ, TopHat, STAR, entre otros. En el mapeo de lecturas de RNA-Seq contra un genoma
de referencia, los alineadores empleados para este fin, tales como TopHat y STAR, cuentan
con algoritmos optimizados para mapear lecturas divididas (denominadas splice o junction
reads en inglés), las cuales mapean en el límite entre dos exones y por tanto resultan
fragmentadas por una región intrónica en el genoma de referencia. Esto es problemático
computacionalmente para alineadores como BWA, Bowtie y MAQ, porque interfieren en
la inserción de saltos o gaps tan largos como aquellos correspondientes a empalmes
(junctions).

Luego de la reconstrucción de transcritos, en muchos estudios el interés reside en anotar


los transcritos para determinar su identidad y función. Este proceso de anotación consiste,
en primer lugar, en identificar las secuencias codificantes (CDS) en los transcritos y traducir
los CDS a proteínas hipotéticas, utilizando programas como Transdecoder (integrado en
Trinity) y Coding Potential Calculator. Luego, los CDS y/o las proteínas predichas son
comparados por BLAST contra las secuencias de un transcriptoma o proteoma anotado
para el organismo de estudio, o contra secuencias de organismos relacionados que están
disponibles en bases de datos públicas como Genbank, UniProt, Pfam, entre otras. De
esta forma, se puede determinar el perfil de los transcritos expresados y descubrir nuevos
transcritos o isoformas.

III. Estimación de abundancias y conteos de transcritos

La cuantificación de datos de RNA-Seq se basa en la premisa de que el número de lecturas


correspondientes a un transcrito es una medida de la expresión del gen del cual proviene.
De esta manera, la cuantificación comprende la estimación de la abundancia de un
transcrito mediante el conteo de número de lecturas que mapean sobre dicho transcrito, y

109
requiere, en consecuencia, del mapeo de las lecturas de secuenciación contra un genoma
o transcriptoma de referencia. En caso de no existir uno, se utiliza como referencia un
transcriptoma ensamblado de novo a partir de las mismas lecturas.

La cuantificación de transcritos es necesaria para el análisis de expresión diferencial, el


cual consiste en comparar la expresión de genes entre las muestras de un estudio de
RNA-Seq con el fin de determinar diferencias significativas. Para que las muestras sean
comparables entre sí se deben resolver diversos problemas que pueden surgir durante
la cuantificación, y pueden estar relacionados con el conteo de lecturas que mapean en
múltiples regiones de la referencia, conteo de lecturas solapantes, especificidad de hebra,
no uniformidad de distribución de lecturas a lo largo un gen, transcritos de alta y baja
abundancia, diferencias en la longitud de los transcritos, diferencias en profundidad de
secuenciación o tamaño entre las librerías. Por lo anterior, un paso clave en la estimación de
abundancias y conteo de transcritos consiste en normalizar los datos de las abundancias
de los transcritos hipotéticos.

Normalizar por el tamaño de librería implica llevar a una misma escala todas las
librerías correspondientes a cada tratamiento para evitar falsos positivos, dado que
una librería con mayor profundidad de secuenciación tiene más probabilidad de tener
genes diferencialmente sobreexpresados, respecto a otra librería, sin ser consecuencia
del tratamiento. Además, los transcritos más afectados por una baja profundidad de
secuenciación serán aquellos con bajos niveles de expresión y longitudes reducidas, debido
a que un transcrito de mayor longitud presentará más probabilidad de ser secuenciado y
de tener un número mayor de lecturas alineadas que uno de menor longitud, implicando
una mayor probabilidad de ser detectado como un DEG, sin ser biológicamente real (Dillies
et al., 2013; Oshlack & Wakefield, 2009).

Existen diferentes métodos de normalización, los más utilizados son la normalización por
tamaño de librería y por longitud del fragmento o transcrito (Eduardo et al., 2014). Un
método que realiza ambas normalizaciones es Fragments Per Kilobase of Transcript Per
Million Mapped Reads (FPKM) o Reads per Kilobase of Transcript per million mapped reads
(RPKM); la única diferencia entre ambos, es que el primero utiliza fragmentos y el segundo
lecturas. Se emplea generalmente la normalización FPKM cuando se tienen librerías tipo
PE, debido a que estas tienen dos lecturas por fragmento. Una vez normalizados los datos
por estos métodos, es posible cuantificar niveles de transcriptos y realizar comparaciones
más precisas entre las muestras (Mortazavi et al., 2008).

La estimación de la abundancia de transcritos se puede realizar por métodos basados en


alineamientos usando los programas RSEM o eXpress, así como métodos de estimación
libres de alineamientos con programas como Kallisto o Salmon. A partir de los conteos
estimados por estos métodos, se construyen matrices de expresión de transcritos y genes,
donde las filas corresponden a cada uno de los transcritos y las columnas a las muestras,
y contienen los conteos de lecturas por transcrito por muestra. Esta matriz de conteos de
expresión es el insumo para los análisis de expresión diferencial posteriores.

110
Conceptos en Ciencias Ómicas

IV. Análisis de expresión diferencial

En los análisis de expresión diferencial, se realizan pruebas estadísticas rigurosas


para determinar si las diferencias observadas en el conteo de lecturas entre genes son
significativamente mayores a las diferencias esperadas por la variación aleatoria que
existe de manera natural entre las muestras. Con este fin, se han desarrollado numerosos
algoritmos estadísticos para modelar los datos de conteo y generar valores de significancia
ajustada (p-value ajustado) y razón de cambio en la expresión (fold-change), con el
objetivo de seleccionar los genes que están significativamente diferencialmente expresados
(Rapaport et al., 2013).

Debido al gran número de genes presentes en cada ensayo de RNA-Seq, se requiere una
corrección para las múltiples comparaciones (una por cada gen entre dos tratamientos),
para evitar falsos positivos, ya que a medida que aumentan las comparaciones, aumenta
la probabilidad de encontrar diferencias debidas al azar. Lo anterior hace referencia
al concepto de tasa de falsos descubrimientos (FDR), el cual es ampliamente utilizado
para controlar este tipo de error. La estimación correcta del FDR requiere de valores de
significancia precisos, basados en una distribución teórica de los datos.

Por consiguiente, si dicha distribución teórica no se cumple será difícil rechazar falsos
positivos de forma acertada. Por eso los métodos usados actualmente no asumen una
distribución normal de los datos, la cual no se cumple para datos de RNA-Seq, sino que
se basan en una distribución de Poisson (Marioni, Mason, Mane, Stephens & Gilad,
2008) o una binomial negativa (Anders & Huber, 2010) para controlar mejor la sobre-
dispersión observada entre réplicas técnicas y biológicas, respectivamente. Tal es el caso
de programas paramétricos como EdgeR y DESeq2, que constituyen dos de los paquetes
más ampliamente usados en análisis de expresión diferencial y hacen parte del programa
estadístico R. Estos programas asumen una distribución teórica de Poisson o binomial
negativa de los datos y basan sus cálculos en una estimación de la relación existente entre
media y varianza. Otros programas comúnmente usados para expresión diferencial a partir
de datos de RNA-Seq son: PoissonSeq, baySeq y Cuffdiff de la Suite Tuxedo (Rapaport et
al., 2013; Trapnell et al., 2012).

No obstante, con cualquiera de los programas mencionados, los parámetros de media


y varianza son difíciles de estimar por separado con pocas réplicas biológicas. En este
sentido, si no se cuenta con un número adecuado de réplicas biológicas del experimento
de RNA-Seq, estas técnicas pueden ser sensibles a la variabilidad presente entre réplicas
(Bullard, Purdom, Hansen & Dudoit, 2010).

Luego de obtener el conjunto de genes significativamente diferencialmente expresados


entre las muestras analizadas, dependiendo del objeto de estudio, se pueden hacer análisis
de anotación funcional sobre este conjunto de genes, con el propósito de identificar
procesos biológicos y funciones moleculares, basadas en anotaciones contra GO, que estén

111
sub o sobrerrepresentadas. También se pueden determinar vías metabólicas de KEGG
donde pueden estar participando los genes y a través de las cuales se puede identificar
si hay una expresión coordinada de determinados genes (mediante la construcción de
redes de coexpresión génica) y los módulos funcionales enriquecidos en dichas redes,
entre otros análisis derivados. Toda esta información obtenida a partir de datos de RNA-
Seq y la identificación de genes diferencialmente expresados permite conocer un perfil
transcripcional y un panorama de los procesos celulares e interacciones génicas que
pueden estar ocurriendo en una célula o tejido bajo una condición o momento dado.

112
Conceptos en Ciencias Ómicas

6.3. Referencias

Adams, M. D., Kelley, J. M., Gocayne, J. D., Dubnick, M., Polymeropoulos, M. H., Xiao,
H., Moreno, R. F…(1991). Complementary DNA sequencing: expressed sequence
tags and human genome project. Science, 252(5013), 1651–6.
Anders, S., & Huber, W. (2010). Differential expression analysis for sequence count
data. Genome Biology, 11(10), R106.DOI: https://doi.org/10.1186/gb-2010-11-
10-r106.
Becker-André, M., & Hahlbrock, K. (1989). Absolute mRNA quantification using the
polymerase chain reaction (PCR). A novel approach by a PCR aided transcript
titration assay (PATTY). Nucleic Acids Research, 17(22), 9437–46.
Blainey, P., Krzywinski, M., & Altman, N. (2014). Points of Significance: Replication.
Nat Meth, 11(9), 879–880. Recuperado de http://dx.doi.org/10.1038/nmeth.3091.
Bouck, A., & Vision, T. (2007). The molecular ecologist’s guide to expressed sequence
tags. Molecular Ecology, 16(5), 907–924.DOI: https://doi.org/10.1111/j.1365-
294X.2006.03195.x
Brown, T. (2002). Transcriptomes and Proteomes. En Genomes. (Garland Sc). Oxford.
Bullard, J. H., Purdom, E., Hansen, K. D., & Dudoit, S. (2010). Evaluation of statistical
methods for normalization and differential expression in mRNA-Seq experiments.
BMC Bioinformatics, 11, 94. DOI:https://doi.org/10.1186/1471-2105-11-94.
Cloonan, N., Forrest, A. R. R., Kolle, G., Gardiner, B. B. A., Faulkner, G. J., Brown, M.
K., Grimmond, S. M…(2008). Stem cell transcriptome profiling via massive-scale
mRNA sequencing. Nature Methods, 5(7), 613– 619. DOI:https://doi.org/10.1038/
nmeth.1223.
Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A.,
Mortazavi, A…(2016). A survey of best practices for RNA-Seq data analysis. Genome
Biology, 17(1), 13. DOI:https://doi.org/10.1186/s13059-016-0881-8.
Datson, N. A., van der Perk-de Jong, J., van den Berg, M. P., de Kloet, E. R., & Vreugdenhil,
E. (1999). MicroSAGE: a modified procedure for serial analysis of gene expression in
limited amounts of tissue. Nucleic Acids Research, 27(5), 1300–7.
Dillies, M.-A., Rau, A., & Aubert, J. (2013). A comprehensive evaluation of normalization
methods for Illumina high-throughput RNA sequencing data analysis. Briefings in
Bioinformatics, 14(6), 671– 683. DOI: http://dx.doi.org/10.1093/bib/bbs046.
Eduardo, A., Cubillos, R., Jiménez, L. P., Sc, M., Jimena, A., Giraldo, B., & Ph, D. (2014).
Una revisión para no expertos rna-Seq Data Analysis in Prokaryotes. A Review for
Non-experts, 19(2), 131–142.
Finotello, F., & Di Camillo, B. (2015). Measuring differential gene expression with RNA-
Seq: challenges and strategies for data analysis. Briefings in Functional Genomics,
14(2), 130–142.DOI: https://doi.org/10.1093/bfgp/elu035.
Imadi, S. R., Kazi, A. G., Ahanger, M. A., Gucel, S., & Ahmad, P. (2015). Plant
transcriptomics and responses to environmental stress: an overview. Journal of
Genetics, 94(3), 525–537.DOI: https://doi.org/10.1007/s12041-015-0545-6.

113
Irie, T., Matsumura, H., Terauchi, R., & Saitoh, H. (2003). Serial Analysis of Gene
Expression (SAGE) of Magnaporthe grisea : genes involved in appressorium
formation. Molecular Genetics and Genomics, 270(2), 181– 189. https://doi.
org/10.1007/s00438-003-0911-6.
Liu, Y., Zhou, J., & White, K. P. (2013). RNA-Seq differential expression studies:
more sequence, or more replication? Bioinformatics, 30(3), 301– 304. https://doi.
org/10.1093/bioinformatics/btt688.
Marioni, J. C., Mason, C. E., Mane, S. M., Stephens, M., & Gilad, Y. (2008). RNA-Seq: An
assessment of technical reproducibility and comparison with gene expression arrays.
Genome Research, 18(9), 1509– 1517. DOI:https://doi.org/10.1101/gr.079558.108.
Martin, L. B. B., Fei, Z., Giovannoni, J. J., & Rose, J. K. C. (2013). Catalyzing plant
science research with RNA-Seq. Frontiers in Plant Science, 66.DOI: https://doi.
org/10.3389/fpls.2013.00066.
Morozova, O., Hirst, M., & Marra, M. (2009). Applications of new sequencing
technologies for transcriptome analysis. Annual Review of Genomics, 10, 135– 151.
DOI:https://doi.org/10.1146/annurev-genom-082908-145957.
Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008). Mapping
and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods, 5(7),
621–628.DOI: https://doi.org/10.1038/nmeth.1226.
Nielsen, K. L., Hogh, A. L., & Emmersen, J. (2006). DeepSAGE--digital transcriptomics
with high sensitivity, simple experimental protocol and multiplexing of samples.
Nucleic Acids Research, 34(19), e133– e133. DOI:https://doi.org/10.1093/nar/gkl714.
Noonan, K. E., Beck, C., Holzmayer, T. A., Chin, J. E., Wunder, J. S., Andrulis, I. L…
(1990). Quantitative analysis of MDR1 (multidrug resistance) gene expression in
human tumors by polymerase chain reaction. Proceedings of the National Academy
of Sciences of the United States of America, 87(18), 7160–4.
Nowrousian, M. (2007). Of patterns and pathways: microarray technologies for the
analysis of filamentous fungi. Fungal Biology Reviews, 21(4), 171– 178. DOI:https://
doi.org/10.1016/j.fbr.2007.09.002.
Okoniewski, M. J., & Miller, C. J. (2006). Hybridization interactions between probesets
in short oligo microarrays lead to spurious correlations. BMC Bioinformatics, 7(1),
276. DOI:https://doi.org/10.1186/1471-2105-7-276.
Oshlack, A., & Wakefield, M. J. (2009). Transcript length bias in RNA-Seq data
confounds systems biology. Biology Direct, 4, 14. DOI:https://doi.org/10.1186/1745-
6150-4-14.
Peters, D. G., Kassam, A. B., Yonas, H., O’Hare, E. H., Ferrell, R. E., & Brufsky, A. M.
(1999). Comprehensive transcript analysis in small quantities of mRNA by SAGE-lite.
Nucleic Acids Research, 27(24), e39.
Pozhitkov, A. E., Tautz, D., & Noble, P. A. (2007). Oligonucleotide microarrays: Widely
applied - Poorly understood. Briefings in Functional Genomics and Proteomics, 6(2),
141–148. DOI: https://doi.org/10.1093/bfgp/elm014.

114
Conceptos en Ciencias Ómicas

Rapaport, F., Khanin, R., Liang, &., Pirun, M., Krek, A., Zumbo, P., Betel, D…(2013).
Comprehensive evaluation of differential gene expression analysis methods for
RNA-Seq data. Genome Biology, 14(9), 3158. DOI:https://doi.org/10.1186/gb-2013-
14-9-r95.
Royce, T. E., Rozowsky, J. S., & Gerstein, M. B. (2007). Toward a universal microarray:
prediction of gene expression through nearest-neighbor probe sequence
identification. Nucleic Acids Research, 35(15), e99. DOI:https://doi.org/10.1093/
nar/gkm549.
Saha, S., Sparks, A. B., Rago, C., Akmaev, V., Wang, C. J., Vogelstein, B., Velculescu, V.
E…(2002). Using the transcriptome to annotate the genome. Nature Biotechnology,
20(5), 508–512. DOI: https://doi.org/10.1038/nbt0502-508.
Schena, M., Shalon, D., Davis, R. W., & Brown, P. O. (1995). Quantitative monitoring
of gene expression patterns with a complementary DNA microarray. Science,
270(5235), 467–70.
Schenk, P. M., Kazan, K., Wilson, I., Anderson, J. P., Richmond, T., Somerville, S. C.,
& Manners, J. M. (2000). Coordinated plant defense responses in Arabidopsis
revealed by microarray analysis. Proceedings of the National Academy of Sciences
of the United States of America, 97(21), 11655–60. DOI:https://doi.org/10.1073/
pnas.97.21.11655.
Schurch, N. J., Schofield, P., Gierliński, M., Cole, C., Sherstnev, A., Singh, V., Barton, G.
J…(2016). How many biological replicates are needed in an RNA-Seq experiment and
which differential expression tool should you use? RNA, 22(6), 839–851. DOI:https://
doi.org/10.1261/rna.053959.115.
Sims, D., Sudbery, I., Ilott, N. E., Heger, A., & Ponting, C. P. (2014). Sequencing depth
and coverage: key considerations in genomic analyses. Nature Reviews. Genetics,
15(2), 121–32. DOI: https://doi.org/10.1038/nrg3642.
Soneson, C., & Delorenzi, M. (2013). A comparison of methods for differential
expression analysis of RNA-Seq data. BMC Bioinformatics, 14(1), 91. DOI:https://
doi.org/10.1186/1471-2105-14-91.
Soto, J., & Lopez, C. (2012). RNA-Seq : herramienta transcriptómica útil para el estudio
de interacciones planta-patógeno. Fitosanidas, 16(2), 101–113.
Strickler, S. R., Bombarely, A., & Mueller, L. a. (2012). Designing a transcriptome next-
generation sequencing project for a nonmodel plant species. American Journal of
Botany, 99(2), 257–66. DOI:https://doi.org/10.3732/ajb.1100292.
Tan, K. C., Ipcho, S. V. S., Trengove, R. D., Oliver, R. P., & Solomon, P. S. (2009).
Assessing the impact of transcriptomics, proteomics and metabolomics on fungal
phytopathology. Molecular Plant Pathology, 10(5), 703–715. DOI:https://doi.
org/10.1111/j.1364-3703.2009.00565.x.
Trapnell, C., Roberts, A., Goff, L., Pertea, G., Kim, D., Kelley, D. R., Pachter, L…(2012).
Differential gene and transcript expression analysis of RNA-Seq experiments with
TopHat and Cufflinks. Nature Protocols, 7(3), 562– 578. DOI:https://doi.org/10.1038/
nprot.2012.016.

115
VanGuilder, H. D., Vrana, K. E., & Freeman, W. M. (2008). Twenty-five years of
quantitative PCR for gene expression analysis. BioTechniques, 44(5), 619– 626.
DOI:https://doi.org/10.2144/000112776.
Velculescu, V. E., Zhang, L., Vogelstein, B., & Kinzler, K. W. (1995). Serial analysis of
gene expression. Science, 270(5235), 484–7.
Virlon, B., Cheval, L., Buhler, J. M., Billon, E., Doucet, A., & Elalouf, J. M. (1999). Serial
microanalysis of renal transcriptomes. Proceedings of the National Academy of
Sciences of the United States of America, 96(26), 15286–91.
Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for
transcriptomics. Nature Reviews. Genetics, 10(1), 57–63. DOI:https://doi.
org/10.1038/nrg2484.
Weake, V. M., & Workman, J. L. (2010). Inducible gene expression: diverse regulatory
mechanisms. Nature Reviews. Genetics, 11(6), 426–37. DOI:https://doi.org/10.1038/
nrg2781.

116
Conceptos en Ciencias Ómicas

7. METABOLÓMICA
MARTHA ZULUAGA

En esta sección se estudiarán las características principales que se deben tener en


cuenta en un estudio metabolómico, las técnicas instrumentales más utilizadas y algunas
maneras de abordar el tratamiento y análisis de los datos desde diferentes tipos de
estudio (reconocimiento de patrones, identificación de biomarcadores, perfilamiento de
metabolitos, fenotipificación, estudios dirigidos y no dirigidos). También se facilitarán
algunos ejemplos con hipervínculos a plataformas para que el lector interactúe y aplique
los conceptos brindados.

Para empezar, definiremos la metabolómica como el análisis del comportamiento de


los metabolitos de bajo peso molecular (menor a 1500 Dalton) en un sistema biológico
(Fiehn et al., 2000). El primer acercamiento experimental se publicó en 1998 por Oliver y
colaboradores en el trabajo “Systematic functional analysis of the yeast genome”, en el
que se utiliza espectroscopía de infrarrojo con transformada de Fourier y espectrometría
de masas en tándem para identificar los cambios en los metabolitos de la levadura ante
una modificación genética junto con el estudio del proteoma y el transcriptoma (lo que se
denominó genómica funcional). Un año más tarde fue acuñado el término metabonómica
haciendo referencia a la medida cuantitativa y multiparamétrica de la respuesta dinámica
a sistemas vivos ante un estímulo fisiopatológico o modificación genética (Nicholson,
Lindon & Holmes, 1999).

Aunque los términos metabonómica y metabolómica fueron acuñados a finales de 1900


y principios del 2000 respectivamente, el término metaboloma fue reportado con el
desarrollo de la teoría del análisis de flujos por Derr en 1985 y con la teoría del control
metabólico por Cornish-Bowden en 1989, los cuales explican el metaboloma como el
conjunto de compuestos de bajo peso molecular.
Este movimiento e interés en el monitoreo de la mayor cantidad posible de metabolitos
de bajo peso molecular, el desarrollo de técnicas instrumentales cada vez más sensibles
y robustas y el rápido crecimiento en las herramientas bioinformáticas, son los elementos
que favorecieron el surgimiento de los estudios metabolómicos.

En este sentido, esta ciencia emergente integra tres áreas del conocimiento como son: la
biología, la química y la bioinformática. Parte de una pregunta biológica, la cual es estudiada
a través de experimentación e instrumentación química, y finalmente, los resultados
son analizados a través de las herramientas bioinformáticas (Figura 7.1). Así mismo, los
estudios metabolómicos se pueden dividir en tres grandes procesos: el primero tiene que
ver con la muestra, la recolección, el tratamiento químico y el análisis instrumental para
la adquisición de datos espectrales (por espectrometría de masas o resonancia magnética
nuclear). En segundo lugar, el tratamiento bioinformático y quimiométrico de las señales y
en tercer lugar, el tratamiento estadístico para la interpretación biológica.

117
Pregunta Biológica
Planteamiento del probleme y
condiciones experimentales

Diseño de Experimentos
1 3
Obtención de muestras Análisis instrumental

2 Análisis quimico
Preparación de las muestras RMN MS

Detección de Picos: 1 3
Normalización
Deconvolución de señales
Procesamieno de datos
2 4
Alineación Identificación

Análisis Univariado Análisis de datos Análisis Multivariado

Interpretación biológica

Figura 7.1. Características principales de un estudio metabolómico. En rojo componente


correspondiente al área de la biología, química en verde y bioinformática en azul.

7. 1. Diseño experimental

Los estudios metabolómicos pueden clasificarse de acuerdo al objetivo biológico que se


desea abordar, bien sea para reconocimiento de patrones (metabolite fingerprinting),
para descubrimiento de biomarcadores (biomarker discovery), como herramienta
para la fenotipificación de estudios no dirigidos (untargeted metabolomics). O para el
perfilamiento de familias de compuestos o estudios dirigidos (targeted metabolomics or
metabolite profiling).

7.1.1. Reconocimiento de patrones (Metabolite fingerprinting)

El reconocimiento de patrones o “metabolite fingerprinting” consiste en la identificación


de señales características de un grupo experimental (Fiehn, 2002). Para el reconocimiento
de patrones no es necesaria la identificación de todos los metabolitos presentes en una
muestra. Estos estudios están dirigidos principalmente a la identificación del menor
número de señales que permitan la discriminación entre semejanzas y diferencias de los
grupos experimentales, con el fin de dar una interpretación del comportamiento biológico.

Su diseño experimental radica en la clasificación de grupos y controles, en la identificación


de señales que intervienen en una ruta específica o en la identificación de marcadores

118
Conceptos en Ciencias Ómicas

pre-establecidos de enfermedades o modos de acción (Sumner, Mendes & Dixon, 2003).


El reconocimiento de patrones puede realizarse mediante diferentes técnicas analíticas
como métodos espectroscópicos (IR, UV, RMN); también se han utilizado estos métodos
con acoplamientos cromatográficos como es el uso de la cromatografía líquida de alta
eficiencia acoplada a resonancia magnética nuclear, lo que hace que se incremente
significativamente la sensibilidad, y a su vez, los costos del análisis debido al uso de fases
móviles deuteradas.

El análisis estadístico de los datos se puede abordar con un modelo de regresión multivariado
y un análisis discriminante. Hay distintos estudios que presentan análisis de varianzas con
pruebas post hoc para la determinación de diferencias entre las variables en varios grupos
experimentales, pero hay que tener presente que los metabolitos (variables) son datos
altamente correlacionados. Por lo tanto, se debe tener especial cuidado y certeza que los
datos analizados no presentan colinealidad.

7.1.2. Identificación de biomarcadores (biomarker discovery)

Debido a que el objetivo principal del desarrollo de biomarcadores en metabolómica


es el de crear un modelo predictivo a partir de un conjunto de múltiples compuestos,
la clasificación de los grupos experimentales o el análisis discriminante de los datos no
es suficiente. Es necesario reportar y validar el modelo matemático utilizado, reportar
la sensibilidad y especificidad del biomarcador mediante curvas ROC (receiver operator
characteristics) con los intervalos de confianza asociados y en ocasiones, evaluar la
reproducibilidad del ensayo, con el objetivo de poderlos llevar a la práctica clínica (Xia,
Broadhurst, Wilson & Wishart, 2013).

El análisis químico debe estar dirigido a la identificación y cuantificación precisa de un


conjunto de compuestos presentes en la muestra los cuales deben ser seleccionados
a priori. Esto requiere alta sensibilidad instrumental y precisión en la identificación de
los compuestos. Por esta razón, en muchos estudios se reportan los resultados desde
diferentes plataformas instrumentales (e.g. MS/MS, RMN de alta resolución o MSn).

Según Xia y colaboradores (2013), los estudios dirigidos a la identificación de biomarcadores


constan de los siguientes pasos:

I. Selección del biomarcador.


II. Evaluación del desempeño.
III. Modelo matemático

I. La selección del biomarcador

Consiste en identificar los compuestos que generan el mayor poder discriminante


(por ejemplo, entre sanos y enfermos; entre diferentes especies; entre expuestos y no

119
expuestos). Generalmente se realiza mediante algoritmos supervisados de aprendizaje de
máquina o modelos de regresión multivariada.

II. La evaluación del desempeño

Consiste en la validación de los biomarcadores propuestos. Usualmente se lleva a cabo


mediante validación cruzada y/o test de permutaciones, seguido de la evaluación de
sensibilidad y especificidad mediante las curvas ROC con los intervalos de confianza y las
tasas de cambio.

III. La creación del modelo matemático

Consiste en utilizar los compuestos resultado del análisis multivariado y discriminante


para aplicarlos a una regresión (e.g. regresión logística) (Xia et al., 2013). Para evaluar la
robustez matemática del modelo, especialmente cuando se cuenta con pocas muestras se
recomienda hacer una validación mediante “bootstrap resampling” de todo el conjunto de
datos (Xia et al., 2013). Posteriormente, los compuestos seleccionados como potenciales
biomarcadores deben ser cuantificados mediante una plataforma analítica robusta.

Finalmente, para validar los biomarcadores es recomendable, en la medida de las


posibilidades, repetir el experimento bajo las mismas condiciones y con los mismos
organismos, seguido de un estudio de muestras de una población similar a las condiciones
de laboratorio y, por último, realizar las pruebas interlaboratorio.

7.1.3. Metabolómica no dirigida (Untargeted metabolomics)

En los estudios no dirigidos se pretende seleccionar la mayor cantidad de señales espectrales


que puedan discriminar con precisión un organismo de otro, o comportamientos biológicos
en diferentes sistemas. En este sentido, el análisis instrumental se lleva a cabo en equipos
de alta sensibilidad y el procesamiento de datos representa un reto en la selección de
algoritmos para el filtrado de ruido y la deconvolución de señales.

En la actualidad se cuenta con plataformas libres y librerías en R que permiten hacer


este procesamiento mediante interfaces muy amigables con el usuario, entre las más
usadas están: XCMS35, MZmine36 y MAIT37. Para analizar los resultados obtenidos no
necesariamente se debe hacer la identificación y anotación de metabolitos a priori; en los
estudios no dirigidos es usual trabajar con los datos crudos sin identificar, con la lista de
picos, con los datos espectrales o con las señales alineadas (Xia & Wishart, 2011), para
posteriormente, mediante estadística multivariada, seleccionar grandes conjuntos de
datos según el comportamiento biológico.

35 Disponible en https://xcmsonline.scripps.edu.
36 Disponible en mzmine.github.io/.
37 Disponible en https://www.bioconductor.org/packages/release/bioc/html/MAIT.html.

120
Conceptos en Ciencias Ómicas

7.2. Preparación de la muestra y técnicas instrumentales analíticas

La preparación de la muestra depende, no sólo del origen y tipo de muestra, sino también
del tipo de estudio metabolómico a llevar a cabo (dirigido o no dirigido), y posteriormente
de la técnica instrumental a utilizar (LC/MS, GC/MS o NMR). La preparación de la muestra
de un estudio dirigido busca separar las sustancias a analizar y reducir al máximo las
interferencias de la matriz. Por otro lado, en un estudio no dirigido se debe tener cuidado
de no alterar la composición de la muestra, es decir, se debe cuidar la integridad de todos
los metabolitos presentes en la muestra. Dependiendo del origen de las muestras estas
pueden ser desde los metabolitos endógenos de las células (Zuluaga et al., 2016) hasta
muestras ambientales. Esta gran variación de matrices representa la gran diversidad en
las opciones para la elección del método. Sin embargo, hay aspectos en común que el
tratamiento de la muestra requiere abordar. Por ejemplo, remover macromoléculas,
disminuir o eliminar compuestos que puedan generar un efecto matriz de supresión de
iones, y remover interferencias que puedan afectar la adquisición de datos. Una revisión
más detallada de la preparación de muestras de diferentes matrices puede ser encontrada
en la revisión de Zuluaga et al., (2016).

De acuerdo a la técnica instrumental utilizada, se deben tener algunos cuidados especiales


para asegurar buenos resultados. Por ejemplo, para análisis metabolómicos basados en
espectrometría de masas, es necesario garantizar la limpieza de la fuente de iones durante
todo el experimento. Por este motivo, se recomienda verificar con blancos cada cierto
número de muestras con el fin de evitar el decremento gradual de la señal total.

Si el análisis por espectrometría de masas va acoplado a cromatografía de gases se debe


tener en cuenta las condiciones de derivatización de la muestra y la limpieza periódica del
liner. Para esto se sugiere realizar pruebas de control de calidad con mezclas de estándares
de diferentes grupos funcionales que se llevan a derivatización para determinar las
figuras de mérito de la reacción (linealidad, reproducibilidad, recuperación, sensibilidad
y selectividad) así como los posibles aductos que se puedan llegar a generar durante
la reacción de derivatización. Esta derivatización para los estudios metabolómicos
generalmente se realiza en dos etapas: la primera, la metoximación para la protección de
grupos funcionales carbonílicos; la segunda una silanización de los hidrógenos transferibles
al medio (Figura 7.2). McKelvie, Yuk, Xu, Simpson & Simpson (2009), compararon tres
metodologías diferentes de derivatización usando metilsilil trifluoroacetamida (MSTFA),
metiltertbutilsilil trifluoroacetamida (MTBSTFA) e hidrocloruro de hidroxilamina
trifluoroacetamida (HMDS, TFA), de los cuales el tercer método les permitió obtener el
mayor rendimiento de metabolitos.

121
OMe

O O HCI N
R OH NH2 60 C/15min
R OH

OMe
37 C OMe
N O O
Si N H
30min Si
R OH F3C N F3C N
R O

Figura 7.2. Reacciones de derivatización de compuestos semivolátiles. Primero


metoximación, segundo silanización.

Para los estudios basados en cromatografía líquida acoplados a espectrometría de masas


se debe asegurar que ningún compuesto de la matriz esté generando supresión de señales.
Para esta técnica también se sugiere la inyección de blancos y muestras control para
verificar dentro de la marcha el desempeño de la misma.

Por otro lado si el método de elección es la resonancia magnética nuclear, es necesario


considerar los reactivos deuterados a utilizar e instrumentalmente la supresión de la
frecuencia de la señal del agua. En este sentido, se recomienda evaluar diferentes solventes
de extracción para garantizar el mayor número de metabolitos en el extracto. En un estudio
realizado por Brown y colaboradores (2008), compararon diferentes solventes, tiempo de
depuración y liofilización, con el objeto de encontrar los óptimos para la preparación de
muestras de tejido de lombriz para un análisis en RMN. En este estudio se analizaron
seis solventes diferentes: buffer fosfato, agua deuterada, acetonitrilo deuterado, benceno,
cloroformo, metanol y dimetil sulfóxido (todos deuterados), encontrando que el buffer
fosfato presentó la mayor reproducibilidad, mayor concentración y variedad de metabolitos.
Como se mencionó anteriormente, la preparación de la muestra está muy relacionada con
la técnica instrumental en la que se basará el estudio, la elección de la técnica dependerá
de la accesibilidad y los recursos con los que cuente el investigador, ya que todas presentan
fortalezas y aspectos por trabajar. Por ejemplo, la resonancia magnética nuclear (RMN)
ha sido ampliamente utilizada, debido a que es un método robusto en el que se puede
identificar y cuantificar directamente sin necesidad de estándares externos ni curvas de
calibración, ya que la señal es proporcional a la concentración molar del compuesto (Lubbe,
Ali, Verporte, & Choi, 2013). Otra de las ventajas de esta técnica es la mínima manipulación
y fácil preparación de la muestra, lo que la hace muy reproducible, además del hecho de que
mantiene la integridad de la muestra al ser una técnica no destructible. Las limitaciones de

122
Conceptos en Ciencias Ómicas

la técnica de RMN radican principalmente en los costos de mantenimiento de los equipos y


la baja sensibilidad, por lo que generalmente se ha utilizado en experimentos controlados,
aunque últimamente esto ha ido mejorando al incrementar la frecuencia de los equipos.

Por otro lado, los estudios basados en la espectrometría de masas se han vuelto más
populares debido a la disponibilidad en los laboratorios, la versatilidad y los costos de
mantenimiento. El tipo de ionización más comúnmente utilizada en esta revisión fue la
ionización por electrospray (ESI) combinada con la técnica cromatográfica líquida (LC/
MS TOF), en tanto esta provee una buena sensibilidad y selectividad por un amplio rango
de compuestos. Sin embargo, una de las limitaciones de los estudios metabolómicos en
los que se utiliza cromatografía líquida, es el procesamiento de los datos, ya que consume
mucho tiempo por las librerías de espectros basadas en tiempos de retención, además son
limitadas y generalmente deben ser construidas por cada laboratorio, lo que hace que se
incrementen los costos por la consecución de estándares.

Finalmente, los estudios basados en cromatografía gaseosa son muy populares, en cuanto
el costo total por muestra puede llegar a ser menor que las otras técnicas y el libre acceso a
librerías y repositorios de espectros hace que el procesamiento de los datos sea más fácil,
asequible y transparente. La limitación se sitúa en el procesamiento de muestra, dado que
estas deben ser derivatizadas para convertirlas en compuestos volátiles, lo cual puede
aumentar el error experimental y afectar la reproducibilidad. No obstante, hay protocolos
generales establecidos para el tratamiento de muestras para estudios metabolómicos.

7.2.1. Aspectos generales de la espectrometría de masas

La elección en el tipo de ionización en los estudios metabolómicos es crucial para asegurar


la calidad de los resultados, ya que esta dependerá de la naturaleza de la muestra y la
clase de información que se desea obtener. La ionización se puede dividir en dos grupos:
ionización en fase gaseosa o ionización por desorción. En el primer caso, la muestra se
vaporiza y posteriormente es ionizada, esta técnica de ionización es utilizada principalmente
en metabolitos térmicamente estables y de bajo peso molecular. En el segundo caso, los
metabolitos están embebidos en una matriz y son ionizados directamente generando iones
gaseosos. Dentro de la ionización en fase gaseosa se encuentra la ionización por impacto
electrónico y la ionización química.
Por otro lado, la ionización por desorción contiene la ionización por electrospray, ionización
en superficie, ionización FAB (Fast atom bombardment), DART (Direct analysis in real time)
y la ionización por láser (Figura 7.3). En la ionización por impacto electrónico las moléculas
que se encuentran en fase de vapor son ionizadas por medio de un haz de electrones
de alta energía. Los electrones provienen de un filamento y son acelerados mediante un
diferencial de potencial variable entre 5 y 70 V, generando energías entre 5 y 70 eV. Cuando
las moléculas entran en contacto con el haz de electrones puede darse la eliminación de
un electrón, eliminación de dos electrones, captación de un electrón o la disociación de
la molécula (siendo la eliminación de un electrón el proceso más probable). La ionización

123
química ocurre mediante una reacción bimolecular, en la que el metano es sometido a
presiones de 1mm Hg generando iones metonio (CH5+) que son puestos en contacto con
las moléculas de la muestra generando la ionización de las mismas.

Ionización

Por desorción
Fase de Vapor

Impacto Electrospray FAB DART Láser


electrónico

MALDI

Ionización
química

SELDI

Figura 7.3. Tipos de ionización de muestras.

Por otro lado, la ionización por electrospray se realiza a presión atmosférica, haciendo
pasar la muestra más el solvente por un capilar metálico al cual al final se le aplica una
corriente de 3-4 KV. Esto genera una niebla de finas gotas cargadas eléctricamente, lo
que facilita la evaporación del solvente y las moléculas pueden quedar cargadas positiva
o negativamente. La ionización en superficie es utilizada para compuestos de baja
volatilidad, en los que la ionización ocurre sobre una superficie a elevadas temperaturas.
La ionización FAB se da a través de átomos de xenón o cesio que son impactados sobre
una matriz, la cual cede un protón que ionizaría la muestra que está embebida en la matriz.
Esta se utiliza generalmente para moléculas polares y de alto peso molecular. La ionización
DART consta de un haz formado por átomos de helio producidos por descarga eléctrica
que impacta la muestra y transfiere protones a los analitos, no requiere un solvente matriz.

Finalmente, la ionización asistida por láser, consiste en la pulsación de ondas de luz que
impactan una matriz en el caso MALDI (ionización por desorción con láser asistida por una
matriz) para generar el agente ionizante, y por ende, ionizar los metabolitos. En el caso
SELDI (ionización por desorción con láser sobre una superficie), los analitos se fijan sobre

124
Conceptos en Ciencias Ómicas

una superficie sólida por adsorción, la cual se recubre con un solvente que actúa como una
matriz que posteriormente es irradiado con el láser para generar los agentes ionizantes.

Respecto a los analizadores de masas, tienen como objetivo el separar los iones generados
en el proceso de ionización. Estos se pueden clasificar en dos grandes grupos: los
analizadores de barrido y los analizadores de transmisión de iones simultáneo. Dentro
del primer grupo se encuentran el analizador magnético y el cuadrupolar. En el segundo
grupo se encuentran el analizador de trampa de iones, el tiempo de vuelo y el analizador
de transformada de Fourier (Figura 7.4). La diferencia que existe entre los analizadores
se puede resumir en tres parámetros: la resolución, la masa máxima que pueden medir y
la transmisión de iones. En la Tabla 7.1 se muestran las diferencias entre los dos tipos de
analizadores respecto a los parámetros (Stashenko y Martínez, 2010).

Analizadores
de
masas

Analizadores
Analizadores de transmisión
de barrido de iones
simultáneos

Analizador de
tiempo de
vuelo

Analizador
magnético

Analizador de
trampa de
iones

Analizador
cuadrupolar

Analizador de
transformada
de Fourier

Figura 7.4. Analizadores de masas

El analizador magnético es el menos frecuente en la actualidad y utiliza un campo magnético


para separar los iones sometiéndolos a una curvatura en el trayecto hasta el detector, la
velocidad cinética la llevan los iones generados por el campo magnético; estos analizadores
tienen una resolución de 900 m/z. El analizador cuadrupolar está conformado por cuatro
barras metálicas ubicadas de manera circular y paralela, sobre las cuales se aplica un
potencial de radiofrecuencia alterno para realizar el barrido de masas; su resolución es de
500 a 1000 m/z. La diferencia del analizador de trampa de iones con respecto al anterior
es que los iones pueden quedar confinados durante un periodo más largo, debido a una

125
frecuencia adicional externa que es aplicada, y permite que los iones sean eyectados de
la trampa en orden creciente de la relación m/z. En el analizador de tiempo de vuelo los
iones generados en la fuente son acelerados mediante un pulso de potencial eléctrico y la
velocidad de cada ion es inversamente proporcional a su relación masa carga, haciendo el
tiempo de análisis muy corto.

Tabla 7.1. Diferencias entre analizadores de masa.

Analizadores de
Parámetro. Analizadores de barrido. transmisión de iones Comentario.
simultáneo.
Las masas exactas permiten
Masas nominales (Números Masas exactas (hasta seis
Resolución diferencias isómeros y
enteros) decimales)
especies isobáricas
Los TOF, Virtualmente
Masa máxima Límite para la masa
infinito
Relación entre los iones que
se forman en la cámara de
Transmisión de iones Baja sensibilidad Alta sensibilidad ionización y los que después
de atravesar el analizador
alcanzan el detector

7.3. Procesamiento de datos metabolómicos

El procesamiento de los datos en metabolómica comienza con la transformación de los


archivos de datos crudos en una representación que facilite el acceso a las características
de cada ion (Katajamaa & Oresic, 2007). Descrito de otra forma, se refiere a la conversión
de señales cromatográficas, espectros de masas o espectros de frecuencia (según sea la
técnica analítica utilizada) en matrices numéricas que contengan la información de cada
señal como el tiempo de retención, la relación masa carga (m/z) y la intensidad de los
iones, con el fin de que puedan ser posteriormente analizados estadísticamente.

Debido a que los estudios metabolómicos están conformados de un gran número de datos,
de la misma forma que las otras ómicas es necesario el uso de herramientas informáticas
para un apropiado tratamiento de los datos (Sugimoto, Kawakami, Robert & Soga,
2012), las cuales han crecido en los últimos años. En la tabla 7.2 se presenta la lista de
las plataformas de acceso libre y comercial para procesamiento de datos metabolómicos
basados en espectrometría de masas.

Tabla 7.2. Plataformas para el procesamiento de señales cromatográficas y espectros de


masas.

126
Conceptos en Ciencias Ómicas

Nombre Características Tipo Lenguaje


COMSPARI Visualización para la búsqueda de diferencias entre pares de Libre. C
corridas.
Continuous Alineación y normalización para datos de series de tiempo. Libre. MatLab
profilemodels
LCMSWARP Alineación por tiempo de retención y clusterización. Libre. C++
MapQuant Filtrado de ruido, detección de pico y visualización. Libre. C
MathDAMP Comparación directa de datos crudos sin selección de picos, Libre. Paquete de
incluye métodos para preprocesamiento como agrupación en Matemática
cuadrícula (binning), substracción de línea base, suavizado y
normalización.
MET-IDEA Extrae los datos de la intensidad del ion listados por orden Libre. .NET platform
creciente de ion/tiempo de retención de múltiples corridas.
MSFACTs Alineación y comparación de cromatogramas crudos o lista de Libre. Java
picos.
Msight Visualización y análisis visual de la comparación de corridas Libre. Windows
múltiples. platform
msInspect Detección de pico, alineación, normalización y visualización. Libre. R, Java
MZmine Filtrado de ruido, detección de picos, alineación, anotación, Libre. R, Java
normalización, visualización, computación distribuida.
SpecArray Filtrado de ruido, centralización, detección de pico, alineación Libre. C
y visualización.
Xalign Detección de pico, alineación y control de calidad. Libre. C++
XCMS Filtrado de ruido, detección de pico, normalización, anotación Libre. R
y visualización.
MAIT Detección de pico, anotación de picos y visualización. Libre. R
BinBase data Automática anotación de metabolitos. Libre.
base
BlueFuse Filtrado, detección de pico, alineación, métodos univariados y Comercial: BlueGenome,
multivariados para el análisis de datos. Cambridge, UK.
Genedata Filtrado, detección de pico, alineación por m/z y tiempo de Comercial: Genedata, Basel,
Expressionnist retención, anotación, estadística y módulos de interpretación. Suiza.
LineUp Alineación de datos cromatográficos. Comercial: Infometrics.
MarkerLynx Detección de pico y alineación, análisis de componentes Comercial: Waters, Milford,
principales (PCA). MA.EU.
MarkerView Detección de pico y alineación, PCA, test t. Applied Biosystem, Foster
City, CA. EU.
MassHunter Extracción de características y alineación. Agilent Technologies Santa
Profiling Clara, CA. EU.
software
Metabolic Compila información cruda en tablas de tiempo de retención, Bruker Daltonic y Bruker
Profiler m/z e intensidades. Anotación y PCA. BioSpin, Billerica, MA. EU.
metAlign Filtración, corrección de línea base, detección de pico y PlanResearch international,
alineación. B.V. Holanda.
MS Resolver Resuelve datos multicomponentes de instrumentación con Pattern Recognition System.
multidetección en contribuciones individuales.
Profile Conversión de extensión, detección de picos y alineación, Phenomenome Discoveries,
análisis estadístico. Canadá.
Rosetta Detección de pico y alineación, análisis estadístico y Rosetta Biosoftware,
Elucidator visualización. Seattle. EU.
Sieve Comparación de múltiples cromatogramas. Thermo Fisher Scientific.
EU.
ChromaTOF Deconvolución, visualización y reporte. LECO.

127
7.3.1. Formato y filtrado

Si el procesamiento de los datos se desea realizar en un programa libre o en una plataforma


web, es necesario inicialmente convertir la extensión del archivo, ya que dependiendo de la
marca del equipo utilizada en el laboratorio, cada casa comercial tiene una extensión y un
formato de archivo diferente y único para su marca. Sin embargo, cada programa comercial
tiene la opción de exportar los archivos a formatos universales. Los formatos actualmente
utilizados por las plataformas de acceso abierto son netCDF, mzXML (Katajamaa y Oresic,
2007; Sugimoto, Kawakami, Robert & Soga, 2012).

Los métodos de filtrado se utilizan principalmente para remover los efectos del ruido o
la línea base. En los estudios por cromatografía acoplados a espectrometría de masas se
espera obtener dos tipos de ruido: el generado por el equipo (ruido aleatorio) y el generado
por el solvente. Los algoritmos más utilizados para la remoción del ruido son los siguientes:
movimiento de ventana (moving average window), filtrado por mediana (median filter),
Savitzky-Golay, polinomio local (local plynomial fitting) y transformación ondeada (wavelet
transformation). Estas técnicas de filtrado y suavizado se usan fundamentalmente en
cromatografía líquida, puesto que por efecto de los solventes de la fase móvil, las señales
son menos homogéneas que en la cromatografía gaseosa.

El filtrado por la mediana (median filter) consiste en reemplazar cada punto (K) de
las fluctuaciones del ruido por la media de todos los valores K. Este valor K debe ser
optimizado a través de blancos con diferentes condiciones y solventes, porque un K muy
grande puede tener un alto grado de suavizado y ocultar algunas señales verdaderas,
mientras que valores muy pequeños pueden no hacer mucho cambio en las señales.

La técnica de suavizado a través del algoritmo de Savitzky-Golay es la más popular y es


similar a la de polinomio local. En esta cada punto es reemplazado por un estimado de
una función polinómica calculada con los puntos circundantes; una ventaja de Savitzky-
Golay es que las derivadas pueden ser calculadas simultáneamente. El algoritmo de
transformación ondeada (Wavelet transformation) consiste en el reconocimiento de las
frecuencias de onda, es decir, las fluctuaciones producidas en el ruido son más rápidas
que las generadas por una señal de un compuesto. La idea consiste en reemplazar los
coeficientes de las fluctuaciones rápidas por cero, lo cual extracta únicamente las
frecuencias correspondientes a las señales (Wehrens, 2011).

Finalmente, un tipo especial de suavizado de señales es a través del pixelado (Binning),


que no solo promedia los valores conseguidos para pixel, sino que también disminuye el
número de variables. Aunque la resolución de la imagen disminuye, se puede identificar con
mayor facilidad las principales características. Este método de suavizado de señal también
tiene sus limitaciones, porque determinar el tamaño del pixel es cuestión de ensayo y error,
pero tiene más ventajas que trabajar sobre medias o medianas (Wehrens, 2011).

128
Conceptos en Ciencias Ómicas

7.3.2. Detección de picos

Los tratamientos informáticos para la detección de señales están enfocados en la


identificación de todos los compuestos, al evitar los falsos positivos y al proveer información
cuantitativa de la abundancia de los iones presentes. Para esto, una de las estrategias más
utilizadas es la conversión de la información adquirida en gráficos cartesianos donde el eje
“x” es el tiempo de retención y el eje “y” es la relación m/z.

De allí se separan las señales y se tabulan en orden de tiempo de retención y m/z; si bien
esto ayuda en gran medida a la organización y separación de los datos, hay un factor
experimental que se debe tener en cuenta: la ionización (ya que para ionizaciones suaves,
como la de electrospray, se pueden encontrar tablas “más limpias”). Es decir, se encuentran
menos fragmentos de un mismo compuesto, pero por lo general, en el proceso de selección
de picos se debe lidiar también con aductos de iones, isómeros y diferentes estados de
carga con la elución de compuestos en un mismo tiempo de retención. Por eso después
es necesario realizar la identificación de isómeros, aductos y la deconvolución los cuales
serán descritos a continuación.

7.3.3. Deconvolución de señales

Cuando se realiza una ionización suave, se espera obtener un solo pico por compuesto,
para que estos a su vez eluyan uno a uno de la columna cromatográfica. Sin embargo,
esto no ocurre siempre, hay compuestos que viajan a través de la columna con una
velocidad muy similar, por lo tanto, un gran número de metabolitos coeluyen y no son
cromatográficamente bien resueltos, por consiguiente, los espectros de masas también
quedan superpuestos, en este sentido, es necesario separar matemáticamente las señales
solapadas y reorganizar los iones que provienen de cada metabolito, proceso que se
conoce como deconvolución.

Los parámetros con los que se deben alimentar los diferentes programas para
deconvolucionar picos son diferentes de acuerdo a la casa comercial. En un estudio
realizado por Lu y colaboradores (2008), publicado en el Journal Trends in Analytical
Chemistry, se efectuó una comparación de tres programas, dos de ellos comerciales –
ChromaTOF y AnalyzerPro–, así como AMDIS, que se puede descargar de manera libre,
cada uno de los cuales tiene diferentes parámetros de uso y algoritmos desarrollados por
cada casa comercial.

En este estudio se encontró que AMDIS produce más falsos positivos, y los programas
AnalyzerPro y ChromaTOF reportaron más falsos negativos. No obstante, si se omitieran los
falsos negativos del programa ChromaToF, que resultó con mayor validez en los resultados,
el número de metabolitos deconvolucionados correctamente sería mayor a los otros dos,
aunque tiene la limitación de que sólo recibe datos procesados en equipos LECO, mientras
que AMDIS y AnalyzerPro, reciben los formatos universales.

129
7.3.4. Identificación de Isótopos

Los analizadores de masas de alta resolución (como TOF y RITF) permiten la identificación
de iones isotópicos, los cuales comúnmente son deconvolucionados en el flujo de trabajo
de procesamiento de datos en los estudios metabolómicos. Si el objetivo del estudio no es
seguir un patrón isotópico (bien sea porque la molécula haya sido marcada isotópicamente
en el experimento o porque se requiere identificar las transformaciones de alguna molécula),
es necesario agrupar los patrones isotópicos para minimizar el número de señales que van
a ser identificadas, y que generen una información adecuada para lo que se busca en el
experimento. Con tal fin se debe proveer al programa la información sobre la relación m/z
máxima permitida para ser considerados iguales, la tolerancia en tiempo de retención y la
carga máxima para detectar un patrón isotópico.

7.3.5. Identificación de aductos

Se entiende como aducto, la unión de moléculas mediante un enlace covalente, que no


produce cambios estructurales. Esta unión se produce durante la reacción de derivatización
o por los compuestos de la matriz que contiene los analitos. La masa de estos aductos
dependerá de la estrategia de derivatización utilizada, en el caso de la cromatografía
gaseosa, y de los solventes utilizados, en el caso de la cromatografía líquida.

7.3.6. Identificación y anotación de compuestos

La identificación de compuestos se lleva a cabo mediante la similitud de espectros


obtenidos con las librerías disponibles en el equipo o las construidas en cada laboratorio.
La anotación de compuestos desconocidos hace referencia a la búsqueda del compuesto
basados en el espectro de masas y el índice de retención en bases de datos públicas como
(HMDB, KEGG, PubChem, Chemspider, entre otros) o con la identificación instrumental
(e.g. mediante MS/MS).

El índice de retención de Kovats es el indicador más utilizado como función de las


propiedades de la columna (tipo de columna, edad, longitud, grosor de fase estacionaria) es
utilizado para fijar un valor en función del tiempo de retención, dado que el desplazamiento
de los picos son observados siempre entre cada corrida cromatográfica, con el fin de fijar
una posición para cada metabolito dentro del cromatograma. Esto permite que se puedan
crear bases de datos universales que pueden ser almacenadas y usadas a lo largo de los
años a través del uso del índice de retención (Skogerson, Wohlgemuth, Barupal & Fiehn,
2011).

El índice de retención se determina dopando las muestras con estándares conocidos,


generalmente alcanos desde C6 hasta C24, pero actualmente se usan también los ésteres
metílicos de ácidos grasos (FAMES) en el mismo rango, ya que los ácidos grasos metilados
han mostrado un desempeño inequívoco en la detección automatizada (Skogerson et al.,
2011).
130
Conceptos en Ciencias Ómicas

7.3.7. Alineación

La alineación de señales consiste en asignar un mismo pico en diferentes muestras o


corridas cromatográficas, debido al desplazamiento que sufren los picos entre las diferentes
corridas. Para esto se han desarrollado diferentes estrategias, a saber: el análisis de las
señales en una sola dimensión, la adición de estándar interno y los métodos sin adición de
estándares internos.

El método de grupos centrados consiste en generar un cromatograma promedio con los


datos de todos los cromatogramas de un mismo estudio, en el cual los picos generados
en el cromatograma promedio van a definir un centro de agrupación, para posteriormente
tomar cada pico de las muestras individuales y emparejar con el pico del centro de grupo.
Una limitación de este método es que la desviación en el tiempo de retención del pico
entre las diferentes muestras, porque no puede ser mayor a la distancia entre dos picos
adyacentes de la misma muestra.

El método de arreglo de ventana de tiempo de retención consiste en organizar y extraer la


lista de picos de todas las muestras e ir formando grupos de picos usando un intervalo en
el tiempo de retención. La desventaja de este método es que la optimización del intervalo
se debe hacer manualmente a ensayo y error, pero puede ser que no sea reproducible para
otro experimento.

El método de adición de estándar interno consiste en adicionar pequeñas cantidades de


estándares que se puedan distribuir a lo largo de la corrida cromatográfica, con el propósito
de usar un desplazamiento lineal en el tiempo de retención de cada muestra adquirida. Las
limitaciones de este método consisten, en primer lugar, en asumir que el desplazamiento
de los picos corresponde a una función lineal. En segundo lugar, en requerir un paso más
en el procesamiento de la muestra, que es la adición de estándares que pueden afectar o
enmascarar la presencia de otros metabolitos.

Entre los métodos sin adición de estándar interno reside la correlación optimizada de forma
(Correlation optimized warping – COW), la cual busca exhaustivamente posibles conjuntos
de curvaturas segmentadas que puedan ser usados para alinear un cromatograma con el
otro usando una medida de correlación. El método de formación cuadrática (quadratic
warping function), modela las fluctuaciones iterativamente en una función cuadrática para
minimizar las diferencias entre las trazas de dos cromatogramas (Smith, Want, O’Maille,
Abagyan & Siuzdak, 2006).

El método de XCMS inicia haciendo un agrupamiento brusco de los cromatogramas.


Esto con el propósito de buscar grupos con picos bien resueltos, los cuales son usados

131
temporalmente como estándares para calcular la media en tiempo de retención y la
desviación de la media para cada muestra en ese grupo. Posteriormente, a cada muestra
se le determina una curva no lineal de tiempo de retención con un modelo polinómico local
(Smith et al., 2006).

7.3.8. Valores perdidos

Se presentan los valores perdidos porque la concentración de un metabolito en una


muestra determinada quedó por debajo del límite de la instrumentación usada. En tanto
estos valores perdidos pueden generar inconvenientes en el momento de hacer el análisis
estadístico, es importante reemplazar el valor cero por otro valor calculado mediante
varias estrategias: la primera de estas consiste en calcular el valor medio del valor más
pequeño detectado para ese ión (otros programas utilizan la tercera parte del valor más
pequeño detectado). Otra de las estrategias consiste en asignar el valor del ruido de fondo
(Courant, Antignac, Dervilly-Pinel & Le Bizec, 2014).

7.4. Análisis de datos

Los datos adquiridos en un estudio metabolómico tienen la característica de una alta


dimensionalidad en la que generalmente el número de variables excede el número
de observaciones, entendiéndose por variable los metabolitos identificados y no
identificados. Otra de las características reside en las variables que están correlacionadas,
ya que pertenecen a un mismo sistema biológico (Courant et al., 2014). Por esta última
razón es que el uso de análisis univariado en estudios metabolómicos ha sido criticado;
sin embargo, en el caso en que la variación entre muestras es muy aleatoria, el análisis
multivariante no es el adecuado para identificar dichas diferencias. En esos casos debe
aplicarse estadística univariada (Smith et al., 2006).

Las variaciones en las concentraciones de los metabolitos pueden estar afectadas no


necesariamente por el evento biológico, sino también pueden estar influidas por otros
factores como: la diferencia en el orden de magnitud, esto es, la diferencia que puede haber
entre el promedio de concentración de un metabolito con el promedio de un metabolito.

Por ejemplo la glucosa o el ATP que se encuentran en grandes concentraciones, y esto


no quiere decir que los metabolitos que están en bajas concentraciones sean menos
importantes. Otro factor puede ser la variación técnica que es el error en el tratamiento de
la muestra (Van den Berg, Hoefsloot, Westerhuis, Smilde & van der Werf, 2006).

En este sentido, antes de hacer el análisis estadístico es necesario minimizar todos los
errores sistemáticos que puedan tener los datos crudos, a través de la normalización, la
transformación y el escalado de los datos, los cuales se explicaran a continuación.

132
Conceptos en Ciencias Ómicas

7.4.1. Normalización

El objetivo de la normalización de los datos consiste en corregir la variación sistemática


y en escalar los datos, de manera que las diferentes muestras de un estudio puedan ser
comparadas entre sí (Castillo, Gopalacharyulu, Yetukuri & Orešič, 2011). En otras palabras,
se trata de eliminar la variación que puede ser confusa y que proviene, por ejemplo, del
tratamiento de la muestra, mientras se retiene la variación relevante (la variación de origen
biológico).

La normalización puede realizarse mediante dos métodos diferentes: a través de estándar


interno o a través de factores de escala. El método de estándar interno se basa en la
división de la intensidad de las señales de los compuestos por la intensidad del estándar
interno. La elección del estándar debe fundamentarse en un compuesto que, en general,
pueda describir el comportamiento de la mayor cantidad de metabolitos en la muestra.

El método de factores de escala se puede realizar a través de la mediana o el promedio


de las intensidades, en el cual se dividen las intensidades o las áreas de cada pico por el
promedio de las alturas de los picos, o por el promedio del cuadrado de las alturas de los
picos, la altura del pico máximo o por la suma de las alturas o el área de los picos en una
muestra (Castillo et al., 2011).

7.4.2. Transformación y escalado

Las transformaciones son conversiones no lineales de los datos para convertir las relaciones
multiplicativas por relaciones aditivas y para hacer la distribución del sesgo más simétrico.
Las transformaciones son necesarias para identificar las relaciones biológicas a través de
técnicas lineales (Van den Berg et al., 2006). Esto porque las transformaciones logarítmicas
reducen el orden de magnitud, haciéndolo más similar a los valores pequeños, los cuales
llegan a tener efectos de pseudo escalado entre los valores grandes y los pequeños, por lo
tanto, es importante realizar un escalado después de la transformación.

Hay diferentes metodologías para realizar un escalado, entre ellas pueden mencionarse el
auto escalado, el escalado en rango, el escalado de Pareto, el escalado extenso y el escalado
por nivel. En la Tabla 7.3 puede observarse el objetivo, las ventajas y las desventajas de
cada estrategia.

133
Tabla 7.3. Métodos de escalado, objetivo, ventajas y desventajas.

Método Objetivo Ventajas Desventajas


Auto escalado Comparar metabolitos Todos los metabolitos Inflación de las medidas
basados en correlaciones. se vuelven igual de de error.
importantes.
Escalado por intervalo Comparar los metabolitos Todos los metabolitos Inflación de las medidas de
de acuerdo al rango de se vuelven igual de error y sensible a outliers.
respuesta biológica. importantes y el escalado
es relativo a la respuesta
biológica.
Escalado de Pareto Reduce la importancia Mantiene los datos cerca a Sensible a grandes tasas de
relativa de los valores de los datos originales cambio
magnitud grande, pero
mantiene la estructura de
los datos parcialmente
intacta.
Escalado extenso Enfocarse en metabolitos Apunta a la robustez, puede No es recomendable
que presentan pequeñas utilizar el conocimiento para grandes variaciones
fluctuaciones previo del grupo inducidas sin un grupo
predeterminado
Escalado por nivel Se enfoca en la respuesta Adecuado para la Inflación de las medidas
relativa identificación de de error
biomarcadores

7.4.3. Análisis de componentes principales

El análisis de componentes principales (PCA) es el método multivariante más utilizado para


explorar los datos metabolómicos. Esto se debe a que poseen más número de variables
(metabolitos) que observaciones, y los metabolitos están altamente correlacionados, es
decir, es posible explicar el evento biológico refiriéndose a unos pocos metabolitos (los
que presentan mayor variabilidad). En este orden de ideas, el PCA permite reducir la
dimensionalidad de los datos, generando nuevas variables llamadas variables latentes o
componentes principales, que son variables que no están correlacionadas y que ayudarán a
identificar los metabolitos que mayor variación biológica presentan y los posibles outliers.

El PCA es una técnica matemática que no requiere la suposición de normalidad multivariante


de los datos, pero si esto se cumple puede arrojar una interpretación más profunda de los
componentes. Para realizar el cálculo de los componentes principales es necesario calcular
la varianza y organizar la matriz en orden descendiente de varianza. Se tiene entonces
una serie de variables (metabolitos) x1, x2, …, xp y se trata de calcular a partir de ellas un
conjunto de variables y1, y2, …, yp no correlacionadas, donde cada yj (j=1,2,..,p) es una
combinación lineal de variables originales (X1, X2,..., Xp). Posteriormente, los valores de los
coeficientes de cada variable se vectorizan y se proyectan en un plano.

134
Conceptos en Ciencias Ómicas

7.4.4. Regresión lineal de mínimos cuadrados parciales con análisis discriminante


(PLS-DA)

La regresión lineal de mínimos cuadrados parciales (PLS) es una técnica supervisada y


combina las características de dos técnicas multivariantes: el análisis de componentes
principales y la regresión lineal múltiple (Valdéz, 2010). En primer lugar, extrae un conjunto
de factores latentes que explica en la mayor medida posible la covarianza entre variables
dependientes e independientes, y luego aplica la regresión pronostica determinando
los valores de las variables dependientes mediante la descomposición de las variables
independientes.

El análisis discriminante, modela la relación entre un grupo de variables predictores y


una variable de respuesta categórica, es decir, la variable que indica a qué clase o grupo
pertenece una muestra. PLS-DA es usada, principalmente, para el desarrollo de modelos
predictivos en los que ajusta múltiples variables en un modelo individual y luego las
variables son agrupadas de acuerdo a la variable categórica de mayor influencia. Estos
modelos deben ir acompañados de la validación del poder predictivo.

7.4.5. Validación cruzada

La validación cruzada se realiza principalmente para determinar el poder predictivo


de un modelo multivariado, cuando por cuestiones de disponibilidad de muestra no se
puede repetir el experimento bajo las mismas condiciones. En la mayoría de los estudios
metabolómicos se cuenta con pocas muestras para verificar la reproducibilidad del
experimento, por eso se opta por la estrategia llamada “re-sampling methods”.

Uno de esos métodos es la validación cruzada, la cual consiste en utilizar parte de


los datos para ser entrenados y estimar el modelo, para luego hallar la estimación de
las observaciones que no se incluyeron con los datos para la validación (los cuales son
conocidos), y finalmente, identificar los errores en la clasificación de los datos. Este proceso
es repetido un número de ciclos durante los cuales se realiza una división diferente de los
datos, de manera que cada dato pueda servir una sola vez en el subgrupo de datos para
entrenar.

7.4.6. Test de permutaciones

El test de permutaciones se realiza para contestar la siguiente pregunta: ¿estos resultados


pueden ser obtenidos únicamente por el azar? La idea de un test de permutación es crear
modelos sin sentido “nonsense models” a través de la permutación de las observaciones,
pero dejando los rótulos de las muestras intactos (e.g. caso – control) y repitiendo el
modelo al usar los datos permutados. Esto se realiza un gran número de veces y todos los
resultados serán aleatorios. Este test de permutación permite evaluar también el poder
predictivo del modelo original.

135
7.4.7. Análisis de redes: del análisis estadístico a la interpretación biológica

El análisis de redes de metabolitos se utiliza principalmente para para mostrar las relaciones
bioquímicas existentes entre los metabolitos. Comúnmente las redes se construyen a
partir de los nodos (metabolitos) y los enlaces que son los que presentan las diferentes
relaciones entre ellos. Estas relaciones pueden ser de tipo químico (una reacción, una
enzima, una ruta bioquímica, entre otros); de tipo estructural (similitud en espectro de
masas o similitud estructural) y de tipo estadístico (correlación positiva o correlación
negativa) (Grapov, Wanichthanarak & Fiehn, 2015).

Las redes metabólicas están representadas por redes de escala libre, este tipo de topología
se presenta cuando hay pocos nodos con una alta conectividad y el resto de nodos tienen
pocos enlaces. Dentro de la topología de la red hay propiedades estructurales globales y
propiedades locales. En el grupo de las globales se encuentran el grado de distribución
entendido como el número de enlaces que tiene un nodo, el coeficiente de agrupamiento
(clustering) y la modularidad. En el grupo de las locales residen los subgrafos, las medidas
de centralidad, las rutas y el análisis de interacción elementaria.

Medidas globales

Como se mencionó anteriormente, el grado calcula el número de enlaces que están


relacionados con un mismo nodo. El coeficiente de agrupamiento depende del número de
vecinos que comparten conexión; en otras palabras, el número de triángulos que pueda
formar con los nodos vecinos (Shannon, 2002). El coeficiente de modularidad mide la
fuerza de división de una red en módulos o agrupamientos. Las redes con alta modularidad
presentan un gran número de conexiones dentro del mismo grupo, pero escasas conexiones
con otros grupos. Las redes metabólicas presentan altos grados de modularidad por las
diversas subredes o ciclos metabólicos que presenta un sistema vivo, y este sistema es
indicador de las rutas que están mediadas por un grupo de metabolitos.

Medidas locales

Las medidas locales permiten inferir en los patrones de interacción. Los subgrafos
representan un subgrupo de nodos con un grupo de enlaces conectados entre ellos (una
misma ruta bioquímica o un mismo patrón de fragmentación en el espectro de masas). Por
otro lado, la centralidad es una medida local de la posición relativa de un nodo dentro del
grafo y es usada para estimar la importancia relativa dentro de una red.

Hay diferentes medidas de centralidad basadas en la conectividad del nodo, las cuales
se denominan “Degree Centrality” o grado de centralidad. Estas calculan las rutas más
cortas con otros nodos de proximidad central también llamadas Closeness Centrality, así
como las que calculan el número de rutas más cortas que pasan a través del nodo, y se
denominan intermediación o betweenness centrality. Otra medida local es la redundancia

136
Conceptos en Ciencias Ómicas

(Pathway redundancy), esta mide la presencia de muchas rutas entre el mismo par de
nodos, este es un indicador de robustez en las rutas bioquímicas y está correlacionado con
las medidas de intermediación.

Si en el análisis del metabolismo se tiene en cuenta únicamente la característica general


de topología como el grado, se puede llegar a conclusiones parciales, por este motivo,
en las redes metabólicas es necesario extractar también propiedades locales (Aittokallio
& Schwikowski, 2006). En este sentido, una vez la red de interés ha sido representada
mediante un grafo, su análisis consta de dos pasos: el primer paso consiste en aplicar
los algoritmos para computar propiedades locales del grafo, seguido de las locales como
el número de subgrafos, la longitud de los caminos más cortos entre nodos conectados
indirectamente (centralidad). El segundo paso consiste en evaluar la sensibilidad y
especificidad del modelo de predicción usando bases de datos validadas (Aittokallio &
Schwikowski, 2006).

Finalmente, otro uso de las redes en estudios metabolómicos es la de asociación de


fragmentos de los espectros de masas de los compuestos identificados con los desconocidos.
Este se lleva a cabo mediante algoritmos de similaridad y correlación (Grapov et al., 2015).
Una aplicación libre utilizada para este fin es MetaMapR38 la cual puede ser descargada y
ejecutada en R mediante la librería Shiny.

38 http://dgrapov.github.io/MetaMapR/

137
7.5. Referencias

Aittokallio, T., & Schwikowski, B. (2006). Graph-based methods for analysing


networks in cell biology. Briefings in Bioinformatics, 7(3), 243–255. DOI:https://doi.
org/10.1093/bib/bbl022.
Castillo, S., Gopalacharyulu, P., Yetukuri, L., & Orešič, M. (2011). Algorithms and tools
for the preprocessing of LC-MS metabolomics data. Chemometrics and Intelligent
Laboratory Systems, 108(1), 23– 32. DOI: https://doi.org/http://doi.org/10.1016/j.
chemolab.2011.03.010.
Cornish-Bowden, A. (1989). Metabolic control theory and biochemical systems theory:
Different objectives, different assumptions, different results. Journal of Theoretical
Biology, 136(4), 365–377. DOI:https://doi.org/https://doi.org/10.1016/S0022
5193(89)80154-7.
Courant, F., Antignac, J.-P., Dervilly-Pinel, G., & Le Bizec, B. (2014). Basics of mass
spectrometry based metabolomics. Proteomics, 2369–2388.
Derr, R. F. (1985). Modern metabolic control-theory. 1. Fundamental theorems.
Biochemical Archives, 1(4), 239–247.
Fiehn, O. (2002). Metabolomics : The link between genotypes and phenotypes. Plant
Molecular Biology. Plant Molecular Biology, 48(1–2), 155–171.
Fiehn, O., Kopka, J., Dormann, P., Altmann, T., Trethewey, R. N., & Willmitzer, L. (2000).
Metabolite profiling for plant functional genomics. Nature Biotechnology, 18(11),
1157–1161. Retrieved from http://dx.doi.org/10.1038/81137.
Grapov, D., Wanichthanarak, K., & Fiehn, O. (2015). MetaMapR : Pathway Independent
Metabolomic Network Analysis In- corporating Unknowns. Bioinformatics Advance
Access, 5–8. Recuperado de file:///Users/marthazuluagarojas/Documents/
Mendeley/Grapov, Wanichthanarak, Fiehn - 2015 - MetaMapR Pathway Independent
Metabolomic Network Analysis In- corporating Unknowns.pdf.
Katajamaa, M., & Oresic, M. (2007). Data processing for mass spectrometry- based
metabolomics. Journal of Chromatography, 1158(1– 2), 318– 28.DOI: https://doi.
org/http://doi.org/10.1016/j.chroma.2007.04.021.
Lu, H., Liang, Y., Dunn, W. B., Shen, H., & Kell, D. B. (2008). Comparative evaluation
of software for deconvolution of metabolomics data based on GC-TOF-MS. TrAC
Trends in Analytical Chemistry, 27(3), 215– 227. DOI:https://doi.org/http://doi.
org/10.1016/j.trac.2007.11.004.
Lubbe, A., Ali, K., Verporte, R., & Choi, Y. H. (2013). Metabolomics in practice: Successful
Strategies to Generate and Analyze Metabolic Data. En W.-V. V. G. & C. KGaA.
(Ed.), NMR-Based Metabolomics Analysis (pp. 209–234). Weinheim, Germany:
Lämmerhofer & W. Weckwerth.
McKelvie, J. R., Yuk, J., Xu, Y., Simpson, A. J., & Simpson, M. J. (2009). 1H NMR and
GC/MS metabolomics of earthworm responses to sub-lethal DDT and endosulfan
exposure. Metabolomics, 5(1), 84– 94. Recuperado de http://link.springer.
com/10.1007/s11306-008-0122-6.
Nicholson, J. K., Lindon, J. C., & Holmes, E. (1999). Metabonomics understanding the

138
Conceptos en Ciencias Ómicas

metabolic responses of living systems to pathophysiological stimuli via multivariate


statistical analysis of biological NMR spectroscopic data. Xenobiotica, 29(11), 1181–
1189. Recuperado de file:///Users/marthazuluagarojas/Documents/Mendeley/
Nicholson, Lindon, Holmes - 1999 - “Metabonomics” understanding the metabolic
responses of living systems to pathophysiological stimuli.pdf.
Shannon, S. (2002). Handbook of Complementary and Alternative Therapies in Mental
Health. San Diego, California: Academic Press.
Skogerson, K., Wohlgemuth, G., Barupal, D. K., & Fiehn, O. (2011). The volatile compound
BinBase mass spectral database. BMC Bioinformatics, 12(1), 321. DOI:https://doi.
org/http://doi.org/10.1186/1471-2105-12-321.
Smith, C., Want, E. J., O’Maille, G., Abagyan, R., & Siuzdak, G. (2006). XCMS: processing
mass spectrometry data for metabolite profiling using nonlinear peak alignment,
matching, and identification. Analytical Chemistry, 78(3), 779–787. DOI:https://doi.
org/http://doi.org/10.1021/ac051437y.
Stashenko, E. E., & Martínez, J. R. (2010). Separar , fragmentar e integrar : la rutina de
un análisis por GC-MS . Patrones de fragmentación de moléculas orgánicas. Scientia
Chromatographica, 2(2), 23–46.
Sugimoto, M., Kawakami, M., Robert, M., & Soga, T. (2012). Bioinformatics tools for mass
spectroscopy-based metabolomic data processing and analysis. Bioinformatics, 96–
108. Recuperado de http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3299976/.
Sumner, L. W., Mendes, P., & Dixon, R. A. (2003). Plant metabolomics: large-scale
phytochemistry in the functional genomics era. Phytochemistry, 62(6), 817– 836.
DOI: https://doi.org/https://doi.org/10.1016/S0031- 9422(02)00708-2.
Valdéz, D. (2010). Regresión por Mínimos Cuadrados Parciales. Varianza, 7(3), 18–22.
Van den Berg, R., Hoefsloot, H. C. J., Westerhuis, J., Smilde, A. K., & van der Werf,
M. J. (2006). Centering, scaling, and transformations: improving the biological
information content of metabolomics data. BMC Genomics, 7, 142. DOI: https://doi.
org/http://doi.org/10.1186/1471-2164-7-142.
Wehrens, R. (2011). Chemometrics with R. En R. Gentleman, K. Hornik, & G. Parmigiani
(Eds.). Spinger. Recuperado de file:///Users/marthazuluagarojas/Documents/
Mendeley/Wehrens - 2011 - Chemometrics with R.pdf.
Xia, J., Broadhurst, D. I., Wilson, M., & Wishart, D. S. (2013). Translational biomarker
discovery in clinical metabolomics: an introductory tutorial. Metabolomics, 9(2),
280–299. DOI:https://doi.org/https://doi.org/10.1007/s11306-012-0482-9.
Xia, J., & Wishart, D. S. (2011). Metabolomic data processing, analysis, and interpretation
using MetaboAnalyst. Current Protocols in Bioinformatics, 14. DOI:https://doi.org/
http://doi.org/10.1002/0471250953.bi1410s34.
Zuluaga, M., Robledo, S., Osorio-zuluaga, G. A., Yathe, L., Gonzalez, D., & Taborda,
G. (2016). Metabolomics and pesticides : systematic literature review using graph
theory for analysis of references. NOVA, 13(25), 7–16.
Zuluaga, M., Melchor, J. J., Tabares-Villa, F. A., Taborda, G., & Sepúlveda-Arias, J. C.
(2016). Metabolite Profiling to Monitor Organochlorine Pesticide Exposure in HepG2
Cell Culture. Chromatographia, 1–8. https://doi.org/10.1007/s10337-016-3031-2

139
8. PROTEÓMICA
ANDREA GONZÁLEZ MUÑOZ
ANDRÉS QUINTERO
DIANA LÓPEZ ALVAREZ

Las proteínas son unidades funcionales y estructurales básicas de la vida, porque


contribuyen en diferentes procesos biológicos y bioquímicos. Intervienen desde la
diversidad y flexibilidad metabólica de los microorganismos (que los hace esenciales
en el funcionamiento de los ecosistemas y de valor para la sociedad), hasta la variedad
fenotípica de los organismos y su capacidad de respuesta al ambiente (Garavito, González,
Mosquera, López & Cristancho, 2017).

Las proteínas con respecto a sus correspondientes genes y transcritos tienen una mayor
complejidad, ya que están sujetas a modificaciones post-transcripcionales y post-
traduccionales (Zhang, Wu, Stenoien & Paša-Tolić, 2014), haciendo que con relativa
frecuencia no exista una correlación directa entre el flujo de la información de ADN-ARN
o de ARN-proteína (Wright, Noirel, Ow & Fazeli, 2012). Por lo tanto, el proteoma, como se
le conoce al complemento proteico del genoma, tiene mayor complejidad que el genoma
o el transcriptoma (este término fue usado por primera vez en 1994). El proteoma es
considerado un elemento altamente variable en función del tiempo y de las condiciones
micro y macro ambientales (Garavito et al., 2017), debido a que estos factores modulan el
perfil de expresión de proteínas en un sistema biológico (Chandrasekhar, Dileep, Lebonah
& Kumari, 2014).

La ciencia ómica que se encarga de estudiar el proteoma es conocida como la proteómica,


aportando información complementaria a la genómica y transcriptómica, dada su naturaleza
de ómica funcional. Al usar la proteómica, se puede construir un panorama integrado de
muchos procesos bioquímicos, interacciones moleculares y actividades metabólicas que
ocurren en una célula, tejido u organismo, logrando con ello estudiar el vínculo genotipo-
fenotipo y la diversidad funcional de la biodiversidad (Garavito et al., 2017).

8.1. Diseño experimental

La proteómica usa principalmente métodos de alto rendimiento (high-throughput), desde


la aparición de la espectrometría de masas (MS), con el fin de identificar, caracterizar y
cuantificar proteínas a gran escala (Garavito et al., 2017). La proteómica se puede dividir
en proteómica de expresión y en proteómica funcional. La primera se encarga de analizar
el proteoma total y sus medidas cuantitativas (perfiles de expresión global de proteínas,
comparar perfiles de expresión proteica), mientras que la segunda permite determinar la
función y la regulación de su expresión, estudiar interacciones proteína-proteína y complejos
proteicos, e identificar y localizar modificaciones post-traduccionales. Los métodos en
proteómica involucran procesos complejos de extracción y separación de proteínas de

140
Conceptos en Ciencias Ómicas

acuerdo con sus propiedades fisicoquímicas, mediante electroforesis o cromatografía,


sumado a espectrometría de masas (MS) acoplado a análisis bioinformáticos para su
identificación y cuantificación (Garavito et al., 2017).

Para la preparación de una muestra en proteómica, se emplean dos enfoques denominados


bottom-up y top-down. Estos hacen referencia, respectivamente, a si el extracto de
proteínas es digerido enzimáticamente con tripsina, dando lugar a péptidos que serán
analizados, o si las proteínas intactas son analizadas sin digestión (Garavito et al., 2017).

El bottom-up tiene una similitud con la técnica de secuenciación shotgun, con la finalidad
de generar un perfil proteico global. Por su parte, el top-down está orientado al estudio
de modificaciones post-traduccionales, la identificación de éstas a partir de péptidos se
ve limitada por una posible cobertura incompleta de la proteína e incapacidad de predecir
el patrón combinatorio de múltiples modificaciones en una misma proteína. Esto último
es relevante para las histonas que presentan combinaciones específicas de acetilaciones,
metilaciones y fosforilaciones que regulan el funcionamiento de la cromatina (Garavito et
al., 2017).

8.1.1. Extracción y separación de proteínas.

Para llevar a cabo la extracción de proteínas a partir de muestras biológicas, se pueden


emplear células, tejidos, sangre, suero, entre otros tejidos; además implica la homogenización
de la muestra y su lisis celular para liberar las proteínas intracelulares. Se pueden emplear
protocolos de disrupción celular por homogenización mecánica, ultrasónica, presión,
temperatura y/o soluciones de detergentes, sales y agentes reductores. Seguido de la
extracción y solubilización o precipitación de las proteínas, mediante agentes caotrópicos
y solventes orgánicos como fenol metanol/acetato de amonio, ácido tricloroacético/
acetona, ácido acético/urea/bromuro cetiltrimetilamon-io (CTAB), entre otros (Martínez,
Hernández, Amigo, Miralles & Gómez, 2013). Posteriormente, se hace una separación o
pre-fraccionamiento del extracto proteico con el fin de reducir la complejidad de la muestra
y/o enriquecer proteínas de interés o de baja abundancia (Altelaar, Muñoz & Heck, 2012).

Debido a que una muestra biológica está compuesta por una mezcla compleja de proteínas,
es necesario llevar a cabo un proceso de separación o fraccionamiento para que puedan ser
analizadas por espectrometría de masas, permitiendo incrementar el número de proteínas
identificadas. Dicha separación se puede realizar mediante electroforesis bidimensional en
geles de poliacrilamida (conocida como 2D-PAGE o 2D SDS-PAGE), en la cual se separan
las proteínas, con sus variantes y modificaciones, en una primera dimensión del gel de
acuerdo con su punto isoeléctrico y en una segunda dimensión según su peso molecular
(Chandramouli & Qian, 2009). Adicionalmente, la segunda estrategia de separación de
mayor precisión y más usada, es la cromatografía líquida de alta resolución (HPLC), que se
basa en propiedades fisicoquímicas diferenciales entre las proteínas, de tal manera que se

141
separan en diferentes fracciones a través de su elución por la columna de cromatografía
(Garavito et al., 2017).

Entre los desafíos que implica este paso se pueden encontrar, la complejidad de la muestra
biológica, el amplio rango dinámico de concentración de sus proteínas y/o la naturaleza
bioquímica de algunas proteínas, por ejemplo, el enfoque top-down que presenta mayores
desafíos para las técnicas de separación, requiriéndose el uso de diferentes formas de pre-
fraccionamiento.

8.1.2. Espectrometría de masas (MS)

La espectrometría de masas mide con precisión el peso de una molécula y exactamente


su relación masa/carga (m/z), haciendo que en los últimos años se haya logrado una
velocidad de generación de datos de cinco a diez veces, una sensibilidad de diez a 50 veces
en la detección, y una alta resolución importante para lograr diferenciar entre una gran
cantidad de péptidos (Parker, Warren & Mocanu, 2010), permitiendo la caracterización
de 5000 a 10000 proteínas de un proteoma (Bantscheff, Lemeer, Savitski & Kuster, 2012).

Los espectrómetros de masas son instrumentos compuestos por una fuente de ionización,
un analizador y un detector de iones, que miden la masa de moléculas cargadas para la
posterior identificación de éstas, sus modificaciones químicas y estructura (Garavito et
al., 2017). En la actualidad existen en el mercado diferentes tipos de espectrómetros de
masas que incluyen el cuadrupolo, la trampa de iones (2D y 3D) y el tiempo de vuelo (Time
of Flight o TOF).

Una de las estrategias para la identificación de proteínas mediante la espectrometría


de masas, es la llamada espectrometría de masas en tándem (MS/MS), que consiste en
dos corridas en tándem de MS, con el fin de generar una primera determinación de la
masa molecular del péptido o proteína, seguido de una determinación de la secuencia de
aminoácidos que lo componen (Cravatt, Simon & Yates, 2007). En la primera corrida de
MS, las proteínas o péptidos se cargan (ionizan) por medio de la fuente y se transfieren a
una fase gaseosa. Posteriormente, el analizador separa los péptidos o proteínas cargadas,
de acuerdo con su trayectoria en un campo eléctrico o magnético, o por su TOF (ambos
basados en su relación m/z), luego se detecta, amplifica la señal y genera un espectro de
masas (Parker, Warren & Mocanu, 2010; Walther & Mann, 2010).

La segunda corrida involucra, por su parte, la fragmentación del péptido o proteína a


través de una celda de colisión con gases neutros, generando sus respectivos aminoácidos
cargados, que son analizados de acuerdo con su relación m/z, pasan por el detector y se
genera el espectro de masas de los residuos aminoácidos (Cravatt et al., 2007; Garavito et
al., 2017). Las principales técnicas de ionización usadas actualmente son:

142
Conceptos en Ciencias Ómicas

I. Ionización por electrospray (ESI), desarrollada por John Fenn.


II. Desorción/ionización láser asistida por matriz (Matrix-Assisted Laser Desorption/
Ionization o MALDI), desarrollada por Koichi Tanaka. Ambos desarrolladores
recibieron el premio Nobel de Química en 2002 por estas técnicas (Garavito et al.,
2017).

A menudo se utilizan las dos técnicas de ionización, debido a que no todos los péptidos
presentan la misma eficiencia de ionización, la cual puede depender de la técnica empleada
(Garavito et al., 2017). En consecuencia, para realizar MS/MS de mezclas que sean poco
complejas se pueden emplear espectrómetros de masas tipo MALDI-TOF-TOF. Respecto a
la cuantificación basada en espectrometría de masas, con el fin de determinar la cantidad
de proteínas presentes en la muestra analizada, existen diferentes métodos como: el
Isotope-Coded Affinity Tags (ICAT); Isobaric tags for relative and absolute quantitation
(iTRAQ); Stable isotope labeling with aminoacid in cell culture (SILAC), y finalmente, la
de libre marcaje o label free, que está siendo bastante utilizada en la actualidad, debido
a que no emplea ningún marcaje minimizando el número de pasos en la preparación de la
muestra.

8.1.3. Análisis bioinformáticos

Entre los diferentes análisis bioinformáticos algunos son similares a los usados en
metabolómica, dado que emplean la tecnología de espectrometría de masas. Para la
cuantificación de las proteínas se lleva a cabo un paso de normalización de cada muestra.

Seguidamente, para el preprocesamiento de datos de proteómica, se pueden emplear


varios programas, el más usado es Proteowizard, que consiste en un conjunto de librerías
y herramientas modulares de código abierto y facilita el análisis de datos. Las librerías
permiten una creación rápida de herramientas mediante un marco que simplifica y unifica el
acceso de archivos de datos y ejecuta computaciones básicas en un set de datos químicos
y LC-MS. Entre los pasos a realizar, en muchas ocasiones se encuentra el de convertir los
datos crudos (.raw) a archivos mzXML. Este paso se realiza con la herramienta MSconvert
en ambiente gráfico.

Identificación de péptidos

Para la identificación de péptidos, podemos usar la herramienta SearchGUI, una interfaz


para configurar y correr algoritmos de búsqueda de péptidos, tales como: OMSSA,
X!TANDEM, MSGF, entre otros. La identificación de los péptidos corresponde a cada
fragmento analizado por LC-MS, y es necesario utilizar diferentes algoritmos de búsqueda
contra una base de datos de secuencias de proteínas del organismo de interés. El programa
SearchGUI incorpora los algoritmos de búsqueda más importantes hasta la fecha. El primer
paso conduce a la creación de una base de datos señuelo, donde se toma la base de
datos de secuencias de proteínas del organismo de interés, en formato fasta y se hace un
reverso de cada una de estas. Una vez se obtienen las secuencias señuelo concatenadas
con las secuencias originales, se realiza la búsqueda con SearchGUI. El archivo de salida

143
de SearchGUI es un .zip, en el que se encuentran todos los resultados de la búsqueda de
cada uno de los algoritmos de búsqueda.

Así mismo, se usa otro programa llamado PeptideShaker, el cual consiste en un motor de
búsqueda independiente de plataforma, para la interpretación de datos de identificación
de resultados proteómicos. Para obtener resultados consenso de todas las búsquedas
realizadas, se utiliza, por ende, PeptideShaker, el cual evalúa todos los modelos encontrados
por los algoritmos de búsqueda y los concatena en un solo archivo de extensión .cpsx.
Luego, se vuelve a utilizar PeptideShaker para crear un archivo de anotación de péptidos
mz ident (.mzid), el cual contiene las anotaciones para cada uno de los espectros que
están en el archivo mgf.

Cuantificación de proteínas

Una vez se obtiene la identificación de cada uno de los espectros, es necesario cuantificar
el valor de expresión de las proteínas a las cuales les fueron identificados péptidos. Esto
se realiza sobre el ambiente de programación y estadístico R, que usa el paquete MSnbase
y el paquete MzID para leer los datos crudos y el archivo de identificación; a partir de esto
se hace la cuantificación de todas las proteínas identificadas. Una vez se tiene la tabla de
expresión, es necesario normalizar los datos usando el paquete Vsn y, posteriormente, el
análisis multivariable se realiza con el paquete PcaMethods.

Algunas especificaciones de los paquetes utilizados se presentan a continuación:

MSnbase

Un paquete de R/Bioconductor, para el análisis de experimentos de proteómica cuantitativa.


MSnbase provee una plataforma para un análisis de datos exploratorio, permitiendo
importación de datos crudos, control de calidad, visualización y cuantificación.

Vsn

Un paquete de R/Bioconductor, que implementa un método para normalizar datos de


intensidades. El método usa una variante robusta del estimador de máxima verosimilitud.
El modelo incorpora calibración de datos.

MzID

Un paquete de R/Bioconductor para leer archivos mzIdent.

PcaMethods

Un paquete de R/Bioconductor para análisis de PCA bayesiano, PCA probabilístico y PCA


Nipals.

144
Conceptos en Ciencias Ómicas

8.2. Referencias

Altelaar, A. F. M., Munoz, J., & Heck, A. J. R. (2012). Next-generation proteomics:


towards an integrative view of proteome dynamics. Nature Reviews Genetics, 14(1),
35– 48. DOI:https://doi.org/10.1038/nrg3356.
Bantscheff, M., Lemeer, S., Savitski, M. M., & Kuster, B. (2012). Quantitative mass
spectrometry in proteomics: Critical review update from 2007 to the present.
Analytical and Bioanalytical Chemistry, 404(4), 939– 965. DOI:https://doi.
org/10.1007/s00216-012-6203-4.
Chandramouli, K., & Qian, P.-Y. (2009). Proteomics: challenges, techniques and
possibilities to overcome biological sample complexity. Human Genomics and
Proteomics, 22. DOI: https://doi.org/10.4061/2009/239204.
Chandrasekhar, K., Dileep, A., Lebonah, D. E., & Kumari, J. P. (2014). A Short Review on
Proteomics and its Applications. International Journal of Research in Engineering
and Technology, 3, 147– 158. DOI: https://doi.org/10.18052/www.scipress.com/
ILNS.17.77.
Cravatt, B. F., Simon, G. M., & Yates, J. R. (2007). The biological impact of mass-
spectrometry-based proteomics. Nature, 450(7172), 991– 1000. DOI: https://doi.
org/10.1038/nature06525.
Garavito, A., González-Muñoz, A., Mosquera-Rendón, J., Catalina, A., López, D., &
Cristancho, M. A. (2017). Latin American biodiversity and perspectives to study
it using omics technologies Biodiversidad latinoamericana y sus perspectivas de
estudio con tecnologías “ ómicas .” Mexican Journal of Biotechnology, 2(2), 98–129.
Martínez, D., Hernández, B., Amigo, L., Miralles, B., & Gómez, J. Á. (2013). Extraction/
Fractionation Techniques for Proteins and Peptides and Protein Digestion. En F.
Toldrá y L. M. L. Nollet (Eds.), Proteomics in Foods: Principles and Applications (pp.
21– 50). Boston, MA: Springer US. DOI: https://doi.org/10.1007/978-1-4614-5626-
1_2.
Parker, C. E., Warren, M. R., & Mocanu, V. (2010). Chapter 5 Mass Spectrometry for
Proteomics. En O. Alzate (Ed.), Neuroproteomics (p. 26). Boca Raton: CRC Press/
Taylor & Francis. Recuperado de http://www.ncbi.nlm.nih.gov/pubmed/21882443.
Walther, T. C., & Mann, M. (2010). Mass spectrometry-based proteomics in cell
biology. Journal of Cell Biology, 190(4), 491–500. DOI:https://doi.org/10.1083/
jcb.201004052.
Wright, P. C., Noirel, J., Ow, S. Y., & Fazeli, A. (2012). A review of current proteomics
technologies with a survey on their widespread use in reproductive biology
investigations. Theriogenology, 77(4), 738– 765. DOI: https://doi.org/10.1016/j.
theriogenology.2011.11.012.
Zhang, Z., Wu, S., Stenoien, D. L., & Paša-Tolić, L. (2014). High-Throughput Proteomics.
Annual Review of Analytical Chemistry, 7(1), 427– 454. DOI:https://doi.org/10.1146/
annurev-anchem-071213-020216.

145
www.bios.co

“Fortalecimiento de ciencia, tecnología e innovación


en biotecnología para el departamento de Caldas
apoyado por infraestructura computacional avanzada
y trabajo colaborativo”

“Caldas Bio-región” es un proyecto de regalías CTeI en


Caldas, desarrollado entre los años 2013 y 2017 para
fortalecer la formación, infraestructura tecnológica, el
trabajo colaborativo y la investigación e innovación en
el ecosistema empresarial del país, a través de la
biotecnología para generar valor agregado que
permita participar con altos estándares de
competitividad y calidad en los mercados
globalizados.

ISBN: 978-958-59498-5-0
1956.12.17

9 789585 949850

View publication stats

Anda mungkin juga menyukai