Elementos de un árbol
• Unidades taxonómicas operacionales (OTU): taxones actuales elegidos para el estudio.
• Nodo (HTU): punto de ramificación en un árbol (representaría un OTU ancestral hipotético). Forman parte de
la hipótesis pues no se tiene acceso a muestras para amplificar y poder estudiar ya que el acceso para ello es
el ADN fósil que tiene un límite de hasta 1 ma.
• Rama: define la relación entre taxas en términos de descendencia y ancestría.
• Raíz: ancestro común de todos los taxones analizados.
• Clado: grupo de dos o más taxones (secuencias) que incluye al ancestro común y sus descendientes.
1 de 12
Genética Evolutiva
Davinia María García Molina
El cladograma es un árbol no escalado que nos informa de las relaciones entre las especies.El tamaño de las
ramas no tiene ningún tipo de significado en el sentido de divergencia entre las especies.
En cuanto al filograma, sí tenemos tamaños asociados a las ramas. El taxón B se diferencia más del ancestro
que el taxón C.
El árbol ultramético habla de distancias genéticas, es similar a un filograma pero transforma la distancia
genética en distancia temporal. Si ocurren X mutaciones cada X millones de años, convierto el número de
sustituciones en años o en millones de años. Pasan por la necesidad de tener un reloj molecular (obtener un
valor de cuántas mutaciones ocurren por unidad de tiempo).
Podemos observar como se va complicando la realización de los árboles filogenéticos conforme voy incluyendo
mayor número de especies.
2 de 12
Genética Evolutiva
Davinia María García Molina
Tipos de reconstrucciones filogenéticas:
Los métodos de reconstrucción filogenética pueden clasificarse en:
1. Métodos basados en distancias:
a. UPGMA (Unweighted Pair-Group Method using arithmetic Averages)
b. ME (Minimum Evolution)
c. NJ (Neighbor Joining)
Otros ...
2. Métodos basados en caracteres:
a. Parsimonia
b. Máxima probabilidad
c. Bayesiano
Métodos de distancia
A partir de una matriz de secuencias, el método lo primero que hace es reducirla a una matriz de distancia, de
manera que se olvida de la secuencia y de la naturaleza del cambio. De manera que lo primero que va a hacer
será representar las distancias genéticas existentes entre las secuencias.
En este caso serían A y B, así que el método los une. Tiene que haber un ancestro común a A y B. Lo que el
algoritmo propone es que del ancestro a cada una de estas secuencias haya una distancia de 1. Así se
mantiene que entre A y B hay 2 diferencias. El primer error que comete el programa es proponer que la
evolución de A y B a partir del ancestro ha sido idéntica.
3 de 12
Genética Evolutiva
Davinia María García Molina
Ahora A y B actúan como si fueran un único dato (OTU), porque ya las ha unido, así que ahora existe un único
dato AB. De manera que recalcula la matriz de distancias. Una vez hecho esto, calcula cuáles son las
secuencias más próximas. Propone que la distancia de C al ancestro es la misma que la distancia de A y B al
ancestro. Es decir, que la distancia de C al ancestro es 2, para que el no de diferencias entre AB y C sea 4.
4 de 12
Genética Evolutiva
Davinia María García Molina
UPGMA es el método más simple para construir árboles. La gran desventaja de UPGMA es que asume la
misma velocidad evolutiva en todos los linajes, es decir, la tasa de mutaciones es constante en el tiempo y para
todos los linajes en el árbol (asume un reloj molecular que es estable y homogéneo en cada una de las ramas,
lo cual no es cierto). Si la tasa de mutaciones es constante, todos los OTUs deberían tener la misma distancia
desde la raíz à esto no ocurre, por lo que UPGMA genera puede generar topologías incorrectas.
La primera columna recoge los sumatorios de las distancias A+B, A+C, etc. Para la siguiente columna no
debemos olvidar que se debe sumar el primer valor de la columna anterior.
A la izqueirda son distancias dos a dos y en la derecha sería la distancia de un taxon respecto al de todos.
5 de 12
Genética Evolutiva
Davinia María García Molina
Reconstruimos la nueva matriz usando:
Ahora, estimamos la distancia de los OTUs A y B respecto al nodo “U” que los une:
Bootstrapping
Necesitamos una manera de darle peso a cada una de las ramas que creamos. Bootstrapping es uno de los
métodos para valorar la robustez de las ramas. Con este método medimos si los datos apoyan esta rama.
Tomamos los datos iniciales y usamos un método de reemplazamiento, es decir, de nuestros datos iniciales
usamos una parte de ellos utilizando una pseudoréplica que no contiene toda la información original sino una
parte. Es decir, con una parte de nuestros datos intentaremos hacer el mismo árbol para ver qué se forma. Esto
lo haremos entre 100-1000 veces, obteniendo así unos 1000 árboles distintos para ver en cuántos de esos
6 de 12
Genética Evolutiva
Davinia María García Molina
árboles se ha formado la primera, la segunda, etc de las ramas y calculamos un valor de bootstrap que es el
número de veces que encuentro la rama dividido entre el número de árboles creados. Obtendremos un
porcentaje según el cual sabremos si nos podremos creer la rama (>85%) o no.
En el ejemplo anterior se analizaron las bacterias fijadoras de nitrógeno, cuyas características morfológicas son
similares. Los autores solo ponen valores en aquellas ramas donde el bootstrap son >85%
Árboles de parsimonia
Principio de la parsimonia: La hipótesis más sencilla es la más probable.
Objetivo: Buscar entre todos los árboles posibles aquel o aquellos que impliquen el menor número de cambios.
Es decir, el árbol que implique menos mutaciones es el árbol más probable que explique las relaciones entre las
especies.
7 de 12
Genética Evolutiva
Davinia María García Molina
En la primera posición, todos los nucleótidos tienen adenina, por lo que no sirve para hacer un árbol. Es decir,
los sitios que son invariables no sirven para hacer un árbol. Si nos fijamos en la posición 2, la secuencia 1 tiene
una A y el resto tiene una G , lo cual no nos sirve para definir una topología concreta. Por tanto, en este
ejemplo, las posiciones que se consideran para realizar un árbol son la posición 5 que indica que la secuencia 1
y 2 forma un clado y las secuencias 3 y 4 forman otro clado. Las otras posiciones que emplearíamos serían la 7
y la 9 además de la posición 5.
Para explicar los datos en este árbol necesito dos mutaciones. El principio de máxima parsimonia indica que lo
que lleva menos pasos es lo más probable. Siguiento este principio, en este ejemplo nos quedaríamos con el
primer árbol en la posición 5 pues implica un solo cambio.
En cuanto a la posición 7, con la primera topología tenemos una mutación de modo que dos son G y dos son
C y nos onligaría a meter dos mutaciones. Nos quedaríamos con la primera.
Comenzamos colocando las posiciones informativas y seguimos colocando los singleton. Como la a la tiene
solo la rama 1, le ponemos una mitación a la 1. En las ramas 1 y 2 ponemos otra mutación. Suponemos que
una rama tiene el ancestral y al resto de ramas le vamos a poner una mutación a cada una de ellas. El resto de
posiciones no varían por lo que no tenemos que añadir más mutaciones. Tenemos 10 mutaciones en total que
sería el árbol más parsimonioso, es decir, el árbol que relaciona nuestras especies incolucrando el menor
número de mutaciones posibles.
8 de 12
Genética Evolutiva
Davinia María García Molina
Este tipo de árbol es no enraizado. Para ponerle una raíz debemos incluir en el análisis un outgroup. Sin raíz
sabemos las relaciones que existen pero no le podemos poner temporalidad. Para todo esto es necesario
emplear un software.
Red de haplotipos
Es una representación gráfica de la diversidad genética de las poblaciones. Son útiles para detectar
expansiones demográficas, estructura geográfica, haplotipos ancestrales, etc.
Se trata de conectar los diferentes haplotipos incluyendo el número de mutaciones en los ejes.
El objetivo es encontrar el árbol y modelo evolutivo (hipótesis) que maximice la probabilidad de obtener los
datos (alineamiento).
En la práctica, el modelo evolutivo es propuesto y el árbol buscado entre la población de árboles de forma que
se retendrá aquel que con mayor probabilidad explique los datos.
9 de 12
Genética Evolutiva
Davinia María García Molina
Cualquiera de estas 16 posibilidades genera esa configuración de nucleótidos en las ramas terminales del árbol
—>calculamos la probabilidad de cada opción y lo sumamos para obtener la probabilidad total para cada sitio j.
La probabilidad total del árbol será el producto de las probabilidades de cada sitio:
¿Cómo elegimos el modelo evolutivo? Un árbol es testado para todos los modelos. Las probabilidades
obtenidas para cada modelo son comparadas:
¿Testaremos todos los árboles para buscar el de mayor probabilidad? ¿Cómo lo haremos? Lógicamente nos
ayudaremos de software para buscar el árbol con mayor probabilidad:
Búsqueda heurística
En definitiva, las ventajas y desventajas que presenta el método de Máxima probabilidad o Maximum likelihood
(ML) son:
Método bayesiano
El objetivo es encontrar el conjunto de árboles mejor explicados por las secuencias.
11 de 12
Genética Evolutiva
Davinia María García Molina
Si no se mueve durante varios intentos puede ir a un estado con una probabilidad menor si la diferencia no es
significativa.
Aún así, puede quedar atrapada en un sub-óptimo
Una estrategia: (Metropoli-Coupled MCMC —> MCMCMC) se corren varias cadenas, por ejemplo 4 (1 fría y 3
calientes) y se permite el intercambio de información entre cadenas calientes y frías.
Una vez alcanzada la estacionaridad el número de veces que incide en el mismo escenario se toma como
probabilidad de que ese árbol es el correcto.
Podemos obtener árboles bayesianos con MrBayes. Este software usa cuatro cadenas.
- El modelo evolutivo es elegido mediante Modeltest o MrModeltest.
- Cada X generaciones (cambios de estado) tomamos datos del estado de las cadenas frías. Por ejemplo cada
100 generaciones.
- El número de generaciones (varios millones) debe ser tal que la desviación estándar entre las dos cadena frías
sea inferior a 0.01.
- Las cadenas frías de ambas réplicas tienden a confluir.
- Cada n generaciones se toma el valor de parámetros, probabilidad posterior y árbol.
Como norma cada 100.
- De los datos almacenados se descartan los anteriores a alcanzar la estacionaridad (aproximadamente el
25%) burn-in. Estos son enormemente dependientes de los estados iniciales arbitrarios de las cadenas.
- Con las restantes, el programa estima un consenso de probabilidades «sump» y de árboles «sumt» que
propone como consenso.
- El árbol consenso muestra sobre sus ramas las probabilidades posteriores que se toman como valores de
bootstrap. Sólo aquellos superiores a 0.90 son considerados significativos y por lo tanto ramas y clados bien
soportados.
12 de 12