Tema 15 Gevo PDF

Genética Evolutiva
Davinia María García Molina
Tema 15. Filogenias

La filogenia surgió a partir de la teoría de la evolución de Darwin. Antes de que presentara dicha teoría, estaba
influenciado por el dogma católico y se sugería que las especies siempre habían existido en su forma presente y
de forma estática.
“Todas las especies tienen un ancestro común y la historia de las mismas pueden ser reflejada mediante un
árbol (C. Darwin)”.
Una filogenia es una hipótesis del pasado en la que se establecen las relaciones de parentesco (topología) así
como las distancias (longitudes de las ramas) entre las entidades.
Elementos de un árbol
• Unidades taxonómicas operacionales (OTU): taxones actuales elegidos para el estudio.
• Nodo (HTU): punto de ramificación en un árbol (representaría un OTU ancestral hipotético). Forman parte de
la hipótesis pues no se tiene acceso a muestras para amplificar y poder estudiar ya que el acceso para ello es
el ADN fósil que tiene un límite de hasta 1 ma.
• Rama: define la relación entre taxas en términos de descendencia y ancestría.
• Raíz: ancestro común de todos los taxones analizados.
• Clado: grupo de dos o más taxones (secuencias) que incluye al ancestro común y sus descendientes.
Un outgroup permite enraizar el árbol y establecer una direccionalidad al mismo.

La longitud de la rama representa el número de cambios que han ocurrido en la rama solo en los árboles
escalados. Cuando hablamos de escalado nos referimos a que el tamaño de las ramas sea proporcional al
número de diferencias. Los árboles no escalonados no nos proporciona información de las distancias entre las
especies. En función de si está escalado o no tiene raíz, podemos tener 4 tipos distintos de árboles
filogenéticos.
1 de 12
Genética Evolutiva
El cladograma es un árbol no escalado que nos informa de las relaciones entre las especies.El tamaño de las
ramas no tiene ningún tipo de significado en el sentido de divergencia entre las especies.
En cuanto al filograma, sí tenemos tamaños asociados a las ramas. El taxón B se diferencia más del ancestro
que el taxón C.
El árbol ultramético habla de distancias genéticas, es similar a un filograma pero transforma la distancia
genética en distancia temporal. Si ocurren X mutaciones cada X millones de años, convierto el número de
sustituciones en años o en millones de años. Pasan por la necesidad de tener un reloj molecular (obtener un
valor de cuántas mutaciones ocurren por unidad de tiempo).
¿Cuántos árboles son posibles para n taxas?
Podemos observar como se va complicando la realización de los árboles filogenéticos conforme voy incluyendo
mayor número de especies.
2 de 12
Genética Evolutiva
Tipos de reconstrucciones filogenéticas:
Los métodos de reconstrucción filogenética pueden clasificarse en:
1. Métodos basados en distancias:
a. UPGMA (Unweighted Pair-Group Method using arithmetic Averages)
b. ME (Minimum Evolution)
c. NJ (Neighbor Joining)
Otros ...
2. Métodos basados en caracteres:
a. Parsimonia
b. Máxima probabilidad
c. Bayesiano
Métodos de distancia
A partir de una matriz de secuencias, el método lo primero que hace es reducirla a una matriz de distancia, de
manera que se olvida de la secuencia y de la naturaleza del cambio. De manera que lo primero que va a hacer
será representar las distancias genéticas existentes entre las secuencias.
1) UPGMA (Unweighted Pair-Group Method using arithmetic Averages):
En este caso serían A y B, así que el método los une. Tiene que haber un ancestro común a A y B. Lo que el
algoritmo propone es que del ancestro a cada una de estas secuencias haya una distancia de 1. Así se
mantiene que entre A y B hay 2 diferencias. El primer error que comete el programa es proponer que la
evolución de A y B a partir del ancestro ha sido idéntica.
3 de 12
Genética Evolutiva
Ahora A y B actúan como si fueran un único dato (OTU), porque ya las ha unido, así que ahora existe un único
dato AB. De manera que recalcula la matriz de distancias. Una vez hecho esto, calcula cuáles son las
secuencias más próximas. Propone que la distancia de C al ancestro es la misma que la distancia de A y B al
ancestro. Es decir, que la distancia de C al ancestro es 2, para que el no de diferencias entre AB y C sea 4.
4 de 12
Genética Evolutiva
UPGMA es el método más simple para construir árboles. La gran desventaja de UPGMA es que asume la
misma velocidad evolutiva en todos los linajes, es decir, la tasa de mutaciones es constante en el tiempo y para
todos los linajes en el árbol (asume un reloj molecular que es estable y homogéneo en cada una de las ramas,
lo cual no es cierto). Si la tasa de mutaciones es constante, todos los OTUs deberían tener la misma distancia
desde la raíz à esto no ocurre, por lo que UPGMA genera puede generar topologías incorrectas.
2) Neighbor-Joining y Mínima evolución

Ambos siguen el mismo principio: el mejor árbol es aquel que minimiza la suma total de las ramas.
A diferencia del UPGMA, los OTUs que une no son necesariamente los que menor distancia presentan entre
ellos.
No nos fijamos que dos OTU tienen una distancia menor, sino que dos OTU tienen una distancia menor al resto
de taxones considerados de manera global.
Como es un método de distancia, partimos de una matriz de distancia calculada a partir de las secuencias de
ADN.
La primera columna recoge los sumatorios de las distancias A+B, A+C, etc. Para la siguiente columna no
debemos olvidar que se debe sumar el primer valor de la columna anterior.
A la izqueirda son distancias dos a dos y en la derecha sería la distancia de un taxon respecto al de todos.
5 de 12
Genética Evolutiva
Reconstruimos la nueva matriz usando:
Ahora, estimamos la distancia de los OTUs A y B respecto al nodo “U” que los une:
Dividimos la distancia de A y B por la mitad y, la diferencia entre la distancia total de A y la de B la dividimos

también por la mitad. Este árbol es más realista al no asumir un reloj molecular constante pues podemos tener
ramas de distintos tamaños. Las topologías suelen ser más aceptadas que el método anterior al tener en
consideración que las tasas de sustitución pueden ser distintas en distintos clados.
Bootstrapping
Necesitamos una manera de darle peso a cada una de las ramas que creamos. Bootstrapping es uno de los
métodos para valorar la robustez de las ramas. Con este método medimos si los datos apoyan esta rama.
Tomamos los datos iniciales y usamos un método de reemplazamiento, es decir, de nuestros datos iniciales
usamos una parte de ellos utilizando una pseudoréplica que no contiene toda la información original sino una
parte. Es decir, con una parte de nuestros datos intentaremos hacer el mismo árbol para ver qué se forma. Esto
lo haremos entre 100-1000 veces, obteniendo así unos 1000 árboles distintos para ver en cuántos de esos
6 de 12
Genética Evolutiva
árboles se ha formado la primera, la segunda, etc de las ramas y calculamos un valor de bootstrap que es el
número de veces que encuentro la rama dividido entre el número de árboles creados. Obtendremos un
porcentaje según el cual sabremos si nos podremos creer la rama (>85%) o no.
En resumen, este método consiste en:

1. De la secuencia original retenemos su tamaño.
2. Usamos el método de reemplazamiento: con bloques parciales de la matriz reconstruimos una nueva
matriz de igual tamaño o pseudoréplica.
3. La nueva matriz se analiza nuevamente para obtener un árbol.
4. Se realiza un número elevado de pseudoréplicas (normalmente 1000): por ejemplo, si el número de
réplicas es 1000 indica que hemos elaborado 1000 matrices y replicado 1000 árboles.
5. El porcentaje de veces que dos o más OTUs, o dos o más clados son agrupados es el valor de
bootstrap de la rama: por ejemplo, si el 95% de los árboles agrupa dos OTUs se dice que la rama que
los une tiene un 95% de bootstrap.
6. Ramas con valores de bootstrap superiores al 85% se consideradas bien soportadas.
En el ejemplo anterior se analizaron las bacterias fijadoras de nitrógeno, cuyas características morfológicas son
similares. Los autores solo ponen valores en aquellas ramas donde el bootstrap son >85%
Árboles de parsimonia
Principio de la parsimonia: La hipótesis más sencilla es la más probable.
Objetivo: Buscar entre todos los árboles posibles aquel o aquellos que impliquen el menor número de cambios.
Es decir, el árbol que implique menos mutaciones es el árbol más probable que explique las relaciones entre las
especies.
1. Las posiciones invariables (1, 6 y 8) son eliminadas del análisis.

2. De los sitios variables, aquellos que presentan una variante en sólo una de las secuencias (singleton) no son
tenidas en cuenta para determinar la topología del árbol (2,3 y 4).
3. Sólo las posiciones variables con variantes representadas CADA UNA DE ELLAS en más de una secuencia
son útiles para encontrar la topología más parsimoniosa —> posiciones parsimoniosas informativas.
7 de 12
Genética Evolutiva
En la primera posición, todos los nucleótidos tienen adenina, por lo que no sirve para hacer un árbol. Es decir,
los sitios que son invariables no sirven para hacer un árbol. Si nos fijamos en la posición 2, la secuencia 1 tiene
una A y el resto tiene una G , lo cual no nos sirve para definir una topología concreta. Por tanto, en este
ejemplo, las posiciones que se consideran para realizar un árbol son la posición 5 que indica que la secuencia 1
y 2 forma un clado y las secuencias 3 y 4 forman otro clado. Las otras posiciones que emplearíamos serían la 7
y la 9 además de la posición 5.
Para explicar los datos en este árbol necesito dos mutaciones. El principio de máxima parsimonia indica que lo
que lleva menos pasos es lo más probable. Siguiento este principio, en este ejemplo nos quedaríamos con el
primer árbol en la posición 5 pues implica un solo cambio.
En cuanto a la posición 7, con la primera topología tenemos una mutación de modo que dos son G y dos son
C y nos onligaría a meter dos mutaciones. Nos quedaríamos con la primera.
Comenzamos colocando las posiciones informativas y seguimos colocando los singleton. Como la a la tiene
solo la rama 1, le ponemos una mitación a la 1. En las ramas 1 y 2 ponemos otra mutación. Suponemos que
una rama tiene el ancestral y al resto de ramas le vamos a poner una mutación a cada una de ellas. El resto de
posiciones no varían por lo que no tenemos que añadir más mutaciones. Tenemos 10 mutaciones en total que
sería el árbol más parsimonioso, es decir, el árbol que relaciona nuestras especies incolucrando el menor
número de mutaciones posibles.
8 de 12
Genética Evolutiva
Este tipo de árbol es no enraizado. Para ponerle una raíz debemos incluir en el análisis un outgroup. Sin raíz
sabemos las relaciones que existen pero no le podemos poner temporalidad. Para todo esto es necesario
emplear un software.
Red de haplotipos
Es una representación gráfica de la diversidad genética de las poblaciones. Son útiles para detectar
expansiones demográficas, estructura geográfica, haplotipos ancestrales, etc.
Se trata de conectar los diferentes haplotipos incluyendo el número de mutaciones en los ejes.
Máxima probabilidad o Maximum likelihood (ML):
El objetivo es encontrar el árbol y modelo evolutivo (hipótesis) que maximice la probabilidad de obtener los
datos (alineamiento).
En la práctica, el modelo evolutivo es propuesto y el árbol buscado entre la población de árboles de forma que
se retendrá aquel que con mayor probabilidad explique los datos.
9 de 12
Genética Evolutiva
Cualquiera de estas 16 posibilidades genera esa configuración de nucleótidos en las ramas terminales del árbol
—>calculamos la probabilidad de cada opción y lo sumamos para obtener la probabilidad total para cada sitio j.
La probabilidad total del árbol será el producto de las probabilidades de cada sitio:
¿Cómo elegimos el modelo evolutivo? Un árbol es testado para todos los modelos. Las probabilidades
obtenidas para cada modelo son comparadas:
¿Testaremos todos los árboles para buscar el de mayor probabilidad? ¿Cómo lo haremos? Lógicamente nos
ayudaremos de software para buscar el árbol con mayor probabilidad:
Branch and Bound
Para facilitar la explicación empleamos el número de pasos en lugar de

probabilidad.
Partimos de un árbol arbitrario (p. ej. NJ) con «n» pasos.
Comienza entonces con tres OTUs añadiendo sucesivamente los siguientes en
distintas ramas.
Si la adición del OTU supone un mayor número de pasos que el establecido
inicialmente ya no sigue esa vía.
Si tras la adición de todos los OTUs obtiene uno con un menor número de
pasos utiliza ahora este como arbol óptimo y sigue testando las vías no
descartadas.
El método encuentra siempre el árbol/es con menor númuro de pasos (mayor
probabilidad).
Por el tiempo de procesamiento que requiere no se utiliza para un no de OTUs
superior a 20.
Búsqueda heurística
De nuevo, para facilitar la explicación empleamos el número de pasos en lugar de

probabilidad.
Stepwise addition:
Construye secuencialmente el árbol y en cada estadío testa el criterio (de menor
número de pasos o de mayor probabilidad).
Al descartar un árbol en un estadío temprano descarta todos aquellos que deriven
de ellos.
Rara vez encuentra el árbol con menor número de pasos (en nuestro caso, de
10 de 12
Genética Evolutiva
mayor probabilidad).
Reordenaciones de los árboles encontrados pueden hallar uno de menor número de pasos o mayor
probabilidad.
En definitiva, las ventajas y desventajas que presenta el método de Máxima probabilidad o Maximum likelihood
(ML) son:
Método bayesiano
El objetivo es encontrar el conjunto de árboles mejor explicados por las secuencias.
11 de 12
Genética Evolutiva
Si no se mueve durante varios intentos puede ir a un estado con una probabilidad menor si la diferencia no es
significativa.
Aún así, puede quedar atrapada en un sub-óptimo
Una estrategia: (Metropoli-Coupled MCMC —> MCMCMC) se corren varias cadenas, por ejemplo 4 (1 fría y 3
calientes) y se permite el intercambio de información entre cadenas calientes y frías.
Una vez alcanzada la estacionaridad el número de veces que incide en el mismo escenario se toma como
probabilidad de que ese árbol es el correcto.
Podemos obtener árboles bayesianos con MrBayes. Este software usa cuatro cadenas.
- El modelo evolutivo es elegido mediante Modeltest o MrModeltest.
- Cada X generaciones (cambios de estado) tomamos datos del estado de las cadenas frías. Por ejemplo cada
100 generaciones.
- El número de generaciones (varios millones) debe ser tal que la desviación estándar entre las dos cadena frías
sea inferior a 0.01.
- Las cadenas frías de ambas réplicas tienden a confluir.
- Cada n generaciones se toma el valor de parámetros, probabilidad posterior y árbol.
Como norma cada 100.
- De los datos almacenados se descartan los anteriores a alcanzar la estacionaridad (aproximadamente el
25%) burn-in. Estos son enormemente dependientes de los estados iniciales arbitrarios de las cadenas.
- Con las restantes, el programa estima un consenso de probabilidades «sump» y de árboles «sumt» que
propone como consenso.
- El árbol consenso muestra sobre sus ramas las probabilidades posteriores que se toman como valores de
bootstrap. Sólo aquellos superiores a 0.90 son considerados significativos y por lo tanto ramas y clados bien
soportados.
12 de 12

Tema 15 Gevo PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tema 15 Gevo PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Genética Evolutiva

Davinia María García Molina

Tema 15. Filogenias

Un outgroup permite enraizar el árbol y establecer una direccionalidad al mismo.

¿Cuántos árboles son posibles para n taxas?

1) UPGMA (Unweighted Pair-Group Method using arithmetic Averages):

2) Neighbor-Joining y Mínima evolución

Dividimos la distancia de A y B por la mitad y, la diferencia entre la distancia total de A y la de B la dividimos

En resumen, este método consiste en:

1. Las posiciones invariables (1, 6 y 8) son eliminadas del análisis.

Máxima probabilidad o Maximum likelihood (ML):

Branch and Bound

Para facilitar la explicación empleamos el número de pasos en lugar de

De nuevo, para facilitar la explicación empleamos el número de pasos en lugar de

Anda mungkin juga menyukai