Anda di halaman 1dari 71

TECNICAS INTELIGENTES EN BIOINFORMATICA

Evolucion Molecular y Filogenia

Ignacio Perez Hurtado de Mendoza


Grupo de investigacion en Computacion Natural
Dpto. Ciencias de la Computacion e Inteligencia Artificial
Universidad de Sevilla

Master Universitario en Logica, Computacion e Inteligencia Artificial


Curso 2013-14
IAB2014
Introduccin

La comparacin entre secuencias de genomas de distintos


organismos de la misma especie y de especies diferentes nos
muestra que los genomas no son estticos sino dinmicos.

Cambios o mutaciones aparecen en el genoma de un nico


individuo. Estas pueden ser neutrales, defectuosas o ventajosas.

Si una mutacin aparece en la lnea germinal de un organismo


puede ser transmitida a sus descendientes. De esta forma una
mutacin puede extenderse en una poblacin y fijarse dando lugar
a polimorfismos, existencia de diferentes variantes de una misma
secuencia de DNA llamados alelos.

Los polimorfismos ms frecuentes son los SNPs (single nucleotide


polymorphisms) seguidos de los STR (short tandem repeats) y por
ltimo indels. Finalmente, pueden darse transposiciones,
inversiones y duplicaciones.
www.cs.us.es/~fran/iab2014
IAB2014
Filogenia Molecular

La filogenia consiste en la inferencia de las relaciones evolutivas entre las especies


existentes. Tradicionalmente se basaba en el estudio de carcteres morfolgicos y
fisiolgicos hasta principios de 1980s con la obtencin de las secuencias de los primeras
protenas y genes.
Actualmente se basa en la comparacin entre secuencias biolgicas dando lugar a la
filogenia molecular.
Los principales objetivos de la filogenia molecular son:
Determinar una relacin jerrquica entre las especies existentes segn su relacin
evolutiva.
Estimar el tiempo de divergencia entre las especies, i.e. tiempo de existencia de su
ancestro en comn ms cercano.

www.cs.us.es/~fran/iab2014
IAB2014
Anlisis Filogentico

El estudio filogentico se divide en cinco pasos:

Paso 1: Seleccin de las secuencias biolgicas a analizar.

Paso 2: Alineamiento mltiple de las secuencias biolgicas.

Paso 3: Seleccin del modelo estadstico de evolucin


molecular de las correspondientes secuencias.

Paso 4: Construccin de rboles filogenticos.

Paso 5: Evaluacin de los rboles construdos.

www.cs.us.es/~fran/iab2014
IAB2014
Anlisis Filogentico

El estudio filogentico se divide en cinco pasos:

Paso 1: Seleccin de las secuencias biolgicas a analizar.

Paso 2: Alineamiento mltiple de las secuencias biolgicas.

Paso 3: Seleccin del modelo estadstico de evolucin


molecular de las correspondientes secuencias.

Paso 4: Construccin de rboles filogenticos.

Paso 5: Evaluacin de los rboles construdos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 1: Seleccin de las secuencias
biolgicas a analizar

Los estudios filogenticos se basan en la comparacin de


secuencias biolgicas (DNA o AA) homlogas. El estudio de las
diferencias entre ellas nos permiten estimar la relacin evolutiva
entre las correspondientes especies y su tiempo de divergencia
(existencia de un ancestro en comn).

Para obtener secuencias homlogas podemos recurrir:

Bases de datos tales como Refseq, Uniprot o HomoloGene


http://www.ncbi.nlm.nih.gov/homologene

Resultados de alineamientos utilizando BLAST.


http://blast.ncbi.nlm.nih.gov/Blast.cgi

www.cs.us.es/~fran/iab2014
IAB2014
Anlisis Filogentico

El estudio filogentico se divide en cinco pasos:

Paso 1: Seleccin de las secuencias biolgicas a analizar.

Paso 2: Alineamiento mltiple de las secuencias biolgicas.

Paso 3: Seleccin del modelo estadstico de evolucin


molecular de las correspondientes secuencias.

Paso 4: Construccin de rboles filogenticos.

Paso 5: Evaluacin de los rboles construdos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 2: Alineamiento Mltiple de
Secuencias
El alineamiento mltiple de las secuencias biolgicas analizadas es el paso crucial en
el estudio filogentico ya que consiste en la comparacin entre las distintas secuencias.

Es necesario comprobar los siguientes puntos:


Eliminar secuencias no homlogas, aquellas que no muestran alineamiento. Se
deber realizar un alineamiento de pares de secuencias y ver su significancia.
Si el alineamiento no es bueno y estamos seguros de la homologa entre las
secuencias modificar los parmetros de penalizacin por la insercin y extensin de
huecos.
Normalmente no se conoce la secuencia completa de las correpondientes
secuencias y aparecen muchos huecos. Es necesario eliminar las columnas que
corresponde a hueco (manualmente o indicrselo al correspondiente programa).
Dualidad entre alineamiento mltiple y rbol filogentico.

www.cs.us.es/~fran/iab2014
IAB2014
Anlisis Filogentico

El estudio filogentico se divide en cinco pasos:

Paso 1: Seleccin de las secuencias biolgicas a analizar.

Paso 2: Alineamiento mltiple de las secuencias biolgicas.

Paso 3: Seleccin del modelo estadstico de evolucin


molecular de las correspondientes secuencias.

Paso 4: Construccin de rboles filogenticos.

Paso 5: Evaluacin de los rboles construdos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos estadsticos de Evolucin
Molecular o Modelos de Substitucin de DNA y AA.

Una vez realizado el alineamiento mltiple podemos pasar a la estimacin de la


distancia gentica entre las distintas secuencias.

La distancia gentica entre dos secuencias homlogas se define como el nmero


de sustituciones acumuladas entre ellas desde que divergieron de un ancestro
comn.

La estimacin de la distancia gentica no es trivial ya que no todas las sustituciones


son observables especialmente en secuencias con muchas sustituciones.

www.cs.us.es/~fran/iab2014
IAB2014
Paso 3: Modelos de Sustitucin de Aminocidos

El anlisis filogentico se basa en la correcta eleccin del model de sustitucin


correspondiente:

P-distance o distancia de Hamming o grado de divergencia: Consiste en


contar la frecuencia relativa de cambios entre dos secuencias de un
alineamiento mltiple. Si tenemos un alineamiento de longitud N con n
diferencias la p-distance se define como:

p=n/N

www.cs.us.es/~fran/iab2014
IAB2014
Paso 3: Modelos de Substitucin de Aminocidos

El anlisis filogentico se basa en la correcta eleccin del model ode substitucin


correspondiente:

P-distance o distancia de Hamming o grado de divergencia: Consiste en


contar la frecuencia relativa de cambios entre dos secuencias de un
alineamiento mltiple. Si tenemos un alineamiento de longitud N con n
diferencias la p-distance se define como:

d=n/N

www.cs.us.es/~fran/iab2014
IAB2014
Paso 3: Modelos de Sustitucin de Aminocidos

Secuencias homlogas muy divergentes acumulan un gran nmero de


sustituciones lo cual hace que no todas sean observables. Por lo tanto, es
necesario corregir aquellas substituciones observables.
La correccin de Poisson es una de las ms ampliamente utilizadas:

d = - ln(1 p) donde p es frecuencia relativa observable

www.cs.us.es/~fran/iab2014
IAB2014
Paso 3: Modelos de Sustitucin de Aminocidos

www.cs.us.es/~fran/iab2014
IAB2014

www.cs.us.es/~fran/iab2014
IAB2014
Paso 3: Modelos de Sustitucin de Nucletidos

El clculo de la distancia gentica entre secuencias de nucletidos


es ms difcil debido entre otras razones a la redundancia del
cdigo gentico.

Existen diferentes modelos de sustitucin de nucletidos que


persiguen conseguir una mejor estimacin de la distancia
gentica, es decir, una mejor estimacin de nmero real de
sustituciones entre dos secuencias homlogas dadas las
sustituciones obervables.

Estos modelos en general asumen que el proceso de evolucin de


las secuencias de nucletidos pueden representarse usando
cadenas de Markov. Es decir, asumen que el estado actual de
una secuencia tan slo depende del estado precedente.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Jukes-Cantor

El modelo de Jukes-Cantor es el modelo ms simple que propone


una correccin del nmero de sustituciones observables.

Asume que la probabilidad de mutar un nucletido por otro es


independiente de la posicin de dicho nucletido y del nucletido
en s:
La probabilidad de cambiar A por C, G o T es idntica, a/3.
De igual forma para C, G y T.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Jukes-Cantor

/3
A G
/3

/3 /3

/3

T /3 C

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Jukes-Cantor

El modelo de Jukes-Cantor es el modelo ms simple que propone


una correccin del nmero de sustituciones observables.

Asume que la probabilidad de mutar un nucletido por otro es


independiente de la posicin de dicho nucletido y del nucletido
en s:
La probabilidad de cambiar A por C, G o T es idntica, a/3.
De igual forma para C, G y T.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Jukes-Cantor

El modelo de Jukes-Cantor es el modelo ms simple que propone


una correccin del nmero de sustituciones observables.

Asume que la probabilidad de mutar un nucletido por otro es


independiente de la posicin de dicho nucletido y del nucletido
en s:
La probabilidad de cambiar A por C, G o T es idntica, a/3.
De igual forma para C, G y T.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Kimura-2 parmetros

Kimura propuso un refinamiento del modelo de Jukes-Cantor que


tiene en cuenta la mayor probabilidad de observar transiciones
que observar transversiones.

Por lo tanto depende de dos parmetros:


La probabilidad de observar una transicin, a.
La probabilidad de observar una transversin, b.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Kimura-2 parmetros


A G

T C

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Kimura-2 parmetros

Kimura propuso un refinamiento del modelo de Jukes-Cantor que


tiene en cuenta la mayor probabilidad de observar transiciones
que observar transversiones.

Por lo tanto depende de dos parmetros:


La probabilidad de observar una transicin, a.
La probabilidad de observar una transversin, b.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
El Modelo de Kimura-2 parmetros

Kimura propuso un refinamiento del modelo de Jukes-Cantor que


tiene en cuenta la mayor probabilidad de observar transiciones
que observar transversiones.

Por lo tanto depende de dos parmetros:


La probabilidad de observar una transicin, a.
La probabilidad de observar una transversin, b.

Donde P y Q es la frecuencia relativa de transciones y


transversiones respectivamente.
Existen otros mucho modelos de sustitucion como por ejemplo
GTR (General time reversable) que considera una probabilidad
para cada tipo de transicin y transversin.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
La distribucin Gamma

Todos los modelos de sustitucin vistos hasta ahora asumen que


las sustituciones son independientes de la posicin.
Las probabilidades de sustitucin son uniformes a lo largo de toda
la secuencia. Esto no se cumple siempre.
Con frecuencia se usa una correccin basada en la distribucin
gamma para representar la zona de la secuencia donde se da una
mayor probabilidad de sustitucin.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 3: Modelos de Sustitucin de Nucletidos
Seleccin de Modelos de Substitucin

Dado un alineamiento mltiple


de secuencias existe una gran
variedad de posibles modelos a
elegir para representar la
evolucin de las distintas
secuencias.

La seleccin de modelos es
una rama de la estadstica
dedicada a clasificar la bondad
de los distintos modelos
posibles buscando un
compromiso entre la
complejidad del modelo
(nmero de parmetros) y el
ajuste a los datos disponibles.

MEGA permite realizar este


anlisis basado en los Criterios
de Informacin Bayesianos y de
Akaike (BIC y AIC).

www.cs.us.es/~fran/iab2014
IAB2014
Anlisis Filogentico

El estudio filogentico se divide en cinco pasos:

Paso 1: Seleccin de las secuencias biolgicas a analizar.

Paso 2: Alineamiento mltiple de las secuencias biolgicas.

Paso 3: Seleccin del modelo estadstico de evolucin


molecular de las correspondientes secuencias.

Paso 4: Construccin de rboles filogenticos.

Paso 5: Evaluacin de los rboles construidos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Nodos

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

La longitud de las ramas representa


la distancia gentica.
Cladograma, todas las ramas son
de la misma longitud.
Filograma, las ramas de distinta
longitud representan la distancia
filogentica.

Ramas o
Aristas

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Nodos externos
Hojas
Taxones
OTUs (Operational
Taxonomic
Unit)

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Nodos internos
Ancestros comunes

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Clado: conjunto de todos


los taxones y ancestros
comunes que descienden
de un nodo en concreto

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Clado: conjunto de todos


los taxones y ancestros
comunes que descienden
de un nodo en concreto

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Clado: conjunto de todos


los taxones y ancestros
comunes que descienden
de un nodo en concreto

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Clado: conjunto de todos


los taxones y ancestros
comunes que descienden
de un nodo en concreto

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Clado: conjunto de todos


los taxones y ancestros
comunes que descienden
de un nodo en concreto

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Los principales objetos de estudio de la filogenia molecular: establecimiento de las


relaciones jerrquicas entre especies segn su relacin evolutiva y la estimacin
del tiempo de divergencia entre especies se representan utilizando rboles
filogenticos.

Clado: conjunto de todos


los taxones y ancestros
comunes que descienden
de un nodo en concreto

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Existen dos tipos de rboles segn la existencia de un nodo destacado llamado raz:
Los rboles enraizados poseen un nodo llamado raz que corresponde con el ancestro
comn a todos los taxones. En un rbol enraizado podemos establecer una relacin
temporal.
Los rboles no enraizados carecen de raz y por lo tanto de relacin temporal.
Existen principalmente dos mtodos para determinar la raz de un rbol no enraizado:
Se aade un outgroup, un taxn que conocemos es el ms alejado del resto, y
determinamos la raz en el punto medio de la arista que lo une a clado formado por el
resto de taxones.
Se determina la rama de mayor longitud y se establece la raiz en su punto medio.

9 pasado
1
5
7 8
6
7 8
2 2 3 4
6
3 4 presente
1 5

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Definiciones y propiedades bsicas

Existen dos tipos de rboles segn la existencia de un nodo destacada llamado raz:
Los rboles enraizados poseen un nodo llamado raz que corresponde con el ancestro
en comn entre todos los taxones. En un rbol enraizado podemos establecer una
relacin temporal.
Los rboles no enraizados carecen de raz y por lo tanto de relacin temporal.
Existen principalmente dos mtodos para determinar la raz de un rbol no enraizado:
Se aade un outgroup, un taxn que conocemos es el ms alejado del resto, y
determinamos la raz en el punto medio de la arista que lo une a clado formado por el
resto de taxones.
Se determina la rama de mayor longitud y se establece la raiz en su punto medio.

raz
pasado
1 10
5
7 9
8
7 8
2 2 3 4
6
3 4 1 5 6 presente
Outgroup

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mtodos de Construccin de rboles

Existen una gran variedad de mtodos para la


construccin de rboles filogenticos. Principalmente
se dividen en cuatro grupos:

Mtodos basados en distancia

Mtodos de mxima parsimonia

Mtodos de mxima verosimilitud

Mtodos de inferencia bayesiana

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mtodos de Construccin de rboles

Existen una gran variedad de mtodos para la


construccin de rboles filogenticos. Principalmente
se dividen en cuatro grupos:

Mtodos basados en distancia

Mtodos de mxima parsimonia

Mtodos de mxima verosimilitud

Mtodos de inferencia bayesiana

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mtodos basados en distancia

Los mtodos basados en distancia tienen como primer paso el clculo de las
distancias genticas entre todos los pares de secuencias segn el
correspondiente modelo de sustitucin seleccionado.

Estos modelos resumen toda la informacin de un alineamiento mltiple en la


correspondiente matriz de distancias ignorando el resto de la informacin (otros
mtodos tambin tienen en cuenta esta informacin).

Los principales mtodos de construccin de rboles filogenticos basados en


distancia son:

UPGMA (Unweighted Pair Group Method with Arithmetic mean)

Neighbour Joining

El algoritmo de Neighbour Joining se usa ampliamente debido a su velocidad y a


que bajo ciertas condiciones devuelve rboles con buenas propiedades.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 1. Calcular la matriz de distancias segn el modelo de sustitucin


seleccionado. 1 2 3 4 5
1
2 0.1

3 0.8 0.8

4 0.8 1 0.3

5 0.9 0.9 0.3 0.2


1 2

3
4

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 2. Determinar las dos secuencias con la menor distancia gentica entre ellas
y unirlas para formar un primer clster. Aadir un primer nodo interno para
representar el ancestro en comn entre dichas secuencias. Se asume que las dos
ramas que unen este ancestro en comn con los dos taxones son de la misma
longitud (la mitad de la distancia entre dichas secuencias). Recalcular la matriz de
distancias.

1 2

3
4

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 2. Determinar las dos secuencias con la menor distancia gentica entre ellas
y unirlas para formar un primer clster. Aadir un primer nodo interno para
representar el ancestro en comn entre dichas secuencias. Se asume que las dos
ramas que unen este ancestro en comn con los dos taxones son de la misma
longitud (la mitad de la distancia entre dichas secuencias). Recalcular la matriz de
distancias.

1 2

3
4

5
6

1 2

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 2. Determinar las dos secuencias con la menor distancia gentica entre ellas
y unirlas para formar un primer clster. Aadir un primer nodo interno para
representar el ancestro en comn entre dichas secuencias. Se asume que las dos
ramas que unen este ancestro en comn con los dos taxones son de la misma
longitud (la mitad de la distancia entre dichas secuencias). Recalcular la matriz de
distancias.
(1,2) 3 4 5
(1,2)
3 0.8
1 2
4 0.9 0.3

5 0.9 0.3 0.2

3
4

5
6

1 2

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 3. Determinar las siguientes dos secuencias con la menor distancia gentica
entre ellas. Estas pueden ser dos secuencias originales o contener al ancestro en
comn aadido. Unir las correspondientes secuencias en un clster. Aadir un
nodo interno para representar el ancestro en comn. Recalcular la matriz de
distancias.

1 2

3
4

5
6

1 2

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 3. Determinar las siguientes dos secuencias con la menor distancia gentica
entre ellas. Estas pueden ser dos secuencias originales o contener al ancestro en
comn aadido. Unir las correspondientes secuencias en un clster. Aadir un
nodo interno para representar el ancestro en comn. Recalcular la matriz de
distancias.

1 2

7
3
4

5
6

1 2 4 5

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Etapa 3. Determinar las siguientes dos secuencias con la menor distancia gentica
entre ellas. Estas pueden ser dos secuencias originales o contener al ancestro en
comn aadido. Unir las correspondientes secuencias en un clster. Aadir un
nodo interno para representar el ancestro en comn. Recalcular la matriz de
distancias.
(1,2) 3 (4,5)
(1,2)
3 0.8

(4,5) 0.9 0.3


1 2

7
3
4

5
6

1 2 4 5

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Reiterar este proceso hasta que todas las secuencias estn incluidas en
un nico clster que representar la raz del rbol.

1 2

3
4

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Reiterar este proceso hasta que todas las secuencias estn incluidas en
un nico clster que representar la raz del rbol.

1 2

8
7
3
4

5
6

1 2 4 5 3

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Reiterar este proceso hasta que todas las secuencias estn incluidas en
un nico clster que representar la raz del rbol.
(1,2) (4,5,3)
(1,2)
(4,5,3) 0.85

1 2

8
7
3
4

5
6

1 2 4 5 3

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
UPGMA

Reiterar este proceso hasta que todas las secuencias estn incluidas en
un nico clster que representar la raz del rbol.

9
1 2

8
7
3
4

5
6

1 2 4 5 3

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Neighbour Joining

Neighbour Joining es el mtodo de construccin de rboles filogenicos


basado en distancias ms popular. Es rpido lo cual permite formar
rboles con decenas de taxones. Adems bajo ciertas condiciones
produce rboles con buenas propiedades.

Al contrario de UPGMA Neighbour joining produce ramas de distinta


longitud.

Neighbour Joining produce rboles no enraizados. Por lo tanto, para


aadir una raz debemos aadir un outgroup o determinar la rama de
mayor longitud.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Neighbour Joining

El primer paso de este algoritmo posiciona a todos los taxones en una


estructura en forma de estrella.
Seguidamente determina los dos taxones vecinos ms cercanos y aade
un nuevo nodo representando su ancestro en comn ms cercano.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Neighbour Joining

Este algoritmo de basa en encontrar taxones vecinos y unirlos


progresivamente aadiendo su ancestro en comn.
Decimos que dos nodos son vecinos en un rbol filogentico si
estn conectados entre s por un nico nodo interno.
Test de vecindad o la condicin 4-puntos:

Dados i y j dos vecinos genricos


podemos afirmar que los nodos 1 y 2 son
vecinos si la anterior condicin es
verdadera.
La suma de la distancia entre vecinos es
menor a la suma de las distancias entre
no vecinos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Neighbour Joining

Para determinar la longitud de las ramas aadidas al nuevo nodo


se utiliza la llamada frmula de los tres puntos:

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mtodos de Construccin de rboles

Existen una gran variedad de mtodos para la


construccin de rboles filogenticos. Principalmente
se dividen en cuatro grupos:

Mtodos basados en distancia

Mtodos de mxima parsimonia

Mtodos de mxima verosimilitud

Mtodos de inferencia bayesiana

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mxima Parsimonia

En lugar de resumir toda la informacin de un alineamiento


multiple en las distancias genticas entre secuencias en este
tipo de mtodos se tienen encuenta las columnas de
nucletidos o aminocidos alineadas.

La principal hiptesis de este metodo de construccin de


rboles consiste en asumir que es preferible considerar el
menor nmero de cambios o mutaciones posibles para
explicar la evolucin de las secuencias analizadas a
considerar escenarios ms complejos.

De esta forma se busca el arbol filogentico tal que la suma


de las longitudes de sus ramas sea la menor posible.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mxima Parsimonia

Cul es la explicacin ms simple o rbol filogentico ms


simple que puede explicar la evolucin de las secuencias
AAG, AAA, GGA, AGA?

AAA AAA AAA 1


AAA AAA1 AAA AAA 2 AAA
1 2 1 1 1 1 AGA

AAG GGA AAA AGA AAG AGA AAA GGA AAG AAA GGA AGA

Coste = 4 Coste = 4 Coste = 3

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mxima Parsimonia

La contruccin de rboles filogenticos utilizando mxima parsimonia se


divide en tres pasos:

Paso 1: Identificacin de posiciones informativas en un


alineamiento mltiple, es decir, se excluyen aquellas posiciones que
no cambian en ninguna secuencia y aquellas que no se repiten ms
de una vez.

Paso 2: Construccin de todos los rboles filogenticos posibles si


trabajamos con menos de 12 taxones o utilizacin de un algoritmo
aproximado que construya slo los rboles ms relevantes.

Paso 3: Coste de cada rbol segn la longitudes de sus ramas y


seleccin del arbl con la menor puntuacin. .

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mtodos de Construccin de rboles

Existen una gran variedad de mtodos para la


construccin de rboles filogenticos. Principalmente
se dividen en cuatro grupos:

Mtodos basados en distancia

Mtodos de mxima parsimonia

Mtodos de mxima verosimilitud

Mtodos de inferencia bayesiana

www.cs.us.es/~fran/iab2014
IAB2014 Paso 4: Construccin de rboles Filogenticos
Mxima Verosimilitud

El mtodo de construccin de rboles por mxima


verosimilitud es uno de los ms costosos
computacionalmente pero uno de los ms fiables.

Este mtodo asocia a cada rbol posible una probabilidad


calculada segn un modelo de substitucin (Jukes-Cantor,
Kimura 2-parmetros, etc)

El rbol con mayor probabilidad o verosimilitud es


seleccionado.

www.cs.us.es/~fran/iab2014
IAB2014 Qu mtodo de construccin de
rboles elegir?
Seleccionar secuencias Obtener un alineamiento
biolgicas mltiple

Determinar la similitud
entre las secuencias

Fuerte similitud Poca similitud Muy Poca similitud


Mxima Parsimonia Neighbour-Joining Mxima verosimilitud
Derminar modelo Derminar modelo
de substitucin de substitucin

Evaluacin del
rbol construdo
www.cs.us.es/~fran/iab2014
IAB2014
Anlisis Filogentico

El estudio filogentico se divide en cinco pasos:

Paso 1: Seleccin de las secuencias biolgicas a analizar.

Paso 2: Alineamiento mltiple de las secuencias biolgicas.

Paso 3: Seleccin del modelo estadstico de evolucin


molecular de las correspondientes secuencias.

Paso 4: Construccin de rboles filogenticos.

Paso 5: Evaluacin de los rboles construidos.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 5: Evaluacin de rboles Filogenticos
Bootstrapping

Una vez construdo un rbol filogentico debemos evaluar


su robustez.
Con cunta frecuencia se obtiene un orden de ramificacin
dado considerando secuencias similares a las utilizadas?
El mtodo de evaluacin de rboles ms extendido consiste
en Bootstrapping.

www.cs.us.es/~fran/iab2014
IAB2014 Paso 5: Evaluacin de rboles Filogenticos
Bootstrapping

En este mtodo las secuencias similares a las utilizadas se construyen


como permutaciones con repeticin de las columnas del
correspondiente alineamiento mltiple.

Con este nuevo alineamiento se construye un nuevo rbol.

Este proceso se repite un nmero de veces prefijado.

A cada ramificacin se le asigna el porcentaje de veces que aparece en


los rboles construidos.

Se asume que una ramificacin es significativa si aparece ms del


50%-70% de las veces. El resto de las ramificaciones pueden
condensarse dando lugar a politoma. Usualmente se construye adems el
rbol consenso que recoge el orden de ramificacin ms frecuente.

www.cs.us.es/~fran/iab2014
IAB2014

www.cs.us.es/~fran/iab2014
IAB2014

www.cs.us.es/~fran/iab2014
IAB2014

This work is licensed under the Creative Commons Attribution-


NonCommercial NoDerivs 3.0 Unported License. To view a copy of
this license, visit http://creativecommons.org/licenses/by-nc-
nd/3.0/.

www.cs.us.es/~fran/iab2014