Anda di halaman 1dari 11

Modelarea evolutiei prin arbori filogenetici

Diaconu Alexandru Rares


Universitatea din Craiova, Facultatea de Stiinte Exacte
ABSTRACT
In acest studiu am studiat doua tipuri de arbori filogenetici obtinuti prin
metode de clusterizare, folosind o varianta a algoritmilor UPGMA, repectiv
Neighbor-Joining, pe care pot fi folositi apoi n analiza evolutiei speciilor.
Subject headings: filogenetica, evolutia moleculara, algoritmul UPGMA, algoritmul Neighbor-Joining,

1.

Motivatia temei

Studiile filogenetice au drept scop reconstruirea istoriei evolutive a organismelor vii.


Termenul de filogenie (phylogenese) provenit de la cuvintele grecesti phulon - rasa si
genetikos, genesis - origine, a fost introdus de catre Haeckel n 1860 [1], care l-a definit
ca fiind istoria dezvoltarii paleontologice a organismelor prin analogie cu istoria dezvoltarii
individuale. Mult timp, constructia arborilor filogenetici s-a bazat pe folosirea caracterelor
morfologice, anatomice si paleontologice. Primul arbore filogenetic al vertebratelor, stabilit
de Zuckerkandl si Pauling n 1962 folosind date moleculare [2], este aproape identic cu cel
obtinut utilizand clasificarea biologica. O data cu evolutia tehnicilor de biologie moleculara
si cu punerea la punct a tehnicii de secventializare de catre Sanger n 1977, s-a produs o
adevarata revolutie privind utilizarea secventelor ADN n filogenie.
Producerea, publicarea si introducerea unui numar mare de secvente genetice n bazele
de date internationale au dus la dezvoltarea bioinformaticii aplicate acestui domeniu, materializata printr-o oferta larga de programe necesare alinierii, analizei secventelor genetice si
construirii arborilor filogenetici.
Evolutia realizata prin selectia naturala a cauzat modificarea speciilor populatiei prin
trei mecanisme principale: schimbarea populatiei ntr-un timp evolutiv si mpartirea acesteia n mai multe ramuri, hibridizarea a doua specii anterioare diferite ntr-una singura, sau
sfarsitul populatiei prin distrugerea ei [3]. Inca de cand a aparut viata pe aceasta planeta,
au evoluat foarte multe specii distincte nrudite ntre ele. Filogenetica se ocupa cu studiul

2
caracterelor evolutive nrudite ale speciilor si populatiilor. Filogenia traditionala trateaza
modul n care speciile evolueaza, nca de la aparitia datelor despre genomi, pornind de la
cele fiziologice (structura osoasa de la fosile, etc). Vom aborda filogenetica dintr-o perspectiva diferita: vom analiza date de secvente ADN pentru a determina relatiile dintre si
ntre specii. In esenta, dorim sa evidentiem selectia naturala n populatii. Aceasta zona de
studiu din biologia computationala devine din ce n ce mai importanta, cu aplicatii comerciale n domeniul genomicii. Recent, s-a stabilit ca o companie afiliata MIT&Harvard sa
secventializeze genomi individuali pentru suma de 5000 de dolari.
Am abordat aceasta problema de biologie n termeni computationali, studiind doi algoritmi, UPGMA si Neighbor-Joining, ce construiesc specii sau arbori de gene din aceste date
relationale. Vom explica, n continuare, diferenta dintre specii si arborii de gene.
Printre multe alte probleme deschise din domeniul filogeneticii ce se pot rezolva cu
ajutorul genomicii, mai apar si altele: cat de mult se aseamana doua specii, gasirea speciei
din care a evoluat omul (cimpanzeii sau gorilele sau alta), dar si multe altele. Foarte multe
probleme fara raspuns din biologia evolutiva au fost descifrate si rezolvate de filogenetica
genomica. Una din aceste probleme este reprezentata de revelatia ca cel mai apropiat animal
nrudit cu balena este hipopotamul [3].
In filogenetica, informatia este reprezentata cel mai bine cu ajutorul arborilor, acestia
aratand, n detaliu, legaturile dintre specii sau dintre gene. Exista probleme importante
legate de necesitatea filogeniei atunci cand evolutia este simulata cu ajutorul arborilor, acestea fiind (conform Mount [4]):
nodurile ce unesc ramurile arborelui (tipul precis de ascendenti comuni);
semnificatia lungimilor ramurilor (masurate sau nu n timp);
tipul de mpartire a ramurilor arborelui (de obicei, este mpartire binara).
Ca o informatie aditionala la a treia chestiune de mai sus, profesorul Pavel Pevzner,
membru UCSD, a mentionat ca ordinea convergentei la problema daca oamenii sunt mai
apropiati de caini sau de soareci, necesita un model de trifurcatie (o mpartire n trei moduri).
Este important sa observam ca genele si speciile sunt doua lucruri distincte. Aceeasi
gena (sau usoara deformatie a ei) se poate gasi n specii diferite, adica n organisme care nu
se pot ncrucisa. Gandindu-ne ntr-un alt mod, un arbore de specii este un caz particular de
arbore de gene ce cuprinde o secventa de gene comune. Mai mult, ntr-un arbore de specii
poate exista un flux de gene ntre diferite ramuri ale arborelui. Daca fiecare frunza este

3
un organism, atunci arborele este un arbore de specii. Un arbore de gene cuprinde atat
formarea descendenta de specii noi cat si dublarea lor, lungimea dintre radacina si frunze
reprezentand numarul de mutatii dintre cele doua ([5]). Ordinul complexitatii arborelui
(ramificatia lungimilor si numarul de mutatii) arata ce tipuri de algoritmi trebuie folositi.
In acest studiu, ne concentram pe compararea secven telor, pentru a construi arbori de gene
si arbori de specii.
Sa luam, de exemplu, populatia umana: nca de cand specia noastra a plecat de pe
continentul african, rata mutatiei din cadrul genomului uman pare a fi devenit un eveniment
filogenetic. Mutatiile sunt rare, cel mult 1000 de mutatii (sau polimorfisme cu o singura
nucleotida, sau SNP) ntr-un total de trei miliarde de genomi cu nucleotide. Acesta este
motivul pentru care sunt realizate harti de arbori genealogici, datorita flexibilitatii acestei
complexitati.
Genele sunt produse prin doua mecanisme principale:
1. duplicarea: noi versiuni de gene vechi (este procesul cel mai frecvent);
2. gene noi: segmente de gene (ce decodifica), sau o conexiune de secvente de codificare
(nucleotide functionale), acestea aparand mai rar.
Am studiat doua tipuri de arbori: un arbore de specii, acestea avand trasaturi comune,
provenind de la o singura specie, frunzele arborelui reprezentand specii diferite (cladograma)
si un arbore filogenetic sau evolutiv ce reprezinta numarul schimbarilor caracterelor prin
lungimile ramurilor sale, neavand radacina . Aceste trei tipuri de arbori asociaza diferite
sensuri lungimilor ramurilor, n ordinea n care apar: schimbare genetica si timpul parcurs.
Speciile cu o durata de exploatare mult mai mica si cu perioade de reproducere mai mari au
tendinta de a arata schimbari genetice mult mai mari (de exemplu, genele de la soareci si
cele umane).
In bioinformatica, apare o dilema: putem sa cream un algoritm ce rezolva bine problema
data, sau putem sa cream un model mai potrivit (de exemplu, cum pot fi folosite schimbarile
frecvent observate ntr-o secventa, pentru a indica o distanta catre o alta secventa).

2.

Evolutia molecular
a

In mare parte, evolutia moleculara este un proces de evolutie la nivelul ADN-ului, ARNului si al proteinelor. Evolutia moleculara a aparut n anii 1960, ca un domeniu stiintific,
atunci cand cercetatorii din biologia moleculara, biologia evolutiva si din genetica populatiei

4
au cautat sa nteleaga structura si functia acizilor nucleici si ale proteinelor. Unele din
subiectele cheie ce au grabit dezvoltarea acestui domeniu au fost evolutia functiei enzimelor,
folosirea divergentei acidului nucleic ca un ceas molecular pentru studiul divergentei speciilor, precum si originea ADN-ului decodificant.
Progresul recent n domeniul genomicii, incluzand secventierea ntregului genom, caracterizarea puterii de trecere a proteinei si bioinformatica, a condus la o crestere dramatica
a studiilor referitoare la aceasta problema. In anii 2000, unele subiecte de disputa au fost:
duplicarea genelor n scopul aparitiei noii functii de gene, extinderea evolutiei adaptive moleculare versus procesele neutre de mutatie si de deplasare, precum si identificarea schimbarilor
moleculare responsabile ale caracteristicilor umane diferite, n special cele aferente infectiilor,
bolilor si perceptiilor.
Un domeniu important n studiul evolutiei moleculare l reprezinta folosirea datelor
moleculare pentru determinarea clasificarii biologice corecte a organismelor. Acest domeniu
se numeste sistematica moleculara sau filogenetica moleculara.
In studiul evolutiei moleculare, s-au dezvoltat unelte si concepte folosite pentru genomica
comparativa si genetica moleculara, pe langa faptul ca fluxul de date noi din aceste domenii
au dus la mbunatatirea evolutiei moleculare.

3.

Modelarea evolutiei

Inainte de a construi un arbore, avem nevoie de o metoda pentru masurarea perioadelor


evolutive astfel ncat sa poata fi construita o matrice a distantelor. Aceasta matrice va
permite schimbarea unei multimi de secvente ntr-o multime de perechi de distante ntre
secvente. Vom folosi doua tipuri de mutatii cu o singura nucleotida: transformari (A
G, C T ) si substitutii (A T, G C) care au loc n acelasi timp. Consideram doua modele
Markov fixe reprezentate de o matrice de substitutie a nucleotidelor, ce presupune ca fiecare
nucleotida se dezvolta independent de cealalta.
Abordarea Jukes-Cantor [5] presupune o perioada constanta de evolutie, atribuind o
rata la auto-mutatia (A A, G G, C C, T T ) si alta rata la mutatia ncrucisata (Auna
din C, G, T ). Matricea Jukes-Cantor de substitutie AGCT este:

S=

r
s
s
s

s
r
s
s

s
s
r
s

s
s
s
r

5
Pentru perioade de timp scurte, perioada evolutiva este constanta: r = 13 si s = .
Pentru perioade mai lungi de timp, rata este reprezentata de o functie de timp: r = 0, 25(1 +
3e4t ) si s = 0, 25(1 e4t ). Modelul Kimura [4] continua luand n considerare faptul ca
transformarile sunt mai frecvente decat substitutiile. Matricea Kimura de substitutie AGCT
este:

r s u u

s r u u
S=
,
u u r s
u u s r
unde s = 0, 25(1 e4t ), u = 0, 25(1 + e4t e2(+)t ) si r = 1 2s u.

4.

De la distante la arbori

In functie de modelele generatoare Markov si de matricile de substitutie corespunzatoare


(dependente de timp), se va determina matricea distantelor. Elementele acestei matrici,
dij , reprezinta distanta dintre doua secvente aliniate corect. Putem sa definim matricea
distantelor, (dij ), ca o fractie de pozitii, f , unde nu se potrivesc doua secvente, xi si xj :
dij = 34 log(1 4f /3). Acest model se blocheaza atunci cand f = 0, 75, fapt ce duce la
limitarea cantitatii de nepotrivire dintre cele doua secvente.
Pentru a folosi, apoi, matricea distantelor n masurarea distantelor actuale dintre orice
pereche de secvente (adica, pentru construirea unui arbore), consideram doi arbori standard:
1. distantele ultrametrice indica drumuri echidistante de la orice nod frunza la radacina,
n timp ce
2. distantele aditive arata ca toate perechile de distante sunt obtinute prin parcurgerea
arborelui.
Arborii ultrametrici nu prea sunt valabili, deoarece distanta ultrametrica presupune
o rata uniforma de evolutie, n timp ce distantele aditive reprezinta un model mai putin
restrictiv. In practica, matricea distantelor nu este nici ultrametrica si nici aditiva.
Atat dualitatea arborilor cat si matricea distantelor presupun ca distantele sunt obtinute
prin parcurgerea arborilor. Daca folosim distante ultrametrice, atunci vom gasi si arborele
corect, minimizand discrepanta dintre distantele observate si cele bazate pe arbore. Pe de
alta parte, daca folosim distante aditive, vom gasi arborele corect prin valori apropiate.

6
5.

Algoritmi de construire a arborilor


5.1.

UPGMA

UPGMA (Unweighted Pair Group Method using arithmetic Averages = metoda neponderata de grupare a perechilor folosind medii aritmetice) este cel mai simplu exemplu de
algoritm de construire a unui arbore. UPGMA contine un algoritm de clustering ierarhic
ce ncepe de la frunzele arborelui facandu-si drum pana la radacina. Ca valoare de intrare,
ia o matrice a distantelor si creaza un arbore ultrametric (adica, n concordanta cu ipoteza
moleculara a perioadelor evolutive egale dintre specii). Numai daca matricea distantelor
de la intrare este ultrametrica, atunci algoritmul UPGMA va crea arborele corect. Daca
matricea distantelor este aditiva, atunci nu avem nicio garantie ca perechile de distante ale
ramurilor arborilor sunt cele specificate n matricea distantelor.
In alta ordine de idei, se construieste un arbore, pornind de la grupuri (clustere) cu un
singur element, prin unirea a cate doua grupuri de similaritate maxima (distanta minima).
Distanta dintre doua clustere se defineste astfel:
dij =

1
d .
|Ci ||Cj | pC ,qC pq
i
j

Date doua clustere Ck si Cl , cu Ck = Ci Cj :


dkl =

dil |Ci |+djl |Cj |


.
|Ci |+|Cj |

Algoritmul este urmatorul:


P1. Se initializeaza fiecare secventa cu cate un cluster. Acestea vor forma frunzele arborelui.
P2. Se gaseste perechea de secvente cu distanta minima din matricea distantelor, D. Aceasta
pereche formeaza primul cluster si desenam prima parte de arbore unind perechea. De
exemplu, din matricea D, gasim ca secvA si secvB au distanta minima de 10. Desenam
arborele unind secvA cu secvB, cu lungimea de 5. Astfel, distanta totala dintre ele
este 10.
P3. Se actualizeaza matricea D: se adauga la D o noua linie si coloana reprezentand secvAB .
Distanta dintre secvAB si secvC este 21 (dAC + dBC ). Se nlatura liniile si coloanele
asociate cu secvA si secvB. In total, matricea se micsoreaza cu o linie si o coloana.
De aici nainte, uitam complet de secvA si secvB si presupunem ca avem doar secvAB .

7
P4. Se repeta pasii P2 si P3 pana cand matricea D devine goala.
Alti pasi ai algoritmului sunt urmatorii:
Initializare:
multimea clusterelor C = {}
for i = 1..n
Ci = {secventa
i }
C = C {Ci }
defineste o frunza i pentru secventa
i , plasata la naltime hi = 0
Iteratie:
gaseste clusterele Ci , Cj pentru care dij e minima
(n cazul cand exista mai multe astfel de perechi, se alege una aleator)
construieste Ck = Ci Cj
for all Cl n C
calculeaza dkl
defineste un nod k, parinte pentru i si j,
cu hk = dij /2
C = (C {Ci , Cj }) {Ck }
Terminare:
cand raman doar doua clustere Ci si Cj ,
construieste un nod radacina la naltimea hr = dij /2

5.2.

Neighbor-Joining (unirea valorilor vecine)

Pentru generarea arborilor filogenetici ce reprezinta numarul schimbarilor caracterelor


prin lungimile ramurilor, acestea fiind proportionale cu perioadele evolutive, se foloseste un
algoritm Neighbor-Joining mai complicat. Daca matricea distantelor de intrare este aditiva,
acest algoritm garanteaza crearea arborelui corect, si poate produce tot un arbore corect,

8
chiar si atunci cand matricea distantelor nu este aditiva.
Spre deosebire de algoritmul UPGMA, construieste arbori fara radacina, si elimina presupunerea ca divergenta secventelor fiice a avut loc la acelasi moment de timp (exprimata
prin drumuri de lungime egala de la radacina la orice frunza). La fiecare pas, se aleg cele
mai apropiat doua secvente, de data aceasta apropierea fiind exprimata nu doar n functie
de distanta propriu-zisa ntre secvente (care trebuie sa fie cat mai mica), ci si de media
distantelor fiecarui nod fata de celelalte noduri (care trebuie sa fie cat mai mare):
Dij = dij (ri + rj )
unde
ri =

1
d
|L|2 kL ik

este utilizat si la reglarea distantei dintre nodurile fiu i, j si parintele k.


Algoritmul este urmatorul:
P1. Se creaza o noua matrice M din matricea distantelor, D, cu aceleasi dimensiuni:
Mij = Dij

Dik +Djk
N 2

unde N este numarul secventelor. Aceasta este metrica ajustata a distantelor, ce arata
ca Mij este minim daca si numai daca i si j sunt vecini.
P2. (similar cu P2 din UPGMA): Se gaseste perechea de secvente cu distanta minima din
noua matrice M . Aceasta pereche formeaza primul cluster, si putem desena prima
parte din arbore unind valorile din pereche. De exemplu, din matricea M , gasim
secvA si secvB care au distanta minima. Unim secvA cu secvB
prin noul nod

U.
Lungimea ramurii de la A la U se calculeaza astfel: DAU =

1
2

DAB +

DAk +DBk
N 2

. De

asemenea, DBU = DAB DAU .


P3. (similar cu P3 din UPGMA): Se actualizeaza matricea D. Se adauga la matricea D
o noua linie si coloana reprezentand nodul U . Distanta dintre U si alta secvC va fi
1
(dAC + dBC dAB ). Se sterg liniile si coloanele asociate cu secvA si secvB. In total,
2
matricea se micsoreaza cu o linie si o coloana. De aici nainte, uitam complet de secvA
si secvB, si presupunem ca avem nodul U .

9
P4. Se repeta pasii P1, P2 si P3 pana cand matricea D se goleste.
Altfel scris, algoritmul devine:
Initializare:
multimea nodurilor frunza T = multimea secventelor
L=T
Iteratie:
alege i, j astfel ncat Dij sa fie minim
defineste un nou nod k
for all m in L
dkm = 1/2 (dim + djm dij )
dik = 1/2 (dij + ri rj )
djk = dij dik
T = T {k}, k parinte pentru i si j
L = (L {i, j}) {k}
Terminare:
cand raman doar doua noduri i si j n L,
adauga la T muchia dintre i si j de lungime dij

5.3.

Discutie

Metodele fara parametri ale distantelor au fost, initial, aplicate n datele omolog grupate, folosind o matrice de perechi de distante. Aceste distante sunt, apoi, unite pentru a
forma arborele (cu lungimi de ramuri informative). Matricea distantelor rezulta dintr-un
numar de surse diferite, cum ar fi: distanta masurata (de exemplu, din studiile imunologice),
sau analiza morfometrica, diferite formule ale perechilor de distante (de exemplu, distanta
euclidiana) aplicate caracterelor morfologice discrete, sau distanta genetica din secventa, din
fragmentele de restrangere si din datele allozime (enzime care reprezinta produsul genelor
allele din cadrul aceleiasi gene). Pentru datele filogenetice de tip caracter, valorile brute
ale distantelor se calculeaza prin simpla masurare a diferentelor de perechi din starile de

10
caracter (distanta Manhattan).
Exista multi algoritmi simpli care construiesc un arbore, direct din distantele perechilor,
cativa din acestia fiind descrisi mau sus, nsa ei nu formeaza neaparat cel mai bun arbore.
UPGMA presupune un arbore ultrametric (un arbore n care toate lungimile drumurilor de
la radacina la frunze sunt egale). Neighbor-Joining este o forma de descompunere de stea
si poate fi rapid n a forma arbori convenabili. Acest algoritm se foloseste de unul singur si
chiar, deseori, produce arbori rezonabili.
Estimarea filogeniei folosind metodele bazate pe distante a dus la foarte multe controverse [5]. Legatura dintre caracterele individuale si arbore se pierde n cadrul procesului
de reducere a caracterelor la distante. Din moment ce aceste metode nu folosesc n mod
direct datele de tip caracter, informatia blocata n distribuirea starilor de caracter se poate
pierde atunci cand perechile se compara ntre ele. De asemenea, unele legaturi filogenetice complexe pot duce la distante eronate. In ciuda acestor potentiale probleme, metodele
cu distante sunt extrem de rapide si, deseori, evalueaza rezonabil filogenia. Ele au cateva
avantaje fata de metodele ce folosesc n mod direct caracterele. Ceea ce este remarcabil este
faptul ca metodele cu distante permit utilizarea datelor ce nu se pot converti usor n date
de tip caracter, cum sunt testele de hibridizare ADN-ADN.

6.

Concluzii

In acest articol, s-au prezentat evolutia moleculara a speciilor si genurilor, analizandu-se


date de secvente ADN si determinandu-se relatiile dintre si ntre specii cu ajutorul arborilor
filogenetici. Am evidentiat procesul de selectie naturala n populatii. Am studiat doua
modele probabilistice de divergenta: Jukes-Cantor si Kimura si am discutat despre doi algoritmi, UPGMA si Neighbor-Joining, cu care am construit specii sau arbori de gene, folosind
date relationale. Am descris procesul de asemanare si de nrudire a speciilor. Am pus n
discutie modelarea evolutiei prin procesele de mutatie si prin folosirea a trei tipuri de arbori:
cladograma, filograma si arborele ultrametric. Am intrat n studiul parsimoniei, descriind
procesele de nregistrare, de urmarire si de implementare prin etape succesive. Un rol major
l-au avut probabilitatea maximala, inferenta filogenetica, dar si parsimonia maximala. S-au
nteles principiile evolutiei moleculare, punand n tema evolutia cat si tipurile de genomi,
ca apoi, sa ne oprim la procesul de selectie a speciilor pentru a ne fi usoara implementarea
acestuia n informatica.

11

REFERINT
E
[1] Ernst Haekel, The History of Creation, Editia a 6-a, New York, D. Appleton and Co.,
1914, http : //www.geology.19thcenturyscience.org/books/1876HaeckelHistCrea/V ol
I/htm/doc.html
[2] Gregory J. Morgan, Emile Zuckerkandl, Linus Pauling, and the Molecular Evolutionary Clock, 1959-1965, Journal of the History of Biology, Vol. 31 (1998), pp. 155-178.
[3] http://en.wikipedia.org/wiki/Molecular evolution
[4] David W. Mount, Bioinformatics. Sequence and Genome Analysis, Second Edition,
2004, Cold Spring Harbor Laboratorry Press, Cold Spring Harbor, New York
[5] Ron D. Appel, Ernest Feytmans, Bioinformatics. A Swiss Perspective, 2009, World
Scientific Publishing Co. Pte. Ltd. and the Swiss Institute of Bioinformatics