Anda di halaman 1dari 35

Methods in

phylogenetics
Methods in phylogenetics

1. Distance Matrix Method


2. Character-Based Method
1. Distance Matrix Method

2. Character-Based Method
Types of phylogenetic analysis methods

• Phenetic: trees are constructed based on


Distance
observed characteristics, not on methods
evolutionary history

• Cladistic: trees are constructed based on Parsimony


and
fitting observed characteristics to some Maximum
Likelihood
model of evolutionary history methods
1. Distance Matrix Method

Distance matrices are used in phylogeny as


nonparametric distance methods and were originally
applied to phenetic data using a matrix of
pairwise distances. These distances are then
reconciled to produce a tree (a phylogram, with
informative branch lengths).
1. Distance Matrix Method

kelompok metode ini memberikan ukuran dekat/jauhnya


kekerabatan antar organisme pada pohon berdasarkan
perhitungan “pairwise distance" atau "p-distance"
antar pasang organisme

Semakin besar nilai p-distance maka semakin jauh


kekerabatan antar organisme dan begitu juga
sebaliknya.
1. Distance Matrix Method

Metode distance matrix yang dikenal umumnya meliputi

• Unweighted-Pair Group Method with


Arithmetic Means (UPGMA)
• Neighbor-Joining (NJ).
- UPGMA Method

UPGMA merupakan metode tertua dan pertama kali digunakan


dalam rekonstruksi pohon filogeni.

Konsep UPGMA :
indeks p-distance terkecil antar pasangan organisme akan
digunakan untuk menggabungkan kedua organisme tersebut
dalam 1 kelompok filogenetik (yang disebut "clade").
- UPGMA Method

Metode UPGMA dikenal bagus di awalnya karena


menghasilkan pohon ultrametrik, yakni pohon yang semua
organismenya memiliki jarak/branch length yang sejajar
satu sama lain dari akar/root.
- Neighbor Joining Method

Metode ini mengembangkan metode aditifitas (additivity), yakni

kekerabatan antar 2 organisme pada suatu pohon diukur dari total

nilai branch length

Metode NJ mencoba menggunakan pendekatan serupa UPGMA namun

dengan sedikit modifikasi yang menghilangkan ultrametrisitas dan

mengutamakan aditifitas.
- Neighbor Joining Method

• Metode NJ memiliki konsep mencari tree length


terkecil.

• Metode NJ berasumsi bahwa tree length terkecil dari


suatu pohon dapat dicapai dengan pendekatan branch
length terkecil.

• metode ini dapat digunakan untuk rekonstruksi pohon


filogeni dengan jumlah organisme yang banyak dan juga
dataset yang besar dalam waktu relatif cepat.
UPGMA

E
C

A B C E D
• So UPGMA is very simple and generates rooted trees, however…
• Major weakness is that the algorithm assumes that rates of evolution
are the same among different lineages
• This does not fit existing biological data, so probably shouldn’t use
UPGMA to build phylogenetic trees
• One variant of UPGMA tries to pair species in such a
way as to minimize the sum of the branch lengths
• On a rooted tree, pairs of species separated from each
other by only one node are called neighbors
• We have important relationships between neighbors of a
phylogenetic tree with four nodes
Neighbor-joining: Semakin kecil jarak antar pasangan sekuen maka
semakin mirip pula pasangan tersebut dan
semakin dekat hubungan kekerabatannya

• Species A ATGGCTATTCTTATAGTACG
• Species B ATCGCTAGTCTTATATTACA
• Species C TTCACTAGACCTGTGGTCCA
Distance(A,B) = 4/20
• Species D TTGACCAGACCTGTGGTCCG
• Species E TTGACCAGTTCTCTAGTTCG

B C D E A

A 0.20 0.50 0.45 0.40 B

B ----- 0.40 0.55 0.50 C

C 0.40 ----- 0.15 0.40 D


D 0.50 0.15 ----- 0.25 E
Neighbor joining
A B C D E
C A 0 2 3 4 4
A B 0 3 4 5
C 0 3 4
D D 0 5
E 0

E A,B C D E
B C A,B 0 2.5 4.5 3.5
A C 0 3 4
D 0 5
D
A,B E 0

B
E
C
A
The Minimum Evolution (ME) criterion:
in each iteration we separate the two D
sequences which result with the minimal
B E
sum of branch lengths
Neighbor’s Relation Method
The following hold for this tree

dAC + dBD = dAD + dBC = a + b + c + d + 2e = dAB + dCD + 2e


dAB + dCD < dAC + dBD
dAB + dCD < dAD + dBC

A C
a c

b d
B D
Neighbor-Joining Methods
• Other neighborliness approaches are available as well
• Neighbor-joining methods start with all species
arranged in a star tree

b
a c
a c
d

d e b e
2. Character-Based Method

Metode Character-Based yang dikenal umumnya meliputi

• Maximum-Parsimony (MP)
• Maximum-Likelihood (ML)
• Bayesian Inference
2. Character-Based Method

Character-Based Method menggunakan urutan


nukleotida/asam amino secara langsung dalam
rekonstruksi pohon

Character-Based Method memprediksi pohon yang


memiliki nilai mutasi terkecil
- Maximum Parsimony Method

Metode MP melakukan penentuan pohon dengan

tree length terkecil. Perhitungan branch length

dan tree length pada metode MP didapatkan dari

jumlah substitusi minimum antar character state

setiap situs pada sequence alignment.


- Maximum Parsimony Method

Prinsip parsimony digunakan untuk menentukan jumlah


minimum perubahan genetik yang dibutuhkan untuk
menyebabkan perbedaan-perbedaan sekuen nukleotida
di antara organisme-organisme yang mempunyai nenek
moyang (ancestor) yang sama. Jarak evolusi yang
memisahkan organisme di dalam pohon filogenetik
biasanya dinyatakan dalam unit-unit mutasi nukleotida
Maximum parsimony

• Advantages
• based on shared derived characters
• evaluates different tree topologies
• does not reduce the information
• Disadvantages
• computationally intensive for large datasets
• no correction for multiple mutations
• sensitive to unequal rates of evolution (long branch
attraction)

IE68 - biological databases - phylogeny


Maximum Parsimony

Number of
Mutasi
1
GGG GGA
0
Number Of Tree GGG
4
Ex: 2 1
ACA
ACG 0
Species A :GGA ACG

Species B :GGG GCA GGA 5


1. (A,B)(C,D)
Species C :ACA ACA
2. (A,C)(B,D)
GGG
Species D :ACG 3. (A,D)(C,B) GCG ACG

GCG GGA
ACG 6
GGG
GCG ACA
Maximum parsimony
• Sites are informative if
• they are variable
• The help us differentiate between trees
• At least 2 characters occur at least 2 times
• Site2 is uninformative because all three
possible trees require 1 evolutionary
change, G ->A.
• Site 3 is uninformative because all trees
require 2 changes.
• Site4 is uninformative because all trees
require 3 changes.

Site5 is informative because tree I requires
Same as one change, trees II and III require two
Site 7
• changes
• Site7 is informative,likesite 5
Site 9 is informative because tree II requires
one change, trees I and III require two.

site9+2*site5 4 5 6
- Maximum Likelihood Method

Menghitung Nilai Probabilitas Dari Setiap Mutasi Yang

Terdapat Pada Sekuen Untuk Menemukan Pohon Yang

Mempunyai Nilai Likelihood Tertinggi

Metode Ini Menggunakan Kalkulasi Untuk Menemukan Pohon

Yang Mempunyai Hitungan Variasi Terbaik Dalam Set

Sekuen.
- Maximum Likelihood Method

Algoritma maximum likelihood ini akan menghitung semua

kemungkinan pohon filogenetik yang dapat dibangun. Metode

yang digunakan untuk mengkonstruksi pohon filogenetik

menggunakan algoritma maximum likelihood ini yaitu dengan

menghitung nilai probabilitas dari setiap mutasi yang

terdapat pada sekuen untuk menemukan pohon yang

mempunyai nilai likelihood tertinggi.


Maximum likelihood
• Advantages
• Statistically well founded
• Based on a model of evolution
• Evaluates different topologies
• Uses all sequence information
• Often yields estimates that have lower variance than
other methods
• Disadvantages
• Very slow (computationally intensive)
• Dependent on the model of evolution used

IE68 - biological databases - phylogeny


Maximum Likelihood
Comparison of Methods
Distance Maximum parsimony Maximum likelihood

Uses only pair wise Uses only shared


Uses all data
distances derived characters

Minimizes distance Maximizes tree likelihood


Minimizes total
between nearest given specific parameter
distance
neighbors values

Very fast Slow Very slow

Easily trapped in local Assumptions fail when Highly dependent on


optima evolution is rapid assumed evolution model

Good for generating


Best option when Good for very small data
tentative tree, or
tractable (<30 taxa, sets and for testing trees
choosing among multiple
homoplasy rare) built using other methods
trees
- Bayesian Inference Method

Bayesian adalah salah satu metode dalam statistika yang


menggambarkan ketidakpastian epistemologis menggunakan
probabilitas bahasa matematika

Metode bayes dimulai dengan menggunakan probabilitas awal


atau disebut dengan prior dan merubah probabilitas yang akan
digunakan dengan menambahkan data probabilitas baru yang
disebut dengan posterior
- Bayesian Inference Method

Metode bayesian menjelaskan hubungan antara probabilitas


terjadinya kejadian A dengan syarat adanya kejadian B dan
probabilitas terjadinya kejadian B dengan syarat adanya
kejadian A. Teorema ini mendasarkan prinsip bahwa adanya
tambahan informasi tentang suatu kejadian dapat
menambahkan tingkat probabilitas.

Bayesian Inference merupakan sebuah algoritme


rekonstruksi pohon filogenetik yang didasarkan pada uji
probabilitas terhadap suatu data.
- Bayesian Inference Method

Salah satu metode perhitungan distribusi prior pada metode


Bayesian adalah metode MCMC (Markov Chain Monte Carlo)

MCMC dalam sebuah kerangka Bayesian berperan untuk


mengestimasi kemungkinan posterior pohon filogenetik
berdasarkan kombinasi data set. Metode ini akan menghitung nilai
likelihood pada suatu pohon filogenetik.
Metode mana yang paling baik digunakan?

Kriteria yang perlu dipertimbangan dalam memilih sebuah


metode konstruksi pohon berdasarkan Nei & Kumar
(2000):

- Statistical test of phylogenetic trees, Perbandingan

antar metode harus dapat dilakukan menggunakan uji

statistik seperti interior branch test dan bootstrapping.


Metode mana yang paling baik digunakan?

- Probability of obtaining the true tree, indeks yang

dapat dipakai untuk membandingkan peluang dari setiap

metode untuk mendapatkan pohon sebenarnya

menggunakan data yang ada.

- Reliability of branch length estimates,

perbandingan nilai branch length yang diestimasi antar

metode.

Anda mungkin juga menyukai