Kuliah Ke 7

Methods in
phylogenetics
Methods in phylogenetics
1. Distance Matrix Method

2. Character-Based Method
Types of phylogenetic analysis methods
• Phenetic: trees are constructed based on

Distance
observed characteristics, not on methods
evolutionary history
• Cladistic: trees are constructed based on Parsimony

and
fitting observed characteristics to some Maximum
Likelihood
model of evolutionary history methods
Distance matrices are used in phylogeny as

nonparametric distance methods and were originally
applied to phenetic data using a matrix of
pairwise distances. These distances are then
reconciled to produce a tree (a phylogram, with
informative branch lengths).
kelompok metode ini memberikan ukuran dekat/jauhnya

kekerabatan antar organisme pada pohon berdasarkan
perhitungan “pairwise distance" atau "p-distance"
antar pasang organisme
Semakin besar nilai p-distance maka semakin jauh

kekerabatan antar organisme dan begitu juga
sebaliknya.
Metode distance matrix yang dikenal umumnya meliputi
• Unweighted-Pair Group Method with

Arithmetic Means (UPGMA)
• Neighbor-Joining (NJ).
- UPGMA Method
UPGMA merupakan metode tertua dan pertama kali digunakan

dalam rekonstruksi pohon filogeni.
Konsep UPGMA :
indeks p-distance terkecil antar pasangan organisme akan
digunakan untuk menggabungkan kedua organisme tersebut
dalam 1 kelompok filogenetik (yang disebut "clade").
- UPGMA Method
Metode UPGMA dikenal bagus di awalnya karena

menghasilkan pohon ultrametrik, yakni pohon yang semua
organismenya memiliki jarak/branch length yang sejajar
satu sama lain dari akar/root.
- Neighbor Joining Method
Metode ini mengembangkan metode aditifitas (additivity), yakni
kekerabatan antar 2 organisme pada suatu pohon diukur dari total
nilai branch length
Metode NJ mencoba menggunakan pendekatan serupa UPGMA namun
dengan sedikit modifikasi yang menghilangkan ultrametrisitas dan
mengutamakan aditifitas.
- Neighbor Joining Method
• Metode NJ memiliki konsep mencari tree length

terkecil.
• Metode NJ berasumsi bahwa tree length terkecil dari

suatu pohon dapat dicapai dengan pendekatan branch
length terkecil.
• metode ini dapat digunakan untuk rekonstruksi pohon

filogeni dengan jumlah organisme yang banyak dan juga
dataset yang besar dalam waktu relatif cepat.
UPGMA
E
C
A B C E D
• So UPGMA is very simple and generates rooted trees, however…
• Major weakness is that the algorithm assumes that rates of evolution
are the same among different lineages
• This does not fit existing biological data, so probably shouldn’t use
UPGMA to build phylogenetic trees
• One variant of UPGMA tries to pair species in such a
way as to minimize the sum of the branch lengths
• On a rooted tree, pairs of species separated from each
other by only one node are called neighbors
• We have important relationships between neighbors of a
phylogenetic tree with four nodes
Neighbor-joining: Semakin kecil jarak antar pasangan sekuen maka
semakin mirip pula pasangan tersebut dan
semakin dekat hubungan kekerabatannya
• Species A ATGGCTATTCTTATAGTACG
• Species B ATCGCTAGTCTTATATTACA
• Species C TTCACTAGACCTGTGGTCCA
Distance(A,B) = 4/20
• Species D TTGACCAGACCTGTGGTCCG
• Species E TTGACCAGTTCTCTAGTTCG
B C D E A
A 0.20 0.50 0.45 0.40 B
B ----- 0.40 0.55 0.50 C
C 0.40 ----- 0.15 0.40 D

D 0.50 0.15 ----- 0.25 E
Neighbor joining
A B C D E
C A 0 2 3 4 4
A B 0 3 4 5
C 0 3 4
D D 0 5
E 0
E A,B C D E
B C A,B 0 2.5 4.5 3.5
A C 0 3 4
D 0 5
D
A,B E 0
B
E
C
A
The Minimum Evolution (ME) criterion:
in each iteration we separate the two D
sequences which result with the minimal
B E
sum of branch lengths
Neighbor’s Relation Method
The following hold for this tree
dAC + dBD = dAD + dBC = a + b + c + d + 2e = dAB + dCD + 2e

dAB + dCD < dAC + dBD
dAB + dCD < dAD + dBC
A C
a c
b d
B D
Neighbor-Joining Methods
• Other neighborliness approaches are available as well
• Neighbor-joining methods start with all species
arranged in a star tree
b
a c
a c
d
d e b e
Metode Character-Based yang dikenal umumnya meliputi
• Maximum-Parsimony (MP)
• Maximum-Likelihood (ML)
• Bayesian Inference
Character-Based Method menggunakan urutan

nukleotida/asam amino secara langsung dalam
rekonstruksi pohon
Character-Based Method memprediksi pohon yang

memiliki nilai mutasi terkecil
- Maximum Parsimony Method
Metode MP melakukan penentuan pohon dengan
tree length terkecil. Perhitungan branch length
dan tree length pada metode MP didapatkan dari
jumlah substitusi minimum antar character state
setiap situs pada sequence alignment.

- Maximum Parsimony Method
Prinsip parsimony digunakan untuk menentukan jumlah

minimum perubahan genetik yang dibutuhkan untuk
menyebabkan perbedaan-perbedaan sekuen nukleotida
di antara organisme-organisme yang mempunyai nenek
moyang (ancestor) yang sama. Jarak evolusi yang
memisahkan organisme di dalam pohon filogenetik
biasanya dinyatakan dalam unit-unit mutasi nukleotida
Maximum parsimony
• Advantages
• based on shared derived characters
• evaluates different tree topologies
• does not reduce the information
• Disadvantages
• computationally intensive for large datasets
• no correction for multiple mutations
• sensitive to unequal rates of evolution (long branch
attraction)
IE68 - biological databases - phylogeny

Maximum Parsimony
Number of
Mutasi
1
GGG GGA
0
Number Of Tree GGG
4
Ex: 2 1
ACA
ACG 0
Species A :GGA ACG
Species B :GGG GCA GGA 5

1. (A,B)(C,D)
Species C :ACA ACA
2. (A,C)(B,D)
GGG
Species D :ACG 3. (A,D)(C,B) GCG ACG
GCG GGA
ACG 6
GGG
GCG ACA
Maximum parsimony
• Sites are informative if
• they are variable
• The help us differentiate between trees
• At least 2 characters occur at least 2 times
• Site2 is uninformative because all three
possible trees require 1 evolutionary
change, G ->A.
• Site 3 is uninformative because all trees
require 2 changes.
• Site4 is uninformative because all trees
require 3 changes.
•
Site5 is informative because tree I requires
Same as one change, trees II and III require two
Site 7
• changes
• Site7 is informative,likesite 5
Site 9 is informative because tree II requires
one change, trees I and III require two.
site9+2*site5 4 5 6
- Maximum Likelihood Method
Menghitung Nilai Probabilitas Dari Setiap Mutasi Yang
Terdapat Pada Sekuen Untuk Menemukan Pohon Yang
Mempunyai Nilai Likelihood Tertinggi
Metode Ini Menggunakan Kalkulasi Untuk Menemukan Pohon
Yang Mempunyai Hitungan Variasi Terbaik Dalam Set
Sekuen.
- Maximum Likelihood Method
Algoritma maximum likelihood ini akan menghitung semua
kemungkinan pohon filogenetik yang dapat dibangun. Metode
yang digunakan untuk mengkonstruksi pohon filogenetik
menggunakan algoritma maximum likelihood ini yaitu dengan
menghitung nilai probabilitas dari setiap mutasi yang
terdapat pada sekuen untuk menemukan pohon yang
mempunyai nilai likelihood tertinggi.

Maximum likelihood
• Advantages
• Statistically well founded
• Based on a model of evolution
• Evaluates different topologies
• Uses all sequence information
• Often yields estimates that have lower variance than
other methods
• Disadvantages
• Very slow (computationally intensive)
• Dependent on the model of evolution used
IE68 - biological databases - phylogeny

Maximum Likelihood
Comparison of Methods
Distance Maximum parsimony Maximum likelihood
Uses only pair wise Uses only shared

Uses all data
distances derived characters
Minimizes distance Maximizes tree likelihood

Minimizes total
between nearest given specific parameter
distance
neighbors values
Very fast Slow Very slow
Easily trapped in local Assumptions fail when Highly dependent on

optima evolution is rapid assumed evolution model
Good for generating

Best option when Good for very small data
tentative tree, or
tractable (<30 taxa, sets and for testing trees
choosing among multiple
homoplasy rare) built using other methods
trees
- Bayesian Inference Method
Bayesian adalah salah satu metode dalam statistika yang

menggambarkan ketidakpastian epistemologis menggunakan
probabilitas bahasa matematika
Metode bayes dimulai dengan menggunakan probabilitas awal

atau disebut dengan prior dan merubah probabilitas yang akan
digunakan dengan menambahkan data probabilitas baru yang
disebut dengan posterior
Metode bayesian menjelaskan hubungan antara probabilitas

terjadinya kejadian A dengan syarat adanya kejadian B dan
probabilitas terjadinya kejadian B dengan syarat adanya
kejadian A. Teorema ini mendasarkan prinsip bahwa adanya
tambahan informasi tentang suatu kejadian dapat
menambahkan tingkat probabilitas.
Bayesian Inference merupakan sebuah algoritme

rekonstruksi pohon filogenetik yang didasarkan pada uji
probabilitas terhadap suatu data.
Salah satu metode perhitungan distribusi prior pada metode

Bayesian adalah metode MCMC (Markov Chain Monte Carlo)
MCMC dalam sebuah kerangka Bayesian berperan untuk

mengestimasi kemungkinan posterior pohon filogenetik
berdasarkan kombinasi data set. Metode ini akan menghitung nilai
likelihood pada suatu pohon filogenetik.
Metode mana yang paling baik digunakan?
Kriteria yang perlu dipertimbangan dalam memilih sebuah

metode konstruksi pohon berdasarkan Nei & Kumar
(2000):
- Statistical test of phylogenetic trees, Perbandingan
antar metode harus dapat dilakukan menggunakan uji
statistik seperti interior branch test dan bootstrapping.

Metode mana yang paling baik digunakan?
- Probability of obtaining the true tree, indeks yang
dapat dipakai untuk membandingkan peluang dari setiap
metode untuk mendapatkan pohon sebenarnya
menggunakan data yang ada.
- Reliability of branch length estimates,
perbandingan nilai branch length yang diestimasi antar
metode.

Kuliah Ke 7

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kuliah Ke 7

Diunggah oleh

Hak Cipta:

Format Tersedia

Methods in

1. Distance Matrix Method

• Phenetic: trees are constructed based on

• Cladistic: trees are constructed based on Parsimony

Distance matrices are used in phylogeny as

kelompok metode ini memberikan ukuran dekat/jauhnya

Semakin besar nilai p-distance maka semakin jauh

Metode distance matrix yang dikenal umumnya meliputi

• Unweighted-Pair Group Method with

UPGMA merupakan metode tertua dan pertama kali digunakan

Metode UPGMA dikenal bagus di awalnya karena

Metode ini mengembangkan metode aditifitas (additivity), yakni

kekerabatan antar 2 organisme pada suatu pohon diukur dari total

nilai branch length

Metode NJ mencoba menggunakan pendekatan serupa UPGMA namun

dengan sedikit modifikasi yang menghilangkan ultrametrisitas dan

• Metode NJ memiliki konsep mencari tree length

• Metode NJ berasumsi bahwa tree length terkecil dari

• metode ini dapat digunakan untuk rekonstruksi pohon

A 0.20 0.50 0.45 0.40 B

B ----- 0.40 0.55 0.50 C

C 0.40 ----- 0.15 0.40 D

dAC + dBD = dAD + dBC = a + b + c + d + 2e = dAB + dCD + 2e

Metode Character-Based yang dikenal umumnya meliputi

Character-Based Method menggunakan urutan

Character-Based Method memprediksi pohon yang

Metode MP melakukan penentuan pohon dengan

tree length terkecil. Perhitungan branch length

dan tree length pada metode MP didapatkan dari

jumlah substitusi minimum antar character state

setiap situs pada sequence alignment.

Prinsip parsimony digunakan untuk menentukan jumlah

IE68 - biological databases - phylogeny

Species B :GGG GCA GGA 5

Menghitung Nilai Probabilitas Dari Setiap Mutasi Yang

Terdapat Pada Sekuen Untuk Menemukan Pohon Yang

Mempunyai Nilai Likelihood Tertinggi

Metode Ini Menggunakan Kalkulasi Untuk Menemukan Pohon

Yang Mempunyai Hitungan Variasi Terbaik Dalam Set

Algoritma maximum likelihood ini akan menghitung semua

kemungkinan pohon filogenetik yang dapat dibangun. Metode

yang digunakan untuk mengkonstruksi pohon filogenetik

menggunakan algoritma maximum likelihood ini yaitu dengan

menghitung nilai probabilitas dari setiap mutasi yang

terdapat pada sekuen untuk menemukan pohon yang

mempunyai nilai likelihood tertinggi.

IE68 - biological databases - phylogeny

Uses only pair wise Uses only shared

Minimizes distance Maximizes tree likelihood

Very fast Slow Very slow

Easily trapped in local Assumptions fail when Highly dependent on

Good for generating

Bayesian adalah salah satu metode dalam statistika yang

Metode bayes dimulai dengan menggunakan probabilitas awal

Metode bayesian menjelaskan hubungan antara probabilitas

Bayesian Inference merupakan sebuah algoritme

Salah satu metode perhitungan distribusi prior pada metode

MCMC dalam sebuah kerangka Bayesian berperan untuk

Kriteria yang perlu dipertimbangan dalam memilih sebuah

- Statistical test of phylogenetic trees, Perbandingan

antar metode harus dapat dilakukan menggunakan uji

statistik seperti interior branch test dan bootstrapping.

- Probability of obtaining the true tree, indeks yang