Anda di halaman 1dari 5

Ruang Metrik dari Protein-Pembelajaran Komparatif Algoritma Clustering

Abstrak
Motivasi: suatu fraksi besar tentang biologi menyelediki konsentrasi pada protein
individu dan pada keluarga kecil dari protein. Satu dari arus penolakan umum di
bioinformasi adalah untuk memperluas pengetahuan kita ke himpunan yang
sangat besar tentang protein. Beberapa proyek umum telah dilakukan di
permasalahan ini. Perlakukan yang demikian biasanya dimulai dengan suatu
proses yang mengelompokkan semua protein atau bagian himpunan besar dari
ruang ini. Suatu pekerjaan di area ini diangkat secara otomatis, sementara
percobaan lain menggabungkan nasihat para ahli dan catatan.
Hasil: Kita mengusulkan suatu novel teknik yang secara otomatis
mengelompokkan barisan-barisan protein. Kita misalkan semua protein di
SWISSSPROT, dan mengangkat suatu uji kesamaan semua-terhadap-semua
BLAST diantara mereka. Dengan kesamaan ini tindakan yang sedang ditangani
kita proses untuk menyelenggarakan suatu prose pengelompokan bawah-atas terus
menerus dengan mengaplikasikan aturan alternatif untuk pengelompokan
penggabungan. Hasil dari proses pengelompokan ini merupakan suatu klasifikasi
dari input protein ke dalam suatu hirarki tentang pengelompokan bermacam-
macam berderajat dari granularitas. Disini kita membandingkan pengelompokan
yang hasilnya dari aturan penggabungan alternatif, dan mengsahkan hasil tersebut
terhadap InterPro.
Hasil pendahuluan kita menunjukkan bahwa pengelompokan yang
konsisten dengan beberapa penggabungan dari pada aturan penggabungan tunggal
cenderung mengikuti notasi InterPro. Ini merupakan suatu penegasan dari
pandangan bahwa ruang protein terdiri dari keluarga yang berbeda sekali
dipembicaraan evolusioner mereka.
Availabilitas: keluaran dari investigasi ini dapat dilihat di Laman interaktif pada
http://www.protonet.cs.huji.ac.il.
Informasi tambahan: Contoh yang berhubungan dengan biologi untuk
membandingkan hasil dari algoritma berbeda yang digunakan untuk
mengklasifikasi ditampilkan di http://www.protonet.cs.huji.ac.il/examples.html.
Kontak: ori@cs.huji.ac.il
Kata kunci: keluarga protein, klasifikasi protein, barisan penjajaran,
pengelompokan.
PERKENALAN
Di tahun terakhir telah dilihat suatu ledakan pertumbuhan pada kuwantitas data
biologi yang dikumpulkan oleh komunitas sains. Secara spesifik, banyaknya
barisan protein yang tersedia secara umum bertumbuh secara cepat, terutama
sebagai suatu hasil dari banyak skala besar proyek barisan, termasuk genome
manusia.
Volume terbesar dari data yang dikumpulkan membuat menarik untuk
mengklasifikasi secara otomatis dan data demikian pada suatu skala yang sangat
besar atau bahkan skala besar. Bagaimanapun, sekarang ini digunakan metode,
kebanyakan mendasarkan pada prosedur otomatis, telah memiliki batas sukses
dalam percobaan untuk mengambil kesimpulan fungsi protein (Bork dan Koonin,
1998). Kebanyakan teknik yang ada untuk perbandingan barisan (Needleman dan
Wunsch, 1970; Smmith dan Waterman, 1981; Lipman dan Pearson, 1985;
Althschul et al., 1990). Meskipun, kita masih jauh dari berhak untuk menentukan
secara umum ya atau tidak dua protein berbagi fungsi yang sama. itu diketahui
dengan baik bahwa barisan yang sama atau struktur yang sama mengimplikasikan
suatu kemungkinan tinggi untuk fungsi biologi yang sama. Selanjutnya, seperti
kebanyakan barisan protein ditentukan dari barisan DNA dan metode prediksi
penemuan gen.

Metode
Pada bagian ini membahas aspek komputer dalam kerja kita, termasuk sebelum
perhitungan dan algoritma clustering yang dibutuhkan.

Sebelum Perhitungan
Kita mulai proses dengan barisan perbandingan yang komprehensif. Hal ini
mudah dengan menggunakan celah standard BLAST yang didasarkan pada
BLOSUM62 dengan penyaringan pada kekompleksan barisan. BLAST
menghubungkan nilai numerik (E-Skor) dengan setiap pasangan protein.
Pasangan dengan sedikit (atau tidak ada) kesamaan, menerima E-skoryang tinggi
(tak hingga). Ketika skor ini melebihi nilai penentuan awal, nilai penentuan awal
ini yang digunakan sebagai skor. Pada pekerjaan baru-baru ini nilai penentuan
awal yang diberikan adalah 10, diatas sebarang arti biologikal yang diduga.
Perbandingan dari dua protein dengan E-skor 10 atau ke atas jarang menunjukkan
suatu kesamaan yang signifikan.
Ingat bahwa nilai pintasan ini lebih tinggi secara signifikan dari pada pekerjaan
yang dilakukan sebelumnya (Yona, dkk, 2000). Seperti yang kita jelaskan diatas,
pilihan ini membolehkan kita untuk mendeteksi kelemahan dan relasi biologikal
yang relevan.
Hal itu sudah ditetapkan (Portugaly & Linial, 2000) yang kesamaan atas cluster-
clusternya pada level rendah dari kepercayaan enkripsi suatu hasil yang baik pada
informasi biological yang signifikan. Pada sistem sebelumnya informasi tersebut
antara tidak ada atau ada dalam suatu bentuk yang ramai. Pada kasus belakangan
ini, interpretasinya memuat suatu pemandangan yang luar biasa. Keuntungan
besar dari pembelajaran baru-baru ini adalah tingkat keramaian direduksi dan
informasi biologikal yang penting menjadi jelas.

Metodologi Clustering
Metode clustering adalah suatu adaptasi dari paradigma clustering yang diterima
secara hierarki. Skema algoritma ini sebagai berikut:
procedure clustering ()
{
for each protein p
{
create_cluster(p);
}
t=0;
while (not done)
{
find cluster x,y such that merge_score(x,y)
is minimal;
merge_clusters(x,y,t);
t++;
done=finished();
}
}
Prosedur ini menggunakan beberapa subfungsi. Prosedur
create_cluster(p)mengambil protein dan menciptakan singleton cluster
yang memuat protein ini sendiri. Fungsi merge_score(x,y)menghubungkan
nilai numerik dengan gabungan cluster x dan y. Persoalan hubungan skor ini
dijelaskan pada pembahasan selanjutnya.
Fungsi merge_clusters(x,y,t)memakai dua cluster dan membuat cluster
baru yang merupakan gabungan dari cluster input x dan y. Langkah ini
menggunakan variable waktu t.
Fungsi finished()menyatakan pemberhentian untuk clustering. Macam-
macam aturan pemberhentian bisa diterapkan. Pada pengerjaan ini kita fokus pada
aturan pemberhentian yang diturunkan dari banyaknya non-singleton cluster yang
dibangkitkan.

Aturan Penggabungan
Ketika menggabungkan dua cluster, kita mencari aturan penggabungan yang
paling menguntungkan. Pada ruang metrik mengatur model ini memerlukan
penggabungan dua cluster untuk meminimalisir diameter dari cluster yang baru.
Dalam konteks clustering protein didasarkan pada E-skor dari pasangan protein
dalam suatu cluster. Untuk menangkap jarak protein dalam suatu cluster, kita
tentukan rata-rata dari E-skor. Sebelumnya (di Yona, dkk, 1999), kita tentukan
hanya satu macam rataan, disini, kita gunakan beberapa macam. Secara khusus,
nilai dari cluster mendekati rataan dari jarak perpasangan
 Rataan aritmatik
 Rataan persegi (l2)
 Rataan geometrik
 Rataan harmonik
Definisi dari berbagai macam rataan sebagai berikut. Untuk bilangan
𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 , rataan aritmatik didefinisikan:
𝑥1 +𝑥2 +𝑥3 +⋯+𝑥𝑛
ArithMean(𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 ) = , rataan geometrik adalah:
𝑛

GeoMean(𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 ) = 𝑛√𝑥1 𝑥2 𝑥3 … 𝑥𝑛 , dan rataan harmonik adalah:


𝑛
HarMean(𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 ) = 1 1 1 .
+ +⋯+
𝑥1 𝑥2 𝑥𝑛

Anda mungkin juga menyukai