Support Vector Machine Teori Dan Aplikasinya Dalam Bioinformatika
Support Vector Machine Teori Dan Aplikasinya Dalam Bioinformatika
Com
Copyright © 2003 IlmuKomputer.Com
Lisensi Dokumen:
Copyright © 2003 IlmuKomputer.Com
Seluruh dokumen di IlmuKomputer.Com dapat digunakan, dimodifikasi dan disebarkan secara
bebas untuk tujuan bukan komersial (nonprofit), dengan syarat tidak menghapus atau merubah
atribut penulis dan pernyataan copyright yang disertakan dalam setiap dokumen. Tidak
diperbolehkan melakukan penulisan ulang, kecuali mendapatkan ijin terlebih dahulu dari
IlmuKomputer.Com.
Abstrak:
Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaian
harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition,
usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinya
menempatkannya sebagai state of the art dalam pattern recognition, dan dewasa ini merupakan salah satu tema yang
berkembang dengan pesat. SVM adalah metode learning machine yang bekerja atas prinsip Structural Risk
Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input
space. Tulisan ini membahas teori dasar SVM dan aplikasinya dalam bioinformatika, khususnya pada analisa
ekspresi gen yang diperoleh dari analisa microarray.
1
Bahan dalam makalah ini sebagian besar berasal dari makalah : Nugroho, A.S., Witarto, A.B., Handoko, D.,
"Application of Support Vector Machine in Bioinformatics", Proceeding of Indonesian Scientific Meeting in Central
Japan, December 20, 2003, Gifu-Japan
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com
Discrimination boundaries
Margin
(a) (b)
Gambar 1– SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class –1 dan +1
discrimination analysis, hidden markov model secara teoritis maupun dari segi aplikasi.
hingga metode kecerdasan buatan seperti Dewasa ini SVM telah berhasil diaplikasikan
artificial neural network. Salah satu metode dalam problema dunia nyata (real-world
yang akhir-akhir ini banyak mendapat perhatian problems), dan secara umum memberikan solusi
sebagai state of the art dalam pattern yang lebih baik dibandingkan metode
recognition adalah Support Vector Machine konvensional seperti misalnya artificial neural
(SVM) [1] [2]. Support Vector Machine (SVM) network. Tulisan ini memperkenalkan konsep
dikembangkan oleh Boser, Guyon, Vapnik, dasar SVM, dan membahas aplikasinya di
dan pertama kali dipresentasikan pada tahun bioinformatika, yang akhir-akhir ini merupakan
1992 di Annual Workshop on Computational salah satu bidang yang berkembang cukup pesat.
Learning Theory. Konsep dasar SVM
sebenarnya merupakan kombinasi harmonis dari
2. PATTERN RECOGNITION MEMAKAI
teori-teori komputasi yang telah ada puluhan
SUPPORT VECTOR MACHINE
tahun sebelumnya, seperti margin hyperplane
(Duda & Hart tahun 1973, Cover tahun 1965, Konsep SVM dapat dijelaskan secara sederhana
Vapnik 1964, dsb.), kernel diperkenalkan oleh sebagai usaha mencari hyperplane2 terbaik yang
Aronszajn tahun 1950, dan demikian juga berfungsi sebagai pemisah dua buah class pada
dengan konsep-konsep pendukung yang lain. input space. Gambar 1a memperlihatkan
Akan tetapi hingga tahun 1992, belum pernah beberapa pattern yang merupakan anggota dari
ada upaya merangkaikan komponen-komponen dua buah class : +1 dan –1. Pattern yang
tersebut [3][4]. tergabung pada class –1 disimbolkan dengan
Berbeda dengan strategi neural network yang warna merah (kotak), sedangkan pattern pada
berusaha mencari hyperplane pemisah antar class +1, disimbolkan dengan warna
class, SVM berusaha menemukan hyperplane kuning(lingkaran). Problem klasifikasi dapat
yang terbaik pada input space. Prinsip dasar diterjemahkan dengan usaha menemukan garis
SVM adalah linear classifier, dan selanjutnya (hyperplane) yang memisahkan antara kedua
dikembangkan agar dapat bekerja pada problem
2
non-linear. dengan memasukkan konsep kernel hyperplane dalam ruang vector berdimensi d adalah
trick pada ruang kerja berdimensi tinggi. affine subspace berdimensi d-1 yang membagi ruang
Perkembangan ini memberikan rangsangan vector tersebut ke dalam dua bagian, yang
minat penelitian di bidang pattern recognition masing-masing berkorespondensi pada class yang
untuk investigasi potensi kemampuan SVM berbeda [4]
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com
(sampel positif)
rr Dari hasil dari perhitungan ini diperoleh
w.xi + b ≥ +1 (3)
α i yang kebanyakan bernilai positif. Data yang
Margin terbesar dapat ditemukan dengan
memaksimalkan nilai jarak antara hyperplane
berkorelasi dengan α i yang positif inilah yang
r
dan titik terdekatnya, yaitu 1 / w . Hal ini dapat
disebut sebagai support vector.
dirumuskan sebagai Quadratic Programming
(QP) problem, yaitu mencari titik minimal 3. SOFT MARGIN
persamaan (4), dengan memperhatikan
Penjelasan di atas berdasarkan asumsi bahwa
constraint persamaan (5).
kedua belah class dapat terpisah secara
sempurna oleh hyperplane. Akan tetapi,
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com
umumnya dua buah class pada input space tidak Dalam non linear SVM, pertama-tama
dapat terpisah secara sempurna. Hal ini r r
data x dipetakan oleh fungsi Φ (x ) ke ruang
menyebabkan constraint pada persamaan (5)
tidak dapat terpenuhi, sehingga optimisasi tidak vektor yang berdimensi lebih tinggi. Pada ruang
dapat dilakukan. Untuk mengatasi masalah ini, vektor yang baru ini, hyperplane yang
SVM dirumuskan ulang dengan memisahkan kedua class tersebut dapat
memperkenalkan teknik softmargin. Dalam dikonstruksikan. Hal ini sejalan dengan teori
softmargin, persamaan (5) dimodifikasi dengan Cover yang menyatakan“Jika suatu
transformasi bersifat non linear dan dimensi
memasukkan slack variabel ξ i (ξ i > 0) sbb.
dari feature space cukup tinggi, maka data pada
r r input space dapat dipetakan ke feature space
y i ( xi .w + b) ≥ 1 − ξ i , ∀i (9)
yang baru, dimana pattern-pattern tersebut
Dengan demikian persamaan (4) diubah pada probabilitas tinggi dapat dipisahkan
menjadi : secara linear”.
r 1 r 2 l Ilustrasi dari konsep ini dapat dilihat
min
r
w
τ ( w , ξ ) =
2
w + C ∑
i =1
ξi (10) pada gambar 2. Pada gambar 2a diperlihatkan
data pada class kuning dan data pada class
merah yang berada pada input space berdimensi
Paramater C dipilih untuk mengontrol tradeoff
dua tidak dapat dipisahkan secara linear.
Selanjutnya gambar 2b menunjukkan bahwa
antara margin dan error klasifikasi ξ . Nilai C
fungsi Φ memetakan tiap data pada input
yang besar berarti akan memberikan penalti space tersebut ke ruang vektor baru yang
yang lebih besar terhadap error klasifikasi tsb. berdimensi lebih tinggi (dimensi 3), dimana
kedua class dapat dipisahkan secara linear oleh
4. KERNEL TRICK DAN NON LINEAR sebuah hyperplane. Notasi matematika dari
CLASSIFICATION PADA SVM mapping ini adalah sbb.
Pada umumnya masalah dalam domain dunia Φ : ℜd → ℜq d <q (11)
nyata (real world problem) jarang yang bersifat
linear separable. Kebanyakan bersifat non linear.
Untuk menyelesaikan problem non linear, SVM
dimodifikasi dengan memasukkan fungsi
Kernel.
Hyperplane
1. Analisa ekspresi gen [9] Bahasan dalam makalah ini dibatasi pada
2. Deteksi homologi protein [4] tema pertama, dengan mengevaluasi performa
3. Prediksi struktur protein [10] SVM dalam klasifikasikan ekspresi gen.Tema
Makalah ini mengambil contoh bahasan ini tergolong tema pattern recognition yang
aplikasi SVM pada masalah pertama, yaitu sangat sulit, karena memiliki karakteristik
analisa data ekspresi gen, karena kesesuaiannya
dengan kemampuan SVM dalam mengolah 1. Data observasi berdimensi tinggi : manusia
informasi berdimensi tinggi. Data biologi yang memiliki sekitar 31 ribu jenis gen, sehingga
diolah dan dianalisa oleh SVM diperoleh dari setiap pengukuran memberikan satu titik
eksperimen microarray yang memungkinkan pada ruang vektor berdimensi sekitar 31
pengamatan ekspresi ribuan gen sekaligus, ribu
misalnya pada sel yang diambil dari penderita 2. Noisy
penyakit kanker. Pemanfaatan microarray 3. Unbalanced, dalam artian sampel class
membuka kemungkinan untuk mengetahui positif seringkali tersedia dalam jumlah
kuantitas maupun kualitas transkripsi satu gen, yang jauh lebih sedikit daripada sampel
sehingga dapat diidentifikasikan : gen-gen apa class negatif.
saja yang aktif terhadap perlakuan tertentu, Karakteristik ini menjadi latar belakang
misalnya timbulnya kanker. Informasi ini mengapa SVM mendapat perhatian besar dari
merupakan pertimbangan penting bagi ahli kalangan bioinformatika. Potensi SVM
medis untuk mengetahui mekanisme timbulnya sebagaimana diuraikan pada halaman yang
penyakit, dan menentukan terapi mana yang terdahulu memberikan harapan untuk dapat
paling tepat bagi si pasien. menyelesaikan problem dengan karakteristik
Proses dalam analisa micorarray secara tersebut. Salah satu paper yang membahas
sederhana dapat diuraikan sebagai berikut. aplikasi SVM dalam analisa data ekspresi gen
Pertama-tama mRNA yang disolasi dari sampel adalah sebagaimana yang dilakukan oleh group
dikembalikan dulu dalam bentuk DNA Terrence S. Furey.
menggunakan reaksi reverse transcription.
Selanjutnya melalui proses hibridisasi, hanya 9. RISET GROUP TERRENCE S. FUREY :
DNA yang komplementer saja yang akan ANALISA EKSPRESI GEN MEMAKAI
berikatan dengan DNA di atas chip. DNA yang SVM
telah diberi label warna berbeda ini akan
menunjukkan pattern yang unik. Dengan
Salah penelitian bioinformatika mengenai
memanfaatkan teknologi pengolahan citra
aplikasi SVM dalam analisa gene-expression
(image processing), pattern ini selanjutnya
adalah sebagaimana yang dilakukan oleh group
ditransfer ke dalam ekspresi numerik untuk
Terrence S. Furey, dimuat di journal
diolah dengan berbagai metode pattern
Bioinformatics [9]. Group Furey memakai SVM
recognition (dalam hal ini SVM).
dengan dot product kernel (linear SVM) untuk
Dalam studi analisa ekspresi gen, ada
menganalisa vektor berdimensi ribuan yang
tiga hal yang merupakan bahasan menarik dari
dibentuk oleh ekspresi gen diperoleh dari
sudut pattern recognition [11]:
eksperimen microarray. Evaluasi dilakukan
1. Mungkinkah dengan data ekspresi gen dari
terhadap tiga database : Ovarian tissue dataset,
microarray, kita memprediksi suatu class,
human acute leukemia (Golub dataset), dan
misalnya apakah seorang pasien tersebut
yang ketiga adalah human tumour dan normal
terkena kanker atau tidak, atau menentukan
colon tissue dataset. Masing-masing eksperimen
status mutasi p53 pasien, dsb.
dapat dirangkumkan sebagai berikut:
2. Kalau hal tersebut memungkinkan untuk
dilaksanakan, berapakah tingkat akurasi
1. Ovarian dataset
yang mungkin dicapai ?
Sampel yang berasal dari ovarian cancer
3. Bagaimana menentukan kandidat gen yang
tissue, normal ovarian tissue dan normal tissue
memiliki potensi kedokteran/farmasi ?
non-ovarian yang lain, total sebanyak 31 sampel.
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com
Tiap data terdiri dari 97,802 cDNA untuk dalam dua kelompok: training set (27 ALL dan
masing-masing tissue, dengan demikian 11 AML), dan test set (20 ALL dan 14 AML).
membentuk ruang vektor berdimensi 97,802. Tiap sampel terdiri dari vektor berdimensi 7129
Untuk mereduksi dimensi dari feature vector ini, yang berasal dari ekspresi gen si pasien sebagai
dilakukan feature subset selection (FSS) dengan hasil analisa Affymetrix high-density
memilih sekumpulan feature yang paling oligonucleotide microarray. FSS dilakukan pada
signikan. Furey memilih strategy single best training set untuk menseleksi feature yang
criterion, yaitu tiap feature dievaluasi secara signifikan, dengan metode sebagaimana
terpisah dengan menentukan mana yang paling penjelasan sebelumnya.
berpengaruh pada class separability. Walaupun SVM dilatih dengan data dari training set,
metode ini memiliki banyak sisi lemah, dan dan performa-nya dievaluasi pada test set. Hasil
mengabaikan kontribusi yang dimiliki secara dari eksperimen menunjukkan bahwa SVM
berkelompok, tapi metode FSS ini mungkin mengklasifikan secara benar antara 30 sampai
paling mudah dilakukan dalam kondisi dimensi 32 dari total 34 sampel pada test set.
vektor yang hampir mencapai 100,000. Hasil
dari FSS memperlihatkan bahwa dari 97,802 3. Human tumour dan normal colon tissue
cDNA, cukup diperlukan 50 buah feature dataset
(cDNA) yang memiliki score signifikansi Data pada eksperimen ini berasal dari studi
tertinggi. Selanjutnya estimasi parameter yang dilakukan oleh Alon [13], yang terdiri dari
dilakukan dengan leave-one-out cross 40 tissue tumor dan 22 tissue normal colon. Tiap
validation. sampel berasal dari hasil analisa Affymetrix
Hasil eksperimen menunjukkan bahwa satu oligonucleotide arrays terhadap 6500 gen
sampel dari kelompok normal ovarian tissue manusia. Dari 6500 gen ini, sebanyak 2000
selalu gagal diklasifikasikan. Hasil analisa dari diantaranya yang diseleksi terlebih dahulu
kegagalan ini menunjukkan bahwa margin dari berdasarkan kriteria tertentu, dipergunakan
misclassification cukup besar. Hal ini berarti untuk keperluan klasifikasi.
SVM sangat yakin, bahwa sampel ini tergolong Performa SVM dievaluasi dengan metode
cancerous tissue. Dengan mengeliminasi satu leave-one-out crossvalidation, dan sebagai hasil
sampel dari non-ovarian normal tissue yang 56 sampel berhasil diklasifikasikan secara benar
kualitasnya diragukan, total akurasi SVM 90% (misklasifikasi : 6 sampel). Selanjutnya
(misklasifikasi : 3 dari total 30 sampel). percobaan diulangi dengan memakai subset
yang terdiri dari 1000 dari total 2000 feature
2. Human acute leukemia pada tiap vektor. Hasil pada eksperimen kedua
Data pada eksperimen ini berasal dari studi ini sama dengan sebelumnya, yaitu 6 sampel
yang dilakukan oleh Golub [12], dan tersedia saja yang tidak dapat diklasifikasikan secara
online di internet. Data diambil dari 72 pasien benar. Dari ke-6 sampel ini tiga diantaranya
penderita myeloid leukimia (AML) dan acute normal tissue dan tiga yang lain tumor tissue.
lymphoblastic leukimia (ALL). Data ini dibagi
Tabel 2- Sebagian dari hasil eksperimen Furey : komparasi SVM dan perceptron pada studi analisa
ekspresi gen
Error Num. of Error Num. of
Dataset Dimensi tumor tissue normal tissue
SVM Perceptron SVM Perceptron
Ovarian 97,802 3 4.8 5 4.6
Golub 0 2.8 0 0.6
7,129
dataset
Colon 3 3.7 3 3.8
2,000
dataset
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com
http://ilmukomputer.com , August 2003 11- Maeda E., “Gene expression analysis and
(in Indonesian) feature selection”, IEICE Technical Report,
8- Nugroho A.S., “Bioinformatika dan pattern PRMU-2003-37, Vol.103, No.150, 2003,
recognition”, http://ilmukomputer.com , pp.57-62 (in Japanese)
July 2003 (in Indonesian) 12- Golub T. et al., “Molecular classification of
9- Furey T.S, et al., “Support vector machine cancer : class discovery and class prediction
classification and validation of cancer tissue by gene expression monitoring”, Science,
samples using microarray expression data”, Vol. 286, 1999, pp.531-537
Bioinformatics, Vol.16, No.10, 2000, 13- Alon U. et al., “Broad patterns of gene
pp.906-914 expression revealed by clustering analysis
10- Ward J.J., et al., “Secondary structure of tumor and normal colon tissues probed
prediction with support vector machine”, by oligonucleotide arrays”, Proc. Natl. Acad.
Bioinformatics, Vol.19, No.13, 2003, Sci. USA, No.96, 1999, pp.6745-6750
pp.1650-1655