Anda di halaman 1dari 11

Kuliah Umum IlmuKomputer.

Com
Copyright © 2003 IlmuKomputer.Com

Support Vector Machine


–Teori dan Aplikasinya dalam Bioinformatika1–
Anto Satriyo Nugroho, Arief Budi Witarto, Dwi Handoko
asnugroho@ieee.org
http://asnugroho.net

Lisensi Dokumen:
Copyright © 2003 IlmuKomputer.Com
Seluruh dokumen di IlmuKomputer.Com dapat digunakan, dimodifikasi dan disebarkan secara
bebas untuk tujuan bukan komersial (nonprofit), dengan syarat tidak menghapus atau merubah
atribut penulis dan pernyataan copyright yang disertakan dalam setiap dokumen. Tidak
diperbolehkan melakukan penulisan ulang, kecuali mendapatkan ijin terlebih dahulu dari
IlmuKomputer.Com.

Abstrak:
Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaian
harmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition,
usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinya
menempatkannya sebagai state of the art dalam pattern recognition, dan dewasa ini merupakan salah satu tema yang
berkembang dengan pesat. SVM adalah metode learning machine yang bekerja atas prinsip Structural Risk
Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input
space. Tulisan ini membahas teori dasar SVM dan aplikasinya dalam bioinformatika, khususnya pada analisa
ekspresi gen yang diperoleh dari analisa microarray.

Keywords: pattern recognition, support vector machine, bioinformatika

1. PENDAHULUAN recognition sangat luas, di antaranya mengenali


suara dalam sistem sekuriti, membaca huruf
Pattern Recognition merupakan salah satu
dalam OCR, mengklasifikasikan penyakit secara
bidang dalam komputer sains, yang memetakan
otomatis berdasarkan hasil diagnosa kondisi
suatu data ke dalam konsep tertentu yang telah
medis pasien dan sebagainya. Berbagai metode
didefinisikan sebelumnya. Konsep tertentu ini
dikenal dalam pattern recognition, seperti linear
disebut class atau category. Aplikasi pattern

1
Bahan dalam makalah ini sebagian besar berasal dari makalah : Nugroho, A.S., Witarto, A.B., Handoko, D.,
"Application of Support Vector Machine in Bioinformatics", Proceeding of Indonesian Scientific Meeting in Central
Japan, December 20, 2003, Gifu-Japan
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

Discrimination boundaries
Margin

Class −1 Class +1 Class −1 Class +1

(a) (b)
Gambar 1– SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class –1 dan +1

discrimination analysis, hidden markov model secara teoritis maupun dari segi aplikasi.
hingga metode kecerdasan buatan seperti Dewasa ini SVM telah berhasil diaplikasikan
artificial neural network. Salah satu metode dalam problema dunia nyata (real-world
yang akhir-akhir ini banyak mendapat perhatian problems), dan secara umum memberikan solusi
sebagai state of the art dalam pattern yang lebih baik dibandingkan metode
recognition adalah Support Vector Machine konvensional seperti misalnya artificial neural
(SVM) [1] [2]. Support Vector Machine (SVM) network. Tulisan ini memperkenalkan konsep
dikembangkan oleh Boser, Guyon, Vapnik, dasar SVM, dan membahas aplikasinya di
dan pertama kali dipresentasikan pada tahun bioinformatika, yang akhir-akhir ini merupakan
1992 di Annual Workshop on Computational salah satu bidang yang berkembang cukup pesat.
Learning Theory. Konsep dasar SVM
sebenarnya merupakan kombinasi harmonis dari
2. PATTERN RECOGNITION MEMAKAI
teori-teori komputasi yang telah ada puluhan
SUPPORT VECTOR MACHINE
tahun sebelumnya, seperti margin hyperplane
(Duda & Hart tahun 1973, Cover tahun 1965, Konsep SVM dapat dijelaskan secara sederhana
Vapnik 1964, dsb.), kernel diperkenalkan oleh sebagai usaha mencari hyperplane2 terbaik yang
Aronszajn tahun 1950, dan demikian juga berfungsi sebagai pemisah dua buah class pada
dengan konsep-konsep pendukung yang lain. input space. Gambar 1a memperlihatkan
Akan tetapi hingga tahun 1992, belum pernah beberapa pattern yang merupakan anggota dari
ada upaya merangkaikan komponen-komponen dua buah class : +1 dan –1. Pattern yang
tersebut [3][4]. tergabung pada class –1 disimbolkan dengan
Berbeda dengan strategi neural network yang warna merah (kotak), sedangkan pattern pada
berusaha mencari hyperplane pemisah antar class +1, disimbolkan dengan warna
class, SVM berusaha menemukan hyperplane kuning(lingkaran). Problem klasifikasi dapat
yang terbaik pada input space. Prinsip dasar diterjemahkan dengan usaha menemukan garis
SVM adalah linear classifier, dan selanjutnya (hyperplane) yang memisahkan antara kedua
dikembangkan agar dapat bekerja pada problem
2
non-linear. dengan memasukkan konsep kernel hyperplane dalam ruang vector berdimensi d adalah
trick pada ruang kerja berdimensi tinggi. affine subspace berdimensi d-1 yang membagi ruang
Perkembangan ini memberikan rangsangan vector tersebut ke dalam dua bagian, yang
minat penelitian di bidang pattern recognition masing-masing berkorespondensi pada class yang
untuk investigasi potensi kemampuan SVM berbeda [4]
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

kelompok tersebut. Berbagai alternatif garis


1 r
τ ( w) =
2
pemisah (discrimination boundaries) min
r w (4)
ditunjukkan pada gambar 1-a.
w 2
Hyperplane pemisah terbaik antara r r
y i ( xi .w + b) − 1 ≥ 0, ∀i (5)
kedua class dapat ditemukan dengan mengukur
margin hyperplane tsb. dan mencari titik Problem ini dapat dipecahkan dengan berbagai
maksimalnya. Margin adalah jarak antara teknik komputasi, di antaranya Lagrange
hyperplane tersebut dengan pattern terdekat dari Multiplier.
masing-masing class. Pattern yang paling dekat r 1 r 2 l r r
ini disebut sebagai support vector. Garis solid L( w, b,α ) = w − ∑ α i ( y i (( xi .w + b) − 1))
pada gambar 1-b menunjukkan hyperplane yang 2 i =1

terbaik, yaitu yang terletak tepat pada


tengah-tengah kedua class, sedangkan titik
(i = 1,2,L, l ) (6)
merah dan kuning yang berada dalam lingkaran
hitam adalah support vector. Usaha untuk
α i adalah Lagrange multipliers, yang bernilai
mencari lokasi hyperplane ini merupakan inti
dari proses pembelajaran pada SVM.
nol atau positif (α i ≥ 0) . Nilai optimal dari
Data yang tersedia dinotasikan sebagai
r persamaan (6) dapat dihitung dengan
xi ∈ ℜ d sedangkan label masing-masing
r
meminimalkan L terhadap w dan b , dan
dinotasikan yi ∈ {− 1,+1} untuk i = 1,2, L, l ,
memaksimalkan L terhadap α i . Dengan
yang mana l adalah banyaknya data.
memperhatikan sifat bahwa pada titik optimal
Diasumsikan kedua class –1 dan +1 dapat gradient L =0, persamaan (6) dapat dimodifikasi
terpisah secara sempurna oleh hyperplane sebagai maksimalisasi problem yang hanya
berdimensi d , yang didefinisikan mengandung saja α i , sebagaimana persamaan
rr (7) di bawah.
w.x + b = 0 (1)
r Maximize:
Pattern xi yang termasuk class –1 (sampel
l
1 l r r
negatif) dapat dirumuskan sebagai pattern yang ∑α i −
i =1

2 i , j =1
α iα j y i y j x i . x j (7)
memenuhi pertidaksamaan
rr Subject to:
w.xi + b ≤ −1 (2)
l
r
sedangkan pattern xi yang termasuk class +1
α i ≥ 0 (i = 1,2, L, l ) ∑α y
i =1
i i =0 (8)

(sampel positif)
rr Dari hasil dari perhitungan ini diperoleh
w.xi + b ≥ +1 (3)
α i yang kebanyakan bernilai positif. Data yang
Margin terbesar dapat ditemukan dengan
memaksimalkan nilai jarak antara hyperplane
berkorelasi dengan α i yang positif inilah yang
r
dan titik terdekatnya, yaitu 1 / w . Hal ini dapat
disebut sebagai support vector.
dirumuskan sebagai Quadratic Programming
(QP) problem, yaitu mencari titik minimal 3. SOFT MARGIN
persamaan (4), dengan memperhatikan
Penjelasan di atas berdasarkan asumsi bahwa
constraint persamaan (5).
kedua belah class dapat terpisah secara
sempurna oleh hyperplane. Akan tetapi,
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

umumnya dua buah class pada input space tidak Dalam non linear SVM, pertama-tama
dapat terpisah secara sempurna. Hal ini r r
data x dipetakan oleh fungsi Φ (x ) ke ruang
menyebabkan constraint pada persamaan (5)
tidak dapat terpenuhi, sehingga optimisasi tidak vektor yang berdimensi lebih tinggi. Pada ruang
dapat dilakukan. Untuk mengatasi masalah ini, vektor yang baru ini, hyperplane yang
SVM dirumuskan ulang dengan memisahkan kedua class tersebut dapat
memperkenalkan teknik softmargin. Dalam dikonstruksikan. Hal ini sejalan dengan teori
softmargin, persamaan (5) dimodifikasi dengan Cover yang menyatakan“Jika suatu
transformasi bersifat non linear dan dimensi
memasukkan slack variabel ξ i (ξ i > 0) sbb.
dari feature space cukup tinggi, maka data pada
r r input space dapat dipetakan ke feature space
y i ( xi .w + b) ≥ 1 − ξ i , ∀i (9)
yang baru, dimana pattern-pattern tersebut
Dengan demikian persamaan (4) diubah pada probabilitas tinggi dapat dipisahkan
menjadi : secara linear”.
r 1 r 2 l Ilustrasi dari konsep ini dapat dilihat
min
r
w
τ ( w , ξ ) =
2
w + C ∑
i =1
ξi (10) pada gambar 2. Pada gambar 2a diperlihatkan
data pada class kuning dan data pada class
merah yang berada pada input space berdimensi
Paramater C dipilih untuk mengontrol tradeoff
dua tidak dapat dipisahkan secara linear.
Selanjutnya gambar 2b menunjukkan bahwa
antara margin dan error klasifikasi ξ . Nilai C
fungsi Φ memetakan tiap data pada input
yang besar berarti akan memberikan penalti space tersebut ke ruang vektor baru yang
yang lebih besar terhadap error klasifikasi tsb. berdimensi lebih tinggi (dimensi 3), dimana
kedua class dapat dipisahkan secara linear oleh
4. KERNEL TRICK DAN NON LINEAR sebuah hyperplane. Notasi matematika dari
CLASSIFICATION PADA SVM mapping ini adalah sbb.
Pada umumnya masalah dalam domain dunia Φ : ℜd → ℜq d <q (11)
nyata (real world problem) jarang yang bersifat
linear separable. Kebanyakan bersifat non linear.
Untuk menyelesaikan problem non linear, SVM
dimodifikasi dengan memasukkan fungsi
Kernel.

Hyperplane

Input Space X High-dimensional Feature Space


Φ( X )
Gambar 2– Fungsi Φ memetakan data ke ruang vektor yang berdimensi lebih tinggi, sehingga kedua
class dapat dipisahkan secara linear oleh sebuah hyperplane
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

Tabel 1- Kernel yang umum dipakai dalam SVM


Jenis Kernel Definisi
r r r r
Polynomial K ( xi , x j ) = ( xi .x j + 1) p
r r 2
r r xi − x j
Gaussian K ( xi , x j ) = exp(− )
2σ 2
r r r r
Sigmoid K ( xi , x j ) = tanh(αxi .x j + β )

Pemetaan ini dilakukan dengan menjaga n


r r
topologi data, dalam artian dua data yang = ∑ α y K ( x, x ) + b
r
i =1, xi ∈SV
i i i (15)
berjarak dekat pada input space akan berjarak
dekat juga pada feature space, sebaliknya dua
SV pada persamaan di atas dimaksudkan
data yang berjarak jauh pada input space akan
juga berjarak jauh pada feature space. dengan subset dari training set yang terpilih
Selanjutnya proses pembelajaran pada SVM sebagai support vector, dengan kata lain
dalam menemukan titik-titik support vector, r
data xi yang berkorespondensi pada α i ≥ 0 .
hanya bergantung pada dot product dari data
yang sudah ditransformasikan pada ruang baru
yang berdimensi lebih tinggi, yaitu 5. METODE SEKUENSIAL
r r
Φ ( xi ).Φ ( x j ) . Hyperplane yang optimal dalam SVM dapat
ditemukan dengan merumuskannya ke dalam QP
Karena umumnya transformasi Φ ini tidak
problem dan diselesaikan dengan library yang
diketahui, dan sangat sulit untuk difahami
banyak tersedia dalam analisa numerik.
secara mudah, maka perhitungan dot product
Alternatif lain yang cukup sederhana adalah
tersebut sesuai teori Mercer dapat digantikan
r r metode sekuensial yang dikembangkan oleh
dengan fungsi kernel K ( xi , x j ) yang Vijayakumar [5], sbb.
mendefinisikan secara implisit transformasi Φ . 1. Initialization α i = 0
Hal ini disebut sebagai Kernel Trick,
yang dirumuskan Hitung matriks Dij = y i y j ( K ( xi , x j ) + λ2 )
r r r r
K ( xi , x j ) = Φ ( xi ).Φ ( x j ) (12) 2. Lakukan step (a), (b) dan (c) dibawah untuk
Kernel trick memberikan berbagai kemudahan, i = 1,2,L, l
karena dalam proses pembelajaran SVM, untuk
l
menentukan support vector, kita hanya cukup
mengetahui fungsi kernel yang dipakai, dan
(a) Ei = ∑α
j =1
j Dij
tidak perlu mengetahui wujud dari fungsi non
linear Φ . Berbagai jenis fungsi kernel dikenal, (b) δα i = min{max[γ (1 − E i ),−α i ], C − α i }
sebagaimana dirangkumkan pada tabel 1.
r (c) α i = α i + δα i
Selanjutnya hasil klasifikasi dari data x
diperoleh dari persamaan berikut :
3. Kembali ke step 2 sampai nilai α mencapai
konvergen
r r r
f (Φ ( x )) = w.Φ ( x ) + b (13)
n
r r Pada algoritma di atas, γ adalah parameter
= ∑ α i yi Φ( x ).Φ( xi ) + b (14)
r
i =1, xi ∈SV untuk mengkontrol kecepatan proses learning.
Konvergensi dapat didefinisikan dari tingkat
perubahan nilai α .
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

meminimalkan error pada training-set, juga


6. KARAKTERISTIK SVM meminimalkan faktor kedua. Strategi ini
disebut Structural Risk Minimization (SRM),
Karakteristik SVM sebagaimana telah dijelaskan
dan dalam SVM diwujudkan dengan
pada bagian sebelumnya, dirangkumkan sebagai
memilih hyperplane dengan margin terbesar.
berikut:
Berbagai studi empiris menunjukkan bahwa
1. Secara prinsip SVM adalah linear classifier
pendekatan SRM pada SVM memberikan
2. Pattern recognition dilakukan dengan
error generalisasi yang lebih kecil daripada
mentransformasikan data pada input space
yang diperoleh dari strategi ERM pada
ke ruang yang berdimensi lebih tinggi, dan
neural network maupun metode yang lain.
optimisasi dilakukan pada ruang vector yang
baru tersebut. Hal ini membedakan SVM
2. Curse of dimensionality
dari solusi pattern recognition pada
Curse of dimensionality didefinisikan
umumnya, yang melakukan optimisasi
sebagai masalah yang dihadapi suatu
parameter pada ruang hasil transformasi
metode pattern recognition dalam
yang berdimensi lebih rendah daripada
mengestimasikan parameter (misalnya
dimensi input space.
jumlah hidden neuron pada neural network,
3. Menerapkan strategi Structural Risk
stopping criteria dalam proses pembelajaran
Minimization (SRM)
dsb.) dikarenakan jumlah sampel data yang
4. Prinsip kerja SVM pada dasarnya hanya
relatif sedikit dibandingkan dimensional
mampu menangani klasifikasi dua class.
ruang vektor data tersebut. Semakin tinggi
dimensi dari ruang vektor informasi yang
7. KELEBIHAN DAN KEKURANGAN SVM
diolah, membawa konsekuensi
Dalam memilih solusi untuk menyelesaikan dibutuhkannya jumlah data dalam proses
suatu masalah, kelebihan dan kelemahan pembelajaran. Pada kenyataannya seringkali
masing-masing metode harus diperhatikan. terjadi, data yang diolah berjumlah terbatas,
Selanjutnya metode yang tepat dipilih dengan dan untuk mengumpulkan data yang lebih
memperhatikan karakteristik data yang diolah. banyak tidak mungkin dilakukan karena
Dalam hal SVM, walaupun berbagai studi telah kendala biaya dan kesulitan teknis. Dalam
menunjukkan kelebihan metode SVM kondisi tersebut, jika metode itu “terpaksa”
dibandingkan metode konvensional lain, SVM harus bekerja pada data yang berjumlah
juga memiliki berbagai kelemahan. Kelebihan relatif sedikit dibandingkan dimensinya,
SVM antara lain sbb. akan membuat proses estimasi parameter
metode menjadi sangat sulit.
1. Generalisasi Curse of dimensionality sering dialami
Generalisasi didefinisikan sebagai dalam aplikasi di bidang biomedical
kemampuan suatu metode (SVM, neural engineering, karena biasanya data biologi
network, dsb.) untuk mengklasifikasikan yang tersedia sangat terbatas, dan
suatu pattern, yang tidak termasuk data yang penyediaannya memerlukan biaya tinggi.
dipakai dalam fase pembelajaran metode itu. Vapnik membuktikan bahwa tingkat
Vapnik menjelaskan bahwa generalization generalisasi yang diperoleh oleh SVM tidak
error dipengaruhi oleh dua faktor: error dipengaruhi oleh dimensi dari input vector
terhadap training set, dan satu faktor lagi [3]. Hal ini merupakan alasan mengapa
yang dipengaruhi oleh dimensi VC SVM merupakan salah satu metode yang
(Vapnik-Chervokinensis). Strategi tepat dipakai untuk memecahkan masalah
pembelajaran pada neural network dan berdimensi tinggi, dalam keterbatasan
umumnya metode learning machine sampel data yang ada.
difokuskan pada usaha untuk 3. Landasan teori
meminimimalkan error pada training-set. Sebagai metode yang berbasis statistik,
Strategi ini disebut Empirical Risk SVM memiliki landasan teori yang dapat
Minimization (ERM). Adapun SVM selain dianalisa dengan jelas, dan tidak bersifat
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

black box. maupun aplikasi, dimana salah satu aplikasinya


4. Feasibility adalah dalam bidang bioinformatika.
SVM dapat diimplementasikan relatif Bioinformatika adalah suatu disiplin
mudah, karena proses penentuan support yang mengawinkan teknologi informasi dan
vector dapat dirumuskan dalam QP problem. teknologi biologi, untuk menjawab
Dengan demikian jika kita memiliki library permasalahan kompleks dalam bidang biologi.
untuk menyelesaikan QP problem, dengan Bioinformatika berkembang dari kebutuhan
sendirinya SVM dapat diimplementasikan manusia untuk menganalisa data yang dewasa
dengan mudah. Selain itu dapat diselesaikan ini kuantitasnya makin meningkat. Akselerasi
dengan metode sekuensial sebagaimana dari ketersediaan data biologi ini tidak terlepas
penjelasan sebelumnya. dari peranan kerjasama harmonis teknologi
informasi dan kemajuan di bidang bioteknologi.
Disamping kelebihannya, SVM memiliki Sebagai contoh, pembacaan sekuen genom
kelemahan atau keterbatasan, antara lain: manusia oleh Celera Genomics dapat
1. Sulit dipakai dalam problem berskala besar. diselesaikan dalam waktu singkat, dibandingkan
Skala besar dalam hal ini dimaksudkan usaha konsorsium lembaga riset publik AS,
dengan jumlah sample yang diolah. Europa, dsb. [5]. Dengan melimpahnya data
2. SVM secara teoritik dikembangkan untuk biologi tersebut, akan timbul pertanyaan :
problem klasifikasi dengan dua class. bagaimana kita memperoleh manfaat dari data
Dewasa ini SVM telah dimodifikasi agar ini ?
dapat menyelesaikan masalah dengan class Rutherford D. Roger memberikan
lebih dari dua, antara lain strategi One ungkapan menarik: “We are drowning in
versus rest dan strategi Tree Structure. information, but starving for knowledge”.
Namun demikian, masing-masing strategi Ungkapan ini sejalan dengan situasi terkini di
ini memiliki kelemahan, sehingga dapat dunia bioteknologi. Melimpahnya ketersediaan
dikatakan penelitian dan pengembangan data harus diikuti dengan tahapan mengekstrak
SVM pada multiclass-problem masih informasi dari data tersebut. Selanjutnya
merupakan tema penelitian yang masih informasi ini diolah agar dapat ditarik
terbuka. pengetahuan (knowledge) yang bermanfaat bagi
masyarakat dan kemanusiaan. Misalnya dalam
8. APLIKASI SVM DALAM bidang klinis, pengetahuan yang diperoleh
BIOINFORMATIKA tersebut dipakai untuk mendesain obat atau
terapi medis yang sesuai dengan kebutuhan sang
Pada paruh pertama tulisan ini, diskusi
pasien (tailor made medicine), untuk identifikasi
difokuskan pada dasar-dasar teori metode
agen penyakit baru, untuk diagnosa penyakit
Support Vector Machine sebagai salah satu topik
baru [6].
menarik yang tengah hangat dibicarakan dalam
Untuk mewujudkan proses transformasi
dunia komputer sains. Sebagaimana lazimnya
data-informasi-knowledge ini, teknologi
perkembangan suatu teori, pertanyaan
informasi memiliki peranan penting. Hal ini
berikutnya adalah bagaimana teori tersebut
terlihat dari banyaknya paper yang membahas
diaplikasikan pada dunia nyata ? Apakah metode
aplikasi metode komputasi untuk menganalisa
yang bagus secara teoritis itu mampu
data biologi seperti statistical pattern recognition,
diaplikasikan untuk menyelesaikan suatu
artificial neural network, SVM, dsb.[8] Tiap
masalah nyata, ataukah teori tersebut hanya
metode memiliki sisi kelebihan dan kekurangan,
berhenti pada ujicoba dengan toy problems ?
dan metode yang tepat harus dipilih dengan
Dalam hal ini Vapnik memberikan ungkapan
memperhatikan karakteristik problem biologi
menarik yang perlu digarisbawahi : “Nothing is
tersebut.
more practical than a good theory” [3]. Fakta
Berbagai penelitian dilakukan untuk
yang membuktikan pernyataan Vapnik tersebut
mengevaluasi potensi SVM dalam analisa data
adalah semakin luasnya penelitian yang
biologi, antara lain:
membuktikan kehandalan SVM dari sudut teori
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

1. Analisa ekspresi gen [9] Bahasan dalam makalah ini dibatasi pada
2. Deteksi homologi protein [4] tema pertama, dengan mengevaluasi performa
3. Prediksi struktur protein [10] SVM dalam klasifikasikan ekspresi gen.Tema
Makalah ini mengambil contoh bahasan ini tergolong tema pattern recognition yang
aplikasi SVM pada masalah pertama, yaitu sangat sulit, karena memiliki karakteristik
analisa data ekspresi gen, karena kesesuaiannya
dengan kemampuan SVM dalam mengolah 1. Data observasi berdimensi tinggi : manusia
informasi berdimensi tinggi. Data biologi yang memiliki sekitar 31 ribu jenis gen, sehingga
diolah dan dianalisa oleh SVM diperoleh dari setiap pengukuran memberikan satu titik
eksperimen microarray yang memungkinkan pada ruang vektor berdimensi sekitar 31
pengamatan ekspresi ribuan gen sekaligus, ribu
misalnya pada sel yang diambil dari penderita 2. Noisy
penyakit kanker. Pemanfaatan microarray 3. Unbalanced, dalam artian sampel class
membuka kemungkinan untuk mengetahui positif seringkali tersedia dalam jumlah
kuantitas maupun kualitas transkripsi satu gen, yang jauh lebih sedikit daripada sampel
sehingga dapat diidentifikasikan : gen-gen apa class negatif.
saja yang aktif terhadap perlakuan tertentu, Karakteristik ini menjadi latar belakang
misalnya timbulnya kanker. Informasi ini mengapa SVM mendapat perhatian besar dari
merupakan pertimbangan penting bagi ahli kalangan bioinformatika. Potensi SVM
medis untuk mengetahui mekanisme timbulnya sebagaimana diuraikan pada halaman yang
penyakit, dan menentukan terapi mana yang terdahulu memberikan harapan untuk dapat
paling tepat bagi si pasien. menyelesaikan problem dengan karakteristik
Proses dalam analisa micorarray secara tersebut. Salah satu paper yang membahas
sederhana dapat diuraikan sebagai berikut. aplikasi SVM dalam analisa data ekspresi gen
Pertama-tama mRNA yang disolasi dari sampel adalah sebagaimana yang dilakukan oleh group
dikembalikan dulu dalam bentuk DNA Terrence S. Furey.
menggunakan reaksi reverse transcription.
Selanjutnya melalui proses hibridisasi, hanya 9. RISET GROUP TERRENCE S. FUREY :
DNA yang komplementer saja yang akan ANALISA EKSPRESI GEN MEMAKAI
berikatan dengan DNA di atas chip. DNA yang SVM
telah diberi label warna berbeda ini akan
menunjukkan pattern yang unik. Dengan
Salah penelitian bioinformatika mengenai
memanfaatkan teknologi pengolahan citra
aplikasi SVM dalam analisa gene-expression
(image processing), pattern ini selanjutnya
adalah sebagaimana yang dilakukan oleh group
ditransfer ke dalam ekspresi numerik untuk
Terrence S. Furey, dimuat di journal
diolah dengan berbagai metode pattern
Bioinformatics [9]. Group Furey memakai SVM
recognition (dalam hal ini SVM).
dengan dot product kernel (linear SVM) untuk
Dalam studi analisa ekspresi gen, ada
menganalisa vektor berdimensi ribuan yang
tiga hal yang merupakan bahasan menarik dari
dibentuk oleh ekspresi gen diperoleh dari
sudut pattern recognition [11]:
eksperimen microarray. Evaluasi dilakukan
1. Mungkinkah dengan data ekspresi gen dari
terhadap tiga database : Ovarian tissue dataset,
microarray, kita memprediksi suatu class,
human acute leukemia (Golub dataset), dan
misalnya apakah seorang pasien tersebut
yang ketiga adalah human tumour dan normal
terkena kanker atau tidak, atau menentukan
colon tissue dataset. Masing-masing eksperimen
status mutasi p53 pasien, dsb.
dapat dirangkumkan sebagai berikut:
2. Kalau hal tersebut memungkinkan untuk
dilaksanakan, berapakah tingkat akurasi
1. Ovarian dataset
yang mungkin dicapai ?
Sampel yang berasal dari ovarian cancer
3. Bagaimana menentukan kandidat gen yang
tissue, normal ovarian tissue dan normal tissue
memiliki potensi kedokteran/farmasi ?
non-ovarian yang lain, total sebanyak 31 sampel.
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

Tiap data terdiri dari 97,802 cDNA untuk dalam dua kelompok: training set (27 ALL dan
masing-masing tissue, dengan demikian 11 AML), dan test set (20 ALL dan 14 AML).
membentuk ruang vektor berdimensi 97,802. Tiap sampel terdiri dari vektor berdimensi 7129
Untuk mereduksi dimensi dari feature vector ini, yang berasal dari ekspresi gen si pasien sebagai
dilakukan feature subset selection (FSS) dengan hasil analisa Affymetrix high-density
memilih sekumpulan feature yang paling oligonucleotide microarray. FSS dilakukan pada
signikan. Furey memilih strategy single best training set untuk menseleksi feature yang
criterion, yaitu tiap feature dievaluasi secara signifikan, dengan metode sebagaimana
terpisah dengan menentukan mana yang paling penjelasan sebelumnya.
berpengaruh pada class separability. Walaupun SVM dilatih dengan data dari training set,
metode ini memiliki banyak sisi lemah, dan dan performa-nya dievaluasi pada test set. Hasil
mengabaikan kontribusi yang dimiliki secara dari eksperimen menunjukkan bahwa SVM
berkelompok, tapi metode FSS ini mungkin mengklasifikan secara benar antara 30 sampai
paling mudah dilakukan dalam kondisi dimensi 32 dari total 34 sampel pada test set.
vektor yang hampir mencapai 100,000. Hasil
dari FSS memperlihatkan bahwa dari 97,802 3. Human tumour dan normal colon tissue
cDNA, cukup diperlukan 50 buah feature dataset
(cDNA) yang memiliki score signifikansi Data pada eksperimen ini berasal dari studi
tertinggi. Selanjutnya estimasi parameter yang dilakukan oleh Alon [13], yang terdiri dari
dilakukan dengan leave-one-out cross 40 tissue tumor dan 22 tissue normal colon. Tiap
validation. sampel berasal dari hasil analisa Affymetrix
Hasil eksperimen menunjukkan bahwa satu oligonucleotide arrays terhadap 6500 gen
sampel dari kelompok normal ovarian tissue manusia. Dari 6500 gen ini, sebanyak 2000
selalu gagal diklasifikasikan. Hasil analisa dari diantaranya yang diseleksi terlebih dahulu
kegagalan ini menunjukkan bahwa margin dari berdasarkan kriteria tertentu, dipergunakan
misclassification cukup besar. Hal ini berarti untuk keperluan klasifikasi.
SVM sangat yakin, bahwa sampel ini tergolong Performa SVM dievaluasi dengan metode
cancerous tissue. Dengan mengeliminasi satu leave-one-out crossvalidation, dan sebagai hasil
sampel dari non-ovarian normal tissue yang 56 sampel berhasil diklasifikasikan secara benar
kualitasnya diragukan, total akurasi SVM 90% (misklasifikasi : 6 sampel). Selanjutnya
(misklasifikasi : 3 dari total 30 sampel). percobaan diulangi dengan memakai subset
yang terdiri dari 1000 dari total 2000 feature
2. Human acute leukemia pada tiap vektor. Hasil pada eksperimen kedua
Data pada eksperimen ini berasal dari studi ini sama dengan sebelumnya, yaitu 6 sampel
yang dilakukan oleh Golub [12], dan tersedia saja yang tidak dapat diklasifikasikan secara
online di internet. Data diambil dari 72 pasien benar. Dari ke-6 sampel ini tiga diantaranya
penderita myeloid leukimia (AML) dan acute normal tissue dan tiga yang lain tumor tissue.
lymphoblastic leukimia (ALL). Data ini dibagi

Tabel 2- Sebagian dari hasil eksperimen Furey : komparasi SVM dan perceptron pada studi analisa
ekspresi gen
Error Num. of Error Num. of
Dataset Dimensi tumor tissue normal tissue
SVM Perceptron SVM Perceptron
Ovarian 97,802 3 4.8 5 4.6
Golub 0 2.8 0 0.6
7,129
dataset
Colon 3 3.7 3 3.8
2,000
dataset
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

Selanjutnya Furey menguji performa Walaupun eksperimen dengan data


perceptron (artificial neural network), pada microarray secara statistik masih terdapat
ketiga dataset yang sama. Sebagian hasil dari kelemahan, terutama dari sudut keterbatasan
eksperimen tersebut dirangkumkan pada Tabel 2. data, dan mahalnya cost yang diperlukan untuk
Perhatikan bahwa tingkat error pada tabel analisa, evaluasi SVM merupakan suatu usaha
adalah hasil rata-rata dari lima kali eksperimen, yang sangat berharga untuk mengklarifikasikan
yang dilakukan dengan mengubah urutan masalah yang timbul. Analisa pada data skala
sampel. Secara keseluruhan SVM memberikan kecil ini akan memudahkan bagi kita untuk
hasil yang lebih baik, kecuali pada normal tissue menemukan sisi-sisi lemah dari metode yang
data Ovarian. dipakai. Seiring dengan kemajuan IT dan
Namun demikian, sebagaimana dijelaskan bioteknologi modern yang mencengangkan
oleh Furey, karena evaluasi ini dilakukan pada akhir-akhir ini, diperkirakan pada tahun-tahun
data yang jumlahnya relatif sedikit, hasil pada mendatang, dunia ilmu pengetahuan akan
Tabel 2 belum dapat dikatakan valid untuk semakin terbanjiri dengan data biologi,
memberikan kesimpulan bahwa SVM lebih sedangkan teknologi informasi pun akan melaju
superior dibandingkan metode yang lain. dengan kencang. Dalam situasi ini, dengan
Dengan makin banyaknya ketersediaan data memanfaatkan teknologi informasi secara tepat,
ekspresi gen hasil analisa microarray, diharapkan data biologi tersebut dapat diolah
diharapkan SVM dapat diujicoba pada menjadi suatu informasi, dan seterusnya
eksperimen yang data skala besar, sehingga ditransformasikan sebagai suatu pengetahuan
hasil komparasi pada eksperimen tersebut tidak yang dapat ditarik manfaatnya bagi kesehatan
diragukan validitasnya. dan kesejahteraan umat manusia.

10. KESIMPULAN REFERENSI


Makalah ini memperkenalkan teori dasar 1- Byun H., Lee S.W., “A Survey on Pattern
Support Vector Machine (SVM), sebagai salah Recognition Applications of Support Vector
satu topik yang dewasa ini banyak mendapat Machines”, International Journal of Pattern
perhatian sebagai state of the art dalam bidang Recognition and Artificial Intelligence,
pattern recognition. Kelebihan SVM Vol.17, No.3, 2003, pp.459-486
dibandingkan metode yang lain terletak pada 2- Tsuda K., “Overview of Support Vector
kemampuannya untuk menemukan hyperplane Machine”, Journal of IEICE, Vol.83, No.6,
terbaik yang memisahkan dua buah class pada 2000, pp.460-466 (in Japanese)
feature space yang ditunjang oleh strategi 3- Vapnik V.N., “The Nature of Statistical
Structural Risk Minimization (SRM). Learning Theory”, 2nd edition, Springer-Verlag,
Pada paruh kedua dari makalah ini, dibahas New York Berlin Heidelberg, 1999
aplikasi SVM pada bioinformatika, khususnya
4- Cristianini N., Taylor J.S., “An Introduction to
analisa ekspresi gen yang diperoleh dari
Support Vector Machines and Other
eksperimen microarray terhadap pasien
Kernel-Based Learning Methods”, Cambridge
penderita penyakit kanker. Eksperimen ini
Press University, 2000
dilakukan oleh group Terrence S. Furey, dengan
tujuan memakai SVM untuk mengklasifikan 5- Vijayakumar S, Wu S, “Sequential Support
apakah suatu pasien terkena penyakit kanker Vector Classifiers and Regression”, Proc.
atau tidak, berdasarkan hasil analisa microarray International Conference on Soft Computing
terhadap sel pasien tersebut. Secara umum, (SOCO'99),Genoa, Italy, pp.610-619, 1999
SVM menunjukkan hasil yang lebih baik 6- Witarto A.B, “Bioinformatika:
daripada perceptron. Walaupun demikian, Mengawinkan teknologi informasi dengan
dikarenakan jumlah sampel yang relatif sedikit, bioteknologi”, http://ilmukomputer.com ,
hasil eksperimen itu belum dapat memberikan June 2003 (in Indonesian)
kesimpulan final bahwa SVM superior terhadap 7- Utama A., “Peranan bioinformatika dalam
perceptron. dunia kedokteran”,
Kuliah Umum IlmuKomputer.Com
Copyright © 2003 IlmuKomputer.Com

http://ilmukomputer.com , August 2003 11- Maeda E., “Gene expression analysis and
(in Indonesian) feature selection”, IEICE Technical Report,
8- Nugroho A.S., “Bioinformatika dan pattern PRMU-2003-37, Vol.103, No.150, 2003,
recognition”, http://ilmukomputer.com , pp.57-62 (in Japanese)
July 2003 (in Indonesian) 12- Golub T. et al., “Molecular classification of
9- Furey T.S, et al., “Support vector machine cancer : class discovery and class prediction
classification and validation of cancer tissue by gene expression monitoring”, Science,
samples using microarray expression data”, Vol. 286, 1999, pp.531-537
Bioinformatics, Vol.16, No.10, 2000, 13- Alon U. et al., “Broad patterns of gene
pp.906-914 expression revealed by clustering analysis
10- Ward J.J., et al., “Secondary structure of tumor and normal colon tissues probed
prediction with support vector machine”, by oligonucleotide arrays”, Proc. Natl. Acad.
Bioinformatics, Vol.19, No.13, 2003, Sci. USA, No.96, 1999, pp.6745-6750
pp.1650-1655

Anda mungkin juga menyukai