Anda di halaman 1dari 21

MAKALAH DATA MINING

SUPPORT VECTOR MACHINE (SVM)

Di Susun Oleh :

Nama NRP

: RA. Toyyibatul Faihah : 07.04.111.00132

JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS TRUNOJOYO 2010

PENDAHULUAN
1.1 Latar Belakang Support Vector Machine (SVM) adalah salah satu metode PR yang akhirakhir ini banyak mendapat perhatian. Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar SVM sebenarnya merupakan kombinasi harmonis dari teoriteori komputasi yang telah ada puluhan tahun sebelumnya, seperti margin hyperplane (Duda & Hart tahun 1973, Cover tahun 1965, Vapnik 1964, dsb.), kernel diperkenalkan oleh Aronszajn tahun 1950, dan demikian juga dengan konsepkonsep pendukung yang lain. Akan tetapi hingga tahun 1992, belum pernah ada upaya merangkaikan komponen komponen tersebut. Prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problem non-linear. dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi. Support Vector Machine (SVM) juga dikenal sebagai teknik pembelajaran mesin (machine learning) paling mutakhir setelah pembelajaran mesin sebelumnya yang dikenal sebagai Neural Network (NN). Baik SVM maupun NN tersebut telah berhasil digunakan dalam pengenalan pola. Pembelajaran dilakukan dengan menggunakan pasangan data input dan data output berupa sasaran yang diinginkan. Pembelajaran dengan cara ini disebut dengan pembelajaran terarah (supervised learning). Dengan pembelajaran terarah ini akan diperoleh fungsi yang menggambarkan bentuk ketergantungan input dan outputnya. Selanjutnya, diharapkan fungsi yang diperoleh mempunyai kemampuan generalisasi yang baik, dalam arti bahwa fungsi tersebut dapat digunakan untuk data input di luar data pembelajaran. 1.2 Rumusan Masalah Pada makalah ini akan dibahas sebagai berikut : I. Support Vector Machine (umum) II. Support Vector Machine Classification III. Support Vector Machine Regression IV. Aplikasi SVM dalam a. Pengolahan Citra b. Pengolahan Audio c. Data Mining d. Klasifikasi Dokumen Web e. Peramalan (Forecasting) 1.3 Tujuan 1. Agar pembaca bisa mengerti pengertian tentang Support Vector Machine secara umum 2. Pembaca mengerti tentang Support Vector Classification 3. Pembaca mengerti tentang Support Vector Regression 4. Pembaca dapat mengetahui contoh Aplikasi menggunakan Support Vector Machine

I.

SUPPORT VECTOR MACHINE (UMUM)

Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar 1a memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : positif (dinotasikan dengan +1) dan negatif (dinotasikan dengan 1). Pattern yang tergabung pada class negatif disimbolkan dengan kotak, sedangkan pattern pada class positif, disimbolkan dengan lingkaran. Proses pembelajaran dalam problem klasifikasi diterjemahkan sebagai upaya menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada Gambar 1a. (5)

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tsb. dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan data terdekat dari masing-masing class. Subset data training set yang paling dekat ini disebut sebagai support vector. Garis solid pada Gambar 1b menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class, sedangkan titik kotak dan lingkaran yang berada dalam lingkaran hitam adalah support vector. Upaya mencari lokasi hyperplane optimal ini merupakan inti dari proses pembelajaran pada SVM Data yang tersedia dinotasikan sebagai sedangkan label masing-masing dinotasikan untuk i = 1,2,,l , yang mana l adalah banyaknya data. Diasumsikan kedua class 1 dan +1 dapat terpisah secara sempurna oleh hyperplane berdimensi d , yang didefinisikan:

Sebuah pattern yang termasuk class 1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan:

sedangkan pattern

yang termasuk class +1 (sampel positif):

Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya, yaitu . Hal ini dapat dirumuskan sebagai Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan (4), dengan memperhatikan constraint persamaan (5).

Problem ini dapat dipecahkan dengan berbagai teknik komputasi, di antaranya Lagrange Multiplier sebagaimana ditunjukkan pada persamaan (6).

adalah Lagrange multipliers, yang bernilai nol atau positif . Nilai optimal dari persamaan (6) dapat dihitung dengan meminimalkan L terhadap w dan b , dan memaksimalkan L terhadap . Dengan memperhatikan sifat bahwa pada titik optimal gradient L =0, persamaan (6) dapat dimodifikasi sebagai maksimalisasi problem yang hanya mengandung saja , sebagaimana persamaan (7). Maximize:

Subject to:

Dari hasil dari perhitungan ini diperoleh yang kebanyakan bernilai positif. Data yang berkorelasi dengan yang positif inilah yang disebut sebagai support vector. Karakteristik SVM 1. Secara prinsip SVM adalah linear classifier 2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang baru tersebut. Hal ini membedakan SVM dari solusi pattern recognition pada umumnya, yang melakukan optimisasi parameter pada ruang hasil transformasi yang berdimensi lebih rendah daripada dimensi input space. 3. Menerapkan strategi Structural Risk Minimization (SRM) 4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua class. (5) Kelebihan Dan Kekurangan SVM Dalam memilih solusi untuk menyelesaikan suatu masalah, kelebihan dan kelemahan masing-masing metode harus diperhatikan. Selanjutnya metode yang tepat dipilih dengan memperhatikan karakteristik data yang diolah. Dalam hal SVM, walaupun berbagai studi telah menunjukkan kelebihan metode SVM dibandingkan metode konvensional lain, SVM juga memiliki berbagai kelemahan.
4

Kelebihan SVM antara lain sebagai berikut : 1. Generalisasi Generalisasi didefinisikan sebagai kemampuan suatu metode (SVM, neural network, dsb.) untuk mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase pembelajaran metode itu. Vapnik menjelaskan bahwa generalization error dipengaruhi oleh dua faktor: error terhadap training set, dan satu faktor lagi yang dipengaruhi oleh dimensi VC (Vapnik-Chervokinensis). Strategi pembelajaran pada neural network dan umumnya metode learning machine difokuskan pada usaha untuk meminimimalkan error pada training-set. Strategi ini disebut Empirical Risk Minimization (ERM). Adapun SVM selain meminimalkan error pada training-set, juga meminimalkan faktor kedua. Strategi ini disebut Structural Risk Minimization (SRM), dan dalam SVM diwujudkan dengan memilih hyperplane dengan margin terbesar. Berbagai studi empiris menunjukkan bahwa pendekatan SRM pada SVM memberikan error generalisasi yang lebih kecil daripada yang diperoleh dari strategi ERM pada neural network maupun metode yang lain. 2. Curse of dimensionality Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognition dalam mengestimasikan parameter (misalnya jumlah hidden neuron pada neural network, stopping criteria dalam proses pembelajaran dsb.) dikarenakan jumlah sampel data yang relatif sedikit dibandingkan dimensional ruang vektor data tersebut. Semakin tinggi dimensi dari ruang vektor informasi yang diolah, membawa konsekuensi dibutuhkannya jumlah data dalam proses pembelajaran. Pada kenyataannya seringkali terjadi, data yang diolah berjumlah terbatas, dan untuk mengumpulkan data yang lebih banyak tidak mungkin dilakukan karena kendala biaya dan kesulitan teknis. Dalam kondisi tersebut, jika metode itu terpaksa harus bekerja pada data yang berjumlah relatif sedikit dibandingkan dimensinya, akan membuat proses estimasi parameter metode menjadi sangat sulit. Curse of dimensionality sering dialami dalam aplikasi di bidang biomedical engineering, karena biasanya data biologi yang tersedia sangat terbatas, dan penyediaannya memerlukan biaya tinggi. Vapnik membuktikan bahwa tingkat generalisasi yang diperoleh oleh SVM tidak dipengaruhi oleh dimensi dari input vector. Hal ini merupakan alasan mengapa SVM merupakan salah satu metode yang tepat dipakai untuk memecahkan masalah berdimensi tinggi, dalam keterbatasan sampel data yang ada. 3. Landasan teori Sebagai metode yang berbasis statistik, SVM memiliki landasan teori yang dapat dianalisa dengan jelas, dan tidak bersifat Kuliah Umum IlmuKomputer.Com Copyright 2003 IlmuKomputer.Com black box.

4. Feasibility SVM dapat diimplementasikan relative mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem. Dengan demikian jika kita memiliki library untuk menyelesaikan QP problem, dengan sendirinya SVM dapat diimplementasikan dengan mudah. Selain itu dapat diselesaikan dengan metode sekuensial sebagaimana penjelasan sebelumnya. SVM memiliki kelemahan atau keterbatasan, antara lain: 1. Sulit dipakai dalam problem berskala besar. Skala besar dalam hal ini dimaksudkan dengan jumlah sample yang diolah. 2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua class. Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan class lebih dari dua, antara lain strategi One versus rest dan strategi Tree Structure. Namun demikian, masing-masing strategi ini memiliki kelemahan, sehingga dapat dikatakan penelitian dan pengembangan SVM pada multiclass-problem masih merupakan tema penelitian yang masih terbuka. (5)

II.

SUPPORT VECTOR CLASSIFICATION

Masalah klasifikasi dapat dibatasi untuk pertimbangan masalah kelas dua tanpa kehilangan umum. Dalam masalah ini tujuannya adalah untuk memisahkan dua kelas dengan fungsi yang diinduksi dari contoh-contoh yang tersedia. Tujuannya adalah untuk menghasilkan suatu classifier yang akan bekerja dengan baik pada contoh yang tak terlihat, yakni generalises baik. Pertimbangkan contoh pada Gambar 2.1. Di sini ada banyak pengklasifikasi linear mungkin yang dapat memisahkan data, tapi hanya ada satu yang dapat memaksimalkan margin (memaksimalkan jarak antara itu dan titik data terdekat dari masing-masing kelas). Linear classifier ini disebut sebagai optimal memisahkan hyperplane. Secara intuitif, kita berharap batas ini untuk menggeneralisasi serta bertentangan dengan batas-batas lainnya. (1)

2.1 Memisahkan hyperplane Optimal Pertimbangkan kelas, masalah memisahkan set vektor pelatihan milik dua terpisah

Dengan hyperlane Himpunan vektor dikatakan optimal dipisahkan oleh hyperplane jika dipisahkan tanpa kesalahan dan jarak antara vektor terdekat dengan hyperplane adalah maksimal. Ada beberapa redundansi dalam Persamaan 2.2, dan tanpa kehilangan umum sudah sesuai untuk mempertimbangkan hyperplane kanonik (Vapnik, 1995), dimana parameter w, b adalah dibatasi oleh,

Kendala ini tajam pada parameterisation adalah lebih baik daripada alternatif dalam menyederhanakan perumusan masalah. Dalam kata-kata itu menyatakan bahwa: norma beratvektor harus sama dengan kebalikan dari kejauhan, dari titik terdekat dalam kumpulan data untuk hyperplane tersebut. Idenya adalah diilustrasikan pada Gambar 2.2, di mana jarak dari titik terdekat untuk setiap hyperplane ditampilkan.
7

Sebuah hyperplane memisahkan dalam bentuk kanonik harus memenuhi kendala berikut, Jarak d (w, b, x) titik x dari hyperplane (w, b),

Hyperplane optimal diberikan dengan memaksimalkan margin, tunduk pada batasan Persamaan 2.4. Margin yang diberikan oleh,

Oleh karena itu hyperplane yang optimal memisahkan data tersebut merupakan salah satu yang meminimalkan Bersifat independen dari b karena disediakan Persamaan 2,4 puas (yakni adalah memisahkan hyperplane) mengubah b akan bergerak dalam arah normal terhadap dirinya sendiri. Sesuai dengan margin tetap tidak berubah tetapi hyperplane tidak lagi optimal yang akan lebih dekat ke salah satu kelas dari yang lain. Untuk mempertimbangkan bagaimana meminimalkan Persamaan setara 2,7 untuk menerapkan prinsip SRM, anggaplah bahwa terikat berikut memegang,

Kemudian dari Persamaan 2.4 dan 2.5,

Sesuai dengan hyperplanes tidak dapat lebih dekat dari 1/A ke salah satu poin data

dan intuitif ini dapat dilihat pada Gambar 2.3 bagaimana hal ini mengurangi hyperplanes mungkin, dan maka kapasitas.

Dimensi VC, dibatasi oleh,

h,

dari himpunan

hyperplanes

kanonik

di ruang dimensi

di mana R adalah jari-jari dari hypersphere melampirkan semua titik data. Oleh karena itu meminimalkan Persamaan 2,7 setara dengan meminimalkan suatu atas terikat pada dimensi VC. Itu solusi untuk masalah optimasi Persamaan 2,7 bawah kendala Persamaan 2,4 diberikan oleh titik pelana dari fungsional Lagrange (Lagrangian) (Minoux, 1986),

dimana pengali Lagrange. The Lagrangian harus diminimalkan dengan hormat untuk w, b dan maksimal sehubungan dengan 0. Dualitas Lagrangian Klasik memungkinkan masalah primal, Persamaan 2,11, untuk diubah ke masalah dual, yang lebih mudah untuk menyelesaikan. Masalah dual diberikan oleh,

Minimum sehubungan dengan w dan b dari Lagrangian, diberikan oleh,

Maka dari Persamaan 2.11, 2.12, dan 2.13 masalah ganda,

dan karena itu solusi untuk masalah ini adalah diberikan oleh,

dengan kendala,

Menyelesaikan Persamaan dengan kendala 2.15 2.16 Persamaan menentukan pengali Lagrange, dan memisahkan hyperplane optimal diberikan oleh,

dimana xr dan xs adalah setiap vektor dukungan dari setiap kelas memuaskan,

The hard classifier is then,

Atau, sebuah classifier lunak yang dapat digunakan linear interpolates pinggiran,

Ini mungkin lebih tepat daripada classifier keras Persamaan 2,19, karena menghasilkan output bernilai nyata antara -1 dan 1 saat classifier yang dipertanyakan dalam margin, di mana tidak ada data pelatihan tinggal. Dari kondisi Kuhn-Tucker, dan karenanya hanya x i titik yang memuaskan,

akan memiliki bukan nol pengali Lagrange. Titik-titik ini disebut Vektor Dukungan (SV). Jika data linier terpisah semua SV akan terletak di marjin dan maka jumlah SV bisa sangat kecil. Akibatnya hyperplane ditentukan oleh subset kecil set pelatihan; titik lain bisa disingkirkan dari rangkaian pelatihan dan menghitung ulang hyperplane akan menghasilkan jawaban yang sama. Oleh karena SVM dapat digunakan untuk meringkas informasi yang terkandung dalam data yang ditetapkan oleh SV diproduksi. Jika data linier terpisah persamaan berikut akan terus,

Maka dari 2,10 Persamaan dimensi VC dari classifier ini dibatasi oleh,

10

dan jika data pelatihan, x, menjadi normal terletak dalam hypersphere unit, III. 2.1.1 Linearly Separable Example Untuk mengilustrasikan metode mempertimbangkan pelatihan ditetapkan dalam Tabel 2.1. Solusi SVC ditunjukkan pada Gambar 2.4, di mana garis putusputus menggambarkan lokus margin dan data mengelilingi poin mewakili SV, yang semuanya terletak pada margin. (1)

2.2 The Generalised Optimal Separating Hyperplane Sejauh ini diskusi telah dibatasi untuk kasus di mana data pelatihan linear dipisahkan. Namun, secara umum hal ini tidak akan menjadi kasus, Gambar 2.5. Ada dua pendekatan untuk generalising masalah, yang tergantung pada pengetahuan sebelumnya masalah dan perkiraan dari kebisingan pada data. Dalam kasus di mana diharapkan (Atau bahkan mungkin tidak diketahui) bahwa hyperplane dengan benar dapat memisahkan data, metode memperkenalkan fungsi biaya tambahan terkait dengan kesalahan klasifikasi yang tepat. (1)

11

Atau fungsi yang lebih kompleks dapat digunakan untuk menggambarkan batas, seperti dijelaskan dalam Bab 2.1. Untuk mengaktifkan metode hyperplane optimal untuk memisahkan secara umum, Cortes dan Vapnik (1995) memperkenalkan variabel non-negatif, , dan penalty fungsi,

di mana adalah ukuran dari kesalahan kesalahan klasifikasi. Masalah optimisasi sekarang berpose sehingga mengurangi kesalahan klasifikasi serta meminimalkan terikat pada VC pemilah dimensi. Keterbatasan Persamaan 2,4 dimodifikasi untuk non-terpisah kasus untuk,

dimana Yang optimal memisahkan hyperplane umum ditentukan oleh vektor w, yang meminimalkan fungsional,

(Di mana C adalah nilai yang diberikan) pada batasan-batasan Persamaan 2.27. Solusinya untuk masalah optimasi Persamaan 2,28 di bawah 2,27 Persamaan kendala adalah ditentukan oleh titik pelana dari Lagrangian (Minoux, 1986),

2.2.1 Linearly Non-Separable Example Dua poin tambahan data ditambahkan ke data dipisahkan dari Tabel 2.1 untuk menghasilkan data non-linear set terpisah, Tabel 2.2. SVC yang dihasilkan ditunjukkan pada Gambar 2.6, untuk C = 1. The SV tidak lagi diperlukan untuk berbaring di pinggiran, seperti dalam Gambar 2.4, dan orientasi hyperplane dan lebar margin yang berbeda. (1)

12

III. SUPPORT VECTOR REGRESSION SVMs juga dapat diterapkan untuk masalah regresi dengan pengenalan alternative kehilangan fungsi, (Smla, 1996). Fungsi kerugian harus dimodifikasi untuk menyertakan jarak mengukur. Gambar 5.1 menggambarkan empat fungsi kemungkinan kerugian.

Fungsi kerugian pada Gambar 5.1 (a) sesuai dengan kuadrat terkecil konvensional kesalahan kriteria. Fungsi kerugian pada Gambar 5.1 (b) adalah fungsi kerugian Laplacian yang kurang sensitif terhadap pencilan dibandingkan dengan fungsi kerugian kuadratik. Huber mengusulkan fungsi kerugian pada Gambar 5.1 (c) sebagai fungsi kerugian kuat yang memiliki sifat yang optimal ketika distribusi yang mendasari data tidak diketahui. Ketiga fungsi kerugian akan menghasilkan tidak kekurangan dalam vektor dukungan. Untuk mengatasi masalah ini diusulkan Vapnik fungsi kerugian pada Gambar 5.1 (d) sebagai pendekatan untuk fungsi kerugian Huber yang memungkinkan jarang set vektor dukungan akan diperoleh. (1) 3.1 Linear Regression Pertimbangkan masalah yang kurang lebih set data,

dengan fungsi linear,

fungsi regresi optimal diberikan oleh minimum fungsional,

13

di mana C adalah nilai pra-ditentukan, dan adalah variabel slack mewakili atas dan kendala yang lebih rendah pada output dari sistem. (1) 3.1.1 - insensitive Loss Function Menggunakan fungsi kerugian yang-tidak sensitif, Gambar 5.1 (d),

solusinya adalah diberikan oleh,

atau dengan alternatif,

dengan kendala,

Menyelesaikan Persamaan dengan kendala Persamaan 5.5, 5.7 menentukan pengali Lagrange, Dan fungsi regresi diberikan oleh Persamaan 5.2, di mana

Karush-Kuhn-Tucker (KKT) kondisi yang dipenuhi dengan larutan ini adalah,

Oleh karena itu vektor dukungan adalah titik di mana tepat salah satu pengali Lagrange lebih besar dari nol. Ketika = 0, kita mendapatkan fungsi kerugian L1 dan optimasi masalah ini disederhanakan,

Dengan kendala,

Dan fungsi regresi diberikan oleh persamaan 5.2, dimana

14

3.1.2 Quadratic Loss Function Menggunakan fungsi kerugian kuadrat, Gambar 5.1 (a),

solusinya adalah,

Optimasi terkait dapat disederhanakan dengan memanfaatkan kondisi KKT, Persamaan 5.9 dan mencatat bahwa ini menyiratkan i = | i |. Masalah optimasi yang dihasilkan adalah,

dengan kendala,

dan fungsi regresi diberikan oleh Persamaan 5.2 dan 5.12. (1) 3.1.3 Huber Loss Function Menggunakan fungsi Huber kerugian, Gambar 5.1 (c),

Solusinya diberikan oleh,

Masalah optimasi resultan adalah,

dengan kendala,

dan fungsi regresi diberikan oleh Persamaan (56) dan (66).

(1)

15

IV. 4.1

APLIKASI SUPPORT VECTOR MACHINE

Pengolahan Citra Klasifikasi Citra Dengan Support Vector Machine

Support Vector Machine (SVM) adalah salah satu teknik klasifikasi data dengan proses pelatihan supervised learning). Salah satu ciri dari metode klasifikasi SVM adalah menemukan hyperplane terbaik sehingga diperoleh ukuran margin yang maksimal. Margin adalah jarak antara hyperplane tersebut dengan titik terdekat dari masing- masing kelas. Titik yang paling dekat ini disebut dengan support vector. Klasifikasi citra dengan menggunakan SVM mencapai akurasi sebesar 86.67%. Hasil klasifikasi tersebut selanjutnya digunakan untuk penemuan kembali citra (image retrieval). Pada penelitian ini, temu kembali citra diujicobakan kedua metode yang berbeda untuk melihat perbedaan tingkat keefektifan hasil temu kembali citra. Dua metode ini adalah temu kembali citra tanpa menggunakan SVM dan temu kembali citra menggunakan SVM. Hasil temu kembali citra tanpa menggunakan SVM hanya didasarkan pada kemiripan ciri warna menggunakan perhitungan jarak Euclidean. Contoh hasil temu kembali tanpa menggunakan SVM dapat dilihat pada Gambar 3.

Gambar 3 memperlihatkaan bahwa citra hasil temu kembali tidak sepenuhnya berasal dari jenis citra yang sama dengan citra kueri. Citra-citra tersebut cenderung berwarna biru, berbeda sekali dengan warna citra kueri yang cenderung berwarna hijau kekuningan. Hal ini dikarenakan sistem hanya menemukembalikan citra di dalam basis data yang mempunyai tingkat kemiripan yang tinggi dengan citra kueri. Kekurangan sistem ini diperbaiki oleh temu kembali citra menggunakan SVM yang dapat dilihat pada Gambar 4. Berdasarkan Gambar 4, dapat dilihat bahwa citra hasil temu kembali dengan menggunakan SVM lebih baik Hal ini dikarenakan sistem mempunyai model klasifikasi untuk memprediksi baik citra kueri maupun seluruh citra di dalam basis data sehingga diperoleh kelas yang baru untuk setiap citra. Citra yang ditemukembalikan adalah citra hasil klasifikasi di dalam basis data yang terdapat dalam kelas citra yang sama dengan citra kueri dan citra dari kelas lain yang memiliki tingkat kemiripan yang tinggi dengan citra kueri. Dari hasil diatas dapatdisimpulkan bahwa rataan precision hasil temu kembali citra menggunakan SVM cenderung lebih baik dibandingkan tanpa menggunakan
16

SVM untuk setiap nilai recall. Klasifikasi dengan SVM menghasilkan average precision sebesar 76,76% sedangkan tanpa menggunakan SVM mencapai 50,91%. Dengan demikian metode klasifikasi SVM dapat digunakan untuk sistem temu kembali citra. (3) 4.2 Pengolahan Audio Konten Berbasis Audio Klasifikasi dan pembukaan Menggunakan SVM Belajar Metode SVM digunakan untuk konten berbasis audio klasifikasi dan pengambilan. Seperti NFL, SVM yang memiliki kinerja yang baik dalam klasifikasi audio dan pengambilan, lebih baik daripada saat ini dicapai oleh sistem MuscleFish. SVM Ketika diuji menggunakan pelatihan terpisah dan set test, lebih menguntungkan dibandingkan NFL dalam hal pengambilan efisiensimenunjukkan perusahaan kata generalisasi kemampuan untuk diklasifikasikan. Sify pola tak terlihat pada training set. Namun, SVM membutuhkan waktu lama untuk melatih, dan saat ini, dan kebutuhan untuk memilih kernel fungsi dan parameter di dalamnya yang saat ini dipraktekkan oleh trial and error. (7) 4.3 Data Mining Aplikasi Data Mining Untuk Memprediksi Kelas Resiko Pemberian Kredit Menggunakan Support Vector Machine (Svm) Didalam kegiatan perkreditan sering terjadi masalah kredit macet atau kredit bermasalah yang disebabkan oleh gagalnya pengembalian sebagian pinjaman yang diberikan kepada para peminjam. Masalah ini sebenarnya dapat diatasi, salah satunya dengan mengidentifikasi dan memprediksi nasabah dengan baik sebelum memberikan pinjaman dengan cara memperhatikan data historis pinjaman. SVM adalah suatu teknik dalam Data Mining yang dapat dipakai untuk melakukan klasifikasi. Dalam teknik SVM untuk masalah klasifikasi kkelas , kita menemukan k fungsi pemisah . Kemudian kelas dari suatu data atau obyek baru kkbZwbZwbZw+++.,..., 1. 1 , 2 . 2 Z ditentukan berdasarkan nilai terbesar dari fungsi pemisah: =jclass of Z=. mmkmb+ w Z = argmax . 1,2,..., Hasil yang diperoleh dari Tugas Akhir ini adalah metode SVM dapat digunakan untuk memprediksi calon nasabah baru dengan melakukan pengenalan pola data historis. 4.4 Klasifikasi Dokumen Web Penerapan Support Vector Machine untuk Ekstraksi Informasi dari Dokumen Teks Proses ekstraksi informasi (Information Extraction atau IE) adalah proses pengubahan dokumen teks tidak terstruktur dengan domain tertentu ke dalam sebuah struktur informasi yang relevan. Di dalam tugas akhir ini domain yang digunakan adalah lowongan pekerjaan. Kebanyakan iklan lowongan pekerjaan yang terdapat di berbagai website perusahaan maupun website khusus lowongan
17

pekerjaan di Indonesia merupakan dokumen teks berbahasa campuran, Indonesia dan Inggris. Pada proses ekstraksi informasi pada dataset berbahasa campuran, dengan menerapkan teknik pembelajaran mesin. Pendekatan pembelajaran mesin yang digunakan adalah pendekatan statistik, dengan metode klasifikasi token. Algoritma klasifikasi yang digunakan adalah Support Vector Machine (SVM) dengan uneven margin, yang didesain khusus untuk imbalanced dataset. Sedangkan strategi tagging yang digunakan adalah strategi Begin/End (BE) tagging. Adapun eksperimen yang dilakukan mencakup analisis performansi SVM dengan uneven margin untuk ekstraksi informasi pada dataset berbahasa campuran, pengujian parameter pembelajaran terbaik, dan perbandingan dengan algoritma klasifikasi lain, yaitu Nave Bayes dan KNN.

Hasil eksperimen menunjukkan bahwa performansi SVM dengan uneven margin untuk ekstraksi informasi pada dataset lowongan pekerjaan berbahasa campuran sangat baik, dengan akurasi mencapai 85%. Dengan demikian dapat disimpulkan bahwa sistem ekstraksi informasi yang diimplementasikan dapat diterapkan pada lingkungan bursa kerja di Indonesia. Selain itu, algoritma SVM dengan uneven margin juga memiliki performansi yang lebih unggul dibandingkan dengan kedua algoritma lainnya. (4) 4.5 Peramalan (Forecasting) Implementasi Kernel Wavelet Dan Support Vector Machine Untuk Prediksi Volatilitas Salah satu permasalahan dalam hal prediksi kondisi volatilitas Dari pasar modal adalah dalam fungsi-fungsi kernel yang ada dalam metode Support Vector Machine (SVM) tidak bisa menangkap fiturfitur dari pengelompokan volatilitas secara akurat. Dan sementara itu, dalam fungsi wavelet terdapat fitur yang mendeskripsikan time series dari volatilitas.
18

Metode Support Vector Regression (SVR) yang hampir sama dengan SVM digunakan untuk memprediksi volalitas. Perbedaanya adalah SVM biasanya digunakan untuk masalah klasifikasi dan pada SVR digunakan untuk masalah regresi dan kernel yang digunakan adalah kernel wavelet. Pada pengimplementasian prediksi volatilitas dengan menggunakan SVR kernel wavelet, akan digunakan juga kernel lain sebagai pembanding yaitu kernel gaussian. Pengaplikasian untuk masalah prediksi volatilitas dilakukan melalui simulasi komputer dan percobaan dalam data di dunia nyata (data time series).
(6)

19

PENUTUP Kesimpulan Makalah ini memperkenalkan teori dasar Support Vector Machine (SVM), sebagai salah satu topik yang dewasa ini banyak mendapat perhatian sebagai state of the art dalam bidang pattern recognition. Kelebihan SVM dibandingkan metode yang lain terletak pada kemampuannya untuk menemukan hyperplane terbaik yang memisahkan dua buah class pada feature space yang ditunjang oleh strategi Structural Risk Minimization (SRM). Support Vector Machine bisa diterapkan dalam berbagai aplikasi seperti pengolahan citra, pengolahan audio, data mining, klasifikasi dokumen web, peramalan (forecasting), dan sebagainya. Support vector machine memiliki kelebihan diantaranya: 1. Generalisasi Generalisasi didefinisikan sebagai kemampuan suatu metode (SVM, neural network, dsb.) untuk mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase pembelajaran metode itu. 2. Curse of dimensionality Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognition dalam mengestimasikan parameter (misalnya jumlah hidden neuron pada neural network, stopping criteria dalam proses pembelajaran dsb.) dikarenakan jumlah sampel data yang relatif sedikit dibandingkan dimensional ruang vektor data tersebut 3. Landasan teori Sebagai metode yang berbasis statistik, SVM memiliki landasan teori yang dapat dianalisa dengan jelas, dan tidak bersifat Kuliah Umum IlmuKomputer.Com Copyright 2003 IlmuKomputer.Com black box. 4. Feasibility SVM dapat diimplementasikan relative mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem. Support Vector Machine juga memiliki kelemahan atau keterbatasan, 1. Sulit dipakai dalam problem berskala besar. Skala besar dalam hal ini dimaksudkan dengan jumlah sample yang diolah. 2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua class. Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan class lebih dari dua, antara lain strategi One versus rest dan strategi Tree Structure. Namun demikian, masing-masing strategi ini memiliki kelemahan, sehingga dapat dikatakan penelitian dan pengembangan SVM pada multiclass-problem masih merupakan tema penelitian yang masih terbuka.

20

DAFTAR PUSTAKA

1. S. R Gun . Support Vector Machines For Classification And Regression, 1998. 2. C. Cortes and V. Vapnik. Support vector networks. Machine Learning, 20:273 297, 1995. 3. Seminar Nasional Sistem dan Informatika 2007; Bali, 16 November 2007 4. http://skripsimu-blog.blogspot.com/2009/03/penerapan-support-vectormachine- untuk.html 5. http://asnugroho.net/papers 6. http://digilib.its.ac.id/ITS-Undergraduate-3100009035905/8385 7. http://research.microsoft.com/pubs/68796/content_audio_classification.pdf

21