Kelas
KOMPUTASI STATISTIKA
NAMA
NOMOR
TANGGAL
PRAKTIKAN
MAHASISWA
KUMPUL
MAULINA S.
11611036
23 Oktober 2014
NAMA PENILAI
TANGGAL
TANDA TANGAN
PRAKTIKAN
LABORAN
NILAI
KOREKSI
TANDA TANGAN
ASISTEN
DOSEN
Ayu Septiani
Muhammad
Muhajir,S.Si.,M.Si.
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA
2014
BAB I
PENDAHULUAN
I. Support Vector Machines
a. Konsep Support Vector Machines
Support Vector Machines adalah suatu metode supervised learning yang
digunakan untuk melakukan klasifikasi data. Support Vector Machines bekerja dengan
cara memetakan dataset masukan (input space) ke dalam vektor yang berdimensi
tinggi untuk kemudian dilakukan pemisahan antar class denganmenggunakan
hyperlane (Mahsus, dkk, 2012). Pembentukan hyperlane ini berdasarkan support
vectors yang merupakan data yang memiliki jarak paling dekat dengan hyperlane
yang dibangun (Steve, 2003).
b. Karakteristik Support Vector Machines
Menurut (Nugroho,2003), karakteristik SVM secara umum dirangkumkan
sebagai berikut:
1. Secara prinsip SVM adalah linear classifier.
2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke
ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang
baru tersebut.
3. Menerapkan strategi Structural Risk Minimization (SRM).
4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua kelas.
c. Kelebihan Support Vector Machines
Adapun beberapa kelebihan dari metode SVM adalah sebagai berikut:
1. Generalisasi
Generalisasi
didefinisikan
sebagai
kemampuan
suatu
metode
untuk
mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase
pembelajaran metode itu.
2. Curse of dimensionality
Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode
pettern recognition dalam mengestimasikan parameter dikarenakan jumlah sampel
data yang relative lebih sedikit dibandingkan dengan dimensional ruang vektor data
tersebut.
3. Feasibility
SVM dapat diimplementasikan relative mudah, karena proses penentuan support
vector dapat dirumuskan dalam QP problem (Nugroho, 2003)
d. Kekurangan Support Vector Machines
Adapun beberapa kekurangan dari metode SVM adalah sebagai berikut :
1. Sulit dipakai problem berskala besar. Dalam hal ini dimaksudkan dengan jumlah
sampel yang diolah.
2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua kelas.
Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan lebih
dari dua kelas (Nugroho, 2003).
dan
http://www.r-tutor.com/r-introduction/vector/combining-
Matriks
Sebuah matriks adalah sekumpulan dari elemen-elemen data yang tersusun dalam sebuah
layout rectangular dua dimensi. Berikut ini adalah contoh matriks yang diambil dari
http://www.r-tutor.com/r-introduction/matrix
1. Untuk membuat matriks di dalam R, digunakan fungsi matrix. Berikut ini adalah
script yang digunakan untuk merepresentasikan matriks:
2. Suatu elemen pada m baris, n kolom dari sebuah matriks lina dapat diakses dengan
dengan menggunakan expression lina[m,n].
3. Untuk melihat element data pada suatu baris m, dapat menggunakan lina[m,].
4. Untuk melihat elemen data pada suatu kolom n, dapat menggunakan lina[,n].
5. Selain itu, dapat juga melihat lebih dari satu baris atau satu kolom pada suatu waktu.
Berikut contohnya:
6. Apabila hendak dilakukan pemberian nama untuk baris dan kolom pada matriks,
berikut contohnya:
List
1. Contoh data list pada laporan ini merupakan contoh yang diambil dari http://www.rtutor.com/r-introduction/list/named-list-members
2. Sebagai contoh, maul merupakan sebuah list dari dua anggota bernama bob dan
john. Untuk script-nya dapat dilihat pada contoh berikut:
3. List Slicing, memisahkan list, untuk melihat elemen data pada masing-masing
anggota (bob dan john).
4. Member Reference.
Data Frame
1. Untuk data frame, penulis mengambil contoh dari http://www.r-statistics.com/ .
2. Contoh berupa dataset pasien yang mengandung data numeric dan character.
Tabel 1. Dataset Pasien
PatientI
AdmDate
Age
Diabetes
Status
3.
4.
5.
6.
7.
1
10/15/2009
25
Type1
Poor
2
11/01/2009
34
Type2
Improved
3
10/21/2009
28
Type1
Excellent
4
10/28/2009
52
Type1
Poor
Membuat kolom pertama, yaitu patientID
> patientID <- c(1, 2, 3, 4)
Membuat kolom kedua, yaitu age
> age <- c(25, 34, 28, 52)
Membuat kolom ketiga, yaitu diabetes
> diabetes <- c("Type1", "Type2", "Type1", "Type1")
Membuat kolom keempat, yaitu status
> status <- c("Poor", "Improved", "Excellent", "Poor")
Membuat sebuah data frame patienID, age, diabetes, status dengan fungsi
data.frame().
> patientdata
<-
data.frame(patientID,
age,
diabetes,
status)
8. Selanjutnya yaitu mengidentifikasi element-elemt dari sebuah data frame. Script yang
digunakan adalah sebagai berikut (yang berwarna merah):
> patientdata[1:2], digunakan untuk menampilkan data pada kolom 1
(patientID) dan kolom 2 (age)
Cara lain untuk menampilkan elemen data pada kolom yang diinginkan adalah dengan
menuliskan nama kolom yang ingin dilihat elemen datanya
> patientdata[c(diabetes,status)]
> patientdata$age, digunakan untuk memunculkan data pada variabel age
yang terdapat dalam dataframe bernama patientdata.
9. Membuat crosstabulation type diabetes dan status dengan menggunakan bantuan
notasi $
> table(patientdata$diabetes, patientdata$status)
BAB III
PEMBAHASAN
Gambar di atas merupakan hasil yang muncul ketika attach(iris). Terlihat bahwa dalam
data iris terdapat lima variabel (petal.length, petal.width, sepal.length, sepal.width, dan
species).
SVM-Type, merupakan tipe dari SVM. C-classification merupakan tipe default. Beberapa
opsi tipe yang dapat dipilih adalah nu-classification, one-classification, eps-regression, dan
nu-regression. Jumlah support vector sebanyak 51. Dari output di atas, dapat diketahui bahwa
jumlah kleas yang terbentuk ada 3 kelas dengan level setosa, versicolor, dan virginica.
Support vectors ntuk level setosa ada sebanyak 8, level versicolor sebanyak 22, dan level
virginica sebanyak 21.
Gambar di atas dapat dibilang merupakan crosstabulation antara prediksi dengan variabel
target y. Sehingga di dapatkan bahwa dari 50 setosa, ternyata semuanya dapat
diklasifikasikan dengan benar sebagai setosa. Untuk versicolor, dari 50 versicolor, yang dapat
diklasifikasikan dengan tepat sasaran bahwa mereka adalah versicolor ada sebanyak 48
versicolor, sedangkan dua sisanya, masuk ke golongan virginica. Sedangkan untuk virginica,
dari 50 virginica, yang dapat diklasifikasikan dengan tepat sasaran bahwa mereka adalah
virginica ada sebanyak 48 versicolor, sedangkan dua sisanya, masuk ke golongan versicolor.
Dari plot di atas, dapat dilihat penegelompokannya dengan lebih mudah. Pengelompokan iris
pada plot di atas, berdasarkan berwarna. Ada tiga warna; hitam, merah, hijau, berarti terdapat
tiga kelompok (setosa, versicolor, virginica). Sedangkan untuk SV (support vectors) ditandai
dengan tanda plus atau crosses. Support vectors merupakan titik data (data point) yang
terletak paling dekat dengan permukaan keputusan.
Dari langkah kerja pembuatan matriks yang telah dilakukan, diperoleh bentuk matriks seperti
gambar output di atas. Matriks di atas akan terlihat lebih cantik jika setiap kolom diberi
nama, dan berikut hasil pemberian nama untuk kolom dan baris matriks:
Data Frame
Dari patientdata[1:2], dapat ditampilkan elemen data pada kolom 1 (patientID) dan
kolom 2 (age)
Dari > patientdata[c(diabetes,status)], dapat ditampilkan elemen data
pada kolom diabetes dan status
Dari > patientdata$age, dapat ditampilkan data pada variabel age yang terdapat dalam
dataframe bernama patientdata
Gambar output di atas merupakan crosstab antara tipe diabetes dengan status. Diperoleh
bahwa: pasien dengan status excellent, tipe diabetes 1 sebanyak satu orang; pasien dengan
status improved, tipe diabetes 2 sebanyak satu orang; pasien dengan status poor, tipe diabetes
1 sebanyak dua orang.
BAB IV
PENUTUP
Dari langkah-langkah yang telah dilakukan Praktikan dan pembahasan pada bab
sebelumnya, maka didapat beberapa kesimpulan pada praktikum kali ini yaitu sebagai
berikut:
1. Package e1071 merupakan fungsi yang dapat digunakan untuk latent class analysis,
short time Fourier transform, fuzzy clustering, support vector machines,shortest path
computation, bagged clustering, naive Bayes classifier.
2. Package e1071 merupakan package yang pertama kali memperkenalan implementasi
SVM pada R.
3. Support Vector Machines adalah suatu metode supervised learning yang digunakan
untuk melakukan klasifikasi data.
4. Vektor merupakan suatu array atau himpunan bilangan, character atau string, logical
value, dan merupakan objek paling dasar yang dikenal dalam R.
5. Data frame merupakan objek terdiri atas baris dan kolom dengan data yang berbedabeda untuk setiap kolomnya.
6. List merupakan suatu vektor terurut dari sekumpulan komponen yang dapat berupa
vektor, matriks, data frame, atau data list sendiri pada setiap komponen. Tiap
kompnen pada data list dapat mempunyai mode yang berbeda.
DAFTAR PUSTAKA
Berwick, R. An Idiots guide to Support vector Machines (SVMs). Village Idiot.
Fachrurrazi,
S.
2012.
Chapter
II.pdf.
Widyarini, T. Dan Santosa, B. Aplikasi Metode Cross Entropy Untuk Support Vector
Machines. Institut Teknologi Sepuluh Nopember (ITS) Surabaya: Jurusan Teknik
Industri.
http://www.r-statistics.com/ [22 Oktober 2014]
http://www.r-tutor.com/ [22 Oktober 2014]