Anda di halaman 1dari 14

LAPORAN PRAKTIKUM

Kelas

KOMPUTASI STATISTIKA

MANAJEMEN DATA DI R DENGAN COMMAND LINE

NAMA

NOMOR

TANGGAL

PRAKTIKAN

MAHASISWA

KUMPUL

MAULINA S.

11611036

23 Oktober 2014

NAMA PENILAI

TANGGAL

TANDA TANGAN
PRAKTIKAN
LABORAN

NILAI

KOREKSI

TANDA TANGAN
ASISTEN

DOSEN

Ayu Septiani
Muhammad
Muhajir,S.Si.,M.Si.

JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA
2014

BAB I
PENDAHULUAN
I. Support Vector Machines
a. Konsep Support Vector Machines
Support Vector Machines adalah suatu metode supervised learning yang
digunakan untuk melakukan klasifikasi data. Support Vector Machines bekerja dengan
cara memetakan dataset masukan (input space) ke dalam vektor yang berdimensi
tinggi untuk kemudian dilakukan pemisahan antar class denganmenggunakan
hyperlane (Mahsus, dkk, 2012). Pembentukan hyperlane ini berdasarkan support
vectors yang merupakan data yang memiliki jarak paling dekat dengan hyperlane
yang dibangun (Steve, 2003).
b. Karakteristik Support Vector Machines
Menurut (Nugroho,2003), karakteristik SVM secara umum dirangkumkan
sebagai berikut:
1. Secara prinsip SVM adalah linear classifier.
2. Pattern recognition dilakukan dengan mentransformasikan data pada input space ke
ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang
baru tersebut.
3. Menerapkan strategi Structural Risk Minimization (SRM).
4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua kelas.
c. Kelebihan Support Vector Machines
Adapun beberapa kelebihan dari metode SVM adalah sebagai berikut:
1. Generalisasi
Generalisasi
didefinisikan
sebagai
kemampuan
suatu
metode
untuk
mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase
pembelajaran metode itu.
2. Curse of dimensionality
Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode
pettern recognition dalam mengestimasikan parameter dikarenakan jumlah sampel
data yang relative lebih sedikit dibandingkan dengan dimensional ruang vektor data
tersebut.
3. Feasibility
SVM dapat diimplementasikan relative mudah, karena proses penentuan support
vector dapat dirumuskan dalam QP problem (Nugroho, 2003)
d. Kekurangan Support Vector Machines
Adapun beberapa kekurangan dari metode SVM adalah sebagai berikut :
1. Sulit dipakai problem berskala besar. Dalam hal ini dimaksudkan dengan jumlah
sampel yang diolah.
2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua kelas.
Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan lebih
dari dua kelas (Nugroho, 2003).

II. Jenis Data Pada R


Beberapa jenis data pada R antara lain yaitu data vektor, data matriks, data frame, dan
daa list.
a. Data Vektor
Vektor merupakan suatu array atau himpunan bilangan, character atau string, logical
value, dan merupakan objek paling dasar yang dikenal dalam R. Pada data vektor
harus digunakan mode tunggal pada data, sehingga gabungan dua data atau lebih yang
berbeda mode tidak dapat dilakukan ke dalam satu objek vektor.
b. Data Matriks
Matriks atau data array dua dimensi adalah salah satu data yang banyak digunakan
dalam pemrograman statistik. Proses entry data matriks dilakuka dengan
menggunakan fungsi matrix. Argumen yang diperlukan adalah elemen-elemen
matriks, dan argumen optional yaitu banyaknya baris dan banyaknya kolom. Untuk
pengisisan matriks menurut baris per baris dapat dilakukan dengan menggunakan
argumen optionalbyrow=T.
c. Data Frame
Data frame merupakan objek yang mempunyai bentuk sama dengan matriks, yaitu
terdiri atas baris dan kolom. Perbedaannya adalah data frame dapat terdiri atas mode
data yang berbeda-beda untuk setiap kolomnya. Objek data frame dapat dibuat dengan
menggunakan perintah data.frame.
d. Data List
Data list merupakan objek yang paling umum dan paling fleksibel di dalam R. List
adalah suatu vektor terurut dari sekumpulan komponen. Setiap komponen dapat
berupa sembarang data objek, yaitu vektor, matriks, data frame, atau data list sendiri.
Tiap kompnen pada data list dapat mempunyai mode yang berbeda. Data list dapat
dibuat dengan menggunakan perintah list.
BAB II
DESKRIPSI KERJA
I. Support Vector Machines
1. Membuka http://cran.r-project.org/

Gambar 2.1 Page cran.r-project.org


2. Klik Task Views.

3. Memilih CRAN Task View: Machine Learning & Statistical Learning.

Gambar 2.2 Task Views


4. Pada CRAN Task View: Machine Learning & Statistical Learning, terdapat
beberapa topik yang dapat dipilih. Penulis memilih topik Support Vector Machines
and Kernel Methods.
5. Package yang didownload adalah package e1071.
6. Sebagai contoh penggunaan package e1071, penulis mengambil contoh yang
diperoleh dari http://cran.r-project.org/ berjudul

Support Vector Machines karya

David Meyer dkk. Berikut adalah langkah-langkah yang dilakukan:


7. Memanggil package e1071
> library(e1071)
8. Memanggil dataframe default variabel (iris) yang sudah ada di dalam package e1071
> data(iris)
9. Menempelkan dataframe ke dalam konteks, sehingga untuk memanggil nama kolom
tidak perlu menuliskan nama dataframe lagi, cukup dengan nama kolomnya
> attach(iris)
10. Melakukan klasifikasi menggunakan factor response
> model <- svm(Species ~ ., data = iris)
11. Menentukan subset dari pengamatan yang akan digunakan dalam pencocokan proses
> x <- subset(iris, select = -Species)
12. Mendeskripsikan variabel target y
> y <- Species

13. Pemodelan menggunakan svm


> model <- svm(x, y, probability = TRUE)
14. Melihat ringkasan model yang diperoleh
> summary(model)
15. Melakukan pengujian dengan menggunakan data latih (train data)
> pred <- predict(model, x)
> pred <- fitted(model)
16. Melakukan check accuracy
> table(pred, y)
17. Menghitung nilai keputusan dan probabilitas
> pred <- predict(model, x, decision.values = TRUE)
> attr(pred, "decision.values")[1:4,]
18. Memvisualisasikan ke dalam bentuk plot
> plot(cmdscale(dist(iris[,-5])),
+ col = as.integer(iris[,5]),
+ pch = c("o","+")[1:150 %in% model$index + 1])
II. Tipe-tipe Data Pada R
Vektor
1. Untuk data vektor, penulis mengambil contoh dari http://www.r-tutor.com/rintroduction/vector

dan

http://www.r-tutor.com/r-introduction/vector/combining-

vectors . Berikut adalah contohnya:

Matriks
Sebuah matriks adalah sekumpulan dari elemen-elemen data yang tersusun dalam sebuah
layout rectangular dua dimensi. Berikut ini adalah contoh matriks yang diambil dari
http://www.r-tutor.com/r-introduction/matrix
1. Untuk membuat matriks di dalam R, digunakan fungsi matrix. Berikut ini adalah
script yang digunakan untuk merepresentasikan matriks:

2. Suatu elemen pada m baris, n kolom dari sebuah matriks lina dapat diakses dengan
dengan menggunakan expression lina[m,n].

3. Untuk melihat element data pada suatu baris m, dapat menggunakan lina[m,].
4. Untuk melihat elemen data pada suatu kolom n, dapat menggunakan lina[,n].
5. Selain itu, dapat juga melihat lebih dari satu baris atau satu kolom pada suatu waktu.
Berikut contohnya:

6. Apabila hendak dilakukan pemberian nama untuk baris dan kolom pada matriks,
berikut contohnya:

List
1. Contoh data list pada laporan ini merupakan contoh yang diambil dari http://www.rtutor.com/r-introduction/list/named-list-members
2. Sebagai contoh, maul merupakan sebuah list dari dua anggota bernama bob dan
john. Untuk script-nya dapat dilihat pada contoh berikut:

3. List Slicing, memisahkan list, untuk melihat elemen data pada masing-masing
anggota (bob dan john).

4. Member Reference.

Data Frame
1. Untuk data frame, penulis mengambil contoh dari http://www.r-statistics.com/ .
2. Contoh berupa dataset pasien yang mengandung data numeric dan character.
Tabel 1. Dataset Pasien
PatientI

AdmDate

Age

Diabetes

Status

3.
4.
5.
6.
7.

1
10/15/2009
25
Type1
Poor
2
11/01/2009
34
Type2
Improved
3
10/21/2009
28
Type1
Excellent
4
10/28/2009
52
Type1
Poor
Membuat kolom pertama, yaitu patientID
> patientID <- c(1, 2, 3, 4)
Membuat kolom kedua, yaitu age
> age <- c(25, 34, 28, 52)
Membuat kolom ketiga, yaitu diabetes
> diabetes <- c("Type1", "Type2", "Type1", "Type1")
Membuat kolom keempat, yaitu status
> status <- c("Poor", "Improved", "Excellent", "Poor")
Membuat sebuah data frame patienID, age, diabetes, status dengan fungsi
data.frame().
> patientdata

<-

data.frame(patientID,

age,

diabetes,

status)
8. Selanjutnya yaitu mengidentifikasi element-elemt dari sebuah data frame. Script yang
digunakan adalah sebagai berikut (yang berwarna merah):
> patientdata[1:2], digunakan untuk menampilkan data pada kolom 1
(patientID) dan kolom 2 (age)

Cara lain untuk menampilkan elemen data pada kolom yang diinginkan adalah dengan
menuliskan nama kolom yang ingin dilihat elemen datanya
> patientdata[c(diabetes,status)]
> patientdata$age, digunakan untuk memunculkan data pada variabel age
yang terdapat dalam dataframe bernama patientdata.
9. Membuat crosstabulation type diabetes dan status dengan menggunakan bantuan
notasi $
> table(patientdata$diabetes, patientdata$status)

BAB III
PEMBAHASAN

Penjelasan Package e1071


Package e1071 merupakan fungsi yang dapat digunakan untuk latent class analysis, short
time Fourier transform, fuzzy clustering, support vector machines,shortest path computation,
bagged clustering, naive Bayes classifier. Package e1071 merupakan package yang pertama
kali memperkenalan implementasi SVM pada R.
Support Vector Machines

Gambar di atas merupakan hasil yang muncul ketika attach(iris). Terlihat bahwa dalam
data iris terdapat lima variabel (petal.length, petal.width, sepal.length, sepal.width, dan
species).

SVM-Type, merupakan tipe dari SVM. C-classification merupakan tipe default. Beberapa
opsi tipe yang dapat dipilih adalah nu-classification, one-classification, eps-regression, dan
nu-regression. Jumlah support vector sebanyak 51. Dari output di atas, dapat diketahui bahwa
jumlah kleas yang terbentuk ada 3 kelas dengan level setosa, versicolor, dan virginica.
Support vectors ntuk level setosa ada sebanyak 8, level versicolor sebanyak 22, dan level
virginica sebanyak 21.

Gambar di atas dapat dibilang merupakan crosstabulation antara prediksi dengan variabel
target y. Sehingga di dapatkan bahwa dari 50 setosa, ternyata semuanya dapat
diklasifikasikan dengan benar sebagai setosa. Untuk versicolor, dari 50 versicolor, yang dapat
diklasifikasikan dengan tepat sasaran bahwa mereka adalah versicolor ada sebanyak 48
versicolor, sedangkan dua sisanya, masuk ke golongan virginica. Sedangkan untuk virginica,
dari 50 virginica, yang dapat diklasifikasikan dengan tepat sasaran bahwa mereka adalah
virginica ada sebanyak 48 versicolor, sedangkan dua sisanya, masuk ke golongan versicolor.

Dari plot di atas, dapat dilihat penegelompokannya dengan lebih mudah. Pengelompokan iris
pada plot di atas, berdasarkan berwarna. Ada tiga warna; hitam, merah, hijau, berarti terdapat
tiga kelompok (setosa, versicolor, virginica). Sedangkan untuk SV (support vectors) ditandai
dengan tanda plus atau crosses. Support vectors merupakan titik data (data point) yang
terletak paling dekat dengan permukaan keputusan.

Dari langkah kerja pembuatan matriks yang telah dilakukan, diperoleh bentuk matriks seperti
gambar output di atas. Matriks di atas akan terlihat lebih cantik jika setiap kolom diberi
nama, dan berikut hasil pemberian nama untuk kolom dan baris matriks:

Data Frame

Dari patientdata[1:2], dapat ditampilkan elemen data pada kolom 1 (patientID) dan
kolom 2 (age)
Dari > patientdata[c(diabetes,status)], dapat ditampilkan elemen data
pada kolom diabetes dan status
Dari > patientdata$age, dapat ditampilkan data pada variabel age yang terdapat dalam
dataframe bernama patientdata

Gambar output di atas merupakan crosstab antara tipe diabetes dengan status. Diperoleh
bahwa: pasien dengan status excellent, tipe diabetes 1 sebanyak satu orang; pasien dengan
status improved, tipe diabetes 2 sebanyak satu orang; pasien dengan status poor, tipe diabetes
1 sebanyak dua orang.
BAB IV
PENUTUP
Dari langkah-langkah yang telah dilakukan Praktikan dan pembahasan pada bab
sebelumnya, maka didapat beberapa kesimpulan pada praktikum kali ini yaitu sebagai
berikut:
1. Package e1071 merupakan fungsi yang dapat digunakan untuk latent class analysis,
short time Fourier transform, fuzzy clustering, support vector machines,shortest path
computation, bagged clustering, naive Bayes classifier.
2. Package e1071 merupakan package yang pertama kali memperkenalan implementasi
SVM pada R.

3. Support Vector Machines adalah suatu metode supervised learning yang digunakan
untuk melakukan klasifikasi data.
4. Vektor merupakan suatu array atau himpunan bilangan, character atau string, logical
value, dan merupakan objek paling dasar yang dikenal dalam R.
5. Data frame merupakan objek terdiri atas baris dan kolom dengan data yang berbedabeda untuk setiap kolomnya.
6. List merupakan suatu vektor terurut dari sekumpulan komponen yang dapat berupa
vektor, matriks, data frame, atau data list sendiri pada setiap komponen. Tiap
kompnen pada data list dapat mempunyai mode yang berbeda.

DAFTAR PUSTAKA
Berwick, R. An Idiots guide to Support vector Machines (SVMs). Village Idiot.
Fachrurrazi,

S.

2012.

Chapter

II.pdf.

http://repository.usu.ac.id/bitstream/123456789/31198/3/Chapter%20II.pdf [22 Oktober


2014]
Mahsus, dkk. 2012. Implementasi dan Analisa Granular Support Vectro Machine Dengan
Data Cleaning (GSVM-DC) Untuk E-mail Spam Filtering. Seminar Nasional Aplikasi
Teknologi Informasi 2012 (SNATI 2012). Yogyakarta, 15-16 Juni 2012.
Mayer, David. 2014. Misc Function of the Department of Statistics (e1071).

Widyarini, T. Dan Santosa, B. Aplikasi Metode Cross Entropy Untuk Support Vector
Machines. Institut Teknologi Sepuluh Nopember (ITS) Surabaya: Jurusan Teknik
Industri.
http://www.r-statistics.com/ [22 Oktober 2014]
http://www.r-tutor.com/ [22 Oktober 2014]

Anda mungkin juga menyukai