Pendahuluan G09gmb
Pendahuluan G09gmb
PENDAHULUAN
Latar Belakang
Klasifikasi merupakan salah satu bidang
kajian utama pada machine learning. Dewasa
ini, berkembang berbagai macam teknik
klasifikasi, sehingga memberikan banyak
pilihan metode bagi peneliti untuk proses
pengidentifikasian data, salah satunya adalah
Voting Feature Interval 5 (VFI5).
Berdasarkan penelitian Gvenir (1998)
algoritme VFI5 memiliki tingkat akurasi yang
cukup tinggi pada fitur-fitur data yang tidak
berkorelasi (independent data features).
Penelitian Apniasari (2007) juga menunjukkan
bahwa algoritme VFI5 memiliki tingkat akurasi
yang tinggi, pada penggunaan data Demam
Berdarah Dengue dengan model ANFIS akurasi
yang didapatkan sebesar 86,67% sedangkan
dengan data yang sama, diterapkan pada
algoritme VFI5 didapatkan akurasi sebesar
100%.
Algoritme VFI5 ini, merupakan teknik
klasifikasi yang bersifat non-incremental
supervised, yang berarti algoritme ini memiliki
target kelas-kelas data, yang semua instances
pada tahap pelatihan diproses secara bersamaan.
Proses pelatihan algoritme VFI5 ini, akan
membuat interval untuk setiap fiturnya.
Banyaknya interval tersebut, bergantung pada
fitur data yang digunakan. Jika banyaknya fitur
suatu data sedikit maka interval yang terbentuk
akan sedikit pula, sebaliknya jika banyaknya
fitur suatu data cukup besar maka interval yang
terbentuk akan berjumlah besar pula, sehingga
hal ini akan menjadikan kurang efisien dalam
proses klasifikasi.
Berkaitan dengan penerapan algoritme VFI5
sebagai teknik klasifikasi, yang akan
membentuk interval-interval data pada tahap
pelatihan menjadi lebih efisien, maka perlu
digunakan suatu proses awal (preprocessing)
yang bertujuan untuk mereduksi dimensi fitur
data. Salah satu teknik yang dipilih untuk teknik
reduksi fitur data yang dipilih pada penelitian
ini adalah Principal Component Analysis
(PCA). PCA merupakan teknik multivariate,
selain berfungsi untuk mereduksi fitur data juga
dapat digunakan untuk menransformasi peubah
yang saling berkorelasi menjadi peubah yang
tidak berkorelasi (Jackson 1991).
Tujuan
Menerapkan
praproses
PCA
untuk
mereduksi fitur data, pada algoritme klasifikasi
VFI 5.
Ruang Lingkup
Pada penelitian ini dilakukan pembatasan
masalah untuk bobot fitur yang digunakan pada
penelitian ini sama, yaitu sebesar satu.
TINJAUAN PUSTAKA
Principal Component Analysis (PCA)
PCA digunakan untuk memproyeksikan
suatu data yang berukuran atribut besar menjadi
bentuk representasi data yang lebih kecil . Data
tersebut diproyeksikan ke suatu matriks yang
terdiri dari vektor ciri-vektor ciri yang diambil
dari matriks peragam training dataset. PCA
juga mampu menyajikan keterkaitan data awal
(dependable data previously), menjadi data
yang tidak saling berkorelasi (Jackson 1991).
Data masukan pada metode PCA adalah
matriks X. Dari matriks input tersebut, dihitung
matriks kovarian S dengan menggunakan
persamaan :
S=
1
n 1
( x x )( y y ) .
i
i =1
Matriks
kovarian
(S)
selanjutnya
ditransformasikan ke dalam diagonal matriks
berikut :
s11
s
12
S=
M
s1 p
s 21
s 22
M
s2 p
L s p1
L s p 2
.
O M
L s pp
S bI = 0 .
Sv = bv .
Dari persamaan tersebut didapatkan nilai
eigen yang terurut dari yang besar (largest
point) hingga ke yang kecil (smallest point).
Selanjutnya, penentuan proporsi dari nilai yang
diambil dapat dihitung dengan menggunakan
(m) vektor eigen yang bersesuaian dengan (p)
nilai eigen terbaik dengan persamaan berikut :
m
bi
i =1
proporsi = p .
bi
i =1
x =
i k
e
e
=
ki
Normalisasi
Salah satu pendekatan yang digunakan
dalam penskalaan input adalah dengan
normalisasi, sehingga input ini selalu berada
dalam rentang tertentu. Normalisasi dapat
dilakukan dengan cara mengurangi nilai data
dengan rataannya dan dibagi standar deviasinya.
1
x=
n
s=
i =1
1
n
(x
x)
Yi = ei ' Zp = ei ' V
(X ) .
Var (Z ) .
i
i =1
x = e
i k
Korelasi
Koefisien korelasi menurut Walpole (1992)
merupakan bilangan yang digunakan dalam
mengukur kekuatan hubungan antara peubah
satu dengan peubah lainnya. Koefisien korelasi
(r) dapat dihitung dari sejumlah (n) pengamatan
contoh. Jika r dekat dengan nol, akan cenderung
disimpulkan bahwa = 0 . Akan tetapi jika r
memiliki nilai mendekati +1 atau -1 akan
cenderung disarankan bahwa 0 . Pada
metode korelasi momen-hasilkali Pearson ini
dimana adalah koefisien korelasi antara
pasangan peubah. Koefisien korelasi dihitung
dengan menggunakan persamaan berikut :
n
n n
n xiyi xi
yi
i =1
i =1 i =1
.
r=
2
2
n
n
n
n xi 2 xi n yi 2
yi
i =1
i =1
i =1
Hubungan linear sempurna, bila r = + 1 atau
-1. Bila r mendekati +1 atau -1, hubungan
antara kedua peubah itu kuat dan dapat
dikatakan terdapat korelasi yang tinggi antara
keduanya. Akan tetapi, bila r mendekati nol,
hubungan linear antara kedua peubah sangat
lemah atau mungkin tidak ada sama sekali.
kk
Var (Yi ) =
i =1
i =1
n = (xi x ) / s .
kk
ki
ki
Data
Data yang digunakan dalam penelitian ini
adalah Iris, Wine, dan New Thyroid. Ketiga data
tersebut bersumber http://archive.ics.uci.edu.
Data yang diambil dari sumber tersebut untuk
penelitian ini, memiliki karakteristik yang
serupa yaitu multivariate dan untuk penggunaan
klasifikasi. Adapun spesifikasi data, disajikan
pada Tabel 1.
Tabel 1 Spesifikasi data yang digunakan
No
Nama data
Jumlah
instance
Jumlah
fitur
Jumlah
kelas
Iris
dataset
150
Wine
dataset
178
13
New
Thyroid
dataset
215
METODE PENELITIAN
Penelitian ini dilakukan melalui beberapa
tahapan proses, untuk mengetahui akurasi yang
diperoleh dari kinerja algoritme VFI5 dalam
proses pengenalan data yang digunakan, dalam
hal ini data Iris, Wine dan New Thyroid pada
penelitian ini, maka pada tahapan-tahapan
proses tersebut, dapat dilihat pada Gambar 1.
Iterasi ke-
Pelatihan
Pengujian
Satu
S1, S2
S3
Dua
S1,S3
S2
Tiga
S2,S3
S1
Praproses PCA
Setelah data latih dan data uji terbentuk,
selanjutnya pada data latih dilakukan ekstraksi
ciri fitur dengan PCA sebagai praprosesnya.
Proses ini bertujuan untuk mereduksi dimensi
fitur sebelum menjadi masukan ke dalam
algoritme VFI5.
Data Latih dan Data Uji
Jika data latih telah mengalami praproses
PCA, maka tahap berikutnya data latih tersebut
akan menjadi input pada proses pelatihan
algoritme VFI5, kemudian data uji akan
digunakan pada tahapan klasifikasi VFI5.
Pada masing-masing data latih dan data uji
yang telah terbentuk untuk setiap data akan
mengalami tiga kali perulangan dengan
menggunakan kombinasi data acak yang
berbeda pada setiap perulangannya. Misalnya,
pada perulangan pertama telah ditetapkan tiga
subset, yang masing-masing subset telah
dikelompokkan seperti Tabel 2, maka pada
perulangan selanjutnya, setiap subset tersebut
ditukar posisi sehingga memungkinkan pada
setiap perulangan memiliki kombinasi data
subset yang berbeda dari setiap perulangan.
Algoritme VFI5
Algoritme VFI5 ini akan terbentuk dua
tahapan proses yang terdiri dari tahap pelatihan
dan tahap klasifikasi. Pada tahap pelatihan, data
hasil ekstraksi ciri fitur akan ditentukan nilai
end point untuk setiap fitur. Dari nilai end point
tersebut akan dibentuk interval dari setiap fitur
yang ada. Setelah semua interval terbentuk,
kemudian menghitung jumlah instances setiap
kelas yang berada pada setiap interval tersebut
dan dilakukan normalisasi. Hasil dari tahap
pelatihan berupa interval setiap fitur merupakan
suatu model dari VFI5.
Tahap klasifikasi, setiap nilai feature dari
suatu instances baru diperiksa letak interval
nilai feature tersebut. Vote-vote setiap kelas
untuk setiap feature pada setiap interval yang
bersesuaian diambil dan kemudian dijumlahkan.
Kelas dengan nilai total vote tertinggi akan
menjadi kelas prediksi instances baru tersebut.
Akurasi
Pada tahapan ini tingkat akurasi dapat
dihitung dengan rumusan sebagai berikut :
akurasi =
Lingkungan Pengembangan
Aplikasi ini dikembangkan dan dibangun
dengan bantuan perangkat keras dan perangkat
lunak. Adapun perangkat keras yang diperlukan
berupa komputer jinjing dengan spesifikasi :
1 Prosessor Intel Celeron 1,76 GHz
2 Memori 512 MB
3 Harddisk 60 GB
4 Monitor 14
Perangkat lunak yang digunakan
berikut :
sebagai