Anda di halaman 1dari 5

1

PENDAHULUAN
Latar Belakang
Klasifikasi merupakan salah satu bidang
kajian utama pada machine learning. Dewasa
ini, berkembang berbagai macam teknik
klasifikasi, sehingga memberikan banyak
pilihan metode bagi peneliti untuk proses
pengidentifikasian data, salah satunya adalah
Voting Feature Interval 5 (VFI5).
Berdasarkan penelitian Gvenir (1998)
algoritme VFI5 memiliki tingkat akurasi yang
cukup tinggi pada fitur-fitur data yang tidak
berkorelasi (independent data features).
Penelitian Apniasari (2007) juga menunjukkan
bahwa algoritme VFI5 memiliki tingkat akurasi
yang tinggi, pada penggunaan data Demam
Berdarah Dengue dengan model ANFIS akurasi
yang didapatkan sebesar 86,67% sedangkan
dengan data yang sama, diterapkan pada
algoritme VFI5 didapatkan akurasi sebesar
100%.
Algoritme VFI5 ini, merupakan teknik
klasifikasi yang bersifat non-incremental
supervised, yang berarti algoritme ini memiliki
target kelas-kelas data, yang semua instances
pada tahap pelatihan diproses secara bersamaan.
Proses pelatihan algoritme VFI5 ini, akan
membuat interval untuk setiap fiturnya.
Banyaknya interval tersebut, bergantung pada
fitur data yang digunakan. Jika banyaknya fitur
suatu data sedikit maka interval yang terbentuk
akan sedikit pula, sebaliknya jika banyaknya
fitur suatu data cukup besar maka interval yang
terbentuk akan berjumlah besar pula, sehingga
hal ini akan menjadikan kurang efisien dalam
proses klasifikasi.
Berkaitan dengan penerapan algoritme VFI5
sebagai teknik klasifikasi, yang akan
membentuk interval-interval data pada tahap
pelatihan menjadi lebih efisien, maka perlu
digunakan suatu proses awal (preprocessing)
yang bertujuan untuk mereduksi dimensi fitur
data. Salah satu teknik yang dipilih untuk teknik
reduksi fitur data yang dipilih pada penelitian
ini adalah Principal Component Analysis
(PCA). PCA merupakan teknik multivariate,
selain berfungsi untuk mereduksi fitur data juga
dapat digunakan untuk menransformasi peubah
yang saling berkorelasi menjadi peubah yang
tidak berkorelasi (Jackson 1991).
Tujuan
Menerapkan
praproses
PCA
untuk
mereduksi fitur data, pada algoritme klasifikasi
VFI 5.

Ruang Lingkup
Pada penelitian ini dilakukan pembatasan
masalah untuk bobot fitur yang digunakan pada
penelitian ini sama, yaitu sebesar satu.

TINJAUAN PUSTAKA
Principal Component Analysis (PCA)
PCA digunakan untuk memproyeksikan
suatu data yang berukuran atribut besar menjadi
bentuk representasi data yang lebih kecil . Data
tersebut diproyeksikan ke suatu matriks yang
terdiri dari vektor ciri-vektor ciri yang diambil
dari matriks peragam training dataset. PCA
juga mampu menyajikan keterkaitan data awal
(dependable data previously), menjadi data
yang tidak saling berkorelasi (Jackson 1991).
Data masukan pada metode PCA adalah
matriks X. Dari matriks input tersebut, dihitung
matriks kovarian S dengan menggunakan
persamaan :

S=

1
n 1

( x x )( y y ) .
i

i =1

Matriks
kovarian
(S)
selanjutnya
ditransformasikan ke dalam diagonal matriks
berikut :

s11
s
12
S=
M

s1 p

s 21
s 22
M
s2 p

L s p1
L s p 2
.
O M

L s pp

Setelah diperoleh matriks kovarian ini,


ditentukan eigen vektor (v), dan nilai eigen (b)
serta proporsi yang akan digunakan dalam PCA.
Vektor eigen dan nilai eigen dicari dengan
menggunakan persamaan ciri :

S bI = 0 .
Sv = bv .
Dari persamaan tersebut didapatkan nilai
eigen yang terurut dari yang besar (largest
point) hingga ke yang kecil (smallest point).
Selanjutnya, penentuan proporsi dari nilai yang
diambil dapat dihitung dengan menggunakan
(m) vektor eigen yang bersesuaian dengan (p)
nilai eigen terbaik dengan persamaan berikut :

m
bi
i =1
proporsi = p .

bi
i =1

Proporsi ini berguna untuk menentukan


besarnya komponen utama yang digunakan.
Komponen utama inilah yang nantinya menjadi
input data training dari algoritme VFI5.

korelasi antar komponen utama dan fitur


tersebut, mengikuti persamaan berikut :

x =
i k

e
e
=

ki

Normalisasi
Salah satu pendekatan yang digunakan
dalam penskalaan input adalah dengan
normalisasi, sehingga input ini selalu berada
dalam rentang tertentu. Normalisasi dapat
dilakukan dengan cara mengurangi nilai data
dengan rataannya dan dibagi standar deviasinya.
1
x=
n

s=

i =1

1
n

(x

x)

Yi = ei ' Zp = ei ' V

Hasil dari normalisasi ini adalah suatu data


dengan nilai rataan nol dan standar deviasi sama
dengan satu.

Korelasi antar komponen utama dan fitur


dapat dihitung dengan menggunakan pasangan
nilai eigen dan vektor eigen pada matriks
kovarian (Johnson & Dean 1882). Perhitungan

(X ) .

Var (Z ) .
i

i =1

Dari persamaan tersebut perhitungan


korelasi antar komponen utama dan fitur pada
proses normalisasi
variabel dicari dengan
menggunakan persamaan berikut :

x = e
i k

Korelasi
Koefisien korelasi menurut Walpole (1992)
merupakan bilangan yang digunakan dalam
mengukur kekuatan hubungan antara peubah
satu dengan peubah lainnya. Koefisien korelasi
(r) dapat dihitung dari sejumlah (n) pengamatan
contoh. Jika r dekat dengan nol, akan cenderung
disimpulkan bahwa = 0 . Akan tetapi jika r
memiliki nilai mendekati +1 atau -1 akan
cenderung disarankan bahwa 0 . Pada
metode korelasi momen-hasilkali Pearson ini
dimana adalah koefisien korelasi antara
pasangan peubah. Koefisien korelasi dihitung
dengan menggunakan persamaan berikut :
n
n n
n xiyi xi
yi

i =1
i =1 i =1
.
r=
2
2
n
n
n

n xi 2 xi n yi 2
yi

i =1
i =1
i =1
Hubungan linear sempurna, bila r = + 1 atau
-1. Bila r mendekati +1 atau -1, hubungan
antara kedua peubah itu kuat dan dapat
dikatakan terdapat korelasi yang tinggi antara
keduanya. Akan tetapi, bila r mendekati nol,
hubungan linear antara kedua peubah sangat
lemah atau mungkin tidak ada sama sekali.

kk

Var (Yi ) =

i =1

i =1

Selain pada matriks kovarian, korelasi


dapat pula dihitung jika matriks kovarian
mengalami standardisasi variabel atau sering
disebut
proses
normalisasi,
sehingga
perhitungan korelasi pada matriks Cov (Z) =
diperoleh dari persamaan berikut :

n = (xi x ) / s .

kk

ki

ki

, dimana i,k= 1,2,..., p .

Metode k-Fold Cross Validation


Validasi
silang
(cross-validation)
merupakan metode untuk memperkirakan error
generalisasi berdasarkan resampling (Weiss
& Kulikowski 1991; Efron & Tibshirani 1993;
Hjorth 1994; Plutowski et al. 1994; Shao & Tu
1995, diacu dalam Sarle 2004). Dalam k-fold
cross validation, data dibagi secara acak
menjadi k himpunan bagian yang ukurannya
hampir sama satu sama lain. Himpunan bagian
yang dihasilkan yaitu S1,S2,...,Sk digunakan
sebagai pelatihan dan pengujian.
Pengulangan dilakukan sebanyak k kali dan
pada setiap ulangan disisakan satu subset untuk
pengujian dan subset lainnya untuk pelatihan.
Pada iterasi ke-i, subset Si diperlakukan sebagai
data pengujian, dan subset lainnya diperlakukan
sebagai data pelatihan. Pada iterasi pertama
S2,...Sk menjadi data pelatihan dan S1 menjadi
data pengujian. Selanjutnya pada iterasi kedua
S1,S3,...,Sk menjadi data pelatihan dan S2
menjadi data pengujian, dan seterusnya.
Algoritme Voting Feature Intervals 5 (VFI5)
Salah satu algoritme yang digunakan untuk
mengklasifikasikan
data
adalah
VFI5.
Algoritme ini dikembangkan oleh Glen
Demirz dan H. Altay Gvenir pada tahun 1997
(Demirz & Gvenir 1997).
Algoritme
klasifikasi
VFI5
merepresentasikan deskripsi sebuah konsep oleh

sekumpulan interval nilai-nilai feature atau


atribut. Pengklasifikasian instances baru
didasarkan pada voting pada klasifikasi yang
dibuat oleh nilai tiap-tiap feature secara
terpisah. Algoritme tersebut termasuk dalam
algoritme yang supervised, artinya memiliki
target yang dalam hal ini adalah kelas-kelas
data dari kasus yang ada. Selain itu juga bersifat
non-incremental yang berarti semua instances
pelatihan diproses secara bersamaan (Demiroz
& Gvenir 1997).
Dari semua instances pelatihan tersebut,
algoritme VFI5 membuat interval untuk setiap
feature. Interval-interval yang dibuat dapat
berupa range interval maupun point interval.
Range interval terdiri atas nilai-nilai antara dua
end point yang berdekatan tetapi tidak termasuk
kedua nilai end point itu sendiri. Point interval
terdiri atas seluruh end point secara berturutturut.
Untuk setiap interval, nilai vote untuk setiap
kelas pada interval tersebut akan disimpan.
Dengan demikian, sebuah interval dapat
merepresentasikan beberapa kelas dengan
menyimpan nilai vote yang dimiliki setiap
kelas. Oleh karena itu, algoritme VFI dikatakan
sebagai multi-class feature projection based
algorithms.
Algoritme VFI5 dikembangkan menjadi dua
tahap yaitu proses pelatihan dan proses
klasifikasi.
1 Pelatihan
Pada tahap pelatihan ini, pertama kali yang
dilakukan adalah menemukan nilai end point
setiap feature f pada setiap kelas data c. Ada
dua jenis feature yang dikenal yaitu feature
linear dan feature nominal. Feature linear
adalah feature yang nilainya memiliki urutan
atau bisa dibandingkan tingkatannya. Feature
nominal adalah kebalikan dari feature linear
yaitu feature yang nilainya tidak memiliki
urutan
dan
tidak
bisa
dibandingkan
tingkatannya. End point untuk feature linear
tersebut merupakan nilai maksimum dan nilai
minimum feature itu sendiri, sedangkan end
point untuk feature nominal meliputi semua
nilai yang berbeda yang ada pada feature kelas
yang sedang diamati.
Setelah nilai end point untuk setiap feature
linear didapatkan maka langkah selanjutnya
adalah mengurutkan nilai-nilai end point
tersebut. Hasil pengurutan tersebut akan
membentuk suatu interval bagi feature f. Jika
feature tersebut merupakan feature linear yang
memiliki nilai kontinu maka akan dibentuk dua

interval yaitu point interval dan range interval.


Jika suatu feature merupakan feature nominal
maka hanya akan dibentuk point interval.
Batas bawah pada range interval (ujung
paling kiri) adalah - sedangkan batas atas
range interval (ujung paling kanan) adalah +.
Jumlah maksimum end point pada feature
linear adalah 2k, sedangkan jumlah maksimum
interval adalah 4k+1, dengan k adalah jumlah
kelas yang diamati.
Langkah selanjutnya adalah menghitung
jumlah instances pelatihan setiap kelas c dengan
feature f yang nilainya jatuh pada interval i dan
direpresentasikan sebagai interval_class_count
[f,i,c]. Untuk setiap instance pelatihan, dicari
interval i dimana nilai feature f dari instance
pelatihan e (ef) tersebut jatuh. Jika interval i
merupakan point interval dan nilai ef sama
dengan nilai pada batas bawah atau batas atas
maka jumlah kelas instances tersebut (ef) pada
interval i ditambah 1. Jika interval i merupakan
range interval dan nilai ef jatuh pada interval
tersebut maka jumlah kelas instances ef pada
interval i ditambah 1. Hasil dari proses tersebut
merupakan jumlah vote kelas c pada interval i.
Untuk menghilangkan efek perbedaan
distribusi setiap kelas, maka jumlah vote kelas c
untuk feature f pada interval i dinormalisasi
dengan cara membagi vote tersebut dengan
jumlah instances kelas c yang direpresentasikan
dengan class_count[c]. Hasil normalisasi ini
dinotasikan sebagai interval_class_vote[f,i,c].
Kemudian nilai-nilai interval_class_vote[f,i,c]
dinormalisasi sehingga jumlah vote dari
beberapa kelas pada setiap feature f sama
dengan 1. Normalisasi ini bertujuan agar setiap
feature memiliki kekuatan voting yang sama
pada proses klasifikasi yang tidak dipengaruhi
oleh ukurannya.
2 Prediksi (klasifikasi)
Tahap klasifikasi pada algoritme VFI5
diawali dengan proses inisialisasi awal nilai
vote masing-masing kelas dengan nilai 0. Untuk
setiap feature f, dicari interval i dimana nilai ef
jatuh, dengan ef merupakan nilai feature f dari
instances tes e. Jika ef tidak diketahui (hilang),
maka feature tersebut tidak diikutsertakan
dalam voting (memberi vote 0 untuk masingmasing kelas). Oleh karena itu, feature yang
memiliki nilai tidak diketahui diabaikan.
Jika ef diketahui maka interval tersebut
dapat ditemukan. Interval tersebut dapat
menyimpan instances pelatihan dari beberapa
kelas. Kelas-kelas dalam sebuah interval
direpresentasikan oleh vote kelas-kelas tersebut

pada interval itu. Untuk setiap kelas c, feature f


memberikan vote yang sama dengan
interval_class_vote[f,i,c].
Notasi
tersebut
merepresentasikan vote feature f yang diberikan
untuk kelas c.
Setiap feature f mengumpulkan votevotenya
dalam
sebuah
vektor
(feature_vote[f,C1],..., feature_vote[f,Cj], ...,
feature_vote[f,Ck]), dimana feature_vote[f,Cj]
merupakan vote feature f untuk kelas Cj dan k
adalah jumlah kelas. Kemudian d vektor vote,
dimana d merupakan jumlah feature,
dijumlahkan untuk memperoleh total vektor
vote (vote[C1], ..., vote[Ck]). Kelas dengan
jumlah vote terbesar diprediksi sebagai kelas
dari instances tes e. Pseudocode algoritme
pelatihan dan klasifikasi VFI5 dapat dilihat
pada Lampiran 1 dan Lampiran 2.

Data
Data yang digunakan dalam penelitian ini
adalah Iris, Wine, dan New Thyroid. Ketiga data
tersebut bersumber http://archive.ics.uci.edu.
Data yang diambil dari sumber tersebut untuk
penelitian ini, memiliki karakteristik yang
serupa yaitu multivariate dan untuk penggunaan
klasifikasi. Adapun spesifikasi data, disajikan
pada Tabel 1.
Tabel 1 Spesifikasi data yang digunakan
No

Nama data

Jumlah
instance

Jumlah
fitur

Jumlah
kelas

Iris
dataset

150

Wine
dataset

178

13

New
Thyroid
dataset

215

METODE PENELITIAN
Penelitian ini dilakukan melalui beberapa
tahapan proses, untuk mengetahui akurasi yang
diperoleh dari kinerja algoritme VFI5 dalam
proses pengenalan data yang digunakan, dalam
hal ini data Iris, Wine dan New Thyroid pada
penelitian ini, maka pada tahapan-tahapan
proses tersebut, dapat dilihat pada Gambar 1.

Nama-nama fitur dan kelas beserta


keterangan dari masing-masing data disajikan
pada Lampiran 3.
Pembagian Data
Proses pengenalan dimulai dengan membagi
data ke dalam dua bagian yaitu data latih dan
data uji. Dengan menggunakan metode 3-fold
cross validation, seluruh data dibagi menjadi
tiga subset dan tiga kali proses iterasi.
Pada iterasi pertama, himpunan bagian S1
dan S2 digunakan sebagai data latih sedangkan
himpunan bagian S3 digunakan sebagai data uji.
Berbeda dengan iterasi pertama, iterasi kedua
himpunan bagian S1 dan S3 digunakan sebagai
data latih sedangkan himpunan bagian S2
digunakan sebagai data uji. Iterasi ketiga,
himpunan bagian S2 dan himpunan bagian S3
digunakan sebagai data latih sedangkan
himpunan bagian S1 digunakan sebagai data uji.
Susunan data yang digunakan sebagai data latih
dan data uji pada setiap iterasi disajikan pada
Tabel 2.
Tabel 2 Susunan data latih dan data uji

Gambar 1 Tahapan proses klasifikasi data

Iterasi ke-

Pelatihan

Pengujian

Satu

S1, S2

S3

Dua

S1,S3

S2

Tiga

S2,S3

S1

Praproses PCA
Setelah data latih dan data uji terbentuk,
selanjutnya pada data latih dilakukan ekstraksi
ciri fitur dengan PCA sebagai praprosesnya.
Proses ini bertujuan untuk mereduksi dimensi
fitur sebelum menjadi masukan ke dalam
algoritme VFI5.
Data Latih dan Data Uji
Jika data latih telah mengalami praproses
PCA, maka tahap berikutnya data latih tersebut
akan menjadi input pada proses pelatihan
algoritme VFI5, kemudian data uji akan
digunakan pada tahapan klasifikasi VFI5.
Pada masing-masing data latih dan data uji
yang telah terbentuk untuk setiap data akan
mengalami tiga kali perulangan dengan
menggunakan kombinasi data acak yang
berbeda pada setiap perulangannya. Misalnya,
pada perulangan pertama telah ditetapkan tiga
subset, yang masing-masing subset telah
dikelompokkan seperti Tabel 2, maka pada
perulangan selanjutnya, setiap subset tersebut
ditukar posisi sehingga memungkinkan pada
setiap perulangan memiliki kombinasi data
subset yang berbeda dari setiap perulangan.
Algoritme VFI5
Algoritme VFI5 ini akan terbentuk dua
tahapan proses yang terdiri dari tahap pelatihan
dan tahap klasifikasi. Pada tahap pelatihan, data
hasil ekstraksi ciri fitur akan ditentukan nilai
end point untuk setiap fitur. Dari nilai end point
tersebut akan dibentuk interval dari setiap fitur
yang ada. Setelah semua interval terbentuk,
kemudian menghitung jumlah instances setiap
kelas yang berada pada setiap interval tersebut
dan dilakukan normalisasi. Hasil dari tahap
pelatihan berupa interval setiap fitur merupakan
suatu model dari VFI5.
Tahap klasifikasi, setiap nilai feature dari
suatu instances baru diperiksa letak interval
nilai feature tersebut. Vote-vote setiap kelas
untuk setiap feature pada setiap interval yang
bersesuaian diambil dan kemudian dijumlahkan.
Kelas dengan nilai total vote tertinggi akan
menjadi kelas prediksi instances baru tersebut.
Akurasi
Pada tahapan ini tingkat akurasi dapat
dihitung dengan rumusan sebagai berikut :
akurasi =

data uji benar diklasifikasi


total data uji

Lingkungan Pengembangan
Aplikasi ini dikembangkan dan dibangun
dengan bantuan perangkat keras dan perangkat
lunak. Adapun perangkat keras yang diperlukan
berupa komputer jinjing dengan spesifikasi :
1 Prosessor Intel Celeron 1,76 GHz
2 Memori 512 MB
3 Harddisk 60 GB
4 Monitor 14
Perangkat lunak yang digunakan
berikut :

sebagai

1 Sistem Operasi : Microsoft Windows XP


Professional
2 MATLAB 7.01
3 Microsoft Office Excel 2003
4 Notepad++
5 MINITAB 14

HASIL DAN PEMBAHASAN


Pada bab ini, akan dipaparkan tentang
kinerja algoritme VFI5 dengan praproses PCA
serta perbandingan hasil akurasi data yang
diklasifikasikan tanpa menggunakan praproses
PCA. Pada penelitian ini disebutkan bahwa
PC(n) merupakan jumlah (n) komponen utama
pertama dari nilai total.
Hasil rata-rata tingkat akurasi data Iris
Perhitungan yang telah dilakukan terhadap
data Iris, menggunakan praproses PCA dengan
tiga kali ulangan percobaan, didapatkan bahwa
akurasi terbaik terjadi pada ulangan 2, dengan
rataan akurasi PC(1), PC(2), PC(3) berturutturut sebesar 92,67%, 88%, 86,67%. Pada
penelitian ini juga dihitung akurasi data Iris
yang tanpa menggunakan PCA sebagai
praprosesnya didapatkan rataan akurasi terbaik
sebesar 96% pada ulangan 3. Hasil persentase
nilai akurasi lainnya, beserta nilai kontribusi
pada setiap ulangan dari data Iris, disajikan
pada Tabel 3.

Anda mungkin juga menyukai