Anda di halaman 1dari 8

127

ANALISIS PERBANDINGAN LIMA METODE KLASIFIKASI


PADA DATASET SENSUS PENDUDUK

Alifi Adia Pranatha
Jurusan Sistem Informasi, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember
Kampus Keputih, Sukolilo,Surabaya,60111
Telp : (031) 5922949, Fax : (031) 5964965
E-mail : aapranatha@gmail.com


Abstract

The aim of this paper is comparing various classification methods in open source data mining
tools WEKA. This paper analyzed adult dataset that contains of 48842 instances of data, which categorize
in 15 attributes (6 continuous and 9 nominal). Adult dataset is set of the civilian data which consist age,
gender, ethnic, education level, etc. Adult dataset is classified by two types of income rate (above and
below 50K). Various classification algorithms will be used to compare their performance (average
precision, average recall and time taken to build model). This paper conclude that the best pure
classification algorithm to classify Adult dataset is Decision Tree, because this algorithm has the highest
precision and recall rate among the others classification algorithm.

Abstrak

Tujuan dari makalah ini adalah mengetahui perbandingan performa teknik klasifikasi
menggunakan software Weka. Dalam pengujian digunakan dataset adult yang memiliki 48842 instance
meliputi 15 atribut (6 continus dan 9 nominal). Datasets adult berisi data mengenai orang dewasa seperti
umur, jenis kelamin, etnis, status, edukasi dll. Data-data pada dataset adult diklasikafikasikan berdasar
gaji yang melebihi 50K atau gaji yang kurang atau sama dengan 50K. Peforma algoritme akan
dibandingkan berdasarkan nilai time taken to build model (running time) sebagai representasi dari
seberapa cepat classifier dalam memproses data, average precision dan average recall. Dengan
menggunakan WEKA (Waikato Environment for Knowledge Analysis) versi 3.6.5, dapat disimpulkan
algoritme yang memiliki kinerja yang lebih unggul dalam kecepatan waktu pemrosesan model data
adalah K-Nearest Neighbour dan Rule Based, sedangkan algoritme yang memiliki nilai precision dan
recall tertinggi adalah Decision tree.

Kata Kunci : klasifikasi, data penduduk, WEKA

1. PENDAHULUAN
Masalah utama dalam menganalisa data sensus
kependudukan adalah jumlah dan dimensi data
yang sangat besar. Banyak pengujian umumnya
melibatkan pengelompokan atau klasifikasi data
dalam skala besar. Semua prosedur pengujian
diperlukan dalam rangka untuk mencapai
analisa akhir. Namun, di sisi lain, pengujian
yang terlalu banyak dapat menyulitkan proses
analisa utama dan mengarah pada kesulitan
dalam mendapatkan hasil akhir, khususnya
dalam kasus di mana banyak pengujian
dilakukan. Kesulitan semacam ini dapat
diselesaikan dengan bantuan machine learning
yang dapat digunakan langsung untuk
memperoleh hasil akhir dengan bantuan dari
beberapa algoritme cerdas yang melakukan
peran sebagai penglasifikasi.

Machine learning mencakup berbagai proses
yang sulit didefinisikan dengan tepat.
Kemampuan ekstraksi informasi penting dari
tumpukan besar data dan pendefinisan korelasi
merupakan keuntungan dari menggunakan
machine learning. Penelitian untuk
membandingkan peforma algoritme klasifikasi
menggunakan data berskala besar pada WEKA
telah dilakukan sebelumnya, namun hanya
terbatas pada pengujian menggunakan
parameter kappa statistic, Mean Absolute Error
dan Root mean Squared Error (Othman, 2006)
Perbandingan pengujian pada studi kasus ini
menggunakan metode klasifikasi K-Nearest
Neighbour, Nave Bayes Classifier, Rule Based,
Decision Tree dan Single Conjunctive Rule
Learner. Perbedaan penelitian yang dilakukan
dengan sebelumnya adalah penggunaan jenis
algoritme data mining yang berbeda, serta
penggunaan mode classifier secara default dan
pengubahan parameter-parameter pada classifier
(non-default) WEKA untuk pengujian
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134
128
algoritme. Adapun manfaat yang diharapkan
dari hasil studi kasus ini adalah sebagai bahan
informasi yang akurat untuk menentukan
algoritme machine learning yang memiliki
tingkat kecepatan pemrosesan dan tingkat
presisi yang tinggi

2. METODE
Klasifikasi adalah proses untuk menemukan
model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan
tujuan untuk dapat memperkirakan kelas dari
suatu objek yang labelnya tidak diketahui.
Model itu sendiri bisa berupa aturan jika-
maka, berupa decision tree, formula
matematis atau neural network. Proses
klasifikasi dibagi menjadi dua tahap yaitu tahap
pembelajaran dan pengujian. Pada tahap
pembelajaran, sebagian data yang telah
diketahui kelas datanya diumpankan untuk
membentuk model perkiraan. Kemudian pada
tahap pengujian, model yang sudah terbentuk
pada tahap pembelajaran akan diuji dengan
sebagian data lainnya, hal ini bertujuan untuk
mengetahui akurasi dari model tersebut. Bila
akurasinya sudah cukup baik model ini dapat
dipakai untuk prediksi kelas data yang belum
diketahui. Masukan data untuk klasifikasi
adalah kumpulan record. Setiap record
dikenal sebagai instance atau contoh yang
ditandai oleh tuple (x,y) dimana x adalah atribut
dan y adalah atribut khusus yang menunjukkan
label kelas (disebut juga kategori atau atribut
target).

Klasifikasi terdiri atas dua model, yaitu
pemodelan deksriptif dan prediktif. Pemodelan
deskriptif dapat bertindak sebagai suatu alat
yang bersifat menjelaskan untuk membedakan
antara objek dengan klas yang berbeda dari satu
set data. Sedangkan, pemodelan prediktif lebih
sebagai prediktor label kelas yang belum
diketahui recordnya.

2.1 Nave Bayes
Nave bayes classifier adalah suatu classifier
probabilitas sederhana yang didasarkan pada
pengaplikasian teorema Bayes dengan asumsi
yang kuat (nave) dan bebas (independence).
Bergantung pada sifat dasar dari model
probabilitas, nave Bayes classifier dapat dilatih
dengan efisien pada kondisi supervised learning.
Pada banyak aplikasi praktikal, perkiraan
parameter untuk model nave Bayes
menggunakan metode maximum likelihood
(ketetanggaan maksimum), sehingga nave
Bayes dapat digunakan tanpa perlu kepercayaan
pada probabilitas Bayesian atau tanpa
menggunakan metode Bayesian sama sekali.
Walaupun rancangan dari nave Bayes classifier
bersifat nave dan asumsinya terlalu
disederhanakan, nave Bayes classifier biasanya
bekerja lebih baik dari yang diharapkan pada
situasi dunia nyata yang kompleks. Secara
abstrak, model probabilitas untuk classifier
adalah model kondisional sebagai berikut
P (C, F
1
, F
2, ..,
F
n
) (1)

pada variabel kelas dependen C dengan jumlah
hasil atau kelas yang kecil, kondisional pada
beberapa variabel fitur F1 sampai Fn. Masalah
yang dihadapi adlah apabila jumlah dari fitur n
besar atau ketika fitur tersebut dapat menangani
nilai dengan jumlah yang sangat banyak, maka
tidak mungkin mendasari model tersebut dengan
tabel probabilitas (Distiawan, 2009)

2.2 K-Nearest Neighbor
Algoritme K-Nearest Neighbor (KNN) adalah
metode klasifikasi terhadap objek berdasarkan
data pembelajaran yang jaraknya paling dekat
dengan objek tersebut. Data pembelajaran
diproyeksikan ke ruang berdimensi banyak,
dimana masing-masing dimensi
merepresentasikan fitur dari data. Ruang ini
dibagi menjadi bagian-bagian berdasarkan
klasifikasi data pembelajaran. Sebuah titik pada
ruang ini ditandai kelas c jika kelas c
merupakan klasifikasi yang paling banyak
ditemui pada k buah tetangga terdekat titk
tersebut. Dekat atau jauhnya tetangga biasanya
dihitung berdasarkan jarak Euclidean. Pada fase
pembelajaran, algoritme ini hanya melakukan
penyimpanan vektor-vektor fitur dan klasifikasi
dari data pembelajaran. Pada fase klasifikasi,
fitur-fitur yang sama dihitung untuk data test
(yang klasifikasinya tidak diketahui). Jarak dari
vektor yang baru ini terhadap seluruh vektor
data pembelajaran dihitung, dan sejumlah k
buah yang paling dekat diambil. Titik yang baru
klasifikasinya diprediksikan termasuk pada
klasifikasi terbanyak dari titik-titik tersebut.

Nilai k yang terbaik untuk algoritme ini
tergantung pada data; secara umumnya, nilai k
yang tinggi akan mengurangi efek noise pada
klasifikasi, tetapi membuat batasan antara setiap
klasifikasi menjadi lebih kabur. Nilai k yang
bagus dapat dipilih dengan optimalisasi
parameter, misalnya dengan menggunakan
cross-validation. Kasus khusus di mana
klasifikasi diprediksikan berdasarkan data
pembelajaran yang paling dekat (dengan kata
lain, k = 1) disebut algoritme nearest neighbor.

Pranatha, Analisis Perbandingan dengan Lima Metode Klasifikasi pada Dataset Sensus Penduduk
129
2.3 Rule Based
Merupakan algoritme yang bekerja berdasarkan
aturan (rule) yang telah ditetapkan sebelumnya..
Keunggulan dari algoritme ini adalah
efisiensinya dalam memproses dataset yang
besar dan noisy. Aturan klasifikasi dapat
dinyatakan dengan cara berikut:
Aturan : (kondisi) -> y (2)

Dimana kondisi adalah konjungsi atribut-atribut,
sedangkan y adalah label kelas. Sisi kiri dari
aturan disebut prasyarat yg berisi gabungan dari
tes atribut :
Condition = (A1 op v1) (A2 op v2) . . . (Ak
op vk), (3)

dimana (Aj, vj) adalah pasangan atribut-nilai
dan op adalah operator logis yang dipilih dari
set {=,=,<,>, #, %}. Setiap tes atribut (Aj op v)
dikenal sebagai diperbantukan. Sisi kanan dari
aturan disebut rule consequent, yang berisi kelas
yang diprediksi yi. (Tan, dkk., 2006

2.4 Decision Tree
Algoritme decision tree menggunakan
pendekatan pembelajaran supervised untuk
melakukan klasifikasi. Decision tree adalah
struktur sederhana dimana non-terminal node
mewakili hasil keputusan. J.R. Quinlan telah
mempopulerkan pendekatan decision tree
dengan penelitiannya selama 15 tahun. Model
terakhir dari Quinlan's model adalah C4.5.
Weka Classifier package mempunyai versi
tersendiri dari C4.5. yang dikenal dengan
sebutan J48.

Pendekatan umum dari algoritme decision tree
adalah sebagai berikut :
Pilih sebuah atribut yang paling baik untuk
digunakan sebagai output.
Buat cabang pohon terpisah untuk tiap nilai
dari atribut yang terpilih.
Bagi atribut tersebut ke dalam subgroup
untuk mewakili nilai atribut dari titik yang
dipilih.
Untuk tiap subgroup, hentikan proses
pemilihan atribut jika:
- Semua anggota dari subgroup mempunyai
nilai yang sama dengan atribut output.
Hentikan proses pemilihan atribut untuk
current path dan beri label pada cabang
dari current path dengan nilai tertentu.
- Subgroup yang mengandung single node
atau tidak lagi membedakan atribut bisa
ditentukan. Seperti pada langkah
sebelumnya, beri label cabang dengan nilai
output yang terlihat pada mayoritas
instance yang ada.
Untuk tiap subgroup yang terbentuk yang
tidak diberi label sebagai terminal, ulangi
proses diatas.

2.5 Single Conjunctive Rule Learner
Single Conjunctive Rule Learner adalah salah
satu dari algoritme machine learning dan
dikenal sebagai inductive learning. Tujuan dari
rule induction secara umum adalah untuk
menginduksi seperangkat aturan dari data yang
menangkap semua pengetahuan yang
digeneralisasi dalam data (Cohen, 1995).
Klasifikasi dalam rule-induction classifiers
secara khusus bergantung kepada penembakan
aturan pada contoh uji, yang dipicu oleh nilai-
nilai pencocokan fitur di sisi kiri dari aturan
(Clark, dkk., 1989). Aturan dapat dari berbagai
bentuk normal, dan biasanya dipesan; dengan
perintah aturan, aturan pertama yang diuji
dengan menentukan hasil klasifikasi dan
kemudian menghentikan proses klasifikasi.

2.6 Precision dan Recall
Precision menunjukkan perbandingan antara
jumlah data yang relevan yang di dapat dari
sistem dengan jumlah keseluruhan data yang
dilakukan sistem. Recall menunjukkan
perbandingan antara jumlah data yang relevan
yang didapat dari sistem dengan jumlah
keseluruhan data yang seharusnya relevan.
Secara matematis precision dan recall dapat
dihitung dengan rumusan sebagai berikut



Gambar 1 Representasi Himpunan Precision dan Recall

Precision !" !
!!"!!"!
!!"!

Recall !" !
!!"!!"!
!!"!

Kinerja dari suatu sistem harus memperhatikan
kedua metode pengukuran di atas (Rila, M.,
2006). Misalnya suatu sistem berhasil
menemukan 10 data, di mana 9 dari 10
dokumen tersebut merupakan dokumen yang
relevan. Menurut metode precision, sistem ini
memiliki performansi yang baik. Namun
bilamana total data relevan yang berada di
dalam koleksi data jauh lebih besar daripada 9,
sistem tidak dapat dikatakan memiliki kinerja
yang baik. Oleh karena itu, pengukuran kinerja
harus melihat dari dua buah metoda tersebut.
Pada kondisi yang ideal, suatu sistem akan
memperoleh nilai precision 1 pada nilai recall
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134
130
manapun. Namun kondisi ini hampir tidak
mungkin terjadi. Kondisi yang terjadi pada
umumnya adalah penurunan tingkat precision
seiring dengan naiknya recall.

2.7 WEKA
Weka adalah sebuah paket tools machine
learning praktis. Weka merupakan singkatan
dari Waikato Environment for knowledge
analysis, yang dibuat di Universitas waikato,
New Zealand. Weka mampu menyelesaikan
masalah-masalah data mining di dunia nyata.
Perangkat lunak ini ditulis dalam hirarki class
Java dengan metode berorientasi obyek dan
dapat berjalan hampir disemua platform. Weka
mudah digunakan dan diterapkan pada beberapa
tingkatan yang berbeda. Weka mengandung
tools untuk pre-processing data, klasifikasi,
regresi, clustering, aturan asosiasi dan
visualisasi. Tools yang digunakan untuk pre-
processing dataset membuat pengguna dapat
berfokus pada algoritme yang digunakan tanpa
terlalu memperhatikan detail seperti pembacaan
data dari file-file, implementasi algoritme
filtering dan penyediaan kode untuk evaluasi
hasil. Pada makalah ini digunakan weka versi
3.6.5.

Format data yang digunakan pada Weka
berformat ARFF. File arff adalah sebuah gile
teks ASCII yang berisi daftar instances dalam
sekumpulan atribut. Data dalam format .arff
tersebut harus memenuhi syarat sebagai berikut:
Data dipisahkan dengan koma, dengan kelas
sebagai atribut terakhir.
Bagian header diawali dengan @relation.
Tiap atribut ditandai dengan @attribute.
Tipe-tipe data dalam Weka adalah numeric
(real atau integer), nominal, string dan date.
Bagian data diawali dengan @data

3. METODE
Penelitian dilakukan pada data set adult yang
diperoleh dari UCI Machine Learning
Repository. Adult merupakan kumpulan data
penduduk dewasa Amerika yang akan
diklasifikasikan berdasarkan pendapatan lebih
dari $50.000 atau kurang dari $50.000 per
tahun. Data set ini juga dikenal sebagai Dataset
"Census Income". Dataset adult memiliki
jumlah instances 48842 terdiri dari 14 atribut.
Persebaran data per atribut ditunjukkan pada
gambar 1. Atribut age yaitu umur dari tiap
penduduk bertipe numeric, dengan nilai
minimum yaitu 17, maximum 90, mean 38.582
dan standar Deviasi adalah 13.64 dan tidak ada
data yang hilang.
Workclass yaitu atribut yang menjelaskan
tentang pekerjaan penduduk Amerika. Terdapat
delapan jenis pekerjaan yang termasuk dalam
dataset adult yaitu Private yaitu swasta, Self-
emp-not-inc yaitu wiraswasta non perusahaan,
Self-emp-inc yaitu wiraswasta perusahaan,
Federal-gov yaitu pegawai negeri departemen
nasional, Local-gov adalah pegawai pemkot.

Atribut State-gov adalah pegawai pemprof,
Without-pay yaitu pekerjaan yang bersifat non-
profit oriented, Never-worked atau penganggu-
ran. Atribut workclass bertipe Nominal dengan
jumlah maksimal direpresentasikan oleh label
private dengan jumlah 22696, sedangkan label
Never Worked merupakan jumlah terendah
dengan jumlah 7. Nilai missing untuk atribut
workclass adalah 1836(6%). Atribut fnlwgt
yaitu berat badan dari setiap penduduk Amerika
yang bertipe numeric memiliki nilai minimum
12285, maximum 1484705, mean 189778.367
dan nilai standar deviasi 105549.978 serta tidak
ada nilai missing.

Atribut education yaitu atribut yang mencatat
tingkat pendidikan tiap penduduk. Terdapat 16
jenis tingkat pendidikan yang dicatat, Bachelors
atau Sarjana, Some-college yaitu penduduk
yang pernah berkuliah namun belum memiliki
gelar, 11th yaitu tamatan SMA dengan
akselerasi 1 tahun, HS-grad yaitu tamatan SMA
Internasional, Prof-school yaitu SMK, Assoc-
acdm sekolah akademi tiga tahun, Assoc-voc
yaitu sekolah vokasional, 9th tamatan SMP, 7th-
8th tamatan SMP dengan akselerasi 1 tahun,
12th tamatan SMA, Masters atau S2, 1st-4th
atau sekolah pramuka, 10th yaitu program
magang setelah SMP, Doctorate atau S3, 5th-
6th tamatan SD, Preschool atau prasekolah.
Atribut education memiliki jumlah terbanyak
pada label HS-grad, sedangkan Preschool
mewakili jumlah terendah yaitu 51. Atribut
education-num adalah representasi numerik dari
atribut education memiliki nilai minimal 1,
maximum 16, mean 10.081 dan standar deviasi
2.573. Nilai missing pada atribut ini adalah 0%.

Atribut marital-status bertipe nominal. Terdapat
tujuh jenis status pernikahan dari penduduk
Amerika, yaitu Married-civ-spouse atau
pasangan sah nikah, Divorced atau bercerai,
Never-married atau tidak menikah, Separated
yaitu pasangan yang hidup terpisah, Widowed
atau janda ditinggal mati, Married-spouse-
absent atau menikah tanpa pasangan, Married-
AF-spouse yaitu pasangan Army Force. Atribut
ini memiliki jumlah terbanyak 14976
diwakilkan oleh label Married-civ-spouse,
jumlah terendah sebanyak 23 diwakili oleh
Married-Af-spouse. Atribut marital-status
memiliki nilai missing 0%.
Pranatha, Analisis Perbandingan dengan Lima Metode Klasifikasi pada Dataset Sensus Penduduk
131

Gambar 1. Persebaran Data Adult

Atribut occupation terdapat empat belas ruang
lingkup pekerjaan, yaitu Tech-support atau
teknisi, Craft-repair atau pengusaha makanan,
Other-service atau penyedia jasa lainnya, Sales
atau bagian penjualan, Exec-managerial atau
manajer eksekutif, Prof-specialty atau profesi
spesialisasi, Handlers-cleaners atau penyedia
jasa kebersihan, Machine-op-inspct atau
inspektur operasional permesinan, Adm-clerical
atau bagian administrasi, Farming-fishing atau
perkebunan dan perikanan, Transport-moving
atau bidang transportasi, Priv-house-serv,
Protective-serv, Armed-Forces atau bidang
ketentaraan. Atribut ini bertipe nominal dan
memiliki nilai missing 1843 (6%). Label prof-
specialty memiliki jumlah terbanyak sejumlah
4140, sedangkan armed forces merupakan label
dengan jumlah terendah dengan jumlah 9.

Atribut relationship memiliki nilai missing 0 %,
dengan jumlah terbanyak adalah label husband
13193, sedangkan unmaried dengan jumlah 981
adalah jumlah terendah. Atribut ini
merepresentasikan status dalam keluarga yaitu
Wife atau istri, husband atau suami, Own-child
atau anak kandung, Not-in-family atau bukan
anggota keluarga, Other-relative atau hubungan
keluarga lain seperti paman, bibi, keponakan,
dst., dan Unmarried atau belum berkeluarga.

Atribut race memiliki nilai missing 0 %. Label
white merupakan jumlah terbanyak dengan
jumlah 27816, sedangkan Other mewakili
jumlah terendah yaitu 271. Jenis ras yang
terdapat pada dataset ini adalah White atau ras
kulit putih, Asian-Pac-Islander atau ras asia-
amerika, Amer-Indian-Eskimo atau ras indian
dan eskimo, Other atau ras lainnya, Black atau
ras kulit hitam/negro.

Atribut sex yang bertipe nominal, memiliki nilai
missing 0%, label female dengan jumlah 10771
dan male 21790. Atribut capital-gain adalah
keuntungan yang didapatkan dari hasil investasi,
nilai capital-gain memiliki nilai minimum 0,
maximum 99949 dan standar deviasi 7385.292.
Atribut capital-loss adalah keuntungan yang
didapatkan dari hasil investasi, nilai capital-loss
memiliki nilai minimum 0, maximum 4356,
mean 87.304 dan standar deviasi 402.96. Atribut
hours-per-week memiliki nilai minimum 1,
maximum 99, mean 40.437 dan standar deviasi
12.347.

Atribut native-country merepresentasikan
Negara asal penduduk Amerika yang
kebanyakan merupakan pendatang. Atribut ini
memiliki empat puluh jenis isian, yaitu United-
States, Cambodia, England, Puerto-Rico,
Canada, Germany, Outlying-US(Guam-USVI-
etc), India, Japan, Greece, South, China, Cuba,
Iran, Honduras, Philippines, Italy, Poland,
Jamaica, Vietnam, Mexico, Portugal, Ireland,
France, Dominican-Republic, Laos, Ecuador,
Taiwan, Haiti, Columbia, Hungary, Guatemala,
Nicaragua, Scotland, Thailand, Yugoslavia, El-
Salvador, Trinadad&Tobago, Peru, Hong,
Holand-Netherlands. Nilai missing dari atribut
ini adalah 583 (2%) dengan jumlah 29170 dan
jumlah terendah Holand-Netherlands 1.
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134
132
Tabel 1. Tabel Hasil Percobaan dengan kondisi default
Nama Umum
Teknik
Klasifikasi
Nilai Average
Precision
Nilai Average
Recall
Time Taken To
Build Model
Nave Bayes Nave Bayes 0.852 0.834 0.21 s
J48 Pruned Tree J48 0.857 0.862 3.65 s
Single Conjunctive Rule
Learner
Conjunctive Rule 0.576 0.759 3.08 s
KNN (K Nearest Neighbor) lazy IBK 0.793 0.794 0.01 s
Rule Based zeroR 0.576 0.759 0.01 s

Tabel 2. Tabel Hasil Percobaan dengan kondisi parameter diubah
Teknik
Klasifikasi
Mode Classifier
Nilai Average
Precision
Nilai Average
Recall
Time Taken To
Build Model
Nave Bayes default 0.825 0.834 0.27 s
Nave Bayes debug true : True ;
displayModelInOldFormat : True ;
useKernelEstimator : True ;
useSupervisedDiscretization : False
0.846 0.852 0.24 s
J48 default 0.857 0.862 3.87 s
J48 Binnary split : True ;
ReduceErorPruning : True ;
useLaplace :True
0.856 0.861 2.95 s
Conjunctive
Rule
default default 0.576 0.759 3.08 s
Conjunctive
Rule
exclusive :True ;
folds : 5 ;
seed : 2
0.576 0.759 4.5 s
lazy IBK default 0.793 0.794 0.01 s
lazy IBK distanceWeighting :
weightby 1 distance ;
KNN 1;
crosValidate : True
0.793 0.794 0.01 s
zeroR default 0.576 0.759 0.01 s
zeroR debug : true 0.576 0.759 0.02 s


Gambar 2 Metodologi Penelitian

Penelitian ini merupakan jenis penelitian
Komparatif. Dikatakan Komparatif-Literatif
(perbandingan) dikarenakan pada penelitian ini
bertujuan untuk menilai tingkat presisi dan
waktu pemrosesan berbagai algortima data
mining yang terdapat pada WEKA. Setelah
dilakukan studi Komparatif dan penilaian, maka
selanjutnya dilakukan studi literatur sebagai
bahan untuk analisa dan pembahasan terhadap
faktor-faktor yang menyebabkan perbedaan
hasil peforma dari berbagai teknik algoritme.

Langkah-langkah yang dilakukan untuk menguji
peforma dari berbagai metode klasifikasi pada
WEKA ditunjukkan pada gambar 2:
Pranatha, Analisis Perbandingan dengan Lima Metode Klasifikasi pada Dataset Sensus Penduduk
133
3.1 Persiapan Data
Sebelum dapat digunakan sebagai input dalam
pengujian, dataset tersebut harus dikonversikan
menjadi format yang sesuai dengan format file
dari WEKA yaitu ARFF. Kemudian dilakukan
penghapusan data yang hilang atau kosong yang
terdapat pada dataset.

3.2 Penentuan Teknik Pembagian Data
Pengujian dilakukan dengan menggunakan test
option k-fold cross validation. Dalam
penggujian ini nilai k yang digunakan adalah
10. K-Fold Cross Validation ini membagi data
menjadi k bagian dan masing-masing bagian
akan secara bergantian digunakan sebagai data
training ataupun sebagai data testing. Nilai tiap
fitur dari suatu data akan disimpan dalam
sebuah matriks pasangan fitur-data. Pembuatan
matriks pasangan ini dilakukan untuk setiap
variasi data training dan data testing, kemudian
matriks ini akan menjadi input untuk diolah oleh
berbagai metode klasifikasi pada machine
learning yang dipakai.

3.3 Pengklasifikasian menggunakan WEKA
Pengujian dijalankan menggunakan lima algo-
ritme classifier yang berbeda yaitu naive bayes,
Single Conjunctive Learner, Decision Tree, K-
Nearest Neighbor dan Rule Based. Performa
classifier juga akan dibandingkan berdasar pe-
rubahan mode classifier secara random.

3.4 Analisa Hasil Keluaran Klasifikasi
Dari hasil pengujian dengan kondisi parameter
standart tanpa pengubahan, ternyata didapatkan
average precision dan average terbesar adalah
decision tree dengan nilai 0.857 dan 0.862,
seperti yang ditunjukkan pada table 1.
Sedangkan untuk waktu tercepat dalam
membangun sebuah model di tunjukkan oleh
classifier K-Nearest Neighbor dan Rule Based
dengan waktu 0.01 detik.

Pengujian berikutnya dilakukan untuk
menganalisa perbandingan peforma classifier
berdasarkan perubahan pada mode classifier.
Perubahan ini bertujuan untuk melihat
bagaimana dampaknya pada nilai average
precision, average recall dan running time per
algoritme klasifikasi.

Berdasarkan tabel 2 dapat dianalisa bahwa,
pengubahan mode classifier memiliki
kecenderungan nilai average precision dan
average recall yang lebih tinggi dan running
time yang lebih cepat dibandingkan classifier
dalam mode default, seperti pada teknik
klasifikasi nave bayes dengan nilai average
0.846, precision 0.852, dan running time 0.24
seconds. Kecenderungan yang sama juga dapat
ditemukan pada hasil pengujian classifier J48.
Sedangkan hasil pengujian untuk ketiga
algoritme lainnya, yaitu Conjunctive Rule, KNN
dan Rule Based memiliki nilai average dan
recall yang sama ketika diuji dalam mode
default dan pada mode classifier yang
parameternya telah diubah.

4. SIMPULAN dan SARAN
Perbandingan algoritme dengan menggunakan
WEKA 3.6.5 dapat dilihat dari beberapa nilai
yang dihasilkan antara lain average precision
dan average recall sehingga dapat dihitung
peforma masing-masing algortima untuk
masing-masing kelas. Secara keseluruhan,
kinerja algoritme decision tree lebih baik
dibandingkan dengan algoritme naive bayes,
Single Conjunctive Learner, Decision Tree K-
Nearest Neighbor dan Rule Based. Beberapa
faktor yang menjadikan algortima decision tree
lebih baik dibandingkan yang lainnya, salah satu
kemampuannya yang secara sederhana adalah
mendefinisikan dan mengklasifikasikan masing-
masing atribut ke setiap kelas. Hal ini dapat
dilihat dari tingkat precision dan recall yang
lebih tinggi dibanding dengan algortima yang
lain. Sedangkan untuk kecepatan dalam
membangun sebuah model algoritme, K-Nearest
Neighbor dan Rule Based merupakan yang
tercepat dibandingkan ketiga algortima yang
lain.

Pengujian yang digunakan untuk menganalisa
peforma classifier berdasarkan mode classifier
menunjukan kecendurungan peningkatan nilai
average precision, nilai average recall dan
kecepatan running time dibandingkan pengujian
classifier dalam mode default. Classifier nave
bayes dan j48 menunjukan perbedaan yang
signifikan. Pengembangan penelitian berikutnya
dapat dilakukan dengan cara mengubah
algoritme klasifier atau mengubah parameter
klasifier pada setiap algoritme lebih banyak lagi,
sehingga dapat ditemukan algoritme klasifier
apa dengan mode tertentu, yang akan
menghasilkan precission dan recall terbaik
untuk klasifikasi dataset penduduk.

5. DAFTAR RUJUKAN
Distiawan, B., Jais, H. (2009) Klasifikasi
dokumen menggunakan algoritme nave
bayes dengan penambahan parameter
probabilitas parent category. pp. 1-2
Tan, P.-N., Steinbach, M., & Kumar, V. (2006).
Introduction to Data Mining. Boston:
Pearson Education, Inc.
Jurnal Sistem Informasi, Volume 4, Nomor 2, Maret 2012, hlm 127-134
134
Cohen, W. (1995) Fast effective rule induction.
In Press of Proceedings 12th International
Conference on Machine Learning, Morgan
Kaufmann. Pp. 115123
Clark, P., Niblett, T. (1989). The CN2 rule
induction algorithm. Machine Learning 3.
pp. 261284
Precision & Recall at http://yunita113070288-
.wordpress.com/
Mohd Fauzi Othman, Thomas Moh Shan
Yau,(2006), Comparison of Different
Classification Techniques Using WEKA for
Breast Cancer, IFMBE Proceedings, Vol
15, Springer, 2006
Mandala, Rila. (2006) Evaluasi efektifitas
Metode Machine-Learning pada Search-
Engine, Seminar Nasional Aplikasi
Teknologi Informasi, 2006.