Anda di halaman 1dari 11

J48 Tree Classification dan Simple K-Means Clustering

pada Diagnosa Alcoholic Liver Disease (ALD)


1
M. Rijaluddin Robbani Hanafi 2 Ika Nurlaili I.
1
5210100114, 2 5210100130
1,2
Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember
Kampus ITS Sukolilo Surabaya 60111, Indonesia
1
rijaluddin10@mhs.is.its.ac.id, 2 ika.nurlaili10@mhs.is.its.ac.id

AbstrakDokumen ini membahas mengenai diagnosa efek konsumsi minuman


beralkoholyang berlebih akan mampu merusak fungsi hati sebagai organ vital manusia atau
dikenal dengan Alcoholic Liver Disease (ALD). Diagnosa akan dilakukan menggunakan dua
metode pada aplikasi WEKA, yakni classification dengan tree J48 serta clustering dengan
simple K-Means.

Kata KunciAlcoholic Liver Disease, WEKA, Classification, Clustering, J48, Simple K-


Means.

I. PENDAHULUAN Tabel 1. Deskripsi Atribut pada Data ALD

Nama atribut Deskripsi

P
enemuan pattern dari data medis
mcv Volume rata-rata
dalam dunia kedokteran saat ini
corpuscular
menjadi fokus yang cukup penting. alkphos Alkaline fosfat
Dalam hal ini, pentingnya peranan data sgpt Alamine
mining akan mampu memberikan hasil Aminotransferase
yang optimal serta merupakan solusi yang Sgot sspartat
potensial, khususnya bagi knowledge Aminotransferase
discovery techniques[1]. gammagt Gamma-glutamyl
transpepsidase
Konsumsi minuman beralkohol di miras Jumlah takaran gelas
dunia saat ini cukup banyak ditemui pada pint untuk konsumsi
alkohol per hari
masyarakat, khususnya pada negara-negara
Class Membagi data ALD ke
Eropa dan Amerika. Sayangnya, hal dalam dua class, yaitu:
tersebut memiliki efek yang kurang baik cukup beresiko dan
bagi kesehatan. Disamping itu, konsumsi sangat beresiko
minuman beralkohol yang berlebih juga
mampu merusak fungsi hati sebagai organ
Lima atribut pertama diperoleh dari hasil
vital manusia. Studi ini akan menggunakan
laporan tes darah yang dianggap sensitif
data mengenai Alcoholic Liver Disease
terhadap gangguan hati yang mungkin
(ALD) dari UCI Machine Learning
timbul dari konsumsi alkohol yang
Repository[2]. Secara keseluruhan, data
berlebihan. Variabel keenam, yakni 'miras',
ALD mengandung 7 atribut yang
berisikan pengukuran konsumsi alkohol,
dijelaskan pada tabel berikut.
dan variabel terakhir adalah variabel

1
'Class' yang merupakan class atribut pada data-data historis konsumsi alkohol, tanda-
data. tanda fisik, serta tes laboratorium[5].

II. TINJAUAN PUSTAKA C. DATA MINING


Secara umum, data mining dapat
A. ALKOHOL
disebut juga dengan knowledge discovery.
Minuman beralkohol adalah Definisi dari data mining adalah sebuah
minuman yang mengandung etanol. Etanol proses menganalisis data dari perspektif
adalah bahan psikoaktif dan konsumsinya yang berbeda dan merangkumnya menjadi
menyebabkan penurunan kesadaran. sebuah informasi yang berguna, informasi
Etanol ialah sejenis bahan kimia yang berguna ini contohnya informasi yang
berupaya menekankan aktivitas otak, dapat digunakan untuk meningkatkan
justru mengubah kewibawaan akal fikiran. pendapatan, mengurangi biaya atau bahkan
Minuman beralkohol dibuat dengan cara keduanya. Software data mining adalah
fermentasi khamir dari bahan baku yang salah satu dari sejumlah alat-alat analisis
mengandung pati atau gula tinggi[3]. untuk menganalisis data yang ada. Hal ini
memungkinkan pengguna untuk
Penggunaan alkohol secara menganalisis data dari berbagai dimensi
berterusan untuk jangka masa yang lama atau sudut pandang, mengkategorikannya
boleh menyebabkan kesan toleransi yaitu dan merangkumnya, mengidentifikasi
peminum terpaksa mengambil ramuan hubungannya. Secara teknis, data mining
yang semakin banyak bagi mendapatkan adalah proses menemukan korelasi atau
kesan yang serupa. Di berbagai negara, pola antara puluhan fielddalam satu basis
penjualan minuman beralkohol dibatasi ke data yang besar dan memiliki relasi[6].
sejumlah kalangan saja, umumnya orang-
orang yang telah melewati batas usia D. CLASSIFICATION METHOD
tertentu. Kandungan alkohol di atas 40 Metode klasifikasi adalah suatu
gram untuk pria setiap hari atau di atas 30 proses untuk mengelompokkan sejumlah
gram untuk wanita setiap hari dapat data kedalam kelas-kelas tertentu yang
berakibat kerusakan pada organ/bagian sudah ditentukan berdasarkan kesamaan
tubuh peminumnya[3],[4]. sifat dan pola yang ada dalam data-data
tersebut. Umumnya, proses klasifikasi
B. ALCOHOLIC LIVER DISEASE dimulai dengan diberikannya sejumlah
Hati adalah organ vital hadir dalam data yang dijadikan acuan untuk membuat
vertebrata. Sampai saat ini, masih belum aturan klasifikasi data. Data-data ini biasa
ada cara untuk mentolerir ketiadaan fungsi disebut dengan training sets. Dari training
hati[3]. Banyak gangguan hati dapat terjadi sets itu kemudian dibuat sebuahmodel
seperti penyakit akibat alkohol hati. untuk mengklasifikasikan data. Model
Penyakit kelainan hati akibat alkohol atau tersebut kemudian dijadikan sebagai acuan
Alcoholic Liver Disease (ALD) adalah untuk mengklasifikasikan data-data yang
akibat potensial yang diakibatkan oleh belum diketahui kelasnya, ini disebut
konsumsi alkohol. Diagnosis dari ALD dengantest sets. Beberapa metode
dapat didasarkan dari beberapa hal, yakni klasifikasi adalah dengan menggunakan
pohon keputusan (decision tree), kaidah

2
(rule), Memory Based Reasoning, Neural menciptakan sebuah binary tree.
Networks, Nave Bayes, dan Support Pendekatan decision tree adalah hal yang
Vector Machine[7]. paling penting dalam masalah klasifikasi.
Dengan menggunakan teknik ini, sebuah
E. CLUSTERING METHOD tree dibentuk untuk model proses
Metode clustering digunakan untuk klasifikasi. Setelah tree dibentuk, itu
menganalisis pengelompokkan terhadap diterapkan untuk setiap record dalam
data, mirip denganklasifikasi, namun database dan hasil dalam klasifikasi record
pengelompokkan belum didefinisikan itu[10].
sebelum dijalankannya tool data mining.
Biasanya menggunkan metode neural 2) SIMPLE K-MEANS
network atau statistik. Clustering membagi Simple K-Means merupakan salah
item menjadi kelompok-kelompok satu jenis classifier pada metode klastering
berdasarkan temuan yang ditemukan tool dalam data mining.K-Means adalah suatu
data mining.Prinsip dari clustering adalah metode analisis data atau metode data
memaksimalkan kesamaan antar anggota mining yang melakukan proses pemodelan
satu kelas danmeminimumkan kesamaan tanpa supervisi (unsupervised) dan
antar cluster. Clustering dapat dilakukan merupakan salah satu metode yang
pada data yang memilikibeberapa atribut melakukan pengelompokan data dengan
yang dipetakan sebagai ruang sistem partisi. Metode k-means berusaha
multidimensi[8]. mengelompokkan data yang ada ke dalam
beberapa kelompok, dimana data dalam
F. WEKA satu kelompok mempunyai karakteristik
WEKA(Wakaito Environment for yang sama satu sama lainnya dan
Knowledge Analysis) adalah aplikasi yang mempunyai karakteristik yang berbeda
dikembangkan oleh University of Waikato, dengan data yang ada di dalam kelompok
New Zealand. WEKA menyediakan yang lain. Dengan kata lain, metode ini
banyak metode-metode untuk data mining berusaha untuk meminimalkan variasi
seperti re-processing, classification, antar data yang ada di dalam suatu cluster
clustering, regression,association dan dan memaksimalkan variasi dengan data
beberapa metode lainnya[9]. Sebagian yang ada di cluster lainnya[11].
besar kasus yang bertujuan untuk
menganalisis pengelompokkan data III. METODOLOGI
umumnya menggunakan metode
Tahapan metodologi yang digunakan
klasifikasi dan klastering. Berikut ini
meliputi tiga proses utama, yakni: (1)input,
merupakan beberapa jenis classifieryang
(2)proses, dan (3)output. Gambaran
ada pada metode klasifikasi maupun
metodologi tersebut dapat dilihat pada
metode klastering.
gambar berikut.
1) J48
J48 merupakan salah satu jenis
classifier pada metode klasifikasi dalam
data mining. J48 classifier adalah C4.5
decision tree yang sederhana. Ini

3
Data Preprocessing

Identifikasi Proses Analisis Hasil


Permasalahan Pengolahan Data
Pengolahan Data
Studi Literatur
Pengumpulan Data
Pengolahan Data dengan
Pengolahan Data dengan
Metode Klustering Simple K-
Metode Klasifikasi Tree J48
Input Output Means

Gambar 2. Teknik Pengolahan Data

IV. PENGUMPULAN DAN


PENGOLAHAN DATA
Gambar 1. Metode Pengerjaan

Adapun tahapan pengelolaan data akan A. DATA ALCOHOLIC LIVER


dibagi lagi ke dalam dua proses, yakni: DISEASE

Proses Klasifikasi dengan Tree Data yang akan digunakan untuk


J48 proses pengolahan, terdiri atas data
Metode ini digunakan untuk training serta data testing.
mengelompokkan data ke dalam 1) TRAINING
dua class yang berbeda, yakni:
(1)cukup beresiko, dan (2)sangat Data training yang digunakan
beresiko. Proses ini akan berisikan sebanyak 190 line data yang
melibatkan beberapa pilihan test, mengandung ketujuh atribut yang telah
yakni: Use Training Set, Supplied dijelaskan pada awal bab. Berikut ini
Test Set, Cross Validation, dan merupakan beberapa data training yang
Percentage Split. akan digunakan.
Proses Klustering dengan Simple
K-Means
Proses ini juga akan melibatkan
beberapa pilihan test, yakni: Use
Training Set, Supplied Test Set,
Cross Validation, dan Percentage
Split.

Gambar 3. Raw Data Training

4
2) TESTING File.data mengandung contoh data
yang membentuk set data. Terdapat dua
Data testing terdiri atas 155 line data file.data yakni untuk set data training serta
(jumlah yang lebih sedikit dibandingkan untuk set data testing.
dengan data training). Berikut ini
merupakan beberapa data training yang
akan digunakan.

Gambar 6. Data input training

Gambar 4. Raw Data Testing

B. PEMBUATAN DATA INPUT

Dikarenakan pengolahan data


selanjutnya akan dilakukan menggunakan
aplikasi WEKA, maka format data input
harus diolah terlebih dahulu agar aplikasi
dapat membaca set data yang ada.

Dalam hal ini, akan digunakan data


input dengan format C45[12]. Data ini Gambar 7. Data input testing
terdiri atas dua bagian, yakni file.names
C. PENGOLAHAN DATA PADA WEKA
serta file.data, dimana file.names akan
berisikan mengenai entri mengenai class, Langkah selanjutnya yang
atribut, serta nilai dari set data. Berikut ini dilakukan yakni melakukan pengolahan
merupakan file.names yang digunakan data (Explorer) pada aplikasi WEKA.
dalam studi ini.

Gambar 5. file.names

5
Gambar 8. WEKA GUI
Gambar 10. Classifier Tree J48
Data input (training) yang telah diolah
2) CLUSTERING
sebelumnya, akan dimasukkan dan diolah
dengan metode klasifikasi maupun Metode klustering menggunakan simple K-
klustering. Means diharapkan akan membentuk
sebanyak dua cluster. Pengaturan cluster
Gambar berikut menampilkan bahwa pada
tersebut ditampilkan pada gambar berikut.
data training, terdapat 78 orang yang
cukup beresiko terhadap ALD, sedangkan
112 orang lainnya telah tergolong sangat
beresiko mengenai ALD.

Gambar 9. Instances dalam Pengujian


Gambar 11. Pengaturan Cluster
1) CLASSIFICATION
V. ANALISIS DAN PEMBAHASAN
Metode klasifikasi pada WEKA
akan menggunakan classifier tree J48. A. CLASSIFICATION
Pemilihan classifier tersebut ditampilkan
pada gambar berikut. Hasil pengolahan data
menggunakan classifier tree J48
menghasilkan sebanyak 10 leaf node.

Gambar 12. Tree dan Leaves

Gambaran tree yang dibentuk oleh


training data adalah sebagai berikut.

6
Gambar 13. Visualisasi Tree

1) Use Training Set Gambar 15. Hasil Supplied Test Set

Pengolahan klasifikasi data ALD pada tree Akurasi yang diperoleh adalah
J48 dengan pilihan tes untuk set data 58,0645% dengan jumlah correctly
training, menghasilkan data sebagai classified instances sebanyak 90.
berikut. Jumlah incorrectly classified
instances adalah sebanyak 65 atau
41,9355%.
Hasil akar dari mean squared error
adalah 0,54.

3) Cross Validation

Pilihan tes untuk cross validation, dengan


jumlah folds sebanyak 10 menghasilkan
data sebagai berikut.

Gambar 14. Hasil Use Training Set

Akurasi yang diperoleh adalah


79,473% dengan jumlah correctly
classified instances sebanyak 151.
Jumlah incorrectly classified
instances adalah sebanyak 39 atau
20,5263%.
Hasil akar dari mean squared error
adalah 0,3887.
Gambar 16. Hasil Cross Validation
2) Supplied Test Set
Akurasi yang diperoleh adalah
Pilihan tes untuk set data testing, 61,5789% dengan jumlah correctly
menghasilkan data sebagai berikut. classified instances sebanyak 90.
Jumlah incorrectly classified
instances adalah sebanyak 73 atau
38,4211%.

7
Hasil akar dari mean squared error
adalah 0,5475.

4) Percentage split

Pilihan tes untuk set data training, dengan


pembagian prosentase 66% untuk training
dan 34% untuk testing menghasilkan data
sebagai berikut.

Gambar 18. Hasil Use Training Set

Jumlah iterasi yang diperoleh yakni


sebanyak 2 iterasi.
Gambar 17. Hasil Percentage split
Nilai SSE (Sum of Squared Error)
Akurasi yang diperoleh adalah antar kluster adalah 24,62.
56,9231% dengan jumlah correctly Waktu yang dibutuhkan dalam
classified instances sebanyak 37. membuat model adalah 0,02 detik.
Jumlah incorrectly classified Data yang terbentuk oleh kedua
instances adalah sebanyak 28 atau kluster, terbagi atas diagnosa
43,0769%. sangat beresiko serta cukup
Hasil akar dari mean squared error beresiko.
adalah 0,4961.
2) Supplied Test Set
B. CLUSTERING
Pilihan tes untuk set data testing,
1) Use Training Set menghasilkan data sebagai berikut.

Pengolahan klasifikasi data ALD pada


simple K-Means dengan pilihan tes untuk
set data training, menghasilkan data
sebagai berikut.

8
Gambar 19. Hasil Supplied Test Set Gambar 20. Hasil Cross Validation

Jumlah iterasi yang diperoleh yakni Jumlah iterasi yang diperoleh yakni
sebanyak 2 iterasi. sebanyak 6 iterasi.
Nilai SSE (Sum of Squared Error) Nilai SSE (Sum of Squared Error)
antar kluster adalah 24,62. antar kluster adalah 62,91.
Waktu yang dibutuhkan dalam Waktu yang dibutuhkan dalam
membuat model adalah 0 detik. membuat model adalah 0 detik.
Data yang terbentuk oleh kedua Data yang terbentuk oleh kedua
kluster, terbagi atas diagnosa kluster, hanya mencakup atas
sangat beresiko serta cukup diagnosa sangat beresiko saja.
beresiko.
4) Percentage split
3) Cross Validation
Pilihan tes untuk set data training, dengan
Pilihan tes untuk cross validation, dengan pembagian prosentase 66% untuk training
jumlah folds sebanyak 10 menghasilkan dan 34% untuk testing menghasilkan data
data sebagai berikut. sebagai berikut.

9
Tabel 2. Hasil Classification pada WEKA

Incorrectly Correctly Akurasi Error


Classified Classified (%) Mean

Use training set 39 151 79,473 0,3887

Supplied test set 65 90 58,0645 0,54

Cross Validation 73 90 61,5789 0,5475

Percentage split 28 37 56,9321 0,4961


Untuk pengolahan data dengan
metode klasifikasi, diperoleh tingkat
akurasi yang cukup tinggi, yakni diatas
50% untuk masing-masing tes. Namun,
menimbang jumlah incorrectly classified
instances, correctly classified instances,
dan mean error jenis tes yang baik
digunakan adalah use training set dengan
jumlah paling minimal incorrectly
classified instances 39, tingkat akurasi
tertinggi yakni 79,473%, dan mean error
Gambar 21. Hasil Percentage split
paling minimal sebanyak 0,3887.
Jumlah iterasi yang diperoleh yakni
Tabel 3. Hasil Clustering pada WEKA
sebanyak 6 iterasi.
Nilai SSE (Sum of Squared Error) Iterasi
SSE Waktu Kondisi Kluster
(kali)
antar kluster adalah 18,42.

Use training set 2 24,62 0,02 sesuai
Waktu yang dibutuhkan dalam
Supplied test set 2 24,62 0 sesuai
membuat model adalah 0,01 detik.
Cross Validation 6 62,91 0 kurang sesuai
Pada percentage split, dapat
Percentage split 6 18,42 0,01 kurang sesuai
ditunjukkan bahwa terdapat 92
Untuk pengolahan data dengan metode
incorrectly clustered instances atau
klustering, dengan menimbang hasil
sejumlah 48,4211%.
keseluruhan, maka tes yang sesuai adalah
use training set dan supplied test set.
Namun dari segi kecepatan, supplied test
set sedikit lebih unggul dibandingkan use
training set.

VI. KESIMPULAN

Data diagnosa Alcoholic Liver


Disease (ALD) dapat diolah baik
Gambar 22. Assignment Percentage split
menggunakan metode klasifikasi maupun
C. REKOMENDASI klustering. Pemilihan metode dan jenis tes
yang diperlukan dapat disesuaikan dengan
Hasil yang diperoleh dari tujuan maupun kebutuhan yang ingin
keseluruhan tes pengolahan data dapat diolah selanjutnya.
dilihat pada tabel-tabel berikut.

10
DAFTAR PUSTAKA analisis-dan-implementasi-klasifikasi-
data-mining-menggunakan-jaringan-
[1] Singh, Vikram., Nagpal, Sapna. A syaraf-tiruan-dan-evolution-
Guided clustering Technique for strategies.pdf
Knowledge Discovery A Case Study
of Liver Disorder Dataset. Dipetik 01 [8] Safitri, Habibi Ramdani. Penerapan
14, 2014, dari Teknik Data Mining Dengan Metode
http://www.researchmanuscripts.com/ Smooth Support Vector Machine
PapersVol1N1/IJCBR-1.pdf (SSVM) Untuk Memprediksi
Mahasiswa Yang Berpeluang Drop
[2] Liver Disorders Data from BUPA Out (Studi Kasus Mahasiswa
Medical Research Ltd. Dipetik 01 14, Politeknik Negeri Medan). Universitas
2014, dari Sumatera Utara, Fakultas Matematika
http://archive.ics.uci.edu/ml/datasets/L dan Ilmu Pengetahuan Alam. 2012.
iver+Disorders
[9] Weka Manual. Dipetik 01 14, 2014,
[3] Adriani, Desi. Penetapan Kadar Etanol dari
Dalam Minuman Beralkohol. http://www.ittc.ku.edu/~nivisid/WEK
Universitas Sumatera Utara, Fakultas A_MANUAL.pdf
Matematika dan Ilmu Pengetahuan
Alam. 2011. [10] Tina R. Patil, Mrs. S. S. Sherekar.
Performance Analysis of Naive Bayes
[4] Suraiya, Lely. Secangkir Kopi and J48 Classification Algorithm for
Segunung Pahala. Qultum Media. Data Classification. Sant Gadgebaba
Tangerang: 2004. Amravati University: 2013.
[5] Marsano, Luis S., Mendez, Christian., [11] Chaturvedi, A.D., Green, P.E. and
Hill, Daniel. Barve,, Shirish., Carroll, J.D. (2001). K-Modes
McClain, Craig J. Diagnosis and Clustering. Journal of Classification,
Treatment of Alcoholic Liver Disease 18, 35-56.
and Its Complications. 2003.
[12] C4.5 Format. Dipetik 01 14, 2014,
[6]What is Data Mining?. Dipetik 01 14, dari
2014, dari http://www.cs.washington.edu/dm/vf
http://www.anderson.ucla.edu/faculty/ ml/appendixes/c45.htm
jason.frand/teacher/technologies/palac
e/datamining.htm

[7] Naufar Rifqi, W. M. (2011, November


12). Dipetik 01 14, 2014, dari
http://yudiagusta.files.wordpress.com/
2008/09/183-191-knsi2011-029-

11

Anda mungkin juga menyukai