P
enemuan pattern dari data medis
mcv Volume rata-rata
dalam dunia kedokteran saat ini
corpuscular
menjadi fokus yang cukup penting. alkphos Alkaline fosfat
Dalam hal ini, pentingnya peranan data sgpt Alamine
mining akan mampu memberikan hasil Aminotransferase
yang optimal serta merupakan solusi yang Sgot sspartat
potensial, khususnya bagi knowledge Aminotransferase
discovery techniques[1]. gammagt Gamma-glutamyl
transpepsidase
Konsumsi minuman beralkohol di miras Jumlah takaran gelas
dunia saat ini cukup banyak ditemui pada pint untuk konsumsi
alkohol per hari
masyarakat, khususnya pada negara-negara
Class Membagi data ALD ke
Eropa dan Amerika. Sayangnya, hal dalam dua class, yaitu:
tersebut memiliki efek yang kurang baik cukup beresiko dan
bagi kesehatan. Disamping itu, konsumsi sangat beresiko
minuman beralkohol yang berlebih juga
mampu merusak fungsi hati sebagai organ
Lima atribut pertama diperoleh dari hasil
vital manusia. Studi ini akan menggunakan
laporan tes darah yang dianggap sensitif
data mengenai Alcoholic Liver Disease
terhadap gangguan hati yang mungkin
(ALD) dari UCI Machine Learning
timbul dari konsumsi alkohol yang
Repository[2]. Secara keseluruhan, data
berlebihan. Variabel keenam, yakni 'miras',
ALD mengandung 7 atribut yang
berisikan pengukuran konsumsi alkohol,
dijelaskan pada tabel berikut.
dan variabel terakhir adalah variabel
1
'Class' yang merupakan class atribut pada data-data historis konsumsi alkohol, tanda-
data. tanda fisik, serta tes laboratorium[5].
2
(rule), Memory Based Reasoning, Neural menciptakan sebuah binary tree.
Networks, Nave Bayes, dan Support Pendekatan decision tree adalah hal yang
Vector Machine[7]. paling penting dalam masalah klasifikasi.
Dengan menggunakan teknik ini, sebuah
E. CLUSTERING METHOD tree dibentuk untuk model proses
Metode clustering digunakan untuk klasifikasi. Setelah tree dibentuk, itu
menganalisis pengelompokkan terhadap diterapkan untuk setiap record dalam
data, mirip denganklasifikasi, namun database dan hasil dalam klasifikasi record
pengelompokkan belum didefinisikan itu[10].
sebelum dijalankannya tool data mining.
Biasanya menggunkan metode neural 2) SIMPLE K-MEANS
network atau statistik. Clustering membagi Simple K-Means merupakan salah
item menjadi kelompok-kelompok satu jenis classifier pada metode klastering
berdasarkan temuan yang ditemukan tool dalam data mining.K-Means adalah suatu
data mining.Prinsip dari clustering adalah metode analisis data atau metode data
memaksimalkan kesamaan antar anggota mining yang melakukan proses pemodelan
satu kelas danmeminimumkan kesamaan tanpa supervisi (unsupervised) dan
antar cluster. Clustering dapat dilakukan merupakan salah satu metode yang
pada data yang memilikibeberapa atribut melakukan pengelompokan data dengan
yang dipetakan sebagai ruang sistem partisi. Metode k-means berusaha
multidimensi[8]. mengelompokkan data yang ada ke dalam
beberapa kelompok, dimana data dalam
F. WEKA satu kelompok mempunyai karakteristik
WEKA(Wakaito Environment for yang sama satu sama lainnya dan
Knowledge Analysis) adalah aplikasi yang mempunyai karakteristik yang berbeda
dikembangkan oleh University of Waikato, dengan data yang ada di dalam kelompok
New Zealand. WEKA menyediakan yang lain. Dengan kata lain, metode ini
banyak metode-metode untuk data mining berusaha untuk meminimalkan variasi
seperti re-processing, classification, antar data yang ada di dalam suatu cluster
clustering, regression,association dan dan memaksimalkan variasi dengan data
beberapa metode lainnya[9]. Sebagian yang ada di cluster lainnya[11].
besar kasus yang bertujuan untuk
menganalisis pengelompokkan data III. METODOLOGI
umumnya menggunakan metode
Tahapan metodologi yang digunakan
klasifikasi dan klastering. Berikut ini
meliputi tiga proses utama, yakni: (1)input,
merupakan beberapa jenis classifieryang
(2)proses, dan (3)output. Gambaran
ada pada metode klasifikasi maupun
metodologi tersebut dapat dilihat pada
metode klastering.
gambar berikut.
1) J48
J48 merupakan salah satu jenis
classifier pada metode klasifikasi dalam
data mining. J48 classifier adalah C4.5
decision tree yang sederhana. Ini
3
Data Preprocessing
4
2) TESTING File.data mengandung contoh data
yang membentuk set data. Terdapat dua
Data testing terdiri atas 155 line data file.data yakni untuk set data training serta
(jumlah yang lebih sedikit dibandingkan untuk set data testing.
dengan data training). Berikut ini
merupakan beberapa data training yang
akan digunakan.
Gambar 5. file.names
5
Gambar 8. WEKA GUI
Gambar 10. Classifier Tree J48
Data input (training) yang telah diolah
2) CLUSTERING
sebelumnya, akan dimasukkan dan diolah
dengan metode klasifikasi maupun Metode klustering menggunakan simple K-
klustering. Means diharapkan akan membentuk
sebanyak dua cluster. Pengaturan cluster
Gambar berikut menampilkan bahwa pada
tersebut ditampilkan pada gambar berikut.
data training, terdapat 78 orang yang
cukup beresiko terhadap ALD, sedangkan
112 orang lainnya telah tergolong sangat
beresiko mengenai ALD.
6
Gambar 13. Visualisasi Tree
Pengolahan klasifikasi data ALD pada tree Akurasi yang diperoleh adalah
J48 dengan pilihan tes untuk set data 58,0645% dengan jumlah correctly
training, menghasilkan data sebagai classified instances sebanyak 90.
berikut. Jumlah incorrectly classified
instances adalah sebanyak 65 atau
41,9355%.
Hasil akar dari mean squared error
adalah 0,54.
3) Cross Validation
7
Hasil akar dari mean squared error
adalah 0,5475.
4) Percentage split
8
Gambar 19. Hasil Supplied Test Set Gambar 20. Hasil Cross Validation
Jumlah iterasi yang diperoleh yakni Jumlah iterasi yang diperoleh yakni
sebanyak 2 iterasi. sebanyak 6 iterasi.
Nilai SSE (Sum of Squared Error) Nilai SSE (Sum of Squared Error)
antar kluster adalah 24,62. antar kluster adalah 62,91.
Waktu yang dibutuhkan dalam Waktu yang dibutuhkan dalam
membuat model adalah 0 detik. membuat model adalah 0 detik.
Data yang terbentuk oleh kedua Data yang terbentuk oleh kedua
kluster, terbagi atas diagnosa kluster, hanya mencakup atas
sangat beresiko serta cukup diagnosa sangat beresiko saja.
beresiko.
4) Percentage split
3) Cross Validation
Pilihan tes untuk set data training, dengan
Pilihan tes untuk cross validation, dengan pembagian prosentase 66% untuk training
jumlah folds sebanyak 10 menghasilkan dan 34% untuk testing menghasilkan data
data sebagai berikut. sebagai berikut.
9
Tabel 2. Hasil Classification pada WEKA
VI. KESIMPULAN
10
DAFTAR PUSTAKA analisis-dan-implementasi-klasifikasi-
data-mining-menggunakan-jaringan-
[1] Singh, Vikram., Nagpal, Sapna. A syaraf-tiruan-dan-evolution-
Guided clustering Technique for strategies.pdf
Knowledge Discovery A Case Study
of Liver Disorder Dataset. Dipetik 01 [8] Safitri, Habibi Ramdani. Penerapan
14, 2014, dari Teknik Data Mining Dengan Metode
http://www.researchmanuscripts.com/ Smooth Support Vector Machine
PapersVol1N1/IJCBR-1.pdf (SSVM) Untuk Memprediksi
Mahasiswa Yang Berpeluang Drop
[2] Liver Disorders Data from BUPA Out (Studi Kasus Mahasiswa
Medical Research Ltd. Dipetik 01 14, Politeknik Negeri Medan). Universitas
2014, dari Sumatera Utara, Fakultas Matematika
http://archive.ics.uci.edu/ml/datasets/L dan Ilmu Pengetahuan Alam. 2012.
iver+Disorders
[9] Weka Manual. Dipetik 01 14, 2014,
[3] Adriani, Desi. Penetapan Kadar Etanol dari
Dalam Minuman Beralkohol. http://www.ittc.ku.edu/~nivisid/WEK
Universitas Sumatera Utara, Fakultas A_MANUAL.pdf
Matematika dan Ilmu Pengetahuan
Alam. 2011. [10] Tina R. Patil, Mrs. S. S. Sherekar.
Performance Analysis of Naive Bayes
[4] Suraiya, Lely. Secangkir Kopi and J48 Classification Algorithm for
Segunung Pahala. Qultum Media. Data Classification. Sant Gadgebaba
Tangerang: 2004. Amravati University: 2013.
[5] Marsano, Luis S., Mendez, Christian., [11] Chaturvedi, A.D., Green, P.E. and
Hill, Daniel. Barve,, Shirish., Carroll, J.D. (2001). K-Modes
McClain, Craig J. Diagnosis and Clustering. Journal of Classification,
Treatment of Alcoholic Liver Disease 18, 35-56.
and Its Complications. 2003.
[12] C4.5 Format. Dipetik 01 14, 2014,
[6]What is Data Mining?. Dipetik 01 14, dari
2014, dari http://www.cs.washington.edu/dm/vf
http://www.anderson.ucla.edu/faculty/ ml/appendixes/c45.htm
jason.frand/teacher/technologies/palac
e/datamining.htm
11