1, Maret 2017
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017 77
Decision tree mengubah fakta yang sangat besar label class. Node paling atas dari sebuah pohon
menjadi pohon keputusan yang adalah node akar (Han & Kamber, 2007).
merepresentasikan aturan (Suhartinah, 2010). Algoritma C4.5 menggunakan konsep
Klasifikasi Bayes juga dikenal dengan Naïve information gain atau entropy reduction untuk
Bayes, memiliki kemampuan sebanding dengan memilih pembagian yang optimal (Larose, 2005).
pohon keputusan dan Neural Network (Han & Tahapan dalam membuat pohon keputusan
Kamber, 2007). Untuk itu dalam penelitian ini dengan algoritma C4.5 (Gorunescu, 2011) yaitu:
akan dilakukan perbandingan metode klasifikasi 1. Mempersiapkan data training, dapat diambil
data mining yaitu Algoritma C4.5 dan Naïve dari data histori yang pernah terjadi
Bayes. Kemudian akan dilakukan komparasi sebelumnya dan sudah dikelompokkan
terhadap kedua metode tersebut sehingga dalam kelas-kelas tertentu.
didapatkan algoritma terbaik untuk prediksi 2. Menentukan akar dari pohon dengan
penyakit hepatitis. menghitung nilai gain yang tertinggi dari
masing-masng atribut atau berdasarkan
BAHAN DAN METODE nilai index entropy terendah. Sebelumnya
dihitung terlebih dahulu nilai index entropy,
Data Mining dengan rumus:
Data mining telah menarik banyak perhatian
𝑚
dalam dunia sistem informasi dan dalam
masyarakat secara keseluruhan dalam beberapa 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑖 ) = − ∑ 𝑓 (𝑖, 𝑗). 𝑙𝑜𝑔 2 𝑓[(𝑖, 𝑗)]
tahun terakhir, karena ketersediaan luas dalam 𝑗=1
jumlah besar data dan kebutuhan segera untuk
mengubah data tersebut menjadi informasi yang 3. Hitung nilai gain dengan rumus:
p
berguna dan pengetahuan. Data mining adalah
untuk mengekstrasikan atau “menambang” n1
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑠𝑝𝑙𝑖𝑡 = ∑ ( ) . 𝐼𝐸(𝑖)
pengetahuan dari kumpulan banyak data (Han n
dan Kamber, 2007). i=1
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
78 Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017
P(x|y) = P(y|x) P(x) ini merupakan data sekunder yang diperolah dari
P(y) Machine Learning Repository UCI (Universitas
Keterangan: California, Invene) dengan alamat web
y = data dengan kelas yang belum diketahui
http://archive.ics.uci.edu/ml/machine-learning-
x = hipotesis data y merupakan suatu kelas spesifik
P(x|y) = probabilitas hipotesis x berdasarkan kondisi y databases/hepatitis/. Data yang dikumpulkan
P(x) = probabilitas hipotesis x adalah data pemeriksaan pasien penyakit
P(y|x) = probabilitas y berdasarkan kondisi pada hipotesis x hepatitis oleh G. Gong (Carnegie – Mellon
P(y) = probabilitas dari y
University) di Yugoslavia pada November 1988.
Dalam menyelesaikan penelitian perlu Data terkumpul sebanyak 155 data dengan 123
dibuat sebuah kerangka pemikiran yang berguna pasien penyakit hepatitis yang hidup dan 32
sebagai pedoman atau acuan penelitian ini pasien penyakit hepatitis yang mati dengan
sehingga penelitian dapat dilakukan secara atribut age, sex, steroid, antivirals, fatigue,
konsisten. Penelitian ini terdiri dari beberapa malaise, anorexia, liver_big, liver_firm,
tahap seperti terlihat pada gambar 1 di bawah ini. spleen_palpable, spiders, ascites, varices, bilirubin,
Permasalahan pada penelitian ini adalah belum alk_phosphate, sgot, albumin, protime, histology,
diketahui akurasi dari metode klasifikasi data dan class (atribut hasil prediksi).
mining untuk prediksi penyakit hepatitis. Oleh
sebab itu metode yang digunakan untuk 2. Pengolahan Data Awal
memecahkan masalah adalah Algoritma C4.5 dan Untuk mendapatkan data yang berkualitas,
Naïve Bayes dengan melakukan pengujian beberapa teknik yang dilakukan adalah sebagai
terhadap kinerja metode tersebut. Pengujian berikut (Vecellis, 2009):
metode dilakukan dengan cara confusion matrix a. Data validation, untuk mengidentifikasi dan
dan kurva ROC serta menggunakan tools menghapus data yang ganjil (outlier/noise),
RapidMiner. Berikut ini adalah kerangka data yang tidak konsisten, dan data yang
permikiran dari penelitian ini: tidak lengkap (missing value).
b. Data integration and transformation, untuk
Metode Penelitian meningkatkan akurasi dan efisiensi
algoritma. Data yang digunakan dalam
Pada penelitian ini data yang digunakan penelitian ini bernilai kategorikal.
adalah data penyakit hepatitis yang didapat dari c. Data size reduction and dicritization, untuk
Machine Learning Repository UCI (Universitas memperoleh dataset dengan jumlah atribut
California Invene) dengan alamat web: dan record yang lebih sedikit tetapi bersifat
http://archive.ics.uci.edu/ml/. Dalam penelitian informatif.
ini akan dilakukan beberapa langkah-langkah Dari proses pengolahan awal data di atas
atau tahapan penelitian seperti gambar di bawah diperoleh sebanyak 155 data dengan 123 data
ini: dengan kelas “HIDUP” dan 32 data dengan kelas
“MATI”.
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017 79
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
80 Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017 81
R13: Jika albumin > 2,650 dan protime <= 44,500 Untuk menentukan kelas dari kasus baru maka
dan age > 32,5 tahun dan malaise = YES maka dilakukan perhitungan probabilitas posterior
pasien “LIFE”. berdasarkan probabilitas prior yang telah
R14: Jika albumin > 2,650 dan protime <= 44,500 dihitung sebelumnya dan telah disajikan pada
dan age <= 32,5 tahun maka pasien “LIFE”. tabel 3. Perhitungan probabilitas posterior untuk
menentukan data testing termasuk klasifikasi
Pengujian dengan 10-Fold Cross Validation untuk yang mana, sebagai contoh diambil kasus seperti
model Algoritma C4.5 ini menggunakan aplikasi tabel 4 berikut, dimana X tersebut adalah data
RapidMiner seperti berikut: yang akan diprediksi hasilnya.
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
82 Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017 83
menggunakan ROC Curve secara visual pada klasifikasi data mining Algoritma C4.5
framework RapidMiner seperti berikut ini: menghasilkan akurasi 77,29% dan nilai AUC
0,846 yang termasuk dalam Good Classification.
Naive Bayes menghasilkan akurasi 83,71% dan
nilai AUC 0,812. Dengan demikian dapat
disimpulkan bahwa kedua metode ini akurat
dalam melakukan prediksi untuk penyakit
hepatitis.
Melihat dari hasil perbandingan kedua
algoritma tersebut memang dapat dinyatakan
bahwa Algoritma C4.5 lebih unggul dari Naive
Bayes karena memiliki nilai AUC 0,846 dengan
Gambar 9. Desain Model Komparasi dengan kategori Good Clasification.
ROC Curve Akan tetapi jika ditelusuri lebih lanjut
ternyata masih belum bisa dinyatakan sebagai
Pada gambar 9, dalam modul Compare ROC’s berisi algoritma yang lebih unggul. Menurut pengujian
beberapa model seperti berikut: berdasarkan Accuracy, algoritma terbaik adalah
Naive Bayes. Sedangkan menurut pengujian
berdasarkan ROC Curve (AUC) algoritma yang
terbaik adalah Algoritma C4.5. Agar penelitian ini
bisa ditingkatkan berikut ini adalah saran-saran
untuk mendapatkan hasil yang lebih baik:
1. Penelitian ini dapat dikembangkan lebih
lanjut dengan melakukan uji statistik dengan
menggunakan uji T-Test dengan
membandingkan kedua algoritma untuk
Gambar 10. Algoritma-algoritma dalam Modul melihat algoritma mana yang lebih dominan
ROC’s atau signifikan berdasarkan nilai
probabilitas.
Berdasarkan dari analisa pengujian masing-masing 2. Penelitian ini dapat dikembangkan dengan
algoritma di atas maka dapat dirangkumkan metode optimasi seperti PSO (Particle Swarm
hasilnya sebagai berikut: Optimization), GA (Genetic Algorithm), dan
lainnya untuk meningkatkan akuras dari
Tabel 7. Perbandingan Performance Metode metode.
C4.5 Naive Bayes 3. Penelitian ini dapat dikembangkan lagi
Accuracy 77,29% 83,71% dengan membandingkan dengan metode
AUC 0,846 0,812 lainnya seperti Neural Network, SVM, KNN,
dan lain-lain.
Performance keakurasian AUC (Gorunescu, 2010) 4. Tidak semua kasus atau permasalahan harus
dapat diklasifikasikan menjadi lima kelompok diselesaikan dengan satu algoritma pada
yaitu: data mining. Karena belum tentu algoritma
1. 0,90 – 1,00 = Exellent Classification yang digunakan merupakan algoritma yang
2. 0,80 – 0,90 = Good Classification paling akurat. Oleh karena itu untuk
3. 0,70 – 0,80 = Fair Classification menentukkan algoritma yang paling akurat
4. 0,60 – 0,70 = Poor Classification ini perlu dilakukan komparasi beberapa
5. 0,50 – 0,60 = Failure Classification algortima.
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…
84 Jurnal Pilar Nusa Mandiri Volume 13 No.1, Maret 2017
ISSN 1978 – 1946 & E-ISSN 2527 – 6514 | Komparasi Metode Klasifikasi…