ABSTRAK
Data mining merupakan bagian dari tahapan proses Knowledge Discovery in Database (KDD).
Dengan data mining, kita dapat melakukan pengklasifikasian, memprediksi, memperkirakan dan
mendapatkan informasi lain yang bermanfaat dari kumpulan data dalam jumlah yang besar.
Klasifikasi dalam data mining dapat dilakukan dengan menggunakan algoritma C4.5. Dengan
algoritma C4.5, akan didapatkan sebuah pohon keputusan yang mudah dipahami dan mudah
dimengerti.
4. Classification (Klasifikasi)
Dalam klasifikasi, terdapat target variabel kategori.
Sebagai contoh, penggolongan pendapatan dapat
Gambar 2 : Bidang Ilmu Data Mining dipisahkan dalam tiga kategori, yaitu pendapatan
tinggi, pendapatan sedang, dan pendapatan
rendah.Contoh lain klasifikasi dalam bisnis dan
Data mining dibagi menjadi beberapa penelitian adalah :
kelompok berdasarkan tugas yang dapat dilakukan,
yaitu: a. Menentukan apakah suatu transaksi kartu
kredit merupakan transaksi yang curang
1. Description (Deskripsi) atau bukan.
Terkadang peneliti dan analis secara sederhana b. Memperkirakan apakah suatu pengajuan
ingin mencoba mencari cara untuk hipotek oleh nasabah merupakan suatu
menggambarkan pola dan kecenderungan yang kredit yang baik atau buruk.
terdapat dalam data. Sebagai contoh, petugas c. Mendiagnosis penyakit seorang pasien
pengumpulan suara mungkin tidak dapat untuk mendapatkan termasuk penyakit
menemukan keterangan atau fakta bahwa siapa apa.
yang tidak cukup profesional akan sedikit
didukung dalam pemilihan presiden. Deskripsi dari 5. Clustering (Pengklusteran)
pola dan kecenderungan sering memberikan Pengklusteran merupakan pengelompokan record,
kemungkinan penjelasan untuk suatu pola atau pengamatan, atau memperhatikan dan membentuk
kecenderungan. kelas objek-objek yang memiliki kemiripan.
Kluster adalah kumpulan record yang memiliki
2. Estimation (Estimasi)
kemiripan satu dengan yang lainnya dan memiliki
Estimasi hampir sama dengan klasifikasi, kecuali ketidakmiripan dengan record-record dalam kluster
variabel target estimasi lebih ke arah numerik lain.
daripada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan Pengklusteran berbeda dengan klasifikasi yaitu
nilai dari variabel target sebagai nilai prediksi. tidak adanya variabel target dalam pengklusteran.
Selanjutnya, pada peninjauan berikutnya estimasi Pengklusteran tidak mencoba untuk melakukan
nilai dari variabel target dibuat berdasarkan nilai klasifikasi, mengestimasi, atau memprediksi nilai
variabel prediksi. Sebagai contoh yaitu estimasi dari variabel target. Akan tetapi, algoritma
nilai indeks prestasi kumulatif mahasiswa program pengklusteran mencoba untuk melakukan
pasca sarjana dengan melihat nilai indeks prestasi pembagian terhadap keseluruhan data menjadi
mahasiswa tersebut pada saat mengikuti program kelompok-kelompok yang memiliki kemiripan
sarjana. (homogen), yang mana kemiripan record dalam
satu kelompok akan bernilai maksimal, sedangkan
3. Prediction (Prediksi) kemiripan dengan record dalam kelompok lain
Prediksi hampir sama dengan klasifikasi dan akan bernilai minimal.Contoh pengklusteran dalam
estimasi, kecuali bahwa dalam prediksi nilai dari bisnis dan penelitian adalah :
hasil akan ada dimasa mendatang.Contoh prediksi
a. Mendapatkan kelompok-kelompok
dalam bisnis dan penelitian adalah :
konsumen untuk target pemasaran dari
a. pilih atribut sebagai akar Tabel 1. Tabel Data untuk Klasifikasi Resiko
b. buat cabang untuk tiap-tiap nilai Kredit
c. bagi kasus dalam cabang
d. ulangi proses untuk setiap cabang sampai Pelanggan Simpanan Aset Pendapatan Resiko
semua kasus pada cabang memiliki kelas yang Kredit
sama
1 Medium High 75 Good
Untuk memilih atribut sebagai akar, didasarkan
pada nilai gain tertinggi dari atribut-atribut yang
2 Low Low 50 Bad
ada. Untuk menghitung gain digunakan persamaan
1.
3 High Medium 25 Bad
,
4 Medium Medium 50 Good
=
| | 5 Low Medium 100 Good
– ∗ (1)
| |
6 High High 25 Good
Keterangan :
S = himpunan kasus 7 Low Low 25 Bad
A = atribut
n = jumlah partisi atribut A 8 Medium Medium 75 Good
|Si| = jumlah kasus pada partisi ke-i
|S| = jumlah kasus dalam S
Adapun langkah untuk membuat pohon
Sementara itu, perhitungan nilai entropy dapat keputusan, yaitu :
dilihat pada persamaan 2 1. Untuk atribut pendapatan yang bernilai angka,
dibuat dalam bentuk kategori, yaitu
= − ∗ log (2) pendapatan <=25, pendapatan >25,
pendapatan <=50, pendapatan >50,
pendapatan ,=75, dan pendapatan >75
Keterangan : 2. Hitung nilai entropy. Dari data training
S = himpunan kasus diketahui jumlah kasus ada 8, yang beresiko
A = fitur kredit good 5 record dan bad 3 record
n = jumlah partisi S sehingga didapat entropy :
pi = proporsi dari Si terhadap S
Untuk lebih jelasnya langkah-langkah dalam Entropy (S) = ∑ − ∗ log
pembuatan pohon keputusan, berikut diberikan
contoh kasus yang dapat diklasifikasi = (-5/8*log2(5/8)) + (-
menggunakan algoritma C4.5. Dari Tabel 1, hitung 3/8*log2(3/8))
apakah seorang nasabah bermasalah dalam kredit
atau tidak. = 0,9544
Data training pada Tabel 1 adalah untuk 3. Hitung nilai gain untuk tiap atribut, lalu
menentukan apakah seorang nasabah bermasalah tentukan nilai gaintertinggi. Yang mempunyai
atau tidak yang ditentukan oleh kolom predictor nilai gain tertinggi itulah yang akan dijadikan
simpanan, aset, dan pendapatan. Kolom resiko akar dari pohon. Misalkan untuk atribut
kredit adalah kelas dari masing-masing record. simpanan dengan nilai low didapat nilai gain :
Gain (S,A) = Entropy (S) - | | ∗
| |
= 0,3601
0
Hasil perhitungan gain untuk tiap atribut dapat
terlihat pada Tabel 2, nilai gain tertinggi akan
>50 3 3 0 0
menjadi akar dari pohon.
Simpul Da Go Ba Entro Ga
<=75 7 4 3 0,985
ta od d py in
2
Ak Tota 8 5 3 0,954
>75 1 1 0 0
ar l 4
Sim 0,3
pana 60
Terlihat dari Tabel 2 bahwa atribut aset
n 1 mempunyai nilai low, medium, dan high. Nilai low
dan high masing-masing sudah menjadi satu
klasifikasi karena pada data training, semua aset
Low 3 1 2 0,918
menghasilkan keputusan yang sama yaitu bad untuk
3
nilai low dan good untuk nilai high. Sedangkan
untuk simpul dengan nilai medium perlu dipartisi
Medi 3 3 0 0 lagi.
um
Gambar 3 adalah hasil pembentukan pohon
keputusan berdasarkan perhitungan yang terdapat
High 2 1 1 1 pada Tabel 2. Dari hasil perhitungan didapat nilai
gain tertinggi untuk atribut aset, maka aset menjadi
Aset 0,5 akar pohon keputusan. Untuk menentukan akar dari
48 atribut medium, dilakukan lagi perhitungan gain.
8
Low 2 0 2 0
Medi 4 3 1 0,811
um 3
High 2 2 0 0
Gambar 3 Pohon Keputusan C4.5 dengan
Pen 0,1 Simpul Akar Aset
dapa 58
tan 9
KESIMPULAN
<=25 3 1 2 0,918 Secara keseluruhan, proses data mining
3
hingga menghasilkan sebuah pohon keputusan
yang dapat memberikan informasi yang
>25 5 4 1 0,721 diperlukan, dapat dilihat dari Gambar 4[5].
9
0,3
47
6
<=50 5 2 3 0,971
DAFTAR PUSTAKA
Gambar 4 Proses Klasifikasi menggunakan Bramer, Max (2007)Principles of Data Mining,
Algoritma C4.5 Springer Science
Dari gambar 4 dapat di jelaskan proses data Kusrini dan Emha Taufiq Luthfi (2009) Algoritma
mining hingga menghasilkan sebuah pohon Data Mining, Andi Offset
keputusan adalah sebagai berikut : Larose, Daniel T (2005) Discovering Knowledge
in Data Mining An Introduction to Data
1. Sumber data, merupakan database yang Mining, Wiley Interscience
didalamnya terdapat informasi yang bisa
Mardi, Yuli (2014) Analisa Data Rekam Medis
diambil dan dimanfaatkan untuk
untuk Menentukan Penyakit Terbanyak
kepentingan bisnis dan penelitian
Berdasarkan International Classification
2. Proses KDD, merupakan proses yang
Of Disease (ICD) Menggunakan Decision
dilakukan untuk mengambil informasi
Tree C4.5 (Studi Kasus : RSU. CBMC
yang terdapat dalam database, di antara
Padang). UPI YPTK Padang
proses tersebut terdapat proses data
mining Widodo et al (2013) Penerapan Data Mining
3. Data mining, data mining merupakan dengan Matlab, Rekayasa Sains
bagian dari proses kdd, apa yang dapat
dilakukan dengan data mining dapat