Anda di halaman 1dari 7

ISSN : 2407-0491

Jurnal Edik Informatika E-ISSN : 2541-3716


Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

Data Mining : Klasifikasi Menggunakan Algoritma C4.5


Yuli Mardi
Dosen Akademi Perekam dan Informasi Kesehatan (APIKES) Iris Padang
Jl. Gajah Mada No. 23 Padang, Sumatera Barat
adimardi@yahoo.com

ABSTRAK

Data mining merupakan bagian dari tahapan proses Knowledge Discovery in Database (KDD).
Dengan data mining, kita dapat melakukan pengklasifikasian, memprediksi, memperkirakan dan
mendapatkan informasi lain yang bermanfaat dari kumpulan data dalam jumlah yang besar.
Klasifikasi dalam data mining dapat dilakukan dengan menggunakan algoritma C4.5. Dengan
algoritma C4.5, akan didapatkan sebuah pohon keputusan yang mudah dipahami dan mudah
dimengerti.

Kata kunci : Data mining, Klasifikasi, Algoritma C4.5, Pohon keputusan

PENDAHULUAN 1. Data Selection


Pemilihan (seleksi) data dari sekumpulan data
Database yang tersimpan di media
operasional perlu dilakukan sebelum tahap
penyimpanan jarang sekali dimanfaatkan oleh
penggalian informasi dalam Knowledge
sebagian besar penggunanya dan bahkan dalam
Discovery in Database(KDD) dimulai. Data
jangka waktu tertentu data-data tersebut dihapus
hasil seleksi yang akan digunakan untuk
karena dianggap sampah dan hanya memenuhi
proses data mining, disimpan dalam suatu
media penyimpanan saja. Anggapan tersebut tidak
berkas terpisah dari basis data operasional.
sepenuhnya benar, karena sesungguhnya database
dalam ukuran yang besar dapat memberikan
2. Pre-processing / Cleaning
informasi yang dibutuhkan untuk berbagai
Sebelum proses data mining dapat
kepentingan, baik untuk kepentingan bisnis dalam
dilaksanakan, perlu dilakukan proses cleaning
mengambil keputusan maupun untuk ilmu
pada data yang menjadi fokus Knowledge
pengetahuan dan penelitian.
Discovery in Database (KDD). Proses
Knowledge Discovery In Database(KDD) cleaning mencakup antara lain membuang
merupakan metode untuk memperoleh duplikasi data, memeriksa data yang
pengetahuan dari database yang ada. Dalam inkonsisten, dan memperbaiki kesalahan pada
database terdapat tabel - tabel yang saling data, seperti kesalahan cetak. Juga dilakukan
berhubungan / berelasi. Hasil pengetahuan yang proses enrichment, yaitu proses
diperoleh dalam proses tersebut dapat digunakan “memperkaya” data yang sudah ada dengan
sebagai basis pengetahuan (knowledge base) untuk data atau informasi lain yang relevan dan
keperluan pengambilan keputusan. diperlukan untuk Knowledge Discovery in
Database (KDD), seperti data atau informasi
Istilah Knowledge Discovery in Database eksternal lainnya yang diperlukan.
(KDD) dan data mining seringkali digunakan
secara bergantian untuk menjelaskan proses 3. Transformation
penggalian informasi tersembunyi dalam suatu Coding adalah proses transformasi pada data
basis data yang besar. Sebenarnya kedua istilah yang telah dipilih, sehingga data tersebut
tersebut memiliki konsep yang berbeda, tetapi sesuai untuk proses data mining. Proses
berkaitan satu sama lain, dan salah satu tahapan coding dalam Knowledge Discovery in
dalam keseluruhan proses KDD adalah data Database (KDD) merupakan proses kreatif
mining. Proses KDD secara garis besar dapat dan sangat tergantung pada jenis atau pola
dijelaskan sebagai berikut[1]: informasi yang akan dicari dalam basis data.

1 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar


ISSN : 2407-0491
Jurnal Edik Informatika E-ISSN : 2541-3716
Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

4. Data Mining Data mining menurut David Hand, Heikki


Data mining adalah proses mencari pola atau Mannila, dan Padhraic Smyth dari MIT adalah
informasi menarik dalam data terpilih dengan analisa terhadap data (biasanya data yang
menggunakan teknik atau metode tertentu. berukuran besar) untuk menemukan hubungan
Teknik-teknik, metode-metode, atau algoritma yang jelas serta menyimpulkannya yang belum
dalam data mining sangat bervariasi. diketahui sebelumnya dengan cara terkini
Pemilihan metode atau algoritma yang tepat dipahami dan berguna bagi pemilik data
sangat bergantung pada tujuan dan proses tersebut[4].
Knowledge Discovery in Database (KDD)
secara keseluruhan. Data mining adalah proses yang menggunakan
teknik statistik, matematika, kecerdasan buatan,
5. Interpretation / Evaluation dan machine learning untuk mengekstraksi dan
Pola informasi yang dihasilkan dari proses mengidentifikasi informasi yang bermanfaat dan
data mining perlu ditampilkan dalam bentuk pengetahuan yang terkait dari berbagai database
yang mudah dimengerti oleh pihak yang besar. Data mining merupakan serangkaian proses
berkepentingan. Tahap ini merupakan bagian untuk menggali nilai tambah dari suatu kumpulan
dari proses Knowledge Diccovery in Database data berupa pengetahuan yang selama ini tidak
(KDD) yang disebut interpretation. Tahap ini diketahui secara manual[1].
mencakup pemeriksaan apakah pola atau
informasi yang ditemukan bertentangan Dari definisi-definisi yang telah disampaikan,
dengan fakta atau hipotesis yang ada hal penting yang terkait dengan data
sebelumnya. miningmenurut[1]:
Sementara itu menurut[2], proses Knowledge
1. Data mining merupakan suatu proses otomatis
Diccovery in Database (KDD) dapat digambarkan
terhadap data yang sudah ada.
sebagai berikut :
2. Data yang akan diproses merupakan data yang
sangat besar.
3. Tujuan data mining adalah mendapatkan
hubungan atau pola yang mungkin
memberikan indikasi yang bermanfaat.

Data mining bukanlah suatu bidang yang sama


sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan
bahwa data mining mewarisi banyak aspek dan
teknik dari bidang-bidang ilmu yang dulu sudah
mapan terlebih dulu. Gambar 2 menunjukkan
Gambar 1 : Proses Knowledge Discovery in bahwa data mining memiliki akar yang panjang
Database dari bidang ilmu yang berbeda seperti kecerdasan
buatan (artificial intelligent), machine learning,
DATA MINING statistik, database, dan juga information
retrieval[1].
Menurut Gartner Group,data mining adalah
proses menemukan hubungan baru yang
mempunyai arti, pola dan kebiasaan dengan
memilah-milah sebagian besardata yang disimpan
dalam media penyimpanan dengan menggunakan
teknologi pengenalan pola seperti teknik statistik
dan matematika. Data mining merupakan
gabungan dari beberapa disiplin ilmu yang
menyatukan teknik dari pembelajaran mesin,
pengenalan pola, statistik, database, dan visualisasi
untuk penanganan permasalahan pengambilan
informasi dari database yang besar[3].

2 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar


ISSN : 2407-0491
Jurnal Edik Informatika E-ISSN : 2541-3716
Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

a. Prediksi harga beras dalam tiga bulan


yang akan datang.
b. Prediksi tingkat penganguran lima tahun
akan datang.
c. Predisksi persentase kanaikan kecelakaan
lalu lintas tahun depan jika batas bawah
kecepatan dinaikan.

Beberapa metode dan teknik yang digunakan


dalam klasifikasi dan estimasi dapat pula
digunakan (untuk keadaan yang tepat) untuk
prediksi.

4. Classification (Klasifikasi)
Dalam klasifikasi, terdapat target variabel kategori.
Sebagai contoh, penggolongan pendapatan dapat
Gambar 2 : Bidang Ilmu Data Mining dipisahkan dalam tiga kategori, yaitu pendapatan
tinggi, pendapatan sedang, dan pendapatan
rendah.Contoh lain klasifikasi dalam bisnis dan
Data mining dibagi menjadi beberapa penelitian adalah :
kelompok berdasarkan tugas yang dapat dilakukan,
yaitu: a. Menentukan apakah suatu transaksi kartu
kredit merupakan transaksi yang curang
1. Description (Deskripsi) atau bukan.
Terkadang peneliti dan analis secara sederhana b. Memperkirakan apakah suatu pengajuan
ingin mencoba mencari cara untuk hipotek oleh nasabah merupakan suatu
menggambarkan pola dan kecenderungan yang kredit yang baik atau buruk.
terdapat dalam data. Sebagai contoh, petugas c. Mendiagnosis penyakit seorang pasien
pengumpulan suara mungkin tidak dapat untuk mendapatkan termasuk penyakit
menemukan keterangan atau fakta bahwa siapa apa.
yang tidak cukup profesional akan sedikit
didukung dalam pemilihan presiden. Deskripsi dari 5. Clustering (Pengklusteran)
pola dan kecenderungan sering memberikan Pengklusteran merupakan pengelompokan record,
kemungkinan penjelasan untuk suatu pola atau pengamatan, atau memperhatikan dan membentuk
kecenderungan. kelas objek-objek yang memiliki kemiripan.
Kluster adalah kumpulan record yang memiliki
2. Estimation (Estimasi)
kemiripan satu dengan yang lainnya dan memiliki
Estimasi hampir sama dengan klasifikasi, kecuali ketidakmiripan dengan record-record dalam kluster
variabel target estimasi lebih ke arah numerik lain.
daripada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan Pengklusteran berbeda dengan klasifikasi yaitu
nilai dari variabel target sebagai nilai prediksi. tidak adanya variabel target dalam pengklusteran.
Selanjutnya, pada peninjauan berikutnya estimasi Pengklusteran tidak mencoba untuk melakukan
nilai dari variabel target dibuat berdasarkan nilai klasifikasi, mengestimasi, atau memprediksi nilai
variabel prediksi. Sebagai contoh yaitu estimasi dari variabel target. Akan tetapi, algoritma
nilai indeks prestasi kumulatif mahasiswa program pengklusteran mencoba untuk melakukan
pasca sarjana dengan melihat nilai indeks prestasi pembagian terhadap keseluruhan data menjadi
mahasiswa tersebut pada saat mengikuti program kelompok-kelompok yang memiliki kemiripan
sarjana. (homogen), yang mana kemiripan record dalam
satu kelompok akan bernilai maksimal, sedangkan
3. Prediction (Prediksi) kemiripan dengan record dalam kelompok lain
Prediksi hampir sama dengan klasifikasi dan akan bernilai minimal.Contoh pengklusteran dalam
estimasi, kecuali bahwa dalam prediksi nilai dari bisnis dan penelitian adalah :
hasil akan ada dimasa mendatang.Contoh prediksi
a. Mendapatkan kelompok-kelompok
dalam bisnis dan penelitian adalah :
konsumen untuk target pemasaran dari

3 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar


ISSN : 2407-0491
Jurnal Edik Informatika E-ISSN : 2541-3716
Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

suatu produk bagi perusahaan yang tidak


1. POHON KEPUTUSAN
memiliki dana pemasaran yang besar.
b. Untuk tujuan audit akuntansi, yaitu Diantara beberapa metode yang dapat
melakukan pemisahan terhadap perilaku digunakan untuk klasifikasi adalah metode pohon
finansial dalam baik dan mencurigakan keputusan atau decission tree. Metode pohon
c. Melakukan pengklusteran terhadap keputusan merupakan sebuah metode yang dapat
ekspresi dari gen, untuk mendapatkan mengubah fakta yang sangat besar menjadi sebuah
kemiripan perilaku dari gen dalam jumlah pohon keputusan yang merepresentasikan aturan.
besar Aturan dapat dengan mudah dipahami dengan
bahasa alami[1].
6. Association (Asosiasi)
Tugas asosiasi dalam data mining adalah Sebuah pohon keputusan adalah sebuah
menemukan atribut yang muncul dalam satu struktur yang dapat digunakan untuk membagi
waktu. Dalam dunia bisnis lebih umum disebut kumpulan-kumpulan data yang besar menjadi
analisis keranjang belanja.Contoh asosiasi dalam himpunan-himpunan record yang lebih kecil
bisnis dan penelitian adalah : dengan menerapkan serangkaian aturan keputusan.
Dengan masing-masing rangkaian pembagi,
a. Meneliti jumlah pelanggan dari anggota himpunan hasil menjadi mirip satu dengan
perusahaan telekomunikasi seluler yang yang lainnya. Data dalam pohon keputusan
diharapkan untuk memberikan respons biasanya dinyatakan dalam bentuk tabel dengan
positif terhadap penawaran upgrade atribut dan record. Atribut menyatakan suatu
layanan yang diberikan. parameter yang dibuat sebagai kriteria dalam
b. Menemukan barang dalam supermarket pembentukan pohon. Misalkan untuk menentukan
yang dibeli secara bersamaan dan barang main tenis, kriteria yang diperhatikan adalah
yang tidak pernah dibeli secara cuaca, angin dan temperatur. Salah satu atribut
bersamaan. merupakan atribut yang menyatakan data solusi
per item data yang disebut target atribut. Atribut
memiliki nilai-nilai yang dinamakan dengan
KLASIFIKASI instance. Misalkan atribut cuaca mempunyai
instance berupa cerah, berawan dan hujan. Proses
Salah satu tugas yang dapat dilakukan dengan pada pohon keputusan adalah mengubah bentuk
data mining adalah pengklasifikasian. Klasifikasi data (tabel) menjadi model pohon, mengubah
pertama kali diterapkan pada bidang tanaman yang model pohon menjadi rule, dan menyederhanakan
mengklasifikasi suatu spesies tertentu, seperti yang rule[1].
dilakukan oleh Carolus von Linne (atau dikenal
dengan nama Carolus Linnaeus) yang pertama kali Banyak algortima yang bisa digunakan dalam
mengklasifikasi spesies berdasarkan karakteristik pembentukan pohon keputusan, antara lain ID3,
fisik. Selanjutnya dia dikenal sebagai bapak CART, dan C4.5. Algoritma C4.5 merupakan
klasifikasi[4]. pengembangan dari algoritma ID.

Dalam klasifikasi terdapat target variabel ALGORITMA C4.5


kategori. Metode-metode / model-model yang
telah dikembangkan oleh periset untuk Salah satu algoritma yang dapat digunakan
menyelesaikan kasus klasifikasi antara lain[4]: untuk membuat pohon keputusan (decission tree)
adalah algoritma C4.5. Algoritma C4.5 merupakan
a. Pohon keputusan algoritma yang sangat populer yang digunakan
b. Pengklasifikasi bayes/naive bayes oleh banyak peneliti di dunia, hal ini dijelaskan
c. Jaringan saraf tiruan oleh Xindong Wu dan Vipin Kumar dalam
d. Analisis statistik bukunya yang berjudul The Top Ten Algorithms in
e. Algoritma genetik Data Mining. Algoritma C4.5 merupakan
f. Rough sets pengembangan dari algoritma ID3 yang di
g. Pengklasifikasi k-nearest neighbour ciptakan oleh J. Rose Quinlan.
h. Metode berbasis aturan
i. Memory based reasoning Secara umum algoritma C4.5 untuk membangun
j. Support vector machine pohon keputusan adalah sebagai berikut[1]:

4 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar


ISSN : 2407-0491
Jurnal Edik Informatika E-ISSN : 2541-3716
Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

a. pilih atribut sebagai akar Tabel 1. Tabel Data untuk Klasifikasi Resiko
b. buat cabang untuk tiap-tiap nilai Kredit
c. bagi kasus dalam cabang
d. ulangi proses untuk setiap cabang sampai Pelanggan Simpanan Aset Pendapatan Resiko
semua kasus pada cabang memiliki kelas yang Kredit
sama
1 Medium High 75 Good
Untuk memilih atribut sebagai akar, didasarkan
pada nilai gain tertinggi dari atribut-atribut yang
2 Low Low 50 Bad
ada. Untuk menghitung gain digunakan persamaan
1.
3 High Medium 25 Bad

,
4 Medium Medium 50 Good
=
| | 5 Low Medium 100 Good
– ∗ (1)
| |
6 High High 25 Good
Keterangan :
S = himpunan kasus 7 Low Low 25 Bad
A = atribut
n = jumlah partisi atribut A 8 Medium Medium 75 Good
|Si| = jumlah kasus pada partisi ke-i
|S| = jumlah kasus dalam S
Adapun langkah untuk membuat pohon
Sementara itu, perhitungan nilai entropy dapat keputusan, yaitu :
dilihat pada persamaan 2 1. Untuk atribut pendapatan yang bernilai angka,
dibuat dalam bentuk kategori, yaitu
= − ∗ log (2) pendapatan <=25, pendapatan >25,
pendapatan <=50, pendapatan >50,
pendapatan ,=75, dan pendapatan >75
Keterangan : 2. Hitung nilai entropy. Dari data training
S = himpunan kasus diketahui jumlah kasus ada 8, yang beresiko
A = fitur kredit good 5 record dan bad 3 record
n = jumlah partisi S sehingga didapat entropy :
pi = proporsi dari Si terhadap S
Untuk lebih jelasnya langkah-langkah dalam Entropy (S) = ∑ − ∗ log
pembuatan pohon keputusan, berikut diberikan
contoh kasus yang dapat diklasifikasi = (-5/8*log2(5/8)) + (-
menggunakan algoritma C4.5. Dari Tabel 1, hitung 3/8*log2(3/8))
apakah seorang nasabah bermasalah dalam kredit
atau tidak. = 0,9544

Data training pada Tabel 1 adalah untuk 3. Hitung nilai gain untuk tiap atribut, lalu
menentukan apakah seorang nasabah bermasalah tentukan nilai gaintertinggi. Yang mempunyai
atau tidak yang ditentukan oleh kolom predictor nilai gain tertinggi itulah yang akan dijadikan
simpanan, aset, dan pendapatan. Kolom resiko akar dari pohon. Misalkan untuk atribut
kredit adalah kelas dari masing-masing record. simpanan dengan nilai low didapat nilai gain :
Gain (S,A) = Entropy (S) - | | ∗
| |

= 0,9544 – (2/8(1) + 3/8(0)


+3/8(0,9183)

= 0,3601

5 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar


ISSN : 2407-0491
Jurnal Edik Informatika E-ISSN : 2541-3716
Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

0
Hasil perhitungan gain untuk tiap atribut dapat
terlihat pada Tabel 2, nilai gain tertinggi akan
>50 3 3 0 0
menjadi akar dari pohon.

Tabel 2. Nilai Entropy dan Gain untuk Menentukan 0,0


Simpul Akar 92
4

Simpul Da Go Ba Entro Ga
<=75 7 4 3 0,985
ta od d py in
2

Ak Tota 8 5 3 0,954
>75 1 1 0 0
ar l 4

Sim 0,3
pana 60
Terlihat dari Tabel 2 bahwa atribut aset
n 1 mempunyai nilai low, medium, dan high. Nilai low
dan high masing-masing sudah menjadi satu
klasifikasi karena pada data training, semua aset
Low 3 1 2 0,918
menghasilkan keputusan yang sama yaitu bad untuk
3
nilai low dan good untuk nilai high. Sedangkan
untuk simpul dengan nilai medium perlu dipartisi
Medi 3 3 0 0 lagi.
um
Gambar 3 adalah hasil pembentukan pohon
keputusan berdasarkan perhitungan yang terdapat
High 2 1 1 1 pada Tabel 2. Dari hasil perhitungan didapat nilai
gain tertinggi untuk atribut aset, maka aset menjadi
Aset 0,5 akar pohon keputusan. Untuk menentukan akar dari
48 atribut medium, dilakukan lagi perhitungan gain.
8

Low 2 0 2 0

Medi 4 3 1 0,811
um 3

High 2 2 0 0
Gambar 3 Pohon Keputusan C4.5 dengan
Pen 0,1 Simpul Akar Aset
dapa 58
tan 9
KESIMPULAN
<=25 3 1 2 0,918 Secara keseluruhan, proses data mining
3
hingga menghasilkan sebuah pohon keputusan
yang dapat memberikan informasi yang
>25 5 4 1 0,721 diperlukan, dapat dilihat dari Gambar 4[5].
9

0,3
47
6

<=50 5 2 3 0,971

6 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar


ISSN : 2407-0491
Jurnal Edik Informatika E-ISSN : 2541-3716
Penelitian Bidang Komputer Sains dan Pendidikan Informatika
V2.i2(213-219)

dilihat digambar 4, diantaranya adalah


klasifikasi
4. Beberapa model dapat digunakan untuk
melakukan klasifikasi dan dalam
pembahasan ini kita menggunakan model
pohon keputusan
5. Algoritma yang dapat dilakukan untuk
membuat pohon keutusan salah satunya
dalah algoritma C4.5

DAFTAR PUSTAKA
Gambar 4 Proses Klasifikasi menggunakan Bramer, Max (2007)Principles of Data Mining,
Algoritma C4.5 Springer Science
Dari gambar 4 dapat di jelaskan proses data Kusrini dan Emha Taufiq Luthfi (2009) Algoritma
mining hingga menghasilkan sebuah pohon Data Mining, Andi Offset
keputusan adalah sebagai berikut : Larose, Daniel T (2005) Discovering Knowledge
in Data Mining An Introduction to Data
1. Sumber data, merupakan database yang Mining, Wiley Interscience
didalamnya terdapat informasi yang bisa
Mardi, Yuli (2014) Analisa Data Rekam Medis
diambil dan dimanfaatkan untuk
untuk Menentukan Penyakit Terbanyak
kepentingan bisnis dan penelitian
Berdasarkan International Classification
2. Proses KDD, merupakan proses yang
Of Disease (ICD) Menggunakan Decision
dilakukan untuk mengambil informasi
Tree C4.5 (Studi Kasus : RSU. CBMC
yang terdapat dalam database, di antara
Padang). UPI YPTK Padang
proses tersebut terdapat proses data
mining Widodo et al (2013) Penerapan Data Mining
3. Data mining, data mining merupakan dengan Matlab, Rekayasa Sains
bagian dari proses kdd, apa yang dapat
dilakukan dengan data mining dapat

7 Diterbitkan Oleh Program Studi Pendidikan Informatika STKIP PGRI Sumbar

Anda mungkin juga menyukai