Ada beberapa definisi dari Data Mining. Secara umum data mining dapat
didefinisikan sebagai berikut :
Data Mining adalah proses penemuan pola yang menarik dari data yang tersimpan
dalam jumlah besar. Merupakan evolusi alami dari teknologi database, dan
merupakan metode yang paling banyak dibutuhkan, dengan aplikasi yang sangat luas
(Larose, 2006)
Data Mining adalah ekstraksi dari suatu informasi yang berguna atau menarik (non-
trivial, implisit, sebelumnya belum diketahui, potensial kegunannya) pola atau
pengetahuan dari data yang disimpan dalam jumlah besar (Turban et al, 2005)
Data Mining adalah ekplorasi dari Analisa secara otomatis atau semiotomatis terhadap
data-data dalam jumlah besar untuk mencari pola dan aturan yang berarti (Larose,
2006)
Tahapan proses Tahapan proses dalam Data Mining dapat dijelaskan sebagai berikut
(Fayyad,1996) :
1. Seleksi Data
Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi
yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas,
terpisah dari basis data operasional.
2. Pre-processing/ Cleaning ( pemilihan data )
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa
data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi).
Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah
ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD,
seperti data atau informasi eksternal.
3. Transformasi
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan
proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan
dicari dalam basis data
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau
algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma
yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretasi / Evaluasi
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini
merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap
ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah
dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat
saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap
dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai
contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum
dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau
informasi baru untuk “memperkaya” data yang sudah ada.
Algoritma C5.0
Algoritma C5.0 adalah salah satu algoritma data mining yang khususnya
diterapkan pada algoritma decision tree. Algoritma C5.0 ini merupakan
penyempurnaan algoritma sebelumnya yang dibentuk oleh Ross Quinlan pada
tahun 1987, yaitu ID3 dan C4.5. Dalam algoritma ini pemilihan atribut diproses
menggunakan gain ratio. Algoritma ini menghasilkan tree dengan jumlah cabang
per node bervariasi (Dunham dalam Putri dkk (2013)).
Algoritma C5.0 menghasilkan tree dengan jumlah cabang per node
bervariasi. algoritma ini memperlakukan variabel kontinyu sama dengan yang
dilakukan oleh CART, tetapi untuk variabel kategorik algoritma C5.0
memperlakukan nilai variabel kategorikal sebagai splitter. Sampel subset yang
diperoleh dari percabangan yang terbentuk akan dipecah lagi setelahnya.
Prosesnya akan terus berlanjut sampai sampel subset tidak dapat lagi dibagi. Pada
akhirnya, sampel subset yang tidak memiliki kontribusi yang besar bagi model
akan ditolak (Larose dalam Yusuf (2007)).
Langkah kerja pembuatan tree pada algoritma C5.0 mirip dengan
pembuatan tree pada algoritma C4.5. Kemiripan tersebut meliputi perhitungan
entropy dan gain. Jika pada algoritma C4.5 berhenti sampai perhitungan gain,
maka pada algoritma C5.0 akan melanjutkannya dengan menghitung gain ratio
dengan menggunakan gain dan entropy yang telah ada.
Adapun rumus untuk mencari nilai entropy adalah sebagai berikut:
k
Entropy ( S ) =−∑ p j log 2 p j
j−1
Dengan :
S : Himpunan kasus
Dengan :
S : Himpunan kasus
A : Variabel
Gain(S , A)
Gain ratio= m
∑ Entropy (Si )
i−1
Dengan :
Larose D, T., 2006, Data Mining Methods and Models, Jhon Wiley & Sons, Inc.
Hoboken New Jersey
Turban, E., Aronson, J. E. & Liang, T., 2005, Decision Support Sistems and
Intelligent Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas),
Edisi Ketujuh, Andi, Yogyakarta.