Anda di halaman 1dari 5

Data Mining

1. Pengertian Data Mining

Ada beberapa definisi dari Data Mining. Secara umum data mining dapat
didefinisikan sebagai berikut :

 Data Mining adalah proses penemuan pola yang menarik dari data yang tersimpan
dalam jumlah besar. Merupakan evolusi alami dari teknologi database, dan
merupakan metode yang paling banyak dibutuhkan, dengan aplikasi yang sangat luas
(Larose, 2006)
 Data Mining adalah ekstraksi dari suatu informasi yang berguna atau menarik (non-
trivial, implisit, sebelumnya belum diketahui, potensial kegunannya) pola atau
pengetahuan dari data yang disimpan dalam jumlah besar (Turban et al, 2005)
 Data Mining adalah ekplorasi dari Analisa secara otomatis atau semiotomatis terhadap
data-data dalam jumlah besar untuk mencari pola dan aturan yang berarti (Larose,
2006)

2. Tahapan Proses dalam Data Mining

Ada beberapa tahapan proses dalam data mining. Diagram dibawah


menggambarkan beberapa tahap / proses yang berlangsung dalam data mining. Fase
awal dimulai dari data sumber dan berakhir dengan adanya informasi yang
dihasilkan dari beberapa tahapan, yaitu :

Gambar 1.2 Fase-fase Dalam Data Mining

Tahapan proses Tahapan proses dalam Data Mining dapat dijelaskan sebagai berikut
(Fayyad,1996) :
1. Seleksi Data
Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi
yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas,
terpisah dari basis data operasional.
2. Pre-processing/ Cleaning ( pemilihan data )
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa
data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi).
Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah
ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD,
seperti data atau informasi eksternal.
3. Transformasi
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan
proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan
dicari dalam basis data
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau
algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma
yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretasi / Evaluasi
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini
merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap
ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah
dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat
saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap
dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai
contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum
dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau
informasi baru untuk “memperkaya” data yang sudah ada.

Algoritma C5.0

Algoritma C5.0 adalah salah satu algoritma data mining yang khususnya
diterapkan pada algoritma decision tree. Algoritma C5.0 ini merupakan
penyempurnaan algoritma sebelumnya yang dibentuk oleh Ross Quinlan pada
tahun 1987, yaitu ID3 dan C4.5. Dalam algoritma ini pemilihan atribut diproses
menggunakan gain ratio. Algoritma ini menghasilkan tree dengan jumlah cabang
per node bervariasi (Dunham dalam Putri dkk (2013)).
Algoritma C5.0 menghasilkan tree dengan jumlah cabang per node
bervariasi. algoritma ini memperlakukan variabel kontinyu sama dengan yang
dilakukan oleh CART, tetapi untuk variabel kategorik algoritma C5.0
memperlakukan nilai variabel kategorikal sebagai splitter. Sampel subset yang
diperoleh dari percabangan yang terbentuk akan dipecah lagi setelahnya.
Prosesnya akan terus berlanjut sampai sampel subset tidak dapat lagi dibagi. Pada
akhirnya, sampel subset yang tidak memiliki kontribusi yang besar bagi model
akan ditolak (Larose dalam Yusuf (2007)).
Langkah kerja pembuatan tree pada algoritma C5.0 mirip dengan
pembuatan tree pada algoritma C4.5. Kemiripan tersebut meliputi perhitungan
entropy dan gain. Jika pada algoritma C4.5 berhenti sampai perhitungan gain,
maka pada algoritma C5.0 akan melanjutkannya dengan menghitung gain ratio
dengan menggunakan gain dan entropy yang telah ada.
Adapun rumus untuk mencari nilai entropy adalah sebagai berikut:
k
Entropy ( S ) =−∑ p j log 2 p j
j−1

Dengan :

S : Himpunan kasus

k : Jumlah kelas pada variable A

p j : Proporsi dari S j dan S

Selanjutnya untuk mencari nilai gain digunakan persamaan berikut :


m
|S j|
Gain ( S , A )=Entropy ( S )−∑ × Entropy(S i)
i−1 |S|

Dengan :

S : Himpunan kasus

Si : Himpunan kasus pada kategori ke-i

A : Variabel

m : Jumlah kategori pada variable A

|S j|: Jumlah kasus pada kategori ke-i


|S| : Jumlah kasus dalam S
Setelah didapat nilai entropy dan gain, selanjutnya adalah menghitung nilai gain
ratio. Adapun rumus dasar dari perhitungan gain ratio adalah sebagai berikut :

Gain(S , A)
Gain ratio= m

∑ Entropy (Si )
i−1

Dengan :

Gain(S , A ) : Nilai gain dari suatu variable

∑ Entropy ( Si ) : Jumlah nilai entropy dalam suatu variabel


i−1

(Kantardzic dalam Putri dkk (2013))


Proses diulang untuk masing-masing cabang sampai semua kelas pada cabang
memiliki kelasnya masing-masing.
Daftar Pustaka

Larose D, T., 2006, Data Mining Methods and Models, Jhon Wiley & Sons, Inc.
Hoboken New Jersey

Turban, E., Aronson, J. E. & Liang, T., 2005, Decision Support Sistems and
Intelligent Sistems (Sistem Pendukung Keputusan dan Sistem Cerdas),
Edisi Ketujuh, Andi, Yogyakarta.

Fayyad, U. M, 1996, Advances in Knowledge Discovery and Data Mining.


Camberidge, MA: The MIT Press.

Putri, Y. R., Mukhlash, I. dan Hidayat, N. (2013). Prediksi Pola Kecelakaan


Kerja pada Perusahaan Non Ekstraktif Menggunakan Algoritma
Decision Tree: C4.5 dan C5.0. Jurnal Sains dan Seni Pomits, 2(1), 2337-
3520.
Yusuf, Y. W. (2007). Perbandingan Performansi Algoritma Decision Tree C5.0,
CART dan CHAID: Kasus Prediksi Status Resiko Kredit Bank X. Seminar
Nasional Aplikasi Teknologi Informasi. 1907-5022.

Anda mungkin juga menyukai