MINING
Nurul Renaningtias, S.T., M.Kom
1
Outline
Pengertian data mining
Tahapan dalam data mining
Peran utama data mining
Algoritma dalam data mining
Metode pembelajaran algoritma data
mining
Pengertian data mining
○ Data Mining adalah proses ○ Data mining disebut
yang menggunakan teknik sebagai Knowledge
statistik, matematika, Discovery in Database
kecerdasan buatan, dan (KDD). KDD merupakan
machine learning untuk kegiatan yang meliputi
mengekstraksi dan pengumpulan dan
mengidentifikasi informasi pemakaian data historis
dan pengetahuan yang untuk menemukan
terkait dari berbagai keteraturan pola atau
database besar (Turban hubungan dalam set data
dkk., 2005). berukuran besar.
3
“
Mengapa data mining?
○ Pada era sekarang, data
tersedia dalam jumlah yang
besar dan semakin
besarnya kebutuhan untuk
mengubah data menjadi
informasi dan pengetahuan
yang berguna.
4
“
5
Tahapan dalam data mining
6
Tahapan dalam Knowledge Discovery in Database (Han dkk., 2006)
Peran utama data mining
7
(Larose, 2005)
Algoritma data mining
1. C4.5
2. K-Means
3. Support Vector Machine
4. Apriori
5. Expectation-Maximization (EM)
6. PageRank
9
Metode Pembelajaran Algoritma Data Mining
10
Supervised learning
Dalam analisis supervised learning, analisis belajar dilakukan dengan adanya
latihan (training) atau label. Sebagian besar algoritma data mining adalah
supervised learning.
Unsupervised learning
Algoritma data mining ditujukan untuk menemukan pola berulang dan kedekatan
dalam kumpulan data atau dengan kata lain metode belajar tanpa adanya
latihan (training) atau label.
Association learning
Proses learning pada algoritma asosiasi (association rule) agak berbeda karena
tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu
transaksi.
11
Klasifikasi
Dalam klasifikasi ada dua pekerjaan
utama yang dilakukan :
1. Pembangunan model sebagai
prototipe untuk disimpan sebagai
memori
2. Penggunaan model tersebut untuk
melakukan pengenalan/ klasifikasi/
prediksi pada suatu objek data lain
agar diketahui di kelas mana objek
data tersebut dalam model yang
sudah disimpannya.
12
Mulai
Secara umum, langkah-langkah algoritma C4.5 Hitung Entropy, Information Gain, SplitInfo,
adalah sebagai berikut : (Quinlan, 1993). dan Gain Ratio dari tiap Atribut dengan
ada
3. Membagi kasus dalam cabang
4. Mengulangi proses untuk masing-masing
Semua Atribut sudah
Tidak
Masuk pada Pohon?
cabang sampai semua kasus pada cabang
memiliki kelas yang sama. Ya
13
Selesai
Mulai
Hasil klasifikasi
Selesai
14
Referensi
Han, J., Kamber, M., dan Pei, J., 2006, Data Mining : Concept and Techniques. Elsevier Inc, San
Fransisco.
Larose, D.T., 2005, Discovering Knowledge in Data: An Introduction to Data Mining, John Willey &
Sons Inc, New Jersey.
Turban, E., Aronson J.E., dan Liang, T.P., 2005, Decision Support System and Intelligent
Systems, 7th edition, Pearson Education Inc, New Jersey.
Quinlan, J.R., 1993, C4.5 : Programs for Machine Learning, Morgan Kaufmann Publishers, United
States of America.
15
Terimakasih
16