Data Mining

DATA
MINING
Nurul Renaningtias, S.T., M.Kom
1
Outline
 Pengertian data mining
 Tahapan dalam data mining
 Peran utama data mining
 Algoritma dalam data mining
 Metode pembelajaran algoritma data
mining
Pengertian data mining
￮ Data Mining adalah proses ￮ Data mining disebut
yang menggunakan teknik sebagai Knowledge
statistik, matematika, Discovery in Database
kecerdasan buatan, dan (KDD). KDD merupakan
machine learning untuk kegiatan yang meliputi
mengekstraksi dan pengumpulan dan
mengidentifikasi informasi pemakaian data historis
dan pengetahuan yang untuk menemukan
terkait dari berbagai keteraturan pola atau
database besar (Turban hubungan dalam set data
dkk., 2005). berukuran besar.
3
“
Mengapa data mining?
￮ Pada era sekarang, data
tersedia dalam jumlah yang
besar dan semakin
besarnya kebutuhan untuk
mengubah data menjadi
informasi dan pengetahuan
yang berguna.
4
“
5
Tahapan dalam data mining
6
Tahapan dalam Knowledge Discovery in Database (Han dkk., 2006)
Peran utama data mining
7
(Larose, 2005)
Algoritma data mining
Estimasi Prediksi Klasifikasi Klastering Asosiasi

Algoritma estimasi Algoritma prediksi Algoritma yang Algoritma yang Algoritma yang
mirip dengan sama dengan menggunakan data mengelompokan menemukan
algoritma klasifikasi, algoritma estimasi dengan target/ class/ data, hasil atribut yang
namun variabel target dimana target bertipe label berupa nilai observasi dan muncul dalam
berupa bilangan numerik, dan data kategorikal kasus ke dalam satu waktu.
numerik (kontinyu) yang digunakan (nominal). class yang mirip.
dan bukan merupakan data rentet
kategorikal (nominal). waktu (data time Algoritma
series). Algoritma Algoritma FP-Growth,
Naive Bayes, K- K-Means, K- A Priori, dll
Algoritma Nearest Neighbor, Medoids, Self-
Linier Regression, Algoritma C4.5, ID3, CART, Organizing,
Neural Network, Linier Regression, Linear Discriminant Map(SOM), Fuzzy
Support Vector Neural Network, Analysis, dll C-Means, dll
Machine, dll Support Vector
8
Machine, dll
Top data mining algorithm
1. C4.5
2. K-Means
3. Support Vector Machine
4. Apriori
5. Expectation-Maximization (EM)
6. PageRank
9
Metode Pembelajaran Algoritma Data Mining
10
Supervised learning
Dalam analisis supervised learning, analisis belajar dilakukan dengan adanya
latihan (training) atau label. Sebagian besar algoritma data mining adalah
supervised learning.
Unsupervised learning
Algoritma data mining ditujukan untuk menemukan pola berulang dan kedekatan
dalam kumpulan data atau dengan kata lain metode belajar tanpa adanya
latihan (training) atau label.
Association learning
Proses learning pada algoritma asosiasi (association rule) agak berbeda karena
tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu
transaksi.
11
Klasifikasi
Dalam klasifikasi ada dua pekerjaan
utama yang dilakukan :
1. Pembangunan model sebagai
prototipe untuk disimpan sebagai
memori
2. Penggunaan model tersebut untuk
melakukan pengenalan/ klasifikasi/
prediksi pada suatu objek data lain
agar diketahui di kelas mana objek
data tersebut dalam model yang
sudah disimpannya.
12
Mulai
Hitung Entropy, Information Gain, SplitInfo,

dan Gain Ratio dari tiap Atribut
C4.5 Algorithm Buat Simpul Akar Pohon Berdasarkan

Gain Ratio Terbesar
Secara umum, langkah-langkah algoritma C4.5 Hitung Entropy, Information Gain, SplitInfo,
adalah sebagai berikut : (Quinlan, 1993). dan Gain Ratio dari tiap Atribut dengan
1. Memilih atribut-atribut yang ditentukan

Menghilangkan Atribut yang telah Dipilih
sebagai akar (root) Buat Simpul Internal Pohon berdasarkan Gain

2. Membuat cabang untuk setiap nilai yang Ratio Terbesar
ada
3. Membagi kasus dalam cabang
4. Mengulangi proses untuk masing-masing
Semua Atribut sudah
Tidak
Masuk pada Pohon?
cabang sampai semua kasus pada cabang
memiliki kelas yang sama. Ya
Generate Aturan Keputusan
Rule dari Pohon

Keputuan
13
Selesai
Mulai
Naïve Bayes Classifier Menghitung Frekuensi Kemunculan Setiap

Atribut
Naive bayes merupakan pengklasifikasian Menghitung Jumlah Kasus yang Sama

dengan Kelas yang Sama
dengan metode probabilitas dan statistik yaitu
memprediksi peluang di masa depan
berdasarkan pengalaman di masa sebelumnya. Menghitung Nilai Maksimal dari Hasil
Perhitungan
Hasil klasifikasi
Selesai
14
Referensi
Han, J., Kamber, M., dan Pei, J., 2006, Data Mining : Concept and Techniques. Elsevier Inc, San
Fransisco.
Larose, D.T., 2005, Discovering Knowledge in Data: An Introduction to Data Mining, John Willey &
Sons Inc, New Jersey.
Turban, E., Aronson J.E., dan Liang, T.P., 2005, Decision Support System and Intelligent
Systems, 7th edition, Pearson Education Inc, New Jersey.
Quinlan, J.R., 1993, C4.5 : Programs for Machine Learning, Morgan Kaufmann Publishers, United
States of America.
15
Terimakasih
16

Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA

Estimasi Prediksi Klasifikasi Klastering Asosiasi

Hitung Entropy, Information Gain, SplitInfo,

C4.5 Algorithm Buat Simpul Akar Pohon Berdasarkan

1. Memilih atribut-atribut yang ditentukan

sebagai akar (root) Buat Simpul Internal Pohon berdasarkan Gain

Generate Aturan Keputusan

Rule dari Pohon

Naïve Bayes Classifier Menghitung Frekuensi Kemunculan Setiap

Naive bayes merupakan pengklasifikasian Menghitung Jumlah Kasus yang Sama

Anda mungkin juga menyukai