Anda di halaman 1dari 16

DATA

MINING
Nurul Renaningtias, S.T., M.Kom

1
Outline
 Pengertian data mining
 Tahapan dalam data mining
 Peran utama data mining
 Algoritma dalam data mining
 Metode pembelajaran algoritma data
mining
Pengertian data mining
○ Data Mining adalah proses ○ Data mining disebut
yang menggunakan teknik sebagai Knowledge
statistik, matematika, Discovery in Database
kecerdasan buatan, dan (KDD). KDD merupakan
machine learning untuk kegiatan yang meliputi
mengekstraksi dan pengumpulan dan
mengidentifikasi informasi pemakaian data historis
dan pengetahuan yang untuk menemukan
terkait dari berbagai keteraturan pola atau
database besar (Turban hubungan dalam set data
dkk., 2005). berukuran besar.

3

Mengapa data mining?
○ Pada era sekarang, data
tersedia dalam jumlah yang
besar dan semakin
besarnya kebutuhan untuk
mengubah data menjadi
informasi dan pengetahuan
yang berguna.

4

5
Tahapan dalam data mining

6
Tahapan dalam Knowledge Discovery in Database (Han dkk., 2006)
Peran utama data mining

7
(Larose, 2005)
Algoritma data mining

Estimasi Prediksi Klasifikasi Klastering Asosiasi


Algoritma estimasi Algoritma prediksi Algoritma yang Algoritma yang Algoritma yang
mirip dengan sama dengan menggunakan data mengelompokan menemukan
algoritma klasifikasi, algoritma estimasi dengan target/ class/ data, hasil atribut yang
namun variabel target dimana target bertipe label berupa nilai observasi dan muncul dalam
berupa bilangan numerik, dan data kategorikal kasus ke dalam satu waktu.
numerik (kontinyu) yang digunakan (nominal). class yang mirip.
dan bukan merupakan data rentet
kategorikal (nominal). waktu (data time Algoritma
series). Algoritma Algoritma FP-Growth,
Naive Bayes, K- K-Means, K- A Priori, dll
Algoritma Nearest Neighbor, Medoids, Self-
Linier Regression, Algoritma C4.5, ID3, CART, Organizing,
Neural Network, Linier Regression, Linear Discriminant Map(SOM), Fuzzy
Support Vector Neural Network, Analysis, dll C-Means, dll
Machine, dll Support Vector
8
Machine, dll
Top data mining algorithm

1. C4.5
2. K-Means
3. Support Vector Machine
4. Apriori
5. Expectation-Maximization (EM)
6. PageRank

9
Metode Pembelajaran Algoritma Data Mining

10
Supervised learning
Dalam analisis supervised learning, analisis belajar dilakukan dengan adanya
latihan (training) atau label. Sebagian besar algoritma data mining adalah
supervised learning.

Unsupervised learning
Algoritma data mining ditujukan untuk menemukan pola berulang dan kedekatan
dalam kumpulan data atau dengan kata lain metode belajar tanpa adanya
latihan (training) atau label.

Association learning
Proses learning pada algoritma asosiasi (association rule) agak berbeda karena
tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu
transaksi.

11
Klasifikasi
Dalam klasifikasi ada dua pekerjaan
utama yang dilakukan :
1. Pembangunan model sebagai
prototipe untuk disimpan sebagai
memori
2. Penggunaan model tersebut untuk
melakukan pengenalan/ klasifikasi/
prediksi pada suatu objek data lain
agar diketahui di kelas mana objek
data tersebut dalam model yang
sudah disimpannya.

12
Mulai

Hitung Entropy, Information Gain, SplitInfo,


dan Gain Ratio dari tiap Atribut

C4.5 Algorithm Buat Simpul Akar Pohon Berdasarkan


Gain Ratio Terbesar

Secara umum, langkah-langkah algoritma C4.5 Hitung Entropy, Information Gain, SplitInfo,
adalah sebagai berikut : (Quinlan, 1993). dan Gain Ratio dari tiap Atribut dengan

1. Memilih atribut-atribut yang ditentukan


Menghilangkan Atribut yang telah Dipilih

sebagai akar (root) Buat Simpul Internal Pohon berdasarkan Gain


2. Membuat cabang untuk setiap nilai yang Ratio Terbesar

ada
3. Membagi kasus dalam cabang
4. Mengulangi proses untuk masing-masing
Semua Atribut sudah
Tidak
Masuk pada Pohon?
cabang sampai semua kasus pada cabang
memiliki kelas yang sama. Ya

Generate Aturan Keputusan

Rule dari Pohon


Keputuan

13
Selesai
Mulai

Naïve Bayes Classifier Menghitung Frekuensi Kemunculan Setiap


Atribut

Naive bayes merupakan pengklasifikasian Menghitung Jumlah Kasus yang Sama


dengan Kelas yang Sama
dengan metode probabilitas dan statistik yaitu
memprediksi peluang di masa depan
berdasarkan pengalaman di masa sebelumnya. Menghitung Nilai Maksimal dari Hasil
Perhitungan

Hasil klasifikasi

Selesai

14
Referensi
Han, J., Kamber, M., dan Pei, J., 2006, Data Mining : Concept and Techniques. Elsevier Inc, San
Fransisco.

Larose, D.T., 2005, Discovering Knowledge in Data: An Introduction to Data Mining, John Willey &
Sons Inc, New Jersey.

Turban, E., Aronson J.E., dan Liang, T.P., 2005, Decision Support System and Intelligent
Systems, 7th edition, Pearson Education Inc, New Jersey.

Quinlan, J.R., 1993, C4.5 : Programs for Machine Learning, Morgan Kaufmann Publishers, United
States of America.

15
Terimakasih

16

Anda mungkin juga menyukai