2
Teknik Data Mining
1. Classification (Klasifikasi)
2. Association (Asosiasi)
3. Clustering (Klastering)
4. Estimation (Estimasi)
5. Prediction/Forecasting (Prediksi/Peramalan)
Metode Learning Pada Algoritma DM
Supervised Semi-
Supervised
Unsupervised
Learning Learning Learning
4
1. Supervised Learning
5
Dataset dengan Class
Attribute/Feature Class/Label/Target
Nominal
Numerik
6
2. Unsupervised Learning
7
Dataset tanpa Class
Attribute/Feature
8
3. Semi-Supervised Learning
Semi-supervised learning adalah metode data
mining yang menggunakan data dengan label
dan tidak berlabel sekaligus dalam proses
pembelajarannya
Data yang memiliki kelas digunakan untuk
membentuk model (pengetahuan), data tanpa
label digunakan untuk membuat batasan
antara kelas
9
3. Semi-Supervised Learning
Klasifikasi
Klasifikasi?
Merupakan proses pembelajaran suatu fungsi
tujuan (target) f yang memetakan tiap
himpunan atribut x ke satu dari label kelas y
yang didefinisikan sebelumnya
Cocok untuk tipe data biner atau nominal
Jenis klasifikasi
Pemodelan deskriptif (descriptive modelling):
berfungsi sebagai alat penjelasan untuk
membedakan objek-objek dalam kelas-kelas
yang berbeda
Pemodelan Prediktif (predictive modelling):
digunakan untuk memprediksi label kelas
record yang tidak diketahui
Contoh Aplikasi
Memprediksi sel tumor jinak atau ganas
Menggolongkan transaksi kartu kredit sah
atau curang
Menggolongkan struktur protein sekunder
sebagai alpha-helix, beta-sheet, atau random-
coil
Mengkategorikan isi berita sebagai finance,
weather, entertainment, sports, dll
Evaluasi Model
Digunakanuntuk mengetahui performa dari
model yang dibangun
Untukklasifikasi, evaluasi dapat dilakukan
dengan cara:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
Metode untuk klasifikasi
Decision Tree Induction (C4.5, ID3, dll)
K-Nearest Neighbor
Naive Bayes
Neural Network
Linear Discriminant Analysis
Logistic Regression
etc
Teknik Data Mining
Asosiasi
Asosiasi?
Adalah sebuah metodologi untuk mencari
relasi istimewa/menarik yang tersembunyi
dalam himpunan data (data set) yang besar
Relasiyang tersembunyi ini dapat
direpresentasikan dalam bentuk aturan
asosiasi (association rules) atau himpunan
barang yang seringkali muncul (frequent
itemset)
Bentuk
{roti,mentega} -> {susu} (support = 40%,
confidence = 50%)
Artinya “Seorang konsumen yang membeli roti dan
mentega punya kemungkinan 50% untuk juga membeli
susu. Aturan ini cukup signifikan karena mewakili 40% dari
catatan transaksi selama ini.”
Contoh Penerapan
Google mengembangkan fitur auto-complete
Meletakkanbarang-barang yang sering dibeli
bersamaan dengan posisi berdekatan atau
mudah dijangkau
Amazon.com,mengembangkan
perekomendasi (recommender)
Evaluasi Model
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
Metode untuk Asosiasi
FP-Growth
A Priori
Coefficient of Correlation
Chi Square
etc
Teknik Data Mining
Clustering
Clustering?
Penklusteran (clustering) digunakan untuk
melakukan pengelompokan data-data kedalam
sejumlah kelompok (cluster) berdasarkan
karakteristik masing-masing data pada
kelompok-kelompok yang ada
Seringdisebut unsupervised classification
karena label diperoleh dari data
Aplikasi Clustering
Understanding,antara lain kelompk dokumen-
dokumen yang saling berhubungan untuk
proses browsing, pengelompokan gen dan
protein yang punya fungsi sama,
pengelompokan stok dengan harga yang
fluktuatif
Summarization, untuk menurunkan ukuran
data-set yang besar
Contoh penerapan
Biologi:taksonomi makhluk hidup: kingdom, phylum, class, order,
family, genus and species
Information retrieval: pengelompokan dokumen
Penggunaan lahan: Identifikasi area penggunaan lahan yang serupa
dalam database observasi bumi
Pemasaran:Membantu marketers menemukan kelompok berbeda di basis
pelanggan mereka, dan kemudian menggunakan pengetahuan ini untuk
mengembangkan program pemasaran
Perencanaan kota: Mengidentifikasi kelompok-kelompok rumah sesuai
dengan jenis rumah, nilai, dan lokasi geografis mereka
Studigempa bumi: Episentrum gempa bumi yang diamati harus
dikelompokkan di sepanjang patahan benua
Iklim: memahami iklim bumi, menemukan pola atmosfer dan lautan
Ilmu Ekonomi: riset pasar
Evaluasi Model
Internal
Evaluation: Davies–Bouldin index,
Dunn index,
ExternalEvaluation: Rand measure, F-
measure, Jaccard index, Fowlkes–Mallows
index, Confusion matrix
Metode untuk Klastering
K-Means
K-Medoids
Self-Organizing Map (SOM)
Fuzzy C-Means
etc
Teknik Data Mining
Estimasi
Estimasi?
Digunakan untuk menerka sebuah nilai yang
belum diketahui, misal menerka penghasilan
seseorang ketika informasi mengenai orang
tersebut diketahui.
variabel
target estimasi lebih ke arah numerik
dari pada ke arah kategori
Ilustrasi
akan dilakukan estimasi tekanan darah sistolik
pada pasien rumah sakit berdasarkan umur
pasien, jenis kelamin, berat badan, dan level
sodium darah.
Hubungan antara tekanan darah sistolik dan
nilai variabel prediksi dalam proses
pembelajaran akan menghasilkan model
estimasi.
Evaluasi Model
Error:
Root Mean Square Error (RMSE),
MSE, MAPE, etc
Metode untuk Estimasi
Linear Regression
Neural Network
Support Vector Machine
etc
Teknik Data Mining
Prediksi
Prediksi (forecasting)?
untuk memperkirakan nilai masa mendatang
teknik Forecasting akan mengambil sederetan
angka yang menunjukkan nilai yang berjalan
seiring waktu dan kemudian Teknik
Forecasting ini akan menghubungkan nilai
masa depan dengan menggunakan bermacam-
macam teknik machine-learning dan teknik
statistik yang berhubungan dengan musim,
trend, dan noise pada data
Contoh Aplikasi
memprediksi stok barang satu tahun ke depan
TimeSeries model untuk saham, harga
barang, kurs, dll
Evaluasi Model
Error:
Root Mean Square Error (RMSE) ,
MSE, MAPE, etc
Metode untuk Prediksi
Linear Regression
Neural Network
Support Vector Machine
Decision Tree
etc
Pengetahuan (output) dan
Evaluasi
Output/Pola/Model/Knowledge
3. Tingkat Korelasi
4. Rule (Aturan)
IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
40
Kriteria Evaluasi dan Validasi Model
1. Akurasi
Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut
dalam data yang telah disediakan
Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada
data yang digunakan
2. Kehandalan
Ukuran di mana model data mining diterapkan pada dataset yang berbeda
Model data mining dapat diandalkan jika menghasilkan pola umum yang
sama terlepas dari data testing yang disediakan
3. Kegunaan
Mencakup berbagai metrik yang mengukur apakah model tersebut
memberikan informasi yang berguna
41
Evaluasi (Akurasi, Error, etc)
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: Davies–Bouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows
index, Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
42
Accuracy
Kurva ROC - AUC (Area Under Curve)
Kurva ROC adalah grafik dua dimensi di mana laju TP diplot pada sumbu Y
dan laju FP diplot pada sumbu X
Kurva ROC menggambarkan trade-off relatif antara manfaat (‘true
positive’)dan biaya ('false positives')
Dua jenis kurva ROC: diskrit dan kontinu
Kurva ROC-AUC
Klasifikasi AUC
1. 0.90 - 1.00 = excellent classification
2. 0.80 - 0.90 = good classification
3. 0.70 - 0.80 = fair classification
4. 0.60 - 0.70 = poor classification
5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
Root Mean Square Error (RMSE)
Akar kuadrat dari rata-rata / rata-rata kuadrat dari semua kesalahan
𝑛
Penggunaan
1
𝑛 𝑖=1 √
𝑅𝑀𝑆𝐸= ∑ ( 𝑦 𝑖 − ^𝑦 𝑖)
2
Hasilnilai bisa positif atau negatif sesuai dengan nilai prediksi di bawah
atau lebih dari perkiraan nilai aktual
Pengguna dapat menggunakan RMSE sebagai ukuran penyebaran nilai
y tentang nilai y yang diprediksi