Data Mining

Data Mining
Teknik Data Mining
Novi Wulandari, SSi, M.Kom

noph21@yahoo.com
+6287876492262
Proses Data Mining
1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

Data Data Mining
(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,

Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) RMSE, Lift Ratio,…)
DATA PRE-PROCESSING Estimation

Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Association
Data Transformation
2
Teknik Data Mining
1. Classification (Klasifikasi)
2. Association (Asosiasi)
3. Clustering (Klastering)
4. Estimation (Estimasi)
5. Prediction/Forecasting (Prediksi/Peramalan)
Metode Learning Pada Algoritma DM
Supervised Semi-
Supervised
Unsupervised
Learning Learning Learning
4
1. Supervised Learning
 Pembelajaran dengan guru, data set memiliki

target/label/class
 Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised learning
 Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable prediktor
5
Dataset dengan Class
Attribute/Feature Class/Label/Target
Nominal
Numerik
6
2. Unsupervised Learning
 Algoritmadata mining mencari pola dari

semua variable (atribut)
 Variable (atribut) yang menjadi
target/label/class tidak ditentukan (tidak ada)
 Algoritmaclustering adalah algoritma
unsupervised learning
7
Dataset tanpa Class
Attribute/Feature
8
3. Semi-Supervised Learning
 Semi-supervised learning adalah metode data
mining yang menggunakan data dengan label
dan tidak berlabel sekaligus dalam proses
pembelajarannya
 Data yang memiliki kelas digunakan untuk
membentuk model (pengetahuan), data tanpa
label digunakan untuk membuat batasan
antara kelas
9
3. Semi-Supervised Learning
 If we consider the labeled

examples, the dashed line is the
decision boundary that best
partitions the positive examples
from the negative examples
 Using the unlabeled examples,

we can refine the decision
boundary to the solid line
 Moreover, we can detect that the

two positive examples at the top
right corner, though labeled, are
likely noise or outliers
10
Teknik Data Mining
Klasifikasi
Klasifikasi?
 Merupakan proses pembelajaran suatu fungsi
tujuan (target) f yang memetakan tiap
himpunan atribut x ke satu dari label kelas y
yang didefinisikan sebelumnya
 Cocok untuk tipe data biner atau nominal
Jenis klasifikasi
 Pemodelan deskriptif (descriptive modelling):
berfungsi sebagai alat penjelasan untuk
membedakan objek-objek dalam kelas-kelas
yang berbeda
 Pemodelan Prediktif (predictive modelling):
digunakan untuk memprediksi label kelas
record yang tidak diketahui
Contoh Aplikasi
 Memprediksi sel tumor jinak atau ganas
 Menggolongkan transaksi kartu kredit sah
atau curang
 Menggolongkan struktur protein sekunder
sebagai alpha-helix, beta-sheet, atau random-
coil
 Mengkategorikan isi berita sebagai finance,
weather, entertainment, sports, dll
Evaluasi Model
 Digunakanuntuk mengetahui performa dari
model yang dibangun
 Untukklasifikasi, evaluasi dapat dilakukan
dengan cara:
 Confusion Matrix: Accuracy
 ROC Curve: Area Under Curve (AUC)
Metode untuk klasifikasi
 Decision Tree Induction (C4.5, ID3, dll)
 K-Nearest Neighbor
 Naive Bayes
 Neural Network
 Linear Discriminant Analysis
 Logistic Regression
 etc
Teknik Data Mining
Asosiasi
Asosiasi?
 Adalah sebuah metodologi untuk mencari
relasi istimewa/menarik yang tersembunyi
dalam himpunan data (data set) yang besar
 Relasiyang tersembunyi ini dapat
direpresentasikan dalam bentuk aturan
asosiasi (association rules) atau himpunan
barang yang seringkali muncul (frequent
itemset)
Bentuk
 {roti,mentega} -> {susu} (support = 40%,
confidence = 50%)
 Artinya “Seorang konsumen yang membeli roti dan
mentega punya kemungkinan 50% untuk juga membeli
susu. Aturan ini cukup signifikan karena mewakili 40% dari
catatan transaksi selama ini.”
Contoh Penerapan
 Google mengembangkan fitur auto-complete
 Meletakkanbarang-barang yang sering dibeli
bersamaan dengan posisi berdekatan atau
mudah dijangkau
 Amazon.com,mengembangkan
perekomendasi (recommender)
Evaluasi Model
 Lift Charts: Lift Ratio
 Precision and Recall (F-measure)
Metode untuk Asosiasi
 FP-Growth
 A Priori
 Coefficient of Correlation
 Chi Square
 etc
Teknik Data Mining
Clustering
Clustering?
 Penklusteran (clustering) digunakan untuk
melakukan pengelompokan data-data kedalam
sejumlah kelompok (cluster) berdasarkan
karakteristik masing-masing data pada
kelompok-kelompok yang ada
 Seringdisebut unsupervised classification
karena label diperoleh dari data
Aplikasi Clustering
 Understanding,antara lain kelompk dokumen-
dokumen yang saling berhubungan untuk
proses browsing, pengelompokan gen dan
protein yang punya fungsi sama,
pengelompokan stok dengan harga yang
fluktuatif
 Summarization, untuk menurunkan ukuran
data-set yang besar
Contoh penerapan
 Biologi:taksonomi makhluk hidup: kingdom, phylum, class, order,
family, genus and species
 Information retrieval: pengelompokan dokumen
 Penggunaan lahan: Identifikasi area penggunaan lahan yang serupa
dalam database observasi bumi
 Pemasaran:Membantu marketers menemukan kelompok berbeda di basis
pelanggan mereka, dan kemudian menggunakan pengetahuan ini untuk
mengembangkan program pemasaran
 Perencanaan kota: Mengidentifikasi kelompok-kelompok rumah sesuai
dengan jenis rumah, nilai, dan lokasi geografis mereka
 Studigempa bumi: Episentrum gempa bumi yang diamati harus
dikelompokkan di sepanjang patahan benua
 Iklim: memahami iklim bumi, menemukan pola atmosfer dan lautan
 Ilmu Ekonomi: riset pasar
Evaluasi Model
 Internal
Evaluation: Davies–Bouldin index,
Dunn index,
 ExternalEvaluation: Rand measure, F-
measure, Jaccard index, Fowlkes–Mallows
index, Confusion matrix
Metode untuk Klastering
 K-Means
 K-Medoids
 Self-Organizing Map (SOM)
 Fuzzy C-Means
 etc
Teknik Data Mining
Estimasi
Estimasi?
 Digunakan untuk menerka sebuah nilai yang
belum diketahui, misal menerka penghasilan
seseorang ketika informasi mengenai orang
tersebut diketahui.
 variabel
target estimasi lebih ke arah numerik
dari pada ke arah kategori
Ilustrasi
 akan dilakukan estimasi tekanan darah sistolik
pada pasien rumah sakit berdasarkan umur
pasien, jenis kelamin, berat badan, dan level
sodium darah.
 Hubungan antara tekanan darah sistolik dan
nilai variabel prediksi dalam proses
pembelajaran akan menghasilkan model
estimasi.
Evaluasi Model
 Error:
Root Mean Square Error (RMSE),
MSE, MAPE, etc
Metode untuk Estimasi
 Linear Regression
 Neural Network
 Support Vector Machine
 etc
Teknik Data Mining
Prediksi
Prediksi (forecasting)?
 untuk memperkirakan nilai masa mendatang
 teknik Forecasting akan mengambil sederetan
angka yang menunjukkan nilai yang berjalan
seiring waktu dan kemudian Teknik
Forecasting ini akan menghubungkan nilai
masa depan dengan menggunakan bermacam-
macam teknik machine-learning dan teknik
statistik yang berhubungan dengan musim,
trend, dan noise pada data
Contoh Aplikasi
 memprediksi stok barang satu tahun ke depan
 TimeSeries model untuk saham, harga
barang, kurs, dll
Evaluasi Model
 Error:
Root Mean Square Error (RMSE) ,
MSE, MAPE, etc
Metode untuk Prediksi
 Linear Regression
 Neural Network
 Support Vector Machine
 Decision Tree
 etc
Pengetahuan (output) dan
Evaluasi
Output/Pola/Model/Knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)

 WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Tingkat Korelasi
4. Rule (Aturan)
 IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
40
Kriteria Evaluasi dan Validasi Model
1. Akurasi
 Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut
dalam data yang telah disediakan
 Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada
data yang digunakan
2. Kehandalan
 Ukuran di mana model data mining diterapkan pada dataset yang berbeda
 Model data mining dapat diandalkan jika menghasilkan pola umum yang
sama terlepas dari data testing yang disediakan
3. Kegunaan
 Mencakup berbagai metrik yang mengukur apakah model tersebut
memberikan informasi yang berguna
Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model

yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna
41
Evaluasi (Akurasi, Error, etc)
1. Estimation:
 Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
 Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
 Confusion Matrix: Accuracy
 ROC Curve: Area Under Curve (AUC)
4. Clustering:
 Internal Evaluation: Davies–Bouldin index, Dunn index,
 External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows
index, Confusion matrix
5. Association:
 Lift Charts: Lift Ratio
 Precision and Recall (F-measure)
42
Accuracy

Kurva ROC - AUC (Area Under Curve)
 Kurva ROC adalah grafik dua dimensi di mana laju TP diplot pada sumbu Y
dan laju FP diplot pada sumbu X
 Kurva ROC menggambarkan trade-off relatif antara manfaat (‘true
positive’)dan biaya ('false positives')
 Dua jenis kurva ROC: diskrit dan kontinu
Kurva ROC-AUC
Klasifikasi AUC
1. 0.90 - 1.00 = excellent classification
2. 0.80 - 0.90 = good classification
3. 0.70 - 0.80 = fair classification
4. 0.60 - 0.70 = poor classification
5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
Root Mean Square Error (RMSE)
 Akar kuadrat dari rata-rata / rata-rata kuadrat dari semua kesalahan

𝑛
 Penggunaan
1
𝑛 𝑖=1 √
𝑅𝑀𝑆𝐸= ∑ ( 𝑦 𝑖 − ^𝑦 𝑖)
2
RMSE sangat umum dan menjadikannya error metric

umum yang sangat baik untuk prediksi numerik
 Untuk membangun RMSE, pertama-tama kita perlu menentukan
residuals
 Residuasl adalah perbedaan antara nilai aktual dan nilai prediksi
 Dinotasikan dengan
 di mana adalah nilai yang diamati untuk observasi ke-i dan adalah nilai yang diprediksi
 Hasilnilai bisa positif atau negatif sesuai dengan nilai prediksi di bawah
atau lebih dari perkiraan nilai aktual
 Pengguna dapat menggunakan RMSE sebagai ukuran penyebaran nilai
y tentang nilai y yang diprediksi

Data Mining - 5 - Teknik Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining - 5 - Teknik Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Teknik Data Mining

Novi Wulandari, SSi, M.Kom

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,

DATA PRE-PROCESSING Estimation

 Pembelajaran dengan guru, data set memiliki

 Algoritmadata mining mencari pola dari

 If we consider the labeled

 Using the unlabeled examples,

 Moreover, we can detect that the

1. Formula/Function (Rumus atau Fungsi Regresi)

2. Decision Tree (Pohon Keputusan)

Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model

RMSE sangat umum dan menjadikannya error metric

Anda mungkin juga menyukai