Paper 1

Data Mining:
2. Proses Data Mining
Romi Satria Wahono

romi@romisatriawahono.net
http://romisatriawahono.net/dm
WA/SMS: +6281586220090
1
Romi Satria Wahono
SD Sompok Semarang (1987)
SMPN 8 Semarang (1990)
SMA Taruna Nusantara Magelang (1993)
B.Eng, M.Eng and Ph.D in Software Engineering from
Saitama University Japan (1994-2004)
Universiti Teknikal Malaysia Melaka (2014)
Research Interests: Software Engineering,
Machine Learning
Founder dan Koordinator IlmuKomputer.Com
Peneliti LIPI (2004-2007)
Founder dan CEO PT Brainmatics Cipta Informatika
2
Course Outline
1. Pengantar Data Mining
3. Persiapan Data
4. Algoritma Klasifikasi
5. Algoritma Klastering
6. Algoritma Asosiasi
7. Algoritma Estimasi
3
Recap: Latihan Kognitif
1. Sebutkan 5 peran utama data mining!
2. Jelaskan perbedaan estimasi dan prediksi!
3. Jelaskan perbedaan prediksi dan klasifikasi!
4. Jelaskan perbedaan klasifikasi dan klastering!
5. Jelaskan perbedaan klastering dan association!
6. Jelaskan perbedaan supervised dan unsupervise
d learning!
7. Sebutkan tahapan utama proses data mining!
4
2.1 Proses Data Mining
2.2 Tool Aplikasi Data Mining
2.3 Penerapan Proses Data Mining (Dataset Model)
2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk
2.5 Proses Standard pada Data Mining (CRISP-DM)
5
2.1 Proses Data Mining
6
Proses Data Mining
1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

Data Data Mining
(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,

Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) RMSE, Lift Ratio,)
DATA PRE-PROCESSING Estimation

Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association
7
1. Himpunan Data (Dataset)
Atribut adalah faktor atau parameter yang menyebabkan class/l
abel/target terjadi
Jenis dataset ada dua: Private dan Public
Private Dataset: data set dapat diambil dari organisasi yang kita
jadikan obyek penelitian
Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
Public Dataset: data set dapat diambil dari repositori pubik yan
g disepakati oleh para peneliti data mining
UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
ACM KDD Cup (http://www.sigkdd.org/kddcup/)
PredictionIO (http://docs.prediction.io/datacollection/sample/)
Trend penelitian data mining saat ini adalah menguji metode ya
ng dikembangkan oleh peneliti dengan public dataset, sehingga
penelitian dapat bersifat: comparable, repeatable dan verifiable
8
Dataset (Himpunan Data)
Attribute/Feature Class/Label/Target
Record/
Object/
Sample/
Tuple
Nominal
Numerik
9
2. Metode Data Mining (DM)
1. Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
10
3. Pengetahuan (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)
WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
2. Decision Tree (Pohon Keputusan)
3. Tingkat Korelasi
4. Rule (Aturan)
IF ips3=2.8 THEN lulustepatwaktu
5. Cluster (Klaster)
11
4. Evaluasi (Akurasi, Error, et
c)
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: DaviesBouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, FowlkesMall
ows index, Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
12
Guide for Classifying the AU
C
1. 0.90 - 1.00 = excellent classification
2. 0.80 - 0.90 = good classification
3. 0.70 - 0.80 = fair classification
4. 0.60 - 0.70 = poor classification
5. 0.50 - 0.60 = failure
(Gorunescu, 2011)
13
Kriteria Evaluasi dan Validasi M
odel
Secara umum pengukuran model data minin
g mengacu kepada tiga kriteria:
1. Akurasi (Accuracy)
2. Kehandalan(Reliability)
3. Kegunaan (Usefulness)
Keseimbangan diantaranya ketiganya diperlu

kan karena belum tentu model yang akurat a
dalah handal, dan yang handal atau akurat b
elum tentu berguna
14
Kriteria Evaluasi dan Validasi
Model
1. Akurasi
Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan at
ribut dalam data yang telah disediakan
Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung
pada data yang digunakan
2. Kehandalan
Ukuran di mana model data mining diterapkan pada dataset yang berbed
a
Model data mining dapat diandalkan jika menghasilkan pola umum yang s
ama terlepas dari data testing yang disediakan
3. Kegunaan
Mencakup berbagai metrik yang mengukur apakah model tersebut memb
erikan informasi yang berguna
15
2.2 Tool Aplikasi Data Mining
16
Top Data Mining Software Use
d
http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html
17
Sejarah Rapidminer
Pengembangan dimulai pada 2001 oleh Ralf
Klinkenberg, Ingo Mierswa, dan Simon Fisch
er di Artificial Intelligence Unit dari Universit
y of Dortmund, ditulis dalam bahasa Java
Open source berlisensi AGPL (GNU Affero G
eneral Public License) versi 3
Software data mining peringkat pertama pa
da polling oleh KDnuggets, sebuah portal da
ta-mining pada 2010-2011
18
Fitur Rapidminer
Menyediakan prosedur data mining dan mac
hine learning termasuk: ETL (extraction, trans
formation, loading), data preprocessing, visu
alisasi, modelling dan evaluasi
Proses data mining tersusun atas operator-o
perator yang nestable, dideskripsikan dengan
XML, dan dibuat dengan GUI
Mengintegrasikan proyek data mining Weka
dan statistika R
19
Atribut Pada Rapidminer
Atribut: karakteristik atau fitur dari data yang
menggambarkan sebuah proses atau situasi
ID, atribut biasa
Atribut target: atribut yang menjadi tujuan u

ntuk diisi oleh proses data mining
Label, cluster, weight
20
Tipe Nilai Atribut pada Rapidmi
ner
1. nominal: nilai secara kategori
2. binominal: nominal dua nilai
3. polynominal: nominal lebih dari dua nilai
4. numeric: nilai numerik secara umum
5. integer: bilangan bulat
6. real: bilangan nyata
7. text: teks bebas tanpa struktur
8. date_time: tanggal dan waktu
9. date: hanya tanggal
10. time: hanya waktu
21
Data dan Format Data
Data menyebutkan obyek-obyek dari sebuah
konsep
Ditunjukkan sebagai baris dari tabel
Metadata menggambarkan karakteristik dari
konsep tersebut
Ditunjukkan sebagai kolom dari tabel
Dukungan Format data
Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV files
dan berbagai format lain.
22
Repositori
Menjalankan RapidMiner untuk pertama kali, akan
menanyakan pembuatan repositori baru
Repositori ini berfungsi sebagai lokasi penyimpanan
terpusat untuk data dan proses analisa kita
23
Perspektif dan View
1. Perspektif Selamat Datang
(Welcome perspective)
2. Perspektif Desain
(Design perspective)
3. Perspektif Hasil
(Result perspective)
24
Perspektif Desain
Perspektif pusat di mana
semua proses analisa dib
uat dan dimanage
Pindah ke Perspektif Desa

in dengan:
Klik tombol paling kiri
Atau gunakan menu
View Perspectives Desig
n
25
View Operator
Process Control
Untuk mengontrol aliran proses, seperti loop atau conditi
onal branch
Utility
Untuk mengelompokkan subprocess, juga macro dan logg
er
Repository Access
Untuk membaca dan menulis repositori
Import
Untuk membaca data dari berbagai format eksternal
Export
Untuk menulis data ke berbagai format eksternal
Data Transformation
Untuk transformasi data dan metadata
Modelling
Untuk proses data mining yang sesungguhnya seperti klas
ifikasi, regresi, clustering, aturan asosiasi dll
Evaluation
Untuk menghitung kualitas dan perfomansi dari model
26
View Repositori
Layanan untuk manajemen proses analisa, baik dat
a, metadata, proses maupun hasil
27
View Proses
28
View Parameter
Operator kadang memerlukan parameter untuk bis
a berfungsi
Setelah operator dipilih di view Proses, parametern
ya ditampilkan di view ini
29
View Help dan View Comme
nt
View Help menampilkan deskripsi dari operator
View Comment menampilkan komentar yang dapat
diedit terhadap operator
30
View Overview
Menampilkan seluruh area kerja dan menyorot seksi
yang ditampilkan saat ini dengan sebuah kotak kecil
31
View Problems and View Log
32
Operator dan Proses
Proses data mining pada dasarnya adalah proses an
alisa yang berisi alur kerja dari komponen data mini
ng
Komponen dari proses ini disebut operator, yang di
definisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan
33
Operator dan Proses
Sebuah operator bisa disambungkan melalui port masukan
(kiri) dan port keluaran (kanan)
Indikator status dari operator:

Lampu status: merah (tak tersambung), kuning (lengkap tetapi be
lum dijalankan), hijau (sudah behasil dijalankan)
Segitiga warning: bila ada pesan status
Breakpoint: bila ada breakpoint sebelum/sesudahnya
Comment: bila ada komentar
Subprocess: bila mempunyai subprocess
34
Membuat Proses Baru
Pilih menu File New
Pilih repositori dan lokasi, lalu beri nama

35
Struktur Repositori
Repositori terstruktur ke dalam proyek-proyek
Masing-masing proyek terstruktur lagi ke dalam d
ata, processes, dan results
36
Menjalankan Proses
37
Menjalankan Proses
Proses dapat dijalankan dengan:
Menekan tombol Play
Memilih menu Process Run
Menekan kunci F11
38
Melihat Hasil
39
2.3 Penerapan Proses Data Mini
ng (Dataset Model)
40
Proses Data Mining

Data Data Mining


41
Instalasi Rapidminer
Instal Rapidminer versi 5 atau 6
Registrasi account di rapidminer.com su

paya lisensi gratis bisa didapatkan (Untu
k Versi 6)
42
Contoh: Rekomendasi Main Golf
1. Lakukan training pada data golf (ambil d
ari repositories rapidminer) dengan men
ggunakan algoritma decision tree
2. Tampilkan himpunan data (dataset) dan

pengetahuan (model tree) yang terbentu
k
43
44
45
46
47
48
49
50
51
52
53
54
Latihan Psikomotorik:
Penentuan Jenis Bunga Iris
1. Lakukan training pada data Bunga Iris (ambil dari

repositories rapidminer) dengan menggunakan al
goritma decision tree
2. Tampilkan himpunan data (dataset) dan pengetah
uan (model tree) yang terbentuk
55
Penentuan Mine/Rock
1. Lakukan training pada data Sonar (ambil dari repo
sitories rapidminer) dengan menggunakan algorit
ma decision tree (C4.5)
2. Tampilkan himpunan data (dataset) dan pengetah
uan (model tree) yang terbentuk
56
Rekomendasi Contact Lenses
1. Lakukan training pada data Contact Lenses (contact-l

enses.xls) dengan menggunakan algoritma decision tr
ee (http://romisatriawahono.net/lecture/dm/dataset/)
2. Tampilkan himpunan data (dataset) dan pengetahuan
(model tree) yang terbentuk
57
Estimasi Performance CPU
1. Lakukan training pada data CPU (cpu.xls) de
ngan menggunakan algoritma linear regres
sion
2. Tampilkan himpunan data (dataset) dan pe
ngetahuan (model regresi) yang terbentuk
3. Hitung performace untuk data record yang
ke 199 dengan kalkulator
58
Rumus Performace dari Data CP
U.xls
Performance CPU = 0.038 * MYCT
+ 0.017 * MMIN
+ 0.004 * MMAX
+ 0.603 * CACH
+ 1.291 * CHMIN
+ 0.906 * CHMAX
- 43.975
59
Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datape
milukpu.xls) dengan algoritma yang tepat
2. Tentukan tipe data atribut dan class dari I
mport Configuration Wizard
3. Tampilkan himpunan data (dataset) dan pe
ngetahuan (pola/model) yang terbentuk
60
1. Ubah model/pola yang terbentuk dari pros
es prediksi pemilu yang berbentuk Tree me
njadi Rule
2. Gunakan operator Tree to Rules
61
Deteksi Kanker Payudara
1. Lakukan training pada data kanker payudar
a (breasttissue.xls)
2. Pilih metode yang tepat supaya menghasilk

an pola
62
Deteksi Serangan Jaringan
1. Lakukan training pada data serangan jaring
an (intrusion-training.xls)

an pola
63
Klasifikasi Resiko Kredit
1. Lakukan training pada data serangan jaring
an (CreditRisk.csv)

an pola
64
Latihan Psikomotorik
Download berbagai dataset yang ada di http:/
/romisatriawahono.net/lecture/dm/dataset/
Gunakan rapidminer untuk mengolah dataset
tersebut sehingga menjadi pengetahuan
Pilih algoritma yang sesuai dengan jenis data
pada dataset
65
Tugas Kognitif
1. Pahami dan kuasai satu metode data mining dari berbagai literature:
1. Nave Bayes 2. k Nearest Neighbor
3. k-Means 4. C4.5
5. Neural Network 6. Logistic Regression
7. FP Growth 8. Fuzzy C-Means
9. Self-Organizing Map 0. Support Vector Machine
2. Rangkumkan dengan detail dalam bentuk slide,

dengan format:
1. Definisi
2. Tahapan Algoritma (lengkap dengan formulanya)
3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main Golf atau IRIS
(hitung manual (gunakan excel) dan tidak dengan menggunakan rapidminer,
harus sinkron dengan tahapan algoritma)
3. Presentasikan di depan kelas pada mata kuliah berikutnya dengan ba
hasa manusia yang baik dan benar
66
Tugas Kognitif
1. Kembangkan Java Code dari algoritma yang dipilih
2. Gunakan hanya 1 class (file) dan beri nama sesuai nam
a algoritma, boleh membuat banyak method dalam cla
ss tersebut
3. Buat account di Trello.Com dan register ke https://
trello.com/b/ZOwroEYg/course-assignment
4. Buat card dengan nama sendiri dan upload semua file
(pptx, xlsx, pdf, etc) laporan ke card tersebut
5. Deadline: sehari sebelum pertemuan berikutnya
67
2.4 Evaluasi dan Validasi terhad
ap Model yang Terbentuk
68
Proses Data Mining

Data Data Mining


69
Evaluasi Data Mining
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)
4. Clustering:
Internal Evaluation: DaviesBouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, FowlkesMallo
ws index, Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
70
Pengujian Model Data Minin
g
Pembagian dataset:
Dua subset: data training dan data testing
Tiga subset: data training, data validation dan data testin
g
Data training untuk pembentukan model, da
n data testing digunakan untuk pengujian mo
del
Data validation untuk memvalidasi model kit
a valid atau tidak
71
Penentuan Kelayakan Kredit
Gunakan dataset di bawah:

creditapproval-training.xls: untuk membuat model
creditapproval-testing.xls: untuk menguji model
Pisahkan data menjadi dua: data testing (10%) dan
data training (90%)
Jadikan data training sebagai pembentuk model/pol
a/knowledge, dan data testing untuk pengujian mo
del
72
Confusion Matrix Accurac
y
A. pred MACET- true MACET: Jumlah data yang diprediksi macet dan kenya
taannya macet
B. pred LANCAR-true LANCAR: Jumlah data yang diprediksi lancar dan keny
ataannya lancar
C. pred MACET-true LANCAR: Jumlah data yang diprediksi macet tapi keny
ataannya lancar
D. pred LANCAR-true MACET: Jumlah data yang diprediksi lancar tapi keny
ataanya macet

73
Kurva ROC - AUC (Area Under Cu
rve)
74
Prediksi Harga Saham

hargasaham-training.xls: untuk membuat model
hargasaham-testing.xls: untuk menguji model
data training (90%)
del
75
Deteksi Serangan Jaringan

intrusion-training.xls: untuk membuat model
intrusion-testing.xls: untuk menguji model
data training (90%)
del
76
Split Data Otomatis
The Split Data operator takes a dataset as its input and delivers the subsets of t
hat dataset through its output ports
The number of subsets (or partitions) and the relative size of each partition are
specified through the partitions parameter
The sum of the ratio of all partitions should be 1
The sampling type parameter decides how the examples should be shuffled in t
he resultant partitions
The sampling type parameter has the following possible values:
1. Linear sampling: Linear sampling simply divides the dataset into partitions witho
ut changing the order of the examples, i.e., subsets with consecutive examples a
re created.
2. Shuffled sampling: Shuffled sampling builds random subsets of the dataset, i.e.,
examples are chosen randomly for making subsets.
3. Stratified sampling: Stratified sampling builds random subsets and ensures that t
he class distribution in the subsets is the same as in the whole dataset. For exam
ple, in the case of a binominal classification, Stratified sampling builds random s
ubsets so that each subset contains roughly the same proportions of the two val
ues of the labe
77
Prediksi Kelulusan Mahasiswa
Dataset: datakelulusanmahasiswa.xls
Pisahkan data menjadi dua secara otomatis (Split D

ata): data testing (10%) dan data training (90%)

del
78
Validasi dengan Metode Cross-V
alidation
79
Metode Cross-Validation
Metode cross-validation digunakan untuk menghin
dari overlapping pada data testing
Tahapan cross-validation:
1. Bagi data menjadi k subset yg berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya
untuk data training
Disebut juga dengan k-fold cross-validation
Seringkali subset dibuat stratified (bertingkat) sebel
um cross-validation dilakukan, karena stratifikasi ak
an mengurangi variansi dari estimasi
80
10 Fold Cross-Validation
Metode evaluasi standard: stratified 10-fold cr
oss-validation
Mengapa 10? Hasil dari berbagai percobaan ya
ng ekstensif dan pembuktian teoritis, menunju
kkan bahwa 10-fold cross-validation adalah pili
han terbaik untuk mendapatkan hasil validasi y
ang akurat
10-fold cross-validation akan mengulang pengu
jian sebanyak 10 kali dan hasil pengukuran ada
lah nilai rata-rata dari 10 kali pengujian
81
10-Fold Cross-Validation
Eksperimen Dataset
1
2
3
4
5
6
7
8
9
10
Orange: k-subset
82
(data testing)
10-Fold Cross-Validation
Eksperimen Dataset Akurasi
1 93%
2 91%
3 90%
4 93%
5 93%
6 91%
7 94%
8 93%
9 91%
10 90%
Akurasi Rata-Rata 92%
Orange: k-subset
83
(data testing)
1. Lakukan training pada data pemilu (datapemilukp
u.xls) dengan menggunakan algoritma C4.5
2. Lakukan pengujian dengan menggunakan 10-fold
X Validation
3. Ukur performance-nya dengan confusion matrix d
an ROC Curve
C4.5
Accuracy 92.45%
AUC 0.851
84
u.xls) dengan menggunakan algoritma C4.5, NB d
an K-NN
X Validation
an ROC Curve
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5
85
u.xls) dengan menggunakan algoritma C4.5, NB d
an K-NN
X Validation
an ROC Curve
4. Uji beda dengan t-Test untuk mendapatkan model
terbaik
86
87
Prediksi Elektabilitas Caleg:
Result
Komparasi Accuracy dan AUC
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5
Uji Beda (t-Test)
Urutan model terbaik: 1. C4.5 2. NB 3. K-NN

88
Prediksi Kelulusan Mahasiswa
1. Lakukan training pada data mahasiswa (datakelulu

sanmahasiswa.xls) dengan menggunakan C4.5, LD
A, NB, K-NN dan RF
Atribut yang tidak digunakan adalah: IPS5, IPS6, IPS7, IPS
8, IPK
X Validation
3. Ukur performance-nya dengan confusion matrix (A
ccuracy) dan ROC Curve (AUC)
4. Uji beda dengan t-Test untuk mendapatkan model
terbaik 89
Prediksi Kelulusan Mahasiswa: Re
sult
Komparasi Accuracy dan AUC
C4.5 NB K-NN LDA RF
Accuracy 88.12% 86.27% 84.96% 59.63% 59.37%
AUC 0.872 0.912 0.5 0.5 0.5
Uji Beda (t-Test)
Urutan model terbaik: 1. NB 1.90 C4.5 1.k-NN 2. RF 2.LDA

Estimasi Performance CPU
1. Lakukan training pada data cpu (cpu.xls) dengan
menggunakan algoritma linear regression, neural
network dan support vector machine
2. Lakukan pengujian dengan XValidation (numerica
l)
3. Ukur performance-nya dengan menggunakan RM
SE (Root Mean
LR
Square Error)
NN SVM
RMSE 64.846 64.515 106.089
4. Urutan model terbaik: 1. NN 2. LR 3. SVM

91
Estimasi Produksi Minyak Pemanas
1. Lakukan training pada data cpu (HeatingOil.csv) d
engan menggunakan algoritma linear regression,
neural network dan support vector machine
2. Lakukan pengujian dengan XValidation (numerical)
3. Ukur performance-nya dengan menggunakan RM
SE (Root Mean Square Error)
LR NN SVM
RMSE
4. Urutan model terbaik: 1. 2. 3.
92
1. Lakukan training pada data pemilu (datapemilukpu.xls)
dengan menggunakan algoritma Naive Bayes,
K-Nearest Neighbor, RandomForest, Logistic Regressio
n, Linear Discriminant Analysis
2. Lakukan pengujian dengan menggunakan XValidation
3. Ukur performance-nya dengan confusion matrix dan R
OC Curve
4. Masukkan setiap hasil percobaan ke dalam file Excel
DT NB K-NN RF LR LDA
Accuracy 92.21% 76.89% 89.63%
AUC 0.851 0.826 0.5
93
1. Lakukan training pada data harga saham (hargasaham-traini
ng.xls) dengan menggunakan Regresi Linear
2. Lakukan pengujian dengan data uji (hargasaham-testing.xls)
3. Lakukan Ploting data testing
4. Ukur performance-nya dengan menggunakan: RMSE
94
1. Lakukan training pada data harga saham (hargasaham-traini
ng.xls) dengan menggunakan neural network
2. Lakukan pengujian dengan data uji (hargasaham-testing.xls)
3. Lakukan Ploting data testing
4. Ukur performance-nya dengan menggunakan: RMSE
5. Ubah metode ke linear regression dan support vector machi
ne
95
Klastering Jenis Bunga Iris
1. Lakukan training pada data iris (ambil dari re
positories rapidminer) dengan menggunaka
n algoritma clustering k-means
2. Set k=3
3. Tampilkan data (input) dan cluster (output) y
ang terbentuk
4. Ukur performance-nya
96
Tugas Psikomotorik dan Kognitif
1. Lakukan ujicoba terhadap semua dataset yang ada di fol
der datasets, dengan menggunakan berbagai metode da
ta mining yang sesuai (estimasi, prediksi, klasifikasi, clust
ering, association)
2. Kombinasikan pengujian dengan pemecahan data traini
ng-testing, dan pengujian dengan menggunakan metode
X validation
3. Ukur performance dari model yang terbentuk dengan m
enggunakan metode pengukuran sesuai dengan metode
data mining yang dipilih
4. Jelaskan secara mendetail tahapan ujicoba yang dilakuka
n, kemudian lakukan analisis dan sintesis, dan buat lapor
an dalam bentuk slide
97
Tugas Mereview Paper
Technical Paper:
Judul: Application and Comparison of Classification Techniques in
Controlling Credit Risk
Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu Zhu, and Xu
nhua Guo
Download: http://romisatriawahono.net/lecture/dm/paper/
Baca dan pahami paper di atas dan jelaskan apa yang dilaku
kan peneliti pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
5. Hasil Penelitian
98
Technical Paper:
Judul: A Comparison Framework of Classification Models
for Software Defect Prediction
Author: Romi Satria Wahono, Nanna Suryana Herman, Sabrina Ahma
d
Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014
Download: http://romisatriawahono.net/lecture/dm/paper
Baca dan pahami paper di atas dan jelaskan apa yang dilakuka
n peneliti pada paper tersebut:
5. Hasil Penelitian 99
Technical Paper:
Judul: An experimental comparison of classification algorithms for i
mbalanced credit scoring data sets
Author: Iain Brown and Christophe Mues
Publications: Expert Systems with Applications 39 (2012) 3446345
3
Download: http://romisatriawahono.net/lecture/dm/paper
Baca dan pahami paper di atas dan jelaskan apa yang dilakuk
an peneliti pada paper tersebut:
5. Hasil Penelitian 100
Tugas Menulis Paper Peneliti
an
Cari dataset yang ada di sekitar kita
Lakukan penelitian berupa komparasi dari (minimal) 5 alg
oritma machine learning untuk memining knowledge dari
dataset tersebut
Gunakan uji beda (baik parametrik dan non parametric) u
ntuk analisis dan pembuatan ranking dari algoritma machi
ne learning
Tulis makalah tentang penelitian yang kita buat
Contoh-contoh makalah komparasi ada di: http://romisatriawah
ono.net/lecture/dm/paper/method%20comparison/
Upload seluruh file laporan ke Card di Trello.Com
Deadline: sehari sebelum pertemuan berikutnya
101
Paper Formatting
Ikuti template dan contoh paper dari: http://journal.i
lmukomputer.org
Isi paper:
Abstract: Harus berisi obyek-masalah-metode-hasil
Introduction: Latar belakang masalah penelitian dan struktur paper
Related Work: Penelitian yang berhubungan
Theoretical Foundation: Landasan dari berbagai teori yang digunakan
Proposed Method: Metode yang diusulkan
Experimental Results: Hasil eksperimen
Conclusion: Kesimpulan dan future works
102
2.5 Proses Standard pada Data
Mining (CRISP-DM)
103
Data Mining Standard Proces
s
A cross-industry standard was clearly require
d that is industry neutral, tool-neutral, and a
pplication-neutral
The Cross-Industry Standard Process for Data
Mining (CRISPDM) was developed in 1996
(Chapman, 2000)
CRISP-DM provides a nonproprietary and fre
ely available standard process for fitting data
mining into the general problem-solving strat
egy of a business or research unit
104
CRISP-DM
105
1. Business Understanding
Enunciate the project objectives and require
ments clearly in terms of the business or rese
arch unit as a whole
Translate these goals and restrictions into the
formulation of a data mining problem definiti
on
Prepare a preliminary strategy for achieving t
hese objectives
Designing what you are going to build
106
2. Data Understanding
Collect the data
Use exploratory data analysis to familiarize y
ourself with the data and discover initial insig
hts
Evaluate the quality of the data
If desired, select interesting subsets that may
contain actionable patterns
107
3. Data Preparation
Prepare from the initial raw data the final dat
a set that is to be used for all subsequent pha
ses
Select the cases and variables you want to an
alyze and that are appropriate for your analy
sis
Perform data cleaning, integration, reduction
and transformation, so it is ready for the mo
deling tools
108
4. Modeling
Select and apply appropriate modeling techn
iques
Calibrate model settings to optimize results
Remember that often, several different techn
iques may be used for the same data mining
problem
If necessary, loop back to the data preparatio
n phase to bring the form of the data into lin
e with the specific requirements of a particul
ar data mining technique
109
5. Evaluation
Evaluate the one or more models delivered in th
e modeling phase for quality and effectiveness b
efore deploying them for use in the field
Determine whether the model in fact achieves t
he objectives set for it in the first phase
Establish whether some important facet of the b
usiness or research problem has not been accou
nted for sufficiently
Come to a decision regarding use of the data mi
ning results
110
6. Deployment
Make use of the models created:
model creation does not signify the completion of a proj
ect
Example of a simple deployment:
Generate a report
Example of a more complex deployment:
Implement a parallel data mining process in another dep
artment
For businesses, the customer often carries ou
t the deployment based on your model
111
Studi Kasus CRISP-DM
Heating Oil Consumption Attribute Correlation

(Matthew North, Data Mining for the Masses, 2012,
Chapter 4 Correlation, pp. 49-72)
Dataset: HeatingOil.csv
112
CRISP-DM
113
Context and Perspective
Sarah is a regional sales manager for a nationwide supplier of fo
ssil fuels for home heating
Recent volatility in market prices for heating oil specifically, cou
pled with wide variability in the size of each order for home hea
ting oil, has Sarah concerned
She feels a need to understand the types of behaviors and othe
r factors that may influence the demand for heating oil in the d
omestic market
What factors are related to heating oil usage, and how might sh
e use a knowledge of such factors to better manage her invento
ry, and anticipate demand?
Sarah believes that data mining can help her begin to formulate
an understanding of these factors and interactions
114
1. Business Understanding
Sarahs goal is to better understand how her company ca
n succeed in the home heating oil market
She recognizes that there are many factors that influenc
e heating oil consumption, and believes that by investiga
ting the relationship between a number of those factors,
she will be able to better monitor and respond to heatin
g oil demand
She has selected correlation as a way to model the relati
onship between the factors she wishes to investigate
Correlation is a statistical measure of how strong the rel
ationships are between attributes in a data set
115
2. Data Understanding
In order to investigate her question, Sarah has enlisted our help in crea
ting a correlation matrix of six attributes
Using Sarahs employers data resources which are primarily drawn fro
m the companys billing database, we create a data set comprised of th
e following attributes:
Insulation: This is a density rating, ranging from one to ten, indicating the th
ickness of each homes insulation. A home with a density rating of one is po
orly insulated, while a home with a density of ten has excellent insulation
Temperature: This is the average outdoor ambient temperature at each ho
me for the most recent year, measure in degree Fahrenheit
Heating_Oil: This is the total number of units of heating oil purchased by th
e owner of each home in the most recent year
Num_Occupants: This is the total number of occupants living in each home
Avg_Age: This is the average age of those occupants
Home_Size: This is a rating, on a scale of one to eight, of the homes overall
size. The higher the number, the larger the home
116
3. Data Preparation
Dataset: HeatingOil.csv
117
4. Modeling
118
4. Modeling
119
5. Evaluation
Illustration of positive correlations
120
5. Evaluation
Illustration of negative correlations
121
5. Evaluation
Correlation strengths between -1 and 1
122
5. Evaluation
123
5. Evaluation
124
6. Deployment
Dropping the Num_Occupants attribute
While the number of people living in a home might

logically seem like a variable that would influence e
nergy usage, in our model it did not correlate in any
significant way with anything else
Sometimes there are attributes that dont turn out t
o be very interesting
125
6. Deployment
Investigating the role of home insulation
The Insulation rating attribute was fairly strongly co

rrelated with a number of other attributes
There may be some opportunity there to partner wi
th a company that specializes in adding insulation t
o existing homes
126
6. Deployment
Adding greater granularity in the data set
This data set has yielded some interesting results, but its pretty ge
neral
We have used average yearly temperatures and total annual numb
er of heating oil units in this model
But we also know that temperatures fluctuate throughout the year
in most areas of the world, and thus monthly, or even weekly meas
ures would not only be likely to show more detailed results of dem
and and usage over time, but the correlations between attributes
would probably be more interesting
From our model, Sarah now knows how certain attributes interact
with one another, but in the day-to-day business of doing her job, s
hell probably want to know about usage over time periods shorter
than one year
127
6. Deployment
Adding additional attributes to the data set
It turned out that the number of occupants in the home

didnt correlate much with other attributes, but that do
esnt mean that other attributes would be equally unint
eresting
For example, what if Sarah had access to the number of
furnaces and/or boilers in each home?
Home_size was slightly correlated with Heating_Oil usa
ge, so perhaps the number of instruments that consum
e heating oil in each home would tell an interesting stor
y, or at least add to her insight
128
Latihan
Pahami dan lakukan eksperimen berdasarkan selur
uh studi kasus yang ada di buku Data Mining for the
Masses (Matthew North)
Pahami bahwa metode CRISP-DM membantu kita m

emahami penggunaan metode data mining yang le
bih sesuai dengan kebutuhan organisasi
129
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Th
ird Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learn
ing Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases
and Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Min
ing, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,
2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Hand
book Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data M
ining of Enterprise Data: Algorithms and Applications, World Scientific, 2007
130

Paper 1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Paper 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining:

2. Proses Data Mining

Romi Satria Wahono

2. Proses Data Mining

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,

DATA PRE-PROCESSING Estimation

2. Decision Tree (Pohon Keputusan)

Keseimbangan diantaranya ketiganya diperlu

Atribut target: atribut yang menjadi tujuan u

Pindah ke Perspektif Desa

Indikator status dari operator:

Pilih repositori dan lokasi, lalu beri nama

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,

DATA PRE-PROCESSING Estimation

Registrasi account di rapidminer.com su

2. Tampilkan himpunan data (dataset) dan

1. Lakukan training pada data Bunga Iris (ambil dari

1. Lakukan training pada data Contact Lenses (contact-l

2. Pilih metode yang tepat supaya menghasilk

2. Pilih metode yang tepat supaya menghasilk

2. Pilih metode yang tepat supaya menghasilk

2. Rangkumkan dengan detail dalam bentuk slide,

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,

DATA PRE-PROCESSING Estimation

Gunakan dataset di bawah:

Gunakan dataset di bawah:

Gunakan dataset di bawah:

Pisahkan data menjadi dua secara otomatis (Split D

Jadikan data training sebagai pembentuk model/pol

Uji Beda (t-Test)

Urutan model terbaik: 1. C4.5 2. NB 3. K-NN

1. Lakukan training pada data mahasiswa (datakelulu

Uji Beda (t-Test)

Urutan model terbaik: 1. NB 1.90 C4.5 1.k-NN 2. RF 2.LDA

4. Urutan model terbaik: 1. NN 2. LR 3. SVM

4. Urutan model terbaik: 1. 2. 3.

Heating Oil Consumption Attribute Correlation

While the number of people living in a home might

The Insulation rating attribute was fairly strongly co

It turned out that the number of occupants in the home

Pahami bahwa metode CRISP-DM membantu kita m

Anda mungkin juga menyukai