Anda di halaman 1dari 130

Data Mining:

2. Proses Data Mining

Romi Satria Wahono


romi@romisatriawahono.net
http://romisatriawahono.net/dm
WA/SMS: +6281586220090

1
Romi Satria Wahono
SD Sompok Semarang (1987)
SMPN 8 Semarang (1990)
SMA Taruna Nusantara Magelang (1993)
B.Eng, M.Eng and Ph.D in Software Engineering from
Saitama University Japan (1994-2004)
Universiti Teknikal Malaysia Melaka (2014)
Research Interests: Software Engineering,
Machine Learning
Founder dan Koordinator IlmuKomputer.Com
Peneliti LIPI (2004-2007)
Founder dan CEO PT Brainmatics Cipta Informatika
2
Course Outline
1. Pengantar Data Mining

2. Proses Data Mining

3. Persiapan Data

4. Algoritma Klasifikasi

5. Algoritma Klastering

6. Algoritma Asosiasi

7. Algoritma Estimasi

3
Recap: Latihan Kognitif
1. Sebutkan 5 peran utama data mining!
2. Jelaskan perbedaan estimasi dan prediksi!
3. Jelaskan perbedaan prediksi dan klasifikasi!
4. Jelaskan perbedaan klasifikasi dan klastering!
5. Jelaskan perbedaan klastering dan association!
6. Jelaskan perbedaan supervised dan unsupervise
d learning!
7. Sebutkan tahapan utama proses data mining!

4
2. Proses Data Mining
2.1 Proses Data Mining
2.2 Tool Aplikasi Data Mining
2.3 Penerapan Proses Data Mining (Dataset Model)
2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk
2.5 Proses Standard pada Data Mining (CRISP-DM)

5
2.1 Proses Data Mining

6
Proses Data Mining

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation


Data Data Mining

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,


Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) RMSE, Lift Ratio,)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association

7
1. Himpunan Data (Dataset)
Atribut adalah faktor atau parameter yang menyebabkan class/l
abel/target terjadi
Jenis dataset ada dua: Private dan Public
Private Dataset: data set dapat diambil dari organisasi yang kita
jadikan obyek penelitian
Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
Public Dataset: data set dapat diambil dari repositori pubik yan
g disepakati oleh para peneliti data mining
UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
ACM KDD Cup (http://www.sigkdd.org/kddcup/)
PredictionIO (http://docs.prediction.io/datacollection/sample/)
Trend penelitian data mining saat ini adalah menguji metode ya
ng dikembangkan oleh peneliti dengan public dataset, sehingga
penelitian dapat bersifat: comparable, repeatable dan verifiable
8
Dataset (Himpunan Data)
Attribute/Feature Class/Label/Target

Record/
Object/
Sample/
Tuple

Nominal

Numerik
9
2. Metode Data Mining (DM)
1. Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant
Analysis, Logistic Regression, etc

4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

10
3. Pengetahuan (Pola/Model)
1. Formula/Function (Rumus atau Fungsi Regresi)
WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)
IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

11
4. Evaluasi (Akurasi, Error, et
c)
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)

4. Clustering:
Internal Evaluation: DaviesBouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, FowlkesMall
ows index, Confusion matrix

5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
12
Guide for Classifying the AU
C
1. 0.90 - 1.00 = excellent classification
2. 0.80 - 0.90 = good classification
3. 0.70 - 0.80 = fair classification
4. 0.60 - 0.70 = poor classification
5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

13
Kriteria Evaluasi dan Validasi M
odel
Secara umum pengukuran model data minin
g mengacu kepada tiga kriteria:
1. Akurasi (Accuracy)
2. Kehandalan(Reliability)
3. Kegunaan (Usefulness)

Keseimbangan diantaranya ketiganya diperlu


kan karena belum tentu model yang akurat a
dalah handal, dan yang handal atau akurat b
elum tentu berguna
14
Kriteria Evaluasi dan Validasi
Model
1. Akurasi
Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan at
ribut dalam data yang telah disediakan
Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung
pada data yang digunakan

2. Kehandalan
Ukuran di mana model data mining diterapkan pada dataset yang berbed
a
Model data mining dapat diandalkan jika menghasilkan pola umum yang s
ama terlepas dari data testing yang disediakan

3. Kegunaan
Mencakup berbagai metrik yang mengukur apakah model tersebut memb
erikan informasi yang berguna
15
2.2 Tool Aplikasi Data Mining

16
Top Data Mining Software Use
d

http://www.kdnuggets.com/polls/2015/analytics-data-mining-data-science-software-used.html

17
Sejarah Rapidminer
Pengembangan dimulai pada 2001 oleh Ralf
Klinkenberg, Ingo Mierswa, dan Simon Fisch
er di Artificial Intelligence Unit dari Universit
y of Dortmund, ditulis dalam bahasa Java
Open source berlisensi AGPL (GNU Affero G
eneral Public License) versi 3
Software data mining peringkat pertama pa
da polling oleh KDnuggets, sebuah portal da
ta-mining pada 2010-2011
18
Fitur Rapidminer
Menyediakan prosedur data mining dan mac
hine learning termasuk: ETL (extraction, trans
formation, loading), data preprocessing, visu
alisasi, modelling dan evaluasi
Proses data mining tersusun atas operator-o
perator yang nestable, dideskripsikan dengan
XML, dan dibuat dengan GUI
Mengintegrasikan proyek data mining Weka
dan statistika R
19
Atribut Pada Rapidminer
Atribut: karakteristik atau fitur dari data yang
menggambarkan sebuah proses atau situasi
ID, atribut biasa

Atribut target: atribut yang menjadi tujuan u


ntuk diisi oleh proses data mining
Label, cluster, weight

20
Tipe Nilai Atribut pada Rapidmi
ner
1. nominal: nilai secara kategori
2. binominal: nominal dua nilai
3. polynominal: nominal lebih dari dua nilai
4. numeric: nilai numerik secara umum
5. integer: bilangan bulat
6. real: bilangan nyata
7. text: teks bebas tanpa struktur
8. date_time: tanggal dan waktu
9. date: hanya tanggal
10. time: hanya waktu

21
Data dan Format Data
Data menyebutkan obyek-obyek dari sebuah
konsep
Ditunjukkan sebagai baris dari tabel
Metadata menggambarkan karakteristik dari
konsep tersebut
Ditunjukkan sebagai kolom dari tabel
Dukungan Format data
Oracle, IBM DB2, Microsoft SQL Server, MySQL,
PostgreSQL, Ingres, Excel, Access, SPSS, CSV files
dan berbagai format lain.
22
Repositori
Menjalankan RapidMiner untuk pertama kali, akan
menanyakan pembuatan repositori baru
Repositori ini berfungsi sebagai lokasi penyimpanan
terpusat untuk data dan proses analisa kita

23
Perspektif dan View
1. Perspektif Selamat Datang
(Welcome perspective)

2. Perspektif Desain
(Design perspective)

3. Perspektif Hasil
(Result perspective)

24
Perspektif Desain
Perspektif pusat di mana
semua proses analisa dib
uat dan dimanage

Pindah ke Perspektif Desa


in dengan:
Klik tombol paling kiri
Atau gunakan menu
View Perspectives Desig
n
25
View Operator
Process Control
Untuk mengontrol aliran proses, seperti loop atau conditi
onal branch
Utility
Untuk mengelompokkan subprocess, juga macro dan logg
er
Repository Access
Untuk membaca dan menulis repositori
Import
Untuk membaca data dari berbagai format eksternal
Export
Untuk menulis data ke berbagai format eksternal
Data Transformation
Untuk transformasi data dan metadata
Modelling
Untuk proses data mining yang sesungguhnya seperti klas
ifikasi, regresi, clustering, aturan asosiasi dll
Evaluation
Untuk menghitung kualitas dan perfomansi dari model
26
View Repositori
Layanan untuk manajemen proses analisa, baik dat
a, metadata, proses maupun hasil

27
View Proses

28
View Parameter
Operator kadang memerlukan parameter untuk bis
a berfungsi
Setelah operator dipilih di view Proses, parametern
ya ditampilkan di view ini

29
View Help dan View Comme
nt
View Help menampilkan deskripsi dari operator
View Comment menampilkan komentar yang dapat
diedit terhadap operator

30
View Overview
Menampilkan seluruh area kerja dan menyorot seksi
yang ditampilkan saat ini dengan sebuah kotak kecil

31
View Problems and View Log

32
Operator dan Proses
Proses data mining pada dasarnya adalah proses an
alisa yang berisi alur kerja dari komponen data mini
ng
Komponen dari proses ini disebut operator, yang di
definisikan dengan:
1. Deskripsi input
2. Deskripsi output
3. Aksi yang dilakukan
4. Parameter yang diperlukan

33
Operator dan Proses
Sebuah operator bisa disambungkan melalui port masukan
(kiri) dan port keluaran (kanan)

Indikator status dari operator:


Lampu status: merah (tak tersambung), kuning (lengkap tetapi be
lum dijalankan), hijau (sudah behasil dijalankan)
Segitiga warning: bila ada pesan status
Breakpoint: bila ada breakpoint sebelum/sesudahnya
Comment: bila ada komentar
Subprocess: bila mempunyai subprocess
34
Membuat Proses Baru
Pilih menu File New

Pilih repositori dan lokasi, lalu beri nama


35
Struktur Repositori
Repositori terstruktur ke dalam proyek-proyek
Masing-masing proyek terstruktur lagi ke dalam d
ata, processes, dan results

36
Menjalankan Proses

37
Menjalankan Proses
Proses dapat dijalankan dengan:
Menekan tombol Play
Memilih menu Process Run
Menekan kunci F11

38
Melihat Hasil

39
2.3 Penerapan Proses Data Mini
ng (Dataset Model)

40
Proses Data Mining

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation


Data Data Mining

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,


Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) RMSE, Lift Ratio,)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association

41
Instalasi Rapidminer
Instal Rapidminer versi 5 atau 6

Registrasi account di rapidminer.com su


paya lisensi gratis bisa didapatkan (Untu
k Versi 6)

42
Contoh: Rekomendasi Main Golf
1. Lakukan training pada data golf (ambil d
ari repositories rapidminer) dengan men
ggunakan algoritma decision tree

2. Tampilkan himpunan data (dataset) dan


pengetahuan (model tree) yang terbentu
k

43
44
45
46
47
48
49
50
51
52
53
54
Latihan Psikomotorik:
Penentuan Jenis Bunga Iris

1. Lakukan training pada data Bunga Iris (ambil dari


repositories rapidminer) dengan menggunakan al
goritma decision tree
2. Tampilkan himpunan data (dataset) dan pengetah
uan (model tree) yang terbentuk

55
Latihan Psikomotorik:
Penentuan Mine/Rock
1. Lakukan training pada data Sonar (ambil dari repo
sitories rapidminer) dengan menggunakan algorit
ma decision tree (C4.5)
2. Tampilkan himpunan data (dataset) dan pengetah
uan (model tree) yang terbentuk

56
Latihan Psikomotorik:
Rekomendasi Contact Lenses

1. Lakukan training pada data Contact Lenses (contact-l


enses.xls) dengan menggunakan algoritma decision tr
ee (http://romisatriawahono.net/lecture/dm/dataset/)
2. Tampilkan himpunan data (dataset) dan pengetahuan
(model tree) yang terbentuk

57
Latihan Psikomotorik:
Estimasi Performance CPU
1. Lakukan training pada data CPU (cpu.xls) de
ngan menggunakan algoritma linear regres
sion
2. Tampilkan himpunan data (dataset) dan pe
ngetahuan (model regresi) yang terbentuk
3. Hitung performace untuk data record yang
ke 199 dengan kalkulator

58
Rumus Performace dari Data CP
U.xls
Performance CPU = 0.038 * MYCT
+ 0.017 * MMIN
+ 0.004 * MMAX
+ 0.603 * CACH
+ 1.291 * CHMIN
+ 0.906 * CHMAX
- 43.975

59
Latihan Psikomotorik:
Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datape
milukpu.xls) dengan algoritma yang tepat
2. Tentukan tipe data atribut dan class dari I
mport Configuration Wizard
3. Tampilkan himpunan data (dataset) dan pe
ngetahuan (pola/model) yang terbentuk

60
Latihan Psikomotorik:
Prediksi Elektabilitas Caleg
1. Ubah model/pola yang terbentuk dari pros
es prediksi pemilu yang berbentuk Tree me
njadi Rule
2. Gunakan operator Tree to Rules

61
Latihan Psikomotorik:
Deteksi Kanker Payudara
1. Lakukan training pada data kanker payudar
a (breasttissue.xls)

2. Pilih metode yang tepat supaya menghasilk


an pola

62
Latihan Psikomotorik:
Deteksi Serangan Jaringan
1. Lakukan training pada data serangan jaring
an (intrusion-training.xls)

2. Pilih metode yang tepat supaya menghasilk


an pola

63
Latihan Psikomotorik:
Klasifikasi Resiko Kredit
1. Lakukan training pada data serangan jaring
an (CreditRisk.csv)

2. Pilih metode yang tepat supaya menghasilk


an pola

64
Latihan Psikomotorik
Download berbagai dataset yang ada di http:/
/romisatriawahono.net/lecture/dm/dataset/
Gunakan rapidminer untuk mengolah dataset
tersebut sehingga menjadi pengetahuan
Pilih algoritma yang sesuai dengan jenis data
pada dataset

65
Tugas Kognitif
1. Pahami dan kuasai satu metode data mining dari berbagai literature:
1. Nave Bayes 2. k Nearest Neighbor
3. k-Means 4. C4.5
5. Neural Network 6. Logistic Regression
7. FP Growth 8. Fuzzy C-Means
9. Self-Organizing Map 0. Support Vector Machine

2. Rangkumkan dengan detail dalam bentuk slide,


dengan format:
1. Definisi
2. Tahapan Algoritma (lengkap dengan formulanya)
3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main Golf atau IRIS
(hitung manual (gunakan excel) dan tidak dengan menggunakan rapidminer,
harus sinkron dengan tahapan algoritma)
3. Presentasikan di depan kelas pada mata kuliah berikutnya dengan ba
hasa manusia yang baik dan benar

66
Tugas Kognitif
1. Kembangkan Java Code dari algoritma yang dipilih
2. Gunakan hanya 1 class (file) dan beri nama sesuai nam
a algoritma, boleh membuat banyak method dalam cla
ss tersebut
3. Buat account di Trello.Com dan register ke https://
trello.com/b/ZOwroEYg/course-assignment
4. Buat card dengan nama sendiri dan upload semua file
(pptx, xlsx, pdf, etc) laporan ke card tersebut
5. Deadline: sehari sebelum pertemuan berikutnya

67
2.4 Evaluasi dan Validasi terhad
ap Model yang Terbentuk

68
Proses Data Mining

1. Himpunan 2. Metode 3. Pengetahuan 4. Evaluation


Data Data Mining

(Pemahaman dan (Pilih Metode (Pola/Model/Rumus/ (Akurasi, AUC,


Pengolahan Data) Sesuai Karakter Data) Tree/Rule/Cluster) RMSE, Lift Ratio,)

DATA PRE-PROCESSING Estimation


Data Cleaning Prediction
Data Integration Classification
Data Reduction Clustering
Data Transformation Association

69
Evaluasi Data Mining
1. Estimation:
Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):
Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:
Confusion Matrix: Accuracy
ROC Curve: Area Under Curve (AUC)

4. Clustering:
Internal Evaluation: DaviesBouldin index, Dunn index,
External Evaluation: Rand measure, F-measure, Jaccard index, FowlkesMallo
ws index, Confusion matrix
5. Association:
Lift Charts: Lift Ratio
Precision and Recall (F-measure)
70
Pengujian Model Data Minin
g
Pembagian dataset:
Dua subset: data training dan data testing
Tiga subset: data training, data validation dan data testin
g
Data training untuk pembentukan model, da
n data testing digunakan untuk pengujian mo
del
Data validation untuk memvalidasi model kit
a valid atau tidak

71
Latihan Psikomotorik:
Penentuan Kelayakan Kredit

Gunakan dataset di bawah:


creditapproval-training.xls: untuk membuat model
creditapproval-testing.xls: untuk menguji model
Pisahkan data menjadi dua: data testing (10%) dan
data training (90%)
Jadikan data training sebagai pembentuk model/pol
a/knowledge, dan data testing untuk pengujian mo
del

72
Confusion Matrix Accurac
y

A. pred MACET- true MACET: Jumlah data yang diprediksi macet dan kenya
taannya macet
B. pred LANCAR-true LANCAR: Jumlah data yang diprediksi lancar dan keny
ataannya lancar
C. pred MACET-true LANCAR: Jumlah data yang diprediksi macet tapi keny
ataannya lancar
D. pred LANCAR-true MACET: Jumlah data yang diprediksi lancar tapi keny
ataanya macet


73
Kurva ROC - AUC (Area Under Cu
rve)

74
Latihan Psikomotorik:
Prediksi Harga Saham

Gunakan dataset di bawah:


hargasaham-training.xls: untuk membuat model
hargasaham-testing.xls: untuk menguji model
Pisahkan data menjadi dua: data testing (10%) dan
data training (90%)
Jadikan data training sebagai pembentuk model/pol
a/knowledge, dan data testing untuk pengujian mo
del

75
Latihan Psikomotorik:
Deteksi Serangan Jaringan

Gunakan dataset di bawah:


intrusion-training.xls: untuk membuat model
intrusion-testing.xls: untuk menguji model
Pisahkan data menjadi dua: data testing (10%) dan
data training (90%)
Jadikan data training sebagai pembentuk model/pol
a/knowledge, dan data testing untuk pengujian mo
del

76
Split Data Otomatis
The Split Data operator takes a dataset as its input and delivers the subsets of t
hat dataset through its output ports
The number of subsets (or partitions) and the relative size of each partition are
specified through the partitions parameter
The sum of the ratio of all partitions should be 1
The sampling type parameter decides how the examples should be shuffled in t
he resultant partitions
The sampling type parameter has the following possible values:
1. Linear sampling: Linear sampling simply divides the dataset into partitions witho
ut changing the order of the examples, i.e., subsets with consecutive examples a
re created.
2. Shuffled sampling: Shuffled sampling builds random subsets of the dataset, i.e.,
examples are chosen randomly for making subsets.
3. Stratified sampling: Stratified sampling builds random subsets and ensures that t
he class distribution in the subsets is the same as in the whole dataset. For exam
ple, in the case of a binominal classification, Stratified sampling builds random s
ubsets so that each subset contains roughly the same proportions of the two val
ues of the labe
77
Latihan Psikomotorik:
Prediksi Kelulusan Mahasiswa

Dataset: datakelulusanmahasiswa.xls

Pisahkan data menjadi dua secara otomatis (Split D


ata): data testing (10%) dan data training (90%)

Jadikan data training sebagai pembentuk model/pol


a/knowledge, dan data testing untuk pengujian mo
del

78
Validasi dengan Metode Cross-V
alidation

79
Metode Cross-Validation
Metode cross-validation digunakan untuk menghin
dari overlapping pada data testing
Tahapan cross-validation:
1. Bagi data menjadi k subset yg berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya
untuk data training
Disebut juga dengan k-fold cross-validation
Seringkali subset dibuat stratified (bertingkat) sebel
um cross-validation dilakukan, karena stratifikasi ak
an mengurangi variansi dari estimasi

80
10 Fold Cross-Validation
Metode evaluasi standard: stratified 10-fold cr
oss-validation
Mengapa 10? Hasil dari berbagai percobaan ya
ng ekstensif dan pembuktian teoritis, menunju
kkan bahwa 10-fold cross-validation adalah pili
han terbaik untuk mendapatkan hasil validasi y
ang akurat
10-fold cross-validation akan mengulang pengu
jian sebanyak 10 kali dan hasil pengukuran ada
lah nilai rata-rata dari 10 kali pengujian

81
10-Fold Cross-Validation
Eksperimen Dataset
1
2
3
4
5
6
7
8
9
10

Orange: k-subset
82
(data testing)
10-Fold Cross-Validation
Eksperimen Dataset Akurasi
1 93%
2 91%
3 90%
4 93%
5 93%
6 91%
7 94%
8 93%
9 91%
10 90%
Akurasi Rata-Rata 92%

Orange: k-subset
83
(data testing)
Latihan Psikomotorik:
Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukp
u.xls) dengan menggunakan algoritma C4.5
2. Lakukan pengujian dengan menggunakan 10-fold
X Validation
3. Ukur performance-nya dengan confusion matrix d
an ROC Curve
C4.5
Accuracy 92.45%
AUC 0.851

84
Latihan Psikomotorik:
Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukp
u.xls) dengan menggunakan algoritma C4.5, NB d
an K-NN
2. Lakukan pengujian dengan menggunakan 10-fold
X Validation
3. Ukur performance-nya dengan confusion matrix d
an ROC Curve
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5

85
Latihan Psikomotorik:
Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukp
u.xls) dengan menggunakan algoritma C4.5, NB d
an K-NN
2. Lakukan pengujian dengan menggunakan 10-fold
X Validation
3. Ukur performance-nya dengan confusion matrix d
an ROC Curve
4. Uji beda dengan t-Test untuk mendapatkan model
terbaik

86
87
Prediksi Elektabilitas Caleg:
Result
Komparasi Accuracy dan AUC
C4.5 NB K-NN
Accuracy 92.45% 77.46% 88.72%
AUC 0.851 0.840 0.5

Uji Beda (t-Test)

Urutan model terbaik: 1. C4.5 2. NB 3. K-NN


88
Latihan Psikomotorik:
Prediksi Kelulusan Mahasiswa

1. Lakukan training pada data mahasiswa (datakelulu


sanmahasiswa.xls) dengan menggunakan C4.5, LD
A, NB, K-NN dan RF
Atribut yang tidak digunakan adalah: IPS5, IPS6, IPS7, IPS
8, IPK
2. Lakukan pengujian dengan menggunakan 10-fold
X Validation
3. Ukur performance-nya dengan confusion matrix (A
ccuracy) dan ROC Curve (AUC)
4. Uji beda dengan t-Test untuk mendapatkan model
terbaik 89
Prediksi Kelulusan Mahasiswa: Re
sult
Komparasi Accuracy dan AUC
C4.5 NB K-NN LDA RF
Accuracy 88.12% 86.27% 84.96% 59.63% 59.37%
AUC 0.872 0.912 0.5 0.5 0.5

Uji Beda (t-Test)

Urutan model terbaik: 1. NB 1.90 C4.5 1.k-NN 2. RF 2.LDA


Latihan Psikomotorik:
Estimasi Performance CPU
1. Lakukan training pada data cpu (cpu.xls) dengan
menggunakan algoritma linear regression, neural
network dan support vector machine
2. Lakukan pengujian dengan XValidation (numerica
l)
3. Ukur performance-nya dengan menggunakan RM
SE (Root Mean
LR
Square Error)
NN SVM
RMSE 64.846 64.515 106.089

4. Urutan model terbaik: 1. NN 2. LR 3. SVM


91
Latihan Psikomotorik:
Estimasi Produksi Minyak Pemanas
1. Lakukan training pada data cpu (HeatingOil.csv) d
engan menggunakan algoritma linear regression,
neural network dan support vector machine
2. Lakukan pengujian dengan XValidation (numerical)
3. Ukur performance-nya dengan menggunakan RM
SE (Root Mean Square Error)
LR NN SVM
RMSE

4. Urutan model terbaik: 1. 2. 3.

92
Latihan Psikomotorik:
Prediksi Elektabilitas Caleg
1. Lakukan training pada data pemilu (datapemilukpu.xls)
dengan menggunakan algoritma Naive Bayes,
K-Nearest Neighbor, RandomForest, Logistic Regressio
n, Linear Discriminant Analysis
2. Lakukan pengujian dengan menggunakan XValidation
3. Ukur performance-nya dengan confusion matrix dan R
OC Curve
4. Masukkan setiap hasil percobaan ke dalam file Excel
DT NB K-NN RF LR LDA
Accuracy 92.21% 76.89% 89.63%
AUC 0.851 0.826 0.5

93
Latihan Psikomotorik:
Prediksi Harga Saham
1. Lakukan training pada data harga saham (hargasaham-traini
ng.xls) dengan menggunakan Regresi Linear
2. Lakukan pengujian dengan data uji (hargasaham-testing.xls)
3. Lakukan Ploting data testing
4. Ukur performance-nya dengan menggunakan: RMSE

94
Latihan Psikomotorik:
Prediksi Harga Saham
1. Lakukan training pada data harga saham (hargasaham-traini
ng.xls) dengan menggunakan neural network
2. Lakukan pengujian dengan data uji (hargasaham-testing.xls)
3. Lakukan Ploting data testing
4. Ukur performance-nya dengan menggunakan: RMSE
5. Ubah metode ke linear regression dan support vector machi
ne

95
Latihan Psikomotorik:
Klastering Jenis Bunga Iris
1. Lakukan training pada data iris (ambil dari re
positories rapidminer) dengan menggunaka
n algoritma clustering k-means
2. Set k=3
3. Tampilkan data (input) dan cluster (output) y
ang terbentuk
4. Ukur performance-nya

96
Tugas Psikomotorik dan Kognitif
1. Lakukan ujicoba terhadap semua dataset yang ada di fol
der datasets, dengan menggunakan berbagai metode da
ta mining yang sesuai (estimasi, prediksi, klasifikasi, clust
ering, association)
2. Kombinasikan pengujian dengan pemecahan data traini
ng-testing, dan pengujian dengan menggunakan metode
X validation
3. Ukur performance dari model yang terbentuk dengan m
enggunakan metode pengukuran sesuai dengan metode
data mining yang dipilih
4. Jelaskan secara mendetail tahapan ujicoba yang dilakuka
n, kemudian lakukan analisis dan sintesis, dan buat lapor
an dalam bentuk slide
97
Tugas Mereview Paper
Technical Paper:
Judul: Application and Comparison of Classification Techniques in
Controlling Credit Risk
Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu Zhu, and Xu
nhua Guo
Download: http://romisatriawahono.net/lecture/dm/paper/

Baca dan pahami paper di atas dan jelaskan apa yang dilaku
kan peneliti pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
5. Hasil Penelitian
98
Tugas Mereview Paper
Technical Paper:
Judul: A Comparison Framework of Classification Models
for Software Defect Prediction
Author: Romi Satria Wahono, Nanna Suryana Herman, Sabrina Ahma
d
Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014
Download: http://romisatriawahono.net/lecture/dm/paper

Baca dan pahami paper di atas dan jelaskan apa yang dilakuka
n peneliti pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
5. Hasil Penelitian 99
Tugas Mereview Paper
Technical Paper:
Judul: An experimental comparison of classification algorithms for i
mbalanced credit scoring data sets
Author: Iain Brown and Christophe Mues
Publications: Expert Systems with Applications 39 (2012) 3446345
3
Download: http://romisatriawahono.net/lecture/dm/paper

Baca dan pahami paper di atas dan jelaskan apa yang dilakuk
an peneliti pada paper tersebut:
1. Object Penelitian
2. Masalah Penelitian
3. Tujuan Penelitian
4. Metode Penelitian
5. Hasil Penelitian 100
Tugas Menulis Paper Peneliti
an
Cari dataset yang ada di sekitar kita
Lakukan penelitian berupa komparasi dari (minimal) 5 alg
oritma machine learning untuk memining knowledge dari
dataset tersebut
Gunakan uji beda (baik parametrik dan non parametric) u
ntuk analisis dan pembuatan ranking dari algoritma machi
ne learning
Tulis makalah tentang penelitian yang kita buat
Contoh-contoh makalah komparasi ada di: http://romisatriawah
ono.net/lecture/dm/paper/method%20comparison/
Upload seluruh file laporan ke Card di Trello.Com
Deadline: sehari sebelum pertemuan berikutnya
101
Paper Formatting
Ikuti template dan contoh paper dari: http://journal.i
lmukomputer.org

Isi paper:
Abstract: Harus berisi obyek-masalah-metode-hasil
Introduction: Latar belakang masalah penelitian dan struktur paper
Related Work: Penelitian yang berhubungan
Theoretical Foundation: Landasan dari berbagai teori yang digunakan
Proposed Method: Metode yang diusulkan
Experimental Results: Hasil eksperimen
Conclusion: Kesimpulan dan future works
102
2.5 Proses Standard pada Data
Mining (CRISP-DM)

103
Data Mining Standard Proces
s
A cross-industry standard was clearly require
d that is industry neutral, tool-neutral, and a
pplication-neutral
The Cross-Industry Standard Process for Data
Mining (CRISPDM) was developed in 1996
(Chapman, 2000)
CRISP-DM provides a nonproprietary and fre
ely available standard process for fitting data
mining into the general problem-solving strat
egy of a business or research unit
104
CRISP-DM

105
1. Business Understanding
Enunciate the project objectives and require
ments clearly in terms of the business or rese
arch unit as a whole
Translate these goals and restrictions into the
formulation of a data mining problem definiti
on
Prepare a preliminary strategy for achieving t
hese objectives
Designing what you are going to build

106
2. Data Understanding
Collect the data
Use exploratory data analysis to familiarize y
ourself with the data and discover initial insig
hts
Evaluate the quality of the data
If desired, select interesting subsets that may
contain actionable patterns

107
3. Data Preparation
Prepare from the initial raw data the final dat
a set that is to be used for all subsequent pha
ses
Select the cases and variables you want to an
alyze and that are appropriate for your analy
sis
Perform data cleaning, integration, reduction
and transformation, so it is ready for the mo
deling tools

108
4. Modeling
Select and apply appropriate modeling techn
iques
Calibrate model settings to optimize results
Remember that often, several different techn
iques may be used for the same data mining
problem
If necessary, loop back to the data preparatio
n phase to bring the form of the data into lin
e with the specific requirements of a particul
ar data mining technique
109
5. Evaluation
Evaluate the one or more models delivered in th
e modeling phase for quality and effectiveness b
efore deploying them for use in the field
Determine whether the model in fact achieves t
he objectives set for it in the first phase
Establish whether some important facet of the b
usiness or research problem has not been accou
nted for sufficiently
Come to a decision regarding use of the data mi
ning results
110
6. Deployment
Make use of the models created:
model creation does not signify the completion of a proj
ect
Example of a simple deployment:
Generate a report
Example of a more complex deployment:
Implement a parallel data mining process in another dep
artment
For businesses, the customer often carries ou
t the deployment based on your model
111
Studi Kasus CRISP-DM

Heating Oil Consumption Attribute Correlation


(Matthew North, Data Mining for the Masses, 2012,
Chapter 4 Correlation, pp. 49-72)
Dataset: HeatingOil.csv

112
CRISP-DM

113
Context and Perspective
Sarah is a regional sales manager for a nationwide supplier of fo
ssil fuels for home heating
Recent volatility in market prices for heating oil specifically, cou
pled with wide variability in the size of each order for home hea
ting oil, has Sarah concerned
She feels a need to understand the types of behaviors and othe
r factors that may influence the demand for heating oil in the d
omestic market
What factors are related to heating oil usage, and how might sh
e use a knowledge of such factors to better manage her invento
ry, and anticipate demand?
Sarah believes that data mining can help her begin to formulate
an understanding of these factors and interactions

114
1. Business Understanding
Sarahs goal is to better understand how her company ca
n succeed in the home heating oil market
She recognizes that there are many factors that influenc
e heating oil consumption, and believes that by investiga
ting the relationship between a number of those factors,
she will be able to better monitor and respond to heatin
g oil demand
She has selected correlation as a way to model the relati
onship between the factors she wishes to investigate
Correlation is a statistical measure of how strong the rel
ationships are between attributes in a data set

115
2. Data Understanding
In order to investigate her question, Sarah has enlisted our help in crea
ting a correlation matrix of six attributes
Using Sarahs employers data resources which are primarily drawn fro
m the companys billing database, we create a data set comprised of th
e following attributes:
Insulation: This is a density rating, ranging from one to ten, indicating the th
ickness of each homes insulation. A home with a density rating of one is po
orly insulated, while a home with a density of ten has excellent insulation
Temperature: This is the average outdoor ambient temperature at each ho
me for the most recent year, measure in degree Fahrenheit
Heating_Oil: This is the total number of units of heating oil purchased by th
e owner of each home in the most recent year
Num_Occupants: This is the total number of occupants living in each home
Avg_Age: This is the average age of those occupants
Home_Size: This is a rating, on a scale of one to eight, of the homes overall
size. The higher the number, the larger the home
116
3. Data Preparation
Dataset: HeatingOil.csv

117
4. Modeling

118
4. Modeling

119
5. Evaluation
Illustration of positive correlations

120
5. Evaluation
Illustration of negative correlations

121
5. Evaluation
Correlation strengths between -1 and 1

122
5. Evaluation

123
5. Evaluation

124
6. Deployment
Dropping the Num_Occupants attribute

While the number of people living in a home might


logically seem like a variable that would influence e
nergy usage, in our model it did not correlate in any
significant way with anything else
Sometimes there are attributes that dont turn out t
o be very interesting

125
6. Deployment
Investigating the role of home insulation

The Insulation rating attribute was fairly strongly co


rrelated with a number of other attributes
There may be some opportunity there to partner wi
th a company that specializes in adding insulation t
o existing homes

126
6. Deployment
Adding greater granularity in the data set

This data set has yielded some interesting results, but its pretty ge
neral
We have used average yearly temperatures and total annual numb
er of heating oil units in this model
But we also know that temperatures fluctuate throughout the year
in most areas of the world, and thus monthly, or even weekly meas
ures would not only be likely to show more detailed results of dem
and and usage over time, but the correlations between attributes
would probably be more interesting
From our model, Sarah now knows how certain attributes interact
with one another, but in the day-to-day business of doing her job, s
hell probably want to know about usage over time periods shorter
than one year
127
6. Deployment
Adding additional attributes to the data set

It turned out that the number of occupants in the home


didnt correlate much with other attributes, but that do
esnt mean that other attributes would be equally unint
eresting
For example, what if Sarah had access to the number of
furnaces and/or boilers in each home?
Home_size was slightly correlated with Heating_Oil usa
ge, so perhaps the number of instruments that consum
e heating oil in each home would tell an interesting stor
y, or at least add to her insight
128
Latihan
Pahami dan lakukan eksperimen berdasarkan selur
uh studi kasus yang ada di buku Data Mining for the
Masses (Matthew North)

Pahami bahwa metode CRISP-DM membantu kita m


emahami penggunaan metode data mining yang le
bih sesuai dengan kebutuhan organisasi

129
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Th
ird Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learn
ing Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases
and Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Min
ing, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,
2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Hand
book Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data M
ining of Enterprise Data: Algorithms and Applications, World Scientific, 2007
130

Anda mungkin juga menyukai