MINING
SOFI DEFIYANTI, M.KOM
Astronomi
Bisnis
Kedokteran
Ekonomi
Olahraga
Cuaca
Financial
Pertumbuhan Data
Astronomi
kilobyte (kB)
megabyte
(MB)
gigabyte
(GB)
terabyte
5B mobile phones in use in 2010
(TB)
150M tablets was sold in 2012 (IDC) petabyte
200M is global notebooks shipments (PB)
in
exabyte
2012 (Digitimes Research)
(EB)
zettabyte
(ZB)
yottabyte
(YB)
103
106
109
101
2
101
5
101
8
102
1
102
4
Himpuna
n Data
Metode
Data
Mining
11
Pengetah
uan
12
TGL
DATANG
PULANG
1103 02/12/2004
07:20
15:40
1142 02/12/2004
07:45
15:33
1156 02/12/2004
07:51
16:00
1173 02/12/2004
08:00
15:15
1180 02/12/2004
07:01
16:31
1183 02/12/2004
07:49
17:00
Masuk Alpa
1103
22
1142
18
1156
10
1173
12
1180
10
Cuti
Sakit
Telat
2
11
5
12
Kamis Jumat
Terlambat
Pulang
Cepat
Izin
Alpa
16
End User
Decisio
n
Making
Data Presentation
Business
Analyst
Visualization Techniques
Data Mining
Information Discovery
Data Analyst
Data Exploration
Statistical Summary, Querying, and
Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources
Paper, Files, Web documents, Scientific experiments,
Database Systems
17
DBA
Statistics
Pattern
Recogniti
on
Machine
Learning
Database
Technolog
y
Data
Minin
g
18
High
Performan
ce
Computin
g
High-dimensionality of data
Micro-array mungkin memiliki puluhan ribu dimensi
20
2.
Prediksi
4.
Klasterin
g
3.
Klasifikas
i
21
23
Jenis Atribut
24
Jenis
Atribut
Deskripsi
Tipe Data
Ratio
Data yang diperoleh dengan
(Mutlak)
cara pengukuran, dimana
jarak dua titik pada skala
sudah diketahui
Mempunyai titik nol yang
absolut
(*, /)
Interval
(Jarak)
Contoh
Umur
Berat badan
Tinggi badan
Jumlah uang
Ordinal
Data yang diperoleh dengan Tingkat
(Peringk
cara kategorisasi atau
kepuasan
at)
klasifikasi
pelanggan
Tetapi diantara data
(puas, sedang,
tersebut terdapat hubungan
tidak puas)
atau berurutan
(<, >)
Nominal
25
Data yang diperoleh dengan
Kode pos
Operasi
geometric
mean,
harmonic
mean,
percent
variation
mean,
standard
deviation,
Pearson's
correlation, t
and F tests
median,
percentiles,
rank
correlation,
run tests, sign
tests
mode,
2.
Prediksi
4.
Klasterin
g
3.
Klasifikas
i
26
1. Estimasi Waktu
Pengiriman Pizza
Custom
er
Jumlah Pesanan
(P)
Jarak (J)
Waktu Tempuh
(T)
16
20
18
36
12
...
1000
Pembelajaran dengan
Metode Estimasi (Regresi Linier)
Pengetahuan
27
Label
Main memory
(Kb)
Cache
(Kb)
Channels
Performanc
e
MYCT
MMIN
MMAX
CACH
CHMIN
CHMAX
PRP
125
256
6000
256
16
128
198
29
8000
32000
32
32
269
208
480
512
8000
32
67
209
480
1000
4000
45
Output/Pola/Model/Knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)
WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
5. Cluster (Klaster)
29
Dataset harga
saham dalam
bentuk time
series (rentet
waktu)
Pembelajaran dengan
Metode Prediksi (Neural Network)
30
Pengetahuan
berupa Rumus
Neural Network
Prediction Plot
31
Gender Nilai
UN
Asal
Sekolah
IPS1
IPS2
IPS3
IPS 4 ...
Lulus
Tepat
Waktu
1000
1
28
SMAN 2
3.3
3.6
2.89
2.9
Ya
1000
2
27
SMA DK
4.0
3.2
3.8
3.7
Tidak
1000
3
24
SMAN 1
2.7
3.4
4.0
3.5
Tidak
1000
4
26.4
SMAN 3
3.2
2.7
3.6
3.4
Ya
3.2
Ya
...
Pembelajaran dengan
Metode Klasifikasi (C4.5)
...
1100
0
23.4
SMAN 5
3.3
2.8
32
3.1
33
Output (Rules):
If
If
If
If
If
35
36
37
Pembelajaran dengan
Metode Klastering (K-Means)
38
39
Pembelajaran dengan
Metode Asosiasi (FP-Growth)
40
41
Supervised
Learning
SemiSupervis
ed
Learning
43
Unsupervised
Learning
1. Supervised Learning
Pembelajaran dengan guru, data set
memiliki target/label/class
Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised
learning
Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target
yang terasosiasi dengan nilai dari
variable prediktor
44
Class/Label/Target
Nominal
Numerik
45
2. Unsupervised Learning
Algoritma data mining mencari pola
dari semua variable (atribut)
Variable (atribut) yang menjadi
target/label/class tidak ditentukan
(tidak ada)
Algoritma clustering adalah algoritma
unsupervised learning
46
47
3. Semi-Supervised Learning
Semi-supervised learning adalah metode data mining
yang menggunakan data dengan label dan tidak
berlabel sekaligus dalam proses pembelajarannya
Data yang memiliki kelas digunakan untuk membentuk
model (pengetahuan), data tanpa label digunakan
untuk membuat batasan antara kelas
48
3. Semi-Supervised Learning
Tipe ini menggabungkan
antara Supervised dan
Unsupervised untuk
menghasilkan suatu
fungsi.
masukan-keluaran yang
tepat dalam jumlah
sedikit dan sekumpulan
masukan yang
keluarannya belum
diketahui
49
2. Prediction/Forecasting (Prediksi/Peramalan):
3. Classification (Klasifikasi):
4. Clustering (Klastering):
5. Association (Asosiasi):
50
Output/Pola/Model/Knowledge
1. Formula/Function (Rumus atau Fungsi Regresi)
WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN
5. Cluster (Klaster)
51
53
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical
Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining
Use Cases and Business Analytics Applications, CRC Press Taylor &
Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to
Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT
Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques,
Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge
Discovery Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances
in Data Mining of Enterprise Data: Algorithms and Applications,
World Scientific, 2007
54