Data Mining - 2 Preprocessing Data
Data Mining - 2 Preprocessing Data
PREPROCESSING
Fakultas Informatika
1
Tujuan Pembelajaran
Menjelaskan
dan menganalisis proses penyiapan data
2
Pokok Bahasan
3
3
Definisi Data Preprocessing
4
4
Kategori Data Preprocessing
5
Agregasi
6
Tujuannya
–Pengurangan data baik secara jumlah atribut atau objek
–Merubah skala misalkan penggabungan atribut kota
dengan atribut propinsi dan negara
–Mendapatkan data yang lebih “stabil” karena bisa
didapatkan data dengan variabilitas yang kecil
6
Sampling
7
7
Sampling …
8
8
Tipe-tipe Sampling
9
Stratified sampling
–Data displitmenjadi beberapa bagian; lalu diambil
sampel secara acak dari tiap bagian
9
Ukuran Sampel
11
Adaptive/
progressive sampling
12
10 Group Points
Kenapa harus?
–Karena data set bisa saja memiliki jumlah features yang
sangat banyak (contohnya: data dokumen dengan term
sebagi vektor feature-nya)
–Menghindari Curse of Dimensionality (yakni fenomena di
mana analisis data menjadi sangat sulit disebabkan
pertambahan dimensi data, data menjadi tersebar
/sparse
–Rmengurangi penggunaan memori dan waktu yang
dibutuhkan oleh algortima data mining
–Memudahkan visualisasi data
–Membantu pengeliminiran data yang tidak relevan atau
noise
13
Principle Component
Analysis (PCA)
15
15
Pengurangan Dimensi:
ISOMAP
16
16
Feature Subset Selection
17
17
Teknik-teknik
Feature Subset Selection
18
–Pendekatan Brute-force :
Mencari semua kemungkinan subsets feature sebagai input
algortima data mining
–Pendekatan Embedded :
Feature selection dilakukan sebagai bagina dari algoritma data
mining
–Pendekatan Filter :
Feature dipilih sebelum algoritma data mining dijalankan
–Pendekatan Wrapper :
Penggunaan algoritma data mining sebagai black box untuk
menemukan best subset dari atribut
18
Feature Creation
19
19
Mapping Data ke New Space
20
l Transformasi Fourier
l Transformasi Wavelet
20
Diskretisasi
21
Beberapa teknik tidak menggunakan label kelas
Equal interval
Data
width
22
Transformasi Atribut
23
Merupakan fungsi yang memetakan keseluruhan
nilai atibut ke nilai baru dan setiap nilai lama
dapat diidentifikasi dengan satu nilai baru
–Fungsi sederhana: xk, log(x), ex, |x|
–Standarisasi dan Normaliasi
23
Similaritas dan Disimilaritas
Similaritas
–Pengukuran numerik untuk kemiripan dua objek
–Semakin tinggi semakin mirip
–range antara [0,1]
Disimilaritas
–Pengukuran numerik untuk perbedaan dua objek
–Semakin tinggi semakin berbeda
–Minimum dissimilaritas = 0
–Upper limit varies
Untuk ukuran similaritas & dissimilaritas bisa
menggunakan jarak (distance)
24
Similaritas /Disimilaritas
untuk Atribut Sederhana
25
Teknik-teknik
pengukuran jarak
Euclidean Distance n
dist ( pk qk ) 2
k 1
Minkowski 1
distance n
dist ( | pk qk r r
|)
k 1
Mahalanobis
Distance
mahalanobis( p, q) ( p q) 1( p q)T
26
Contoh perhitungan
Euclidean Distance
p1
point x y
2
p1 0 2
p3 p4
1
p2 2 0
p2 p3 3 1
0 p4 5 1
0 1 2 3 4 5 6
p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
Distance Matrix
27
Contoh perhitungan
Minkowski Distance
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
point x y
p1 0 2 L2 p1 p2 p3 p4
p2 2 0 p1 0 2.828 3.162 5.099
p3 3 1 p2 2.828 0 1.414 3.162
p4 5 1 p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
L p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
Distance Matrix
28
Contoh perhitungan
Mahalanobis Distance
Covariance Matrix:
0.3 0.2
0.2 0.3
C
B A: (0.5, 0.5)
B: (0, 1)
A C: (1.5, 1.5)
Mahal(A,B) = 5
Mahal(A,C) = 4
29
Similaritas untuk data Binary
p= 1000000000
q= 0000001001
31
Cosine Similarity
d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 +
0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)
0.5 = 6.481
32
Extended Jaccard
Coefficient (Tanimoto)
33
Korelasi
correlation( p, q) p q
34
35
Hatur Nuhun
35