Anda di halaman 1dari 33

DATA

BAGIAN 2

Shaufiah




KBK RPL dan Data
Fakultas Informatika
IT Telkom
ufi@ittelkom.ac.id
CS 4333 Data Mining Data Bag. 2
2
Pokok Bahasan
Apa Preprocessing
Data
Agregasi
Sampling
Pengurangan
dimensi
Feature subset
selection
Feature creation
Diskretisasi dan
Binerisasi
Transformasi atribut


2
Pengukuran Similaritas
& Dissimilaritas
Euclidean distance
Minkowski distance
Mahalanobis
Distance
Simple Matching
Jaccard Coefficients
Cosine
Tanimoto
Korelasi


CS 4333 Data Mining Data Bag. 2
3
Definisi Data Preprocessing
Adalah strategi dan teknik yang saling
berkaitan untuk membuat data lebih
mudah/cocok untuk digunakan pada data
mining
Tujuannya : meningkatkan hasil analisis data
mining terkait masalah waktu, cost dan
kualitas
3
CS 4333 Data Mining Data Bag. 2
4
Kategori Data Preprocessing
Bisa dibedakan menjadi 2:
Pemilihan berdasarkan objek data (record) untuk
menganalisis atau creating/changing atribut
Contoh : Agregasi, sampling
Pemilihan atribut untuk menganalisis atau
creating/changing atribut
Contoh: Pengurangan Dimensi, feature subset
selection

CS 4333 Data Mining Data Bag. 2
5
Agregasi
Mengkombinasikan dua atau lebih atribut
(atau objek ) menjadi satu atribut (atau objek)

Tujuannya
Pengurangan data baik secara jumlah atribut atau
objek
Merubah skala misalkan penggabungan atribut
kota dengan atribut propinsi dan negara
Mendapatkan data yang lebih stabil karena bisa
didapatkan data dengan variabilitas yang kecil

5
CS 4333 Data Mining Data Bag. 2
6
Sampling
Merupakan teknik utama utnuk memilih data
dan biasanya digunakan untuk investigasi data
dan analisis data akhir

Sampling di statistik sampling di data mining
Jika di statistik berkaitan dengan mahalnya atau
lamanya pengumpulan keseluruhan data, jika di
data mining data keseluruhan ada namun untuk
memproses keseluruhan akan terlalu lama
6
CS 4333 Data Mining Data Bag. 2
7
Sampling
Prinsip utama sampling yang efektif adalah:
Ouput dengan penggunaan sampel sama
bagusnya dengan penggunaan data keseluruhan
berarti data sampel sudah representatif
Sampel sudah representatif jika memiliki properti
yang mirip (dari segi interest) seperti data asli
7
CS 4333 Data Mining Data Bag. 2
8
Tipe-tipe Sampling
Simple Random Sampling
Setiap item memiliki probabilitas yang sama untuk dipilih

Sampling without replacement
Setiap item yang terpilih akan dikeluarkan dari populasi

Sampling with replacement
Setiap item yang terpilih tidak dikeluarkan dari populasi, bisa
saja terpilih lebih dari satu kali
Stratified sampling
Data displit menjadi beberapa bagian; lalu diambil sampel
secara acak dari tiap bagian
8
CS 4333 Data Mining Data Bag. 2
9
Ukuran Sampel
Ukuran sampel penting untuk ditentukan
Jika semakin besar jumlah sampel maka
peluang sampel tersebut representatif akan
besar, namun keuntungan sampling tidak
didapat secara optimal
Jika semakin kecil sampel kemungkinan pola
tidak didapat kan atau kalaupun didapat pola
tsb salah
Solusinya??
Adaptive/ progressive sampling
Dimulai dari sampel kecil sampai sejumlah
sampel yang sudah memadai
CS 4333 Data Mining Data Bag. 2
10
Ukuran Sampel


10
8000 points 2000 Points 500
Points
CS 4333 Data Mining Data Bag. 2
11
Adaptive/ progressive sampling

11
10 Group Points
Probabilitas sampel yang mengandung points dari tiap Group
CS 4333 Data Mining Data Bag. 2
12
Pengurangan Dimensi
Kenapa harus?
Karena data set bisa saja memiliki jumlah features
yang sangat banyak (contohnya: data dokumen
dengan term sebagi vektor feature-nya)
Menghindari Curse of Dimensionality (yakni fenomena
di mana analisis data menjadi sangat sulit disebabkan
pertambahan dimensi data, data menjadi tersebar
/sparse
mengurangi penggunaan memori dan waktu yang
dibutuhkan oleh algortima data mining
Memudahkan visualisasi data
Membantu pengeliminiran data yang tidak relevan
atau noise
CS 4333 Data Mining Data Bag. 2
14
Principle Component Analysis
(PCA)
Tujuannya untuk mencari projeksi yang menggambarkan variasi
terbesar dalam data
Teknik aljabar linier untuk atribut kontinu yang dapat menemukan
atribut baru (principal component)


14
CS 4333 Data Mining Data Bag. 2
15
Pengurangan Dimensi:
ISOMAP
Membangun graf neighbourhood
Untuk tiap pasang points pada graf, hitung jarak
terpendek jarak geodesic
15
By: Tenenbaum, de Silva,
Langford (2000)
CS 4333 Data Mining Data Bag. 2
16
Feature Subset Selection
Untuk pengurangan dimensi data

Redundant features
duplicate much or all of the information contained in
one or more other attributes
Example: purchase price of a product and the amount
of sales tax paid

Irrelevant features
contain no information that is useful for the data
mining task at hand
Example: students' ID is often irrelevant to the task of
predicting students' GPA
16
CS 4333 Data Mining Data Bag. 2
17
Teknik-teknik Feature Subset
Selection
Pendekatan Brute-force :
Mencari semua kemungkinan subsets feature sebagai
input algortima data mining
Pendekatan Embedded :
Feature selection dilakukan sebagai bagina dari
algoritma data mining
Pendekatan Filter :
Feature dipilih sebelum algoritma data mining dijalankan
Pendekatan Wrapper :
Penggunaan algoritma data mining sebagai black box
untuk menemukan best subset dari atribut

17
CS 4333 Data Mining Data Bag. 2
18
Feature Creation
Pembuatan atribut baru yang
menggambarkan informasi penting pada
dataset secara lebih efisien dibanding atribut
asal
Ada 3 Metodologi umum :
Ekstraksi feature
domain-specific
Mapping Data ke New Space
Konstruksi Feature
kombinasi features
18
CS 4333 Data Mining Data Bag. 2
19
Mapping Data ke New Space


19
Two Sine Waves
Two Sine Waves + Noise Frequency
l Transformasi Fourier
l Transformasi Wavelet
CS 4333 Data Mining Data Bag. 2
20
Diskretisasi
Beberapa teknik tidak menggunakan label
kelas

20
Data
Equal interval
width
Equal frequency Clustering
CS 4333 Data Mining Data Bag. 2
21
Diskretisasi
Beberapa teknik menggunakan label kelas
Entropy based approach

21
3 categories for both x and y 5 categories for both x and y
CS 4333 Data Mining Data Bag. 2
22
Transformasi Atribut
22
Merupakan fungsi yang memetakan keseluruhan nilai
atibut ke nilai baru dan setiap nilai lama dapat
diidentifikasi dengan satu nilai baru
Fungsi sederhana: x
k
, log(x), e
x
, |x|
Standarisasi dan Normaliasi
CS 4333 Data Mining Data Bag. 2
23
Similaritas dan Disimilaritas
Similaritas
Pengukuran numerik untuk kemiripan dua objek
Semakin tinggi semakin mirip
range antara [0,1]
Disimilaritas
Pengukuran numerik untuk perbedaan dua objek
Semakin rendah semakin berbeda
Minimum dissimilaritas = 0
Upper limit varies
Untuk ukuran similaritas & dissimilaritas bisa
menggunakan jarak (distance)

CS 4333 Data Mining Data Bag. 2
24
Similaritas /Disimilaritas untuk Atribut Sederhana
Misalkan p dan q adalah nilai atribut untuk 2 objek data.
CS 4333 Data Mining Data Bag. 2
25
Teknik-teknik pengukuran jarak
Euclidean Distance

Minkowski distance

Mahalanobis
Distance




=
=
n
k
k k
q p dist
1
2
) (
r
n
k
r
k k
q p dist
1
1
) | | (
=
=
T
q p q p q p s mahalanobi ) ( ) ( ) , (
1
=

CS 4333 Data Mining Data Bag. 2
26
Contoh perhitungan Euclidean Distance
0
1
2
3
0 1 2 3 4 5 6
p1
p2
p3 p4
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Distance Matrix
p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
CS 4333 Data Mining Data Bag. 2
27
Contoh perhitungan Minkowski
Distance
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
L2 p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
L

p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
CS 4333 Data Mining Data Bag. 2
28
Contoh perhitungan Mahalanobis
Distance
Covariance Matrix:
(

= E
3 . 0 2 . 0
2 . 0 3 . 0
B
A
C
A: (0.5, 0.5)
B: (0, 1)
C: (1.5, 1.5)

Mahal(A,B) = 5
Mahal(A,C) = 4
CS 4333 Data Mining Data Bag. 2
29
Similaritas untuk data Binary
Disebut juga similarity coeficients
Nilai antara [0,1]
Simple Matching dan Jaccard Coefficients
Misalkan :
M
01
= jumlah atribut di mana p = 0 dan q =1
M
10
= jumlah atribut di mana p = 1 and q = 0
M
00
= jumlah atribut di mana p = 0 and q = 0
M
11
= jumlah atribut di mana p = 1 and q = 1


SMC = number of matches / number of attributes
= (M
11
+ M
00
) / (M
01
+ M
10
+ M
11
+ M
00
)

J = number of 11 matches / number of not-both-zero
attributes values
= (M
11
) / (M
01
+ M
10
+ M
11
)

CS 4333 Data Mining Data Bag. 2
30
Contoh SMC Vs Jaccard

p = 1 0 0 0 0 0 0 0 0 0
q = 0 0 0 0 0 0 1 0 0 1

M
01
= 2 (jumlah atribut di mana p = 0 dan q =1)
M
10
= 1 (jumlah atribut di mana p =1 dan q = 0)
M
00
= 7 (jumlah atribut di mana p =0 dan q = 0)
M
11
= 0 (jumlah atribut di mana p = 1 dan q = 1)

SMC = (M
11
+ M
00
)/(M
01
+ M
10
+ M
11
+ M
00
) = (0+7) / (2+1+0+7) = 0.7

J = (M
11
) / (M
01
+ M
10
+ M
11
) = 0 / (2 + 1 + 0) = 0

CS 4333 Data Mining Data Bag. 2
31
Cosine Similarity
Jika d
1
dan d
2
adalah dua vektor dokumen, maka
cos( d
1
, d
2
) = (d
1
- d
2
) / ||d
1
|| ||d
2
|| ,
Keterangan - adalah vector dot product dan || d || adalah panjang vector d.

Contoh:

d
1
= 3 2 0 5 0 0 0 2 0 0
d
2
= 1 0 0 0 0 0 0 1 0 2

d
1
- d
2
= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d
1
|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)
0.5
= (42)
0.5
= 6.481
||d
2
|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)
0.5
= (6)
0.5
= 2.245

cos( d
1
, d
2
) = .3150

CS 4333 Data Mining Data Bag. 2
32
Extended Jaccard Coefficient
(Tanimoto)
Merupakan varian dari Jaccard untuk atribut
kontinu atau count attributes
CS 4333 Data Mining Data Bag. 2
33
Korelasi
Pengukuran korelasi hubungan linier antara
objek-objek
Untuk perhitungan korelasi, data objek
distandarkan p & q, lalu dilakukan dot product
) ( / )) ( ( p std p mean p p
k k
=
'
) ( / )) ( ( q std q mean q q
k k
=
'
q p q p n correlatio
'
-
'
= ) , (
CS 4333 Data Mining Data Bag. 2
34

34
Hatur Nuhun

Anda mungkin juga menyukai