Data Mining - 2 Preprocessing Data

DATA
PREPROCESSING
Tim Dosen Data Mining
Fakultas Informatika
1
Tujuan Pembelajaran
Menjelaskan
dan menganalisis proses penyiapan data
2
Pokok Bahasan
3
Apa Preprocessing  Pengukuran Similaritas

Data & Dissimilaritas
–Agregasi  Euclidean distance
–Sampling  Minkowski distance
–Pengurangan  Mahalanobis Distance

dimensi  Simple Matching
–Feature subset  Jaccard Coefficients
selection  Cosine
–Feature creation  Tanimoto
–Diskretisasi dan  Korelasi
Binerisasi
–Transformasi atribut
3
Definisi Data Preprocessing
4
Adalah strategi dan teknik yang saling berkaitan

untuk membuat data lebih mudah/cocok untuk
digunakan pada data mining
Tujuannya : meningkatkan hasil analisis data
mining terkait masalah waktu, cost dan kualitas
4
Kategori Data Preprocessing
Bisa dibedakan menjadi 2:

–Pemilihan berdasarkan objek data (record)
untuk menganalisis atau creating/changing
atribut
Contoh : Agregasi, sampling
–Pemilihan atribut untuk menganalisis atau
creating/changing atribut
Contoh: Pengurangan Dimensi, feature subset
selection
5
Agregasi
6
Menkombinasikan dua atau lebih atribut (atau

objek ) menjadi satu atribut (atau objek)
Tujuannya
–Pengurangan data baik secara jumlah atribut atau objek
–Merubah skala misalkan penggabungan atribut kota
dengan atribut propinsi dan negara
–Mendapatkan data yang lebih “stabil” karena bisa
didapatkan data dengan variabilitas yang kecil
6
Sampling
7
Merupakan teknik utama utnuk memilih data dan

biasanya digunakan untuk investigasi data dan
analisis data akhir
Sampling di statistik ≠sampling di data mining

–Jika di statistik berkaitan dengan mahalnya atau
lamanya pengumpulan keseluruhan data, jika di data
mining data keseluruhan ada namun untuk memproses
keseluruhan akan terlalu lama
7
Sampling …
8
Prinsip utama sampling yang efektif adalah:

–Ouput dengan penggunaan sampel sama bagusnya
dengan penggunaan data keseluruhan  berarti data
sampel sudah representatif
–Sampel sudah representatif jika memiliki properti yang
mirip (dari segi interest) seperti data asli
8
Tipe-tipe Sampling
9
Simple Random Sampling

–Setiap item memiliki probabilitas yang sama untuk dipilih
Sampling without replacement
–Setiap item yang terpilih akan dikeluarkan dari populasi
Sampling with replacement
–Setiap item yang terpilih tidak dikeluarkan dari populasi,
bisa saja terpilih lebih dari satu kali
Stratified sampling
–Data displitmenjadi beberapa bagian; lalu diambil
sampel secara acak dari tiap bagian
9
Ukuran Sampel
Ukuran sampel penting untuk ditentukan

Jika semakin besar jumlah sampel maka peluang
sampel tersebut representatif akan besar, namun
keuntungan sampling tidak didapat secara
optimal
Jika semakin kecil sampel kemungkinan pola
tidak didapat kan atau kalaupun didapat pola tsb
salah
Solusinya??
–Adaptive/ progressive sampling
 Dimulai dari sampel kecil sampai sejumlah sampel yang
sudah memadai
10
Ukuran Sampel
11
8000 points 2000 Points 500

Points
11
Adaptive/
progressive sampling
12
10 Group Points
Probabilitas sampel yang mengandung points dari tiap Group

12
Pengurangan Dimensi
Kenapa harus?
–Karena data set bisa saja memiliki jumlah features yang
sangat banyak (contohnya: data dokumen dengan term
sebagi vektor feature-nya)
–Menghindari Curse of Dimensionality (yakni fenomena di
mana analisis data menjadi sangat sulit disebabkan
pertambahan dimensi data, data menjadi tersebar
/sparse
–Rmengurangi penggunaan memori dan waktu yang
dibutuhkan oleh algortima data mining
–Memudahkan visualisasi data
–Membantu pengeliminiran data yang tidak relevan atau
noise
13
Principle Component
Analysis (PCA)
15
Tujuannya untuk mencari projeksi yang menggambarkan

variasi terbesar dalam data
Teknik aljabar linier untuk atribut kontinu yang dapat

menemukan atribut baru (principal component)
15
Pengurangan Dimensi:
ISOMAP
16
By: Tenenbaum, de Silva,

Langford (2000)
Membangun graf neighbourhood

Untuk tiap pasang points pada graf, hitung jarak
terpendek– jarak geodesic
16
Feature Subset Selection
17
Untuk pengurangan dimensi data

Redundant features
–duplicate much or all of the information
contained in one or more other attributes
–Example: purchase price of a product and the
amount of sales tax paid
Irrelevant features
–contain no information that is useful for the
data mining task at hand
–Example: students' ID is often irrelevant to the
task of predicting students' GPA
17
Teknik-teknik
Feature Subset Selection
18
–Pendekatan Brute-force :
 Mencari semua kemungkinan subsets feature sebagai input
algortima data mining
–Pendekatan Embedded :
 Feature selection dilakukan sebagai bagina dari algoritma data
mining
–Pendekatan Filter :
 Feature dipilih sebelum algoritma data mining dijalankan
–Pendekatan Wrapper :
 Penggunaan algoritma data mining sebagai black box untuk
menemukan best subset dari atribut
18
Feature Creation
19
Pembuatan atribut baru yang menggambarkan

informasi penting pada dataset secara lebih
efisien dibanding atribut asal
Ada 3 Metodologi umum :
–Ekstraksi feature
 domain-specific
–Mapping Data ke New Space
–Konstruksi Feature
 kombinasi features
19
Mapping Data ke New Space
20
l Transformasi Fourier
l Transformasi Wavelet
Two Sine Waves Two Sine Waves + Noise Frequency
20
Diskretisasi
21
Beberapa teknik tidak menggunakan label kelas
Equal interval
Data
width
Equal frequency Clustering

21
Diskretisasi
22
Beberapa teknik menggunakan label kelas
Entropy based approach
3 categories for both x and y 5 categories for both x and y
22
Transformasi Atribut
23
Merupakan fungsi yang memetakan keseluruhan
nilai atibut ke nilai baru dan setiap nilai lama
dapat diidentifikasi dengan satu nilai baru
–Fungsi sederhana: xk, log(x), ex, |x|
–Standarisasi dan Normaliasi
23
Similaritas dan Disimilaritas
Similaritas
–Pengukuran numerik untuk kemiripan dua objek
–Semakin tinggi semakin mirip
–range antara [0,1]
Disimilaritas
–Pengukuran numerik untuk perbedaan dua objek
–Semakin tinggi semakin berbeda
–Minimum dissimilaritas = 0
–Upper limit varies
Untuk ukuran similaritas & dissimilaritas bisa
menggunakan jarak (distance)
24
Similaritas /Disimilaritas
untuk Atribut Sederhana
Misalkan p dan q adalah nilai atribut untuk 2 objek data.
25
Teknik-teknik
pengukuran jarak
Euclidean Distance n
dist   ( pk  qk ) 2
k 1
Minkowski 1
distance n
dist  (  | pk  qk r r
|)
k 1
Mahalanobis
Distance
mahalanobis( p, q)  ( p  q) 1( p  q)T
26
Contoh perhitungan
Euclidean Distance
p1
point x y
2
p1 0 2
p3 p4
1
p2 2 0
p2 p3 3 1
0 p4 5 1
0 1 2 3 4 5 6
p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
Distance Matrix
27
Contoh perhitungan
Minkowski Distance
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
point x y
p1 0 2 L2 p1 p2 p3 p4
p2 2 0 p1 0 2.828 3.162 5.099
p3 3 1 p2 2.828 0 1.414 3.162
p4 5 1 p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
L p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
Distance Matrix
28
Contoh perhitungan
Mahalanobis Distance
Covariance Matrix:
 0.3 0.2
 
 0.2 0.3
C
B A: (0.5, 0.5)
B: (0, 1)
A C: (1.5, 1.5)
Mahal(A,B) = 5
Mahal(A,C) = 4
29
Similaritas untuk data Binary
Disebut juga similarity coeficients

Nilai antara [0,1]
Simple Matching dan Jaccard Coefficients
Misalkan :
M01 = jumlah atribut di mana p = 0 dan q =1
M10 = jumlah atribut di mana p = 1 and q = 0
SMC = number of matches / number of attributes

= (M11 + M00) / (M01 + M10 + M11 + M00)
J = number of 11 matches / number of not-both-

zero attributes values
= (M11) / (M01 + M10 + M11)
30
Contoh SMC Vs Jaccard
p= 1000000000
q= 0000001001
M01 = 2 (jumlah atribut di mana p = 0 dan q =1)

M10 = 1 (jumlah atribut di mana p =1 dan q = 0)
M00 = 7 (jumlah atribut di mana p =0 dan q = 0)
M11 = 0 (jumlah atribut di mana p = 1 dan q = 1)
SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) /

(2+1+0+7) = 0.7
J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0
31
Cosine Similarity
Jika d1 dan d2 adalah dua vektor dokumen, maka

cos( d1, d2 ) = (d1  d2) / ||d1|| ||d2|| ,
Keterangan  adalah vector dot product dan || d || adalah panjang vector
d.
• Contoh:
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2
d1  d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 +
0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42)
0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6)

0.5 = 2.245
cos( d1, d2 ) = .3150
32
Extended Jaccard
Coefficient (Tanimoto)
Merupakan varian dari Jaccard untuk atribut

kontinu atau count attributes
33
Korelasi
Pengukuran korelasi hubungan linier antara

objek-objek
Untuk perhitungan korelasi, data objek
distandarkan p & q, lalu dilakukan dot product
pk  ( pk  mean( p)) / std ( p)

qk  (qk  mean(q)) / std (q)
correlation( p, q)  p  q
34
35
Hatur Nuhun
35

Data Mining - 2 Preprocessing Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Data Mining - 2 Preprocessing Data

Diunggah oleh

Hak Cipta:

DATA

Tim Dosen Data Mining

Apa Preprocessing  Pengukuran Similaritas

–Pengurangan  Mahalanobis Distance

Adalah strategi dan teknik yang saling berkaitan

Bisa dibedakan menjadi 2:

Menkombinasikan dua atau lebih atribut (atau

Merupakan teknik utama utnuk memilih data dan

Sampling di statistik ≠sampling di data mining

Prinsip utama sampling yang efektif adalah:

Simple Random Sampling

Ukuran sampel penting untuk ditentukan

8000 points 2000 Points 500

Probabilitas sampel yang mengandung points dari tiap Group

Tujuannya untuk mencari projeksi yang menggambarkan

Teknik aljabar linier untuk atribut kontinu yang dapat

By: Tenenbaum, de Silva,

Membangun graf neighbourhood

Untuk pengurangan dimensi data

Pembuatan atribut baru yang menggambarkan

Two Sine Waves Two Sine Waves + Noise Frequency

Equal frequency Clustering

3 categories for both x and y 5 categories for both x and y

Misalkan p dan q adalah nilai atribut untuk 2 objek data.

Disebut juga similarity coeficients

SMC = number of matches / number of attributes

J = number of 11 matches / number of not-both-

M01 = 2 (jumlah atribut di mana p = 0 dan q =1)

SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) /

J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0

Jika d1 dan d2 adalah dua vektor dokumen, maka

||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6)

cos( d1, d2 ) = .3150

Merupakan varian dari Jaccard untuk atribut

Pengukuran korelasi hubungan linier antara

pk  ( pk  mean( p)) / std ( p)

Anda mungkin juga menyukai

||d2|| = (11+00+00+00+00+00+00+11+00+22) 0.5 = (6)