Datamining Vs Statistik

DATA
BAGIAN 2

Shaufiah

KBK RPL dan Data
Fakultas Informatika
IT Telkom
ufi@ittelkom.ac.id
CS 4333 Data Mining Data Bag. 2
2
Pokok Bahasan
Apa Preprocessing
Data
Agregasi
Sampling
Pengurangan
dimensi
Feature subset
selection
Feature creation
Diskretisasi dan
Binerisasi
Transformasi atribut

2
Pengukuran Similaritas
& Dissimilaritas
Euclidean distance
Minkowski distance
Mahalanobis
Distance
Simple Matching
Jaccard Coefficients
Cosine
Tanimoto
Korelasi

3
Definisi Data Preprocessing
Adalah strategi dan teknik yang saling
berkaitan untuk membuat data lebih
mudah/cocok untuk digunakan pada data
mining
Tujuannya : meningkatkan hasil analisis data
mining terkait masalah waktu, cost dan
kualitas
3
4
Kategori Data Preprocessing
Bisa dibedakan menjadi 2:
Pemilihan berdasarkan objek data (record) untuk
menganalisis atau creating/changing atribut
Contoh : Agregasi, sampling
Pemilihan atribut untuk menganalisis atau
creating/changing atribut
Contoh: Pengurangan Dimensi, feature subset
selection

5
Agregasi
Mengkombinasikan dua atau lebih atribut
(atau objek ) menjadi satu atribut (atau objek)

Tujuannya
Pengurangan data baik secara jumlah atribut atau
objek
Merubah skala misalkan penggabungan atribut
kota dengan atribut propinsi dan negara
Mendapatkan data yang lebih stabil karena bisa
didapatkan data dengan variabilitas yang kecil

5
6
Sampling
Merupakan teknik utama utnuk memilih data
dan biasanya digunakan untuk investigasi data
dan analisis data akhir

Sampling di statistik sampling di data mining
Jika di statistik berkaitan dengan mahalnya atau
lamanya pengumpulan keseluruhan data, jika di
data mining data keseluruhan ada namun untuk
memproses keseluruhan akan terlalu lama
6
7
Sampling
Prinsip utama sampling yang efektif adalah:
Ouput dengan penggunaan sampel sama
bagusnya dengan penggunaan data keseluruhan
berarti data sampel sudah representatif
Sampel sudah representatif jika memiliki properti
yang mirip (dari segi interest) seperti data asli
7
8
Tipe-tipe Sampling
Simple Random Sampling
Setiap item memiliki probabilitas yang sama untuk dipilih

Sampling without replacement
Setiap item yang terpilih akan dikeluarkan dari populasi

Sampling with replacement
Setiap item yang terpilih tidak dikeluarkan dari populasi, bisa
saja terpilih lebih dari satu kali
Stratified sampling
Data displit menjadi beberapa bagian; lalu diambil sampel
secara acak dari tiap bagian
8
9
Ukuran Sampel
Ukuran sampel penting untuk ditentukan
Jika semakin besar jumlah sampel maka
peluang sampel tersebut representatif akan
besar, namun keuntungan sampling tidak
didapat secara optimal
Jika semakin kecil sampel kemungkinan pola
tidak didapat kan atau kalaupun didapat pola
tsb salah
Solusinya??
Adaptive/ progressive sampling
Dimulai dari sampel kecil sampai sejumlah
sampel yang sudah memadai
10
Ukuran Sampel

10
8000 points 2000 Points 500
Points
11
Adaptive/ progressive sampling

11
10 Group Points
Probabilitas sampel yang mengandung points dari tiap Group
12
Pengurangan Dimensi
Kenapa harus?
Karena data set bisa saja memiliki jumlah features
yang sangat banyak (contohnya: data dokumen
dengan term sebagi vektor feature-nya)
Menghindari Curse of Dimensionality (yakni fenomena
di mana analisis data menjadi sangat sulit disebabkan
pertambahan dimensi data, data menjadi tersebar
/sparse
mengurangi penggunaan memori dan waktu yang
dibutuhkan oleh algortima data mining
Memudahkan visualisasi data
Membantu pengeliminiran data yang tidak relevan
atau noise
14
Principle Component Analysis
(PCA)
Tujuannya untuk mencari projeksi yang menggambarkan variasi
terbesar dalam data
Teknik aljabar linier untuk atribut kontinu yang dapat menemukan
atribut baru (principal component)

14
15
Pengurangan Dimensi:
ISOMAP
Membangun graf neighbourhood
Untuk tiap pasang points pada graf, hitung jarak
terpendek jarak geodesic
15
By: Tenenbaum, de Silva,
Langford (2000)
16
Feature Subset Selection
Untuk pengurangan dimensi data

Redundant features
duplicate much or all of the information contained in
one or more other attributes
Example: purchase price of a product and the amount
of sales tax paid

Irrelevant features
contain no information that is useful for the data
mining task at hand
Example: students' ID is often irrelevant to the task of
predicting students' GPA
16
17
Teknik-teknik Feature Subset
Selection
Pendekatan Brute-force :
Mencari semua kemungkinan subsets feature sebagai
input algortima data mining
Pendekatan Embedded :
Feature selection dilakukan sebagai bagina dari
algoritma data mining
Pendekatan Filter :
Feature dipilih sebelum algoritma data mining dijalankan
Pendekatan Wrapper :
Penggunaan algoritma data mining sebagai black box
untuk menemukan best subset dari atribut

17
18
Feature Creation
Pembuatan atribut baru yang
menggambarkan informasi penting pada
dataset secara lebih efisien dibanding atribut
asal
Ada 3 Metodologi umum :
Ekstraksi feature
domain-specific
Mapping Data ke New Space
Konstruksi Feature
kombinasi features
18
19
Mapping Data ke New Space

19
Two Sine Waves
Two Sine Waves + Noise Frequency
l Transformasi Fourier
l Transformasi Wavelet
20
Diskretisasi
Beberapa teknik tidak menggunakan label
kelas

20
Data
Equal interval
width
Equal frequency Clustering
21
Diskretisasi
Beberapa teknik menggunakan label kelas
Entropy based approach

21
3 categories for both x and y 5 categories for both x and y
22
Transformasi Atribut
22
Merupakan fungsi yang memetakan keseluruhan nilai
atibut ke nilai baru dan setiap nilai lama dapat
diidentifikasi dengan satu nilai baru
Fungsi sederhana: x
k
, log(x), e
x
, |x|
Standarisasi dan Normaliasi
23
Similaritas dan Disimilaritas
Similaritas
Pengukuran numerik untuk kemiripan dua objek
Semakin tinggi semakin mirip
range antara [0,1]
Disimilaritas
Pengukuran numerik untuk perbedaan dua objek
Semakin rendah semakin berbeda
Minimum dissimilaritas = 0
Upper limit varies
Untuk ukuran similaritas & dissimilaritas bisa
menggunakan jarak (distance)

24
Similaritas /Disimilaritas untuk Atribut Sederhana
Misalkan p dan q adalah nilai atribut untuk 2 objek data.
25
Teknik-teknik pengukuran jarak
Euclidean Distance

Minkowski distance

Mahalanobis
Distance

=
=
n
k
k k
q p dist
1
2
) (
r
n
k
r
k k
q p dist
1
1
) | | (
=
=
T
q p q p q p s mahalanobi ) ( ) ( ) , (
1
=

26
Contoh perhitungan Euclidean Distance
0
1
2
3
0 1 2 3 4 5 6
p1
p2
p3 p4
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
Distance Matrix
p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
27
Contoh perhitungan Minkowski
Distance
Distance Matrix
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
L2 p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0
L
p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0
28
Contoh perhitungan Mahalanobis
Distance
Covariance Matrix:
(
= E
3 . 0 2 . 0
2 . 0 3 . 0
B
A
C
A: (0.5, 0.5)
B: (0, 1)
C: (1.5, 1.5)

Mahal(A,B) = 5
Mahal(A,C) = 4
29
Similaritas untuk data Binary
Disebut juga similarity coeficients
Nilai antara [0,1]
Simple Matching dan Jaccard Coefficients
Misalkan :
M
01
= jumlah atribut di mana p = 0 dan q =1
M
10
= jumlah atribut di mana p = 1 and q = 0
M
00
M
11

SMC = number of matches / number of attributes
= (M
11
+ M
00
) / (M
01
+ M
10
+ M
11
+ M
00
)

J = number of 11 matches / number of not-both-zero
attributes values
= (M
11
) / (M
01
+ M
10
+ M
11
)

30
Contoh SMC Vs Jaccard

p = 1 0 0 0 0 0 0 0 0 0
q = 0 0 0 0 0 0 1 0 0 1

M
01
= 2 (jumlah atribut di mana p = 0 dan q =1)
M
10
= 1 (jumlah atribut di mana p =1 dan q = 0)
M
00
= 7 (jumlah atribut di mana p =0 dan q = 0)
M
11
= 0 (jumlah atribut di mana p = 1 dan q = 1)

SMC = (M
11
+ M
00
)/(M
01
+ M
10
+ M
11
+ M
00
) = (0+7) / (2+1+0+7) = 0.7

J = (M
11
) / (M
01
+ M
10
+ M
11
) = 0 / (2 + 1 + 0) = 0

31
Cosine Similarity
Jika d
1
dan d
2
adalah dua vektor dokumen, maka
cos( d
1
, d
2
) = (d
1
- d
2
) / ||d
1
|| ||d
2
|| ,
Keterangan - adalah vector dot product dan || d || adalah panjang vector d.

Contoh:

d
1
= 3 2 0 5 0 0 0 2 0 0
d
2
= 1 0 0 0 0 0 0 1 0 2

d
1
- d
2
= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d
1
|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)
0.5
= (42)
0.5
= 6.481
||d
2
|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)
0.5
= (6)
0.5
= 2.245

cos( d
1
, d
2
) = .3150

32
Extended Jaccard Coefficient
(Tanimoto)
Merupakan varian dari Jaccard untuk atribut
kontinu atau count attributes
33
Korelasi
Pengukuran korelasi hubungan linier antara
objek-objek
Untuk perhitungan korelasi, data objek
distandarkan p & q, lalu dilakukan dot product
) ( / )) ( ( p std p mean p p
k k
=
'
) ( / )) ( ( q std q mean q q
k k
=
'
q p q p n correlatio
'
-
'
= ) , (
34

34
Hatur Nuhun

Datamining Vs Statistik

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Datamining Vs Statistik

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA

Anda mungkin juga menyukai