Anda di halaman 1dari 31

Data Mining [04]

Ukuran Kemiripan dan Ketidakmiripan Antar Data


Lizda.iswari@uii.ac.id

April 2013

Data
`

Data: kumpulan obyek beserta atributnya. Atribut (fitur, variabel, atau field): properti atau karakteristik yang melekat pada suatu obyek. Kumpulan sejumlah atribut mendeskripsikan suatu obyek (entitas atau record).
2

Tipe Atribut
1. Nominal
Data kualitatif yang tidak memiliki urutan. Contoh: warna rambut, agama, nama, kode pos

2. Ordinal
Data kualitatif yang dapat diurutkan. Contoh: rasa makanan dalam skala 1-10, peringkat di kelas, tinggi badan dalam {tinggi, sedang, rendah}, nomor rumah.

Tipe Atribut
3. Interval
Data kuantitatif (ukuran) dimana perbedaan nilai antara dua data sangat berarti. Contoh: tanggal di kalender, temperatur dalam Celcius atau Fahrenheit.

4. Ratio

Data kuantitatif dimana perbedaan nilai data dan perbandingannya sangat berarti. Contoh: temperatur dalam Kelvin (2K = 2*1K), panjang suatu benda, hasil perhitungan
4

Kemiripan vs Ketidakmiripan
`

Kemiripan (Similarity)
Pengukuran numerik untuk menunjukkan seberapa mirip dua obyek data.

Ketidakmiripan (Dissimilarity)
Pengukuran numerik untuk menunjukkan seberapa berbeda dua obyek data.

Kemiripan vs Ketidakmiripan
`

Kemiripan (Similarity)
Umumnya berada pada rentang 0 (no similarity) dan 1 (complete similarity) Bernilai lebih tinggi jika obyek semakin mirip.

Ketidakmiripan (Dissimilarity)
Umumnya berada pada rentang 0 (obyek mirip) dan ~ (obyek berbeda) Bernilai lebih rendah jika data semakin tidak mirip.

Istilah PROXIMITY (kedekatan) mengacu pada kemiripan atau ketidakmiripan antar data.
6

Jika p dan q adalah nilai atribut untuk dua obyek data, maka:

Metode Pengukuran Similarity/Dissimilarity

Dissimilarity dikenal juga sebagai jarak antar data (d). Sifat umumnya:

d(p, q) 0 for all p and q, and d(p, q) = 0 if and only if p = q, d(p, q) = d(q,p) for all p and q, d(p, r) d(p, q) + d(p, r) for all p, q, and r, where d(p, q) is the distance (dissimilarity) between points (data objects), p and q.
9

1. Euclidean Distance (Jarak Euclidean)

dist =
`

k =1

( pk qk )

Dgn ketentuan: n adalah jumlah dimensi (atribut), pk dan qk adalah nilai atribut ke-k untuk obyek data p dan q. Standarisasi data dibutuhkan jika nilai antar atribut memiliki skala yang berbeda.
10

`
3 2 1

Distance Matrix (Matriks Jarak)


p1 p3 p2 p4

0 0 1 2 3 4 5 6

point p1 p2 p3 p4

x 0 2 3 5

y 2 0 1 1

p1 p1 p2 p3 p4 0 2.828 3.162 5.099

p2 2.828 0 1.414 3.162

p3 3.162 1.414 0 2

p4 5.099 3.162 2 0

11

Contoh: Euclidean Distance


`

Misal dihitung jarak dari p1 ke p2:

euclide( p1, p 2) = ( x1 x 2) 2 + ( y1 y 2) 2 euclide( p1, p 2) = (0 2) + (2 0) = 8 = 2.828


2 2

12

2. Minkowski Distance (Jarak Minkowski) merupakan bentuk umum dari Euclidean Distance.

dist = ( | pk qk
k =1
`

1 |r ) r

Dgn ketentuan: r adalah parameter, n adalah jumlah dimensi (atribut), pk and qk masing-masing adalah nilai atribut ke-k dari obyek data p dan q.

13

L1 norm: r = 1. City block atau Manhattan distance.


Contoh umum: Hamming distance (jumlah bit yang berbeda diantara dua buah vektor biner)

` `

L2 norm: r = 2. Euclidean distance L norm: r . supremum (Lmax norm) distance.


Perbedaan yang paling maksimum diantara semua nilai atribut vektor.
14

City block atau Manhattan Distance (L1 norm).


Untuk xij i = 1, , N , j = 1, , p :

Lmax Distance (L norm).

15

Contoh: Minkowski Distance


`

L1 Norm untuk jarak antar titik p1 ke titik lain:


L 1n o rm ( p 1, p 2 ) = | x1 x 2 | + | y1 y 2 | L 1n o rm ( p 1, p 2 ) = | 0 2 | + | 2 0 |= 4 L 1n o rm ( p 1, p 3) = | 0 3 | + | 2 1 |= 4 L 1n o rm ( p 1, p 4 ) = | 0 5 | + | 2 1 |= 6

L norm untuk jarak antar titik p1 ke titik lain:


L norm ( p1, p 2) = m ax{| x1 x 2 |, | y1 y 2 |} L norm ( p1, p 2) = m ax{| 0 2 |, | 2 0 |} = 2 L norm ( p1, p 3) = m ax{| 0 3 |, | 2 1 |} = 3 L norm ( p1, p 4) = m ax{| 0 5 |, | 2 1 |} = 5
16

Distance Matrix
L1 p1 p2 p3 p4 L2 p1 p2 p3 p4
L p1 p2 p3 p4

p1 0 4 4 6 p1 0 2.828 3.162 5.099


p1 0 2 3 5

p2 4 0 2 4 p2 2.828 0 1.414 3.162


p2 2 0 1 3

p3 4 2 0 2 p3 3.162 1.414 0 2
p3 3 1 0 2

p4 6 4 2 0 p4 5.099 3.162 2 0
p4 5 3 2 0
17

point p1 p2 p3 p4

x 0 2 3 5

y 2 0 1 1

3. Mahalanobi Distance (Jarak Mahalonobi) 1


`

mahalanobis( p, q) = ( p q) ( p q)
Dgn ketentuan:
(p - q)T adalah matriks transpose dari matriks hasil pengurangan antara obyek p dan q (p q) adalah covariance matriks -1 adalah invers covariance matriks.

Cara menentukan covariance matriks: 1 n j ,k = ( X ij X j )( X ik X k ) n 1 i =1


18

Diketahui 3 obyek data sbb:


A(0.5, 0.5) B(0, 1) C(1.5, 1.5)
C B A

Diketahui juga covariance matriks sbb:

0.3 0.2 = 0 . 2 0 . 3
19

( A B) =
1

( 0.5

0.5

0.3 0.2 1 = 0.09 0.04 0.2 0.3 0.5 T ( A B) = 0.5 6 4 0.5 Mahal ( A, B ) = 0.5 0.5 4 6 0.5 0.5 = 5 5 0.5 =5

20

Diketahui matriks sbb:

1 3 1 2 4 x = 1 3 1 2 1 2 2 2 2 2
`

Tentukan Distance Matrix menggunakan perhitungan jarak Euclidean (L2 norm) untuk setiap obyek di matriks tsb! Tentukan Distance Matrix menggunakan perhitungan jarak Minkowski (untuk =1 dan atau L1 norm dan L norm) untuk setiap obyek di matriks tsb!
21

Latihan Soal (2)


`

Diketahui matriks sbb:


2 3 x = 10 7 3 2

Hitunglah jarak Minkowski (=1, =2, ) untuk obyek pertama dan kedua! Hitunglah jarak Mahalanobi untuk obyek pertama dan kedua! 19 11 Diketahui nilai covariance matrix: = 11 7
22

Similarity juga memiliki ciri umum, sbb:


1. s(p, q) = 1 (atau maximum similarity) hanya jika p = q, 2. s(p, q) = s(q, p) untuk semua p dan q, dimana s(p, q) adalah kemiripan obyek data antara
p dan q.

23

Similarity antara vektor biner: diterapkan pada obyek, p dan q, yang hanya memiliki atribut biner.

1. Simple Matching and Jaccard Coefficients ` SMC = number of matches / number of attributes = (n11 + n00) / (n01 + n10 + n11 + n00)
`

J = number of 11 matches / number of not-both-zero attributes values = (n11) / (n01 + n10 + n11)

24

Latihan Soal (3)


`

Terdapat dua buah obyek, p dan q, dengan nilai sbb:


p=1000000000 q=0000001001

Hitunglah kemiripan (similarity) kedua obyek tsb dengan SMC dan Jaccard Coefficients!

25

2. Cosine Similarity
`

Jika d1 and d2 adalah dua buah dokumen vektor, maka:

cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2||


Tanda merupakan dot product vektor dan ||d|| adalah panjang vektor d.

26

Diketahui dua buah dokumen vektor, sbb: d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 + 0*2 = 5

d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0

||d1|| = (3*3 + 2*2 + 0*0 + 5*5 + 0*0 + 0*0 + 0*0 + 2*2 + 0*0 + 0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 1*1 + 0*0 + 2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| = 0.3150

27

3. Extended Jaccard Coefficients


Merupakan variasi dari Jaccard Coefficients untuk atribut yang bersifat kontinu atau diskrit. Reduces to Jaccard for binary attributes

28

4. Correlation (korelasi) ` Mengukur tingkat hubungan linearitas antar obyek.

29

Scatter plots yang menunjukkan nilai similarity dari rentang 1 smp dengan 1.

30

Mahasiswa dapat menghitung nilai similarity (kemiripan) dan dissimilarity (ketidakmiripan) antar data.

31