Anda di halaman 1dari 22

Data Mining

Similaritas dan Jarak

Novi Wulandari, SSi, M.Kom


noph21@yahoo.com
+6287876492262
Similaritas
 Kemiripan (similarity) adalah ukuran
numerik dimana dua objeknya mirip, nilai 0
jika tidak mirip dan nilai 1 jika mirip
penuh/sama.
 Range similaritas adalah [0,1]
Disimilaritas
 Ketidakmiripan (dissimilarity) adalah
derajat numerik dimana dua objek yang
berbeda, jangkauan nilai 0 sampai 1 atau
bahkan sampai ∞.
 Disimilaritas sering disebut juga dengan
distance (jarak).
 Kedekatan (Proximity) mengacu kepada suatu
similaritas dan disimilaritas
Pengukuran
  Jika:
 s = ukuran kemiripan
 d = ukuran ketidakmiripan,
 interval/range nilainya adalah [0,1],

 Maka dapat dirumuskan bahwa s+d=1.


 Atau atau
Contoh perhitungan
  Adadata dengan nilai ketidakmiripan {10, 12,
25, 30, 40} dengan intervalnya [10,40]. Jika
akan ditransformasi ke dalam interval [0,1],
dapat memakai formula:

 Jika x maka dapat dihitung , dan seterusnya


 Didapat nilai-nilai ketidakmiripan
ditransformasi menjadi {0, 0.067, 0.5, 0.667,
1}
Pengukuran berdasarkan tipe atribut
Contoh tipe ordinal
misalnya

  sebuah atribut yang mengukur kualitas produk dengan
skala {rusak, jelek, sedang, bagus, sempurna}
 Skalatersebut harus ditransformasikan ke dalam nilai numerik,
{rusak=0, jelek=1, sedang=2, bagus=3, sempurna=4}
 Kemudian, ada dua produk P1 dengan kualitas bagus dan P2
dengan kualitas jelek. Jarak (ketidakmiripan) antara P1 dan P2
dapat dihitung dengan cara :
 D(P1,P2) = 3-1 = 2,

 atau jika dalam interval [0,1] menjadi:

 sedangkan nilai kemiripannya adalah


 1-0.5 = 0.5
Contoh tipe rasio
nilai

  ketidakmiripan didapat dari selisih absolut di
antara dua data.
 Misalnya atribut usia, jika P1 adalah usia 45 dan P2 usia
25, sedangkan jangkauan nilai usia dalam data adalah
[5,75]
 nilai ketidakmiripan P1 dan P2 adalah
 D(P1,P2) = 45-25 = 20

 Atau jika dalam interval [0,1] menjadi:

 sedangkan nilai kemiripannya adalah


 1-0.21 = 0.79.
Jarak Euclidian
  Dinyatakan dalam persamaan:

 Dimana n adalah jumlah dimensi (attribute)


dan pk, qk adalah attribute (komponen) ke-k
(objek data p dan q)
 Jika
skala nilai dari onjek-objek uang diukur
berbeda, maka diperlukan standarisasi
contoh
  Point x y
P1 1 1
P2 4 1
P3 1 2

 Hitung jarak Euclidian masing-masing titik!


 Jawab: (sesuai rumus)

 .16

 Jika dituliskan dalam tabel:


Euclidean P1 P2 P3
P1 0 3 1
P2 3 0 3.16
P3 1 3.16 0
Jarak City Block/manhattan
  Dinyatakan dengan persamaan:
Contoh:
  Point x y
P1 1 1
P2 4 1
P3 1 2

 City block distance untuk data diatas adalah:

Manhattan P1 P2 P3
P1 0 3 1
P2 3 0 4
P3 1 4 0
Jarak Chebyshev
  Dinyatakan dengan persamaan:
Contoh
Point x y
P1 1 1
P2 4 1
P3 1 2

 Chebyshev distance untuk data diatas adalah:

Chebyshev P1 P2 P3
P1 0 3 1
P2 3 0 3
P3 1 3 0
Simple Matching (SMC) & Jaccard Coefficients (J)

  Dapat digunakan untuk menghitung


similaritas dua vektor biner
 Jika terdapat objek p dan q, maka vector biner
dihitung dengan cara:
 M01 = Jumlah atribut dimana p adalah 0 dan q adalah 1
 M10 = Jumlah atribut dimana p adalah 1 dan q adalah 0
 M00 = Jumlah atribut dimana p adalah 0 dan q adalah 0
 M11 = Jumlah atribut dimana p adalah 1 dan q adalah 1
Contoh
  Hitung Similaritas dari dua vektor berikut:
 p=1000000000
 q=0000001001

 Jawab:
 M01 = 2
 M10 = 1
 M00 = 7
 M11 = 0
Cosine Similarity

  Dapat digunakan untuk menghitung


similaritas dua vektor dokumen (tipe
kontinyu).
 Jika
d1 dan d2 adalah dua vektor dokumen
maka similaritas antara dua vektor tsb:

 Dimana ● adalah vector dot product dan adalah Panjang


vector d
contoh
 Hitung
  cosine similarity dari vector berikut:
 d1 = 3 2 0 5 0 0 0 2 0 0
 d2 = 1 0 0 0 0 0 0 1 0 2

 Jawab:
 d1 ● d2 = (3*1)+(2*0)+(0*0)+(5*0)+(0*0)+(0*0)+(0*0)+(2*1)
+(0*0)+(0*2) = 5
 =
 =
 Maka,
Extended Jaccard Coefficient (Tanimoto)

  Dapat digunakan untuk menghitung


similaritas dua vektor tipe kontinyu.
contoh
  HitungExtended Jaccard Coefficient dari
vector soal sebelumnya:
 d1 = 3 2 0 5 0 0 0 2 0 0

 d2 = 1 0 0 0 0 0 0 1 0 2

 Jawab:
 T(d1, d2) =
Correlation
  Digunakan untuk mengukur hubungan objek
secara linier
 Persamaan yang digunakan:

 dan merupakan standart deviasi masing-masing objek

 Nilai
korelasi berkisar antara -1 sampai
dengan 1
Contoh
  Hitung korelasi antara dua objek berikut:
 X=(-3, 6, 0, 3, -6) dan Y=(1, -2, 0, -1, 2)
 Jawab:

Anda mungkin juga menyukai