Anda di halaman 1dari 21

Similarity/ Dissimilarity

Various types of variable

Data Mining: Concept and Techniques


(Jiawei Han, Micheline Kamber)

Struktur data

Data matrix (object-by-variable structure)

Struktur ini dalam bentuk tabel relasional, n objek x p variable:

Dissimilarity matrix (object-by-object structure)

Menyimpan kumpulan perkiraan dari seluruh pasangan n objek (nby-n tabel)

Struktur ini digunakan untuk menghitung klaster dari objek.

Macam-macam type data dalam suatu


variabel:

Interval-scaled variable
Binary variable
Categorical variable
Ratio variable

Interval scaled variable

Interval scaled variable: ukuran2 kontinu dari


skala linear
Contoh: tinggi, berat, koordinat latitude atau
longitude (clustering rumah), temperatur
cuaca

Interval-scaled variables
1.

Hitung mean absolute deviation, sf:

2.

Hitung ukuran yg distandarisasikan (or Zscore)

Euclidean Distance

Manhattan Distance

Contoh

Penghitungan dissimilarity tanpa standarisasi

Binary variable
Variabel yang memiliki dua nilai 0 dan 1,
dimana 0absent, 1present
Bagaimana menghitung ketidaksamaan
(dissimilarity)

Dissimilarity
(jarak)

Similarity:

Contoh variabel biner

Suatu tabel rekord pasien berisi atribut:


nama, gender, fever, cough, test-1,test-2,
test-3, test-4

Nama object identifier


Gender simetric
atribute

Categorical variable

Variabel kategori: secara umum sama dengan variabel biner


namun mengambil lebih dari 2 keadaan.
Contoh: map color (5 states): red, yellow, green, pink, and
blue
Ukuran dissimilarity:

Dimana, p: jumlah variable, dan m: juml. variabel yg bernilai


sama

Contoh

Dissimilarity

Maka untuk categorical variable, test 1,


p=1 dan d(i,j)=0 jika sama dan 1 jika beda.
Sehingga dihasilkan matrik berikut:

Ordinal Varible

Ordinal variable : mirip dengan categorical


variable, namun memiliki arti dalam urutan
dan berguna bila tidak dapat diukur secara
objektif.

Contoh: profesional rank: assistant, associate,


and full for professor.

Jika ada nilai f dari suatu objek xif dan


mempunyai states yg terurut dalam rangking
1,, Mf, maka bisa dituliskan rif {1, Mf}
Merubah nilai rf dengan menormalisasi :
[0,1] dengan rumusan:

Kemudian dicari nilai disimilarity- nya


digunakan rumusan jarak

Contoh ordinal variable (test-2)

Ada 3 state dalam test 2: fair, good dan excellent,


sehingga Mf=3
Rubah nilai dlm objek tsb dengan 3(1, 2, dan 3).
Normalisasi sehingga: rank-1=0, rank-2=0.5,
rank-3=1
Maka dengan rumusan Ecluidian Dist, didapatkan:

Ratio-scaled variable

Biasanya digunakan untuk ukuran positip pada


skala non linear seperti skala exponensial dg
rumusan:

Contoh: pertumbuhan populasi bakteri atau


kerusakan akibat radioaktif

Menggunakan transformasi logaritmik dengan


formula yif=log(xif), nilai yif yang digunakan sbg
interval value

Contoh ratio-scaled variable (test-3)

Maka dgn mengaplikasikan logaritmik dari


tiap2 nilai dalam test-3: didapatkan nilai:
2.65, 1.34, 2.21, dan 3.08 untuk objek 1-4

Sehingga dengan rumus jarak didapatkan :


Dinormalisasi ,
Dg membagi 1.74

Variable of Mixed Types


Dalam dunia nyata, sering dijumpai
variable yg memiliki campuran, antara
lain: interval scaled, symmetric binary,
categorical, ordinal atau ratio-scaled.
Maka dapat digunakan rumusan berikut
untuk mencari dissimilarity:

Dimana:
ij=0 jikaxjf atau xjf kosong &
ij=1 jika ada nilainya

Contoh perhitungan mix-variable

Jika didapatkan dari perhitungan


sebelumnya didapatkan jarak dari tiap-tiap
variabel (test1, test2, dan test 3:

Maka dengan mengaplikasikan rumusan


tersebut didapatkan

Final result of dissimilarity (test1, test2 &


test3)

Anda mungkin juga menyukai