Anda di halaman 1dari 6

Jurnal ILMU DASAR, Vol. 11 No.

2, Juli 2010: 177-182 177

Kesamaan Data Biner Berdasarkan Kategori Nilai Entropy


dan Pola Struktur

Similarity for Binary Data Based on the Value of Entropy


and Structure Patterns Categories

Kariyam
Departments of Statistics, Faculty of Mathematics and Natural Sciences
Islamic University of Indonesia

ABSTRACT

Similarity of two objects that have a form of binary data, usually calculated based on the frequencies in the
contingency table that includes all discrete random variables. In this article we will discuss the similarity
measures for binary data based on entropy values and structural patterns of the two object categories. Measuring
similarity based on the value of entropy and structural pattern of categories can be used as a validation measure
of similarity for binary data.

Keywords: Similarity, binary data, entropy, structure of patterns categories

PENDAHULUAN Sebaliknya, nilai b dan nilai c, menunjukkan


frekuensi data yang tidak sama (mismatches).
Teknik pengelompokan untuk data biner sangat Secara sederhana, jika frekuensi a dan
berbeda dengan data numerik dalam hal ukuran frekuensi d dijumlahkan hasilnya mendekati
similaritas atau kemiripan. Data biner nominal jumlah seluruh variabel (p), maka obyek i
merupakan tipe data kategorik yang hanya dan obyek j, dikatakan semakin mirip. Apabila
menggunakan dua kategori, yang biasanya a + d = p , maka obyek i dan obyek j,
sering diinisialkan sebagai 0 dan 1.
dikatakan identik.
Misalnya variabel jenis kelamin, dimana 0
untuk laki-laki, dan 1 untuk perempuan, atau
Tabel 1. Tabel kontingensi data biner pada
variabel hasil kelulusan, dimana 0 untuk tidak
dua obyek
lulus, dan 1 untuk lulus.
Apabila seluruh variabel yang dimiliki oleh Obyek i
Hasil Jumlah
dua buah obyek mempunyai data bertipe biner, 1 0
maka umumnya ukuran similaritas antara dua 1 a b a+b
Obyek
obyek tersebut didefinisikan berdasarkan j 0 c d c+d
frekuensi data dalam tabel kontingensi pada
Jumlah a+c b+d p=a+b+c+d
nilai yang sama (matches) dan nilai yang tidak
sama (mismatches) untuk semua p variabel.
Kajian tentang ukuran similaritas untuk data
biner, seperti dikutip oleh Everitt et al. (2001) Beberapa ukuran similaritas antara obyek i
di halaman 38, telah banyak dilakukan, ( )
dengan obyek j S ij , yang telah diusulkan
diantaranya yaitu ukuran similaritas koefisien diantaranya :
Jaccard (1908), Rogers & Tanimoto (1960),
Sokal & Sneath (1963), serta Gower &
Legendre (1986). Ukuran similaritas Jaccard :
Misalkan dua obyek i dan j masing- a (1)
S ij =
masing diamati pada p variabel random a+b+c
diskret bertipe biner, maka tabel kontingensi Ukuran similaritas Rogers – Tanimoto :
dapat disajikan sebagaimana tabel 1. Pada a+d (2)
Sij =
tabel 1., nilai a dan nilai d, menunjukkan [a + 2(b + c) + d ]
frekuensi data yang sama (matches), yaitu baik
Ukuran similaritas Sokal – Sneath :
obyek i maupun obyek j, mempunyai
kategori 0 (nol) sebanyak a, dan a (3)
S ij =
mempunyai kategori 1 (satu) sebanyak d. [a + 2(b + c)]
178 Kesamaan Data Biner……….(Kariyam)

Ukuran similaritas Gower – Legendre : dilakukan oleh Chen K & Liu L, (2005).
a+d (4) Misalkan dipunyai himpunan data X, yang
S ij = terdiri dari N pengamatan pada p variabel
⎡ 1 ⎤
⎢⎣a + 2 (b + c) + d ⎥⎦ random diskret X = (x1, x2, ..., xp). Kategori
setiap komponen xk, 1 ≤ k ≤ p diambil dari
Ukuran similaritas pada persamaan (1), (2),
domain Ak, yang berhingga. Misalkan juga
(3), dan (4), dihitung berdasarkan frekuensi sel
di tabel kontingensi (tabel 1.) dengan bobot p ( x k = v ); v ∈ Ak menunjukkan probabilitas
yang bervariasi. Kelebihan dari ukuran-ukuran dari xk = v dalam himpunan data X yang
similaritas di atas adalah cara perhitungannya memuat N pengamatan. Selanjutnya Chen
yang sederhana dan mudah. Ukuran similaritas dan Liu, dalam makalahnya di halaman 2,
tersebut juga hanya sesuai untuk data bertipe mendefinisikan nilai entropy dalam suatu
biner, dan kurang sesuai jika diterapkan untuk
himpunan data X ( H ( X ) ) yang terdiri
data non metrik dengan level lebih dari dua
kategori. Secara prinsip perhitungan ukuran dari N pengamatan dan p variabel tersebut,
similaritas antar obyek ini merupakan langkah sebagai berikut:
p
awal dalam proses pengelompokan obyek.
Perluasan ukuran similaritas data biner
H(X ) = − ∑ ∑ p(x
k =1 v∈Ak
k = v ) log 2 p ( x k = v ) (7)
untuk data non metrik lebih dari dua level juga Menurut penulis, persamaan (7) ini
telah dibahas oleh Everitt, et al. (2001) di mempunyai kekurangan, yaitu belum secara
halaman 38 – 39. Misalkan dua obyek i dan langsung menggunakan struktur pola kategori
j masing-masing mempunyai p variabel penyusun kelompok. Demikian juga, ketika
dengan level lebih dari dua, katakan l level, himpunan data hanya berisi dua obyek,
maka nilai similaritas kedua obyek merupakan rumusan entrophy ini kurang lazim digunakan
rata-rata dari koefisien similaritas p variabel, sebagai ukuran similaritas antara kedua obyek
sebagai berikut: tersebut.
1 p
S ij = ∑ S ijk (5) Improvisasi algoritma pengelompokan data
p k =1 kategori dengan berdasarkan pada total
Nilai similaritas Sijk yang dihitung dari kemungkinan kombinasi yang terjadi dari p
persamaan (2) dan (4), akan bernilai 1 (satu) variabel secara serentak, telah diusulkan oleh
ketika dua obyek memiliki kategori sama Deng S, Xu X & He Z, (2006). Misalkan
(misalkan 4 dengan 4, 1 dengan 1, dst), dan A1 , A2 , ... , Ap adalah himpunan atribut
akan bernilai nilai 0 (nol) yaitu ketika kedua
obyek memiliki kategori tidak sama. Misalkan
kategori dengan domain D1 , D2 , ... , D p .
u (u ≤ p) adalah jumlah kategori dari variabel Misalkan pula himpunan data D menunjukkan
random diskret yang bernilai sama pada dua himpunan obyek dari setiap obyek
obyek, maka persamaan (5) yang dihitung t : t ∈ D1 x D2 x ... x D p . Selanjutnya
dengan menggunakan persamaan (2), dan
persamaan (4), dapat dituliskan sebagai: VAL1 , .... ,VALp menotasikan himpunan atribut
u (6) yang berbeda untuk nilai-nilai
S =
ij
p A1 , A2 , ... , Ap . Untuk setiap
Menurut penulis, persamaan (6) vij ∈ VALi , f (vij ) menotasikan frekuensi dari
mempunyai kelemahan, yaitu bahwa ukuran
similaritas tersebut tidak mempertimbangkan kejadian yang mungkin dalam D. Selanjutnya
struktur perbedaan kategori dari setiap Deng, et al. (2006), di halaman 24,
variabel. Artinya ketika pada variabel ke – k , mendefinisikan More Similar Attribute Value
obyek i mempunyai kategori 1, dan obyek j Set (MSFVS) sebagai berikut :
mempunyai kategori 4, maka dipandang sama {
MSFVS (vij ) = vik f (vik ) ≤ f (vij ) dan vik ∈VALi }
dan bernilai nol, dengan ketika variabel ke – k , (8)
obyek i mempunyai kategori 3, dan obyek j
mempunyai kategori 4. Dengan demikian Dengan mengambil n sebagai total
kombinasi kategori dua obyek berapa saja, banyaknya obyek dalam himpunan data, maka
selalu dipandang sama sebagai data biner.
Kajian tentang penggunaan nilai entropy bobot dari nilai atribut vij didefinisikan
klasikal dalam proses pengelompokan, telah sebagai berikut:
Jurnal ILMU DASAR, Vol. 11 No. 2, Juli 2010: 177-182 179

f (vik )( f (vik ) − 1)
W (vij ) = 1 −
rangking dari struktur pola kategori yang

vik ∈MSFVS n (n − 1)
(9)
terbentuk pada dua obyek ( w ) . Misalkan
Selanjutnya persamaan (9) ini digunakan nilai obyek i pada variabel ke – k setelah
sebagai dasar untuk menghitung similaritas i
dirangking adalah rk dan nilai obyek j pada
antar kelompok. Ide dasar dari kajian ini
j
hampir sama dengan nilai entrophy, yaitu variabel ke – k setelah dirangking adalah rk ,
menggunakan frekuensi terjadinya nilai atribut maka nilai w dihitung sebagai berikut:
dalam suatu kelompok, untuk bahan
w = rk − rk
i j
perhitungan pembentukan jumlah dan anggota (10)
kelompok. Namun sebagaimana pada entropy,
Langkah terakhir, bobot struktur pola
persamaan (9) ini kurang lazim digunakan
untuk n = 2 buah (data biner). kategori, dinotasikan dengan bk , yang
Widodo E, Guritno S, Haryatmi S & terbentuk dari dua obyek i dan obyek j pada
Kariyam (2009), telah melakukan kajian variabel ke – k, dihitung sebagai berikut:
tentang ukuran similaritas data ordinal dengan w
mempertimbangkan secara langsung struktur bk = (11)
pola kategori obyek penyusun kelompok. vk − 1
Ukuran similaritas data ordinal yang diusulkan
Secara sederhana, Widodo et al. (2009),
didasarkan pada konteks permasalahan
mendefinisikan ukuran similaritas antara dua
penelitian. Artinya ketika dihadapkan pada
himpunan data non metrik, khususnya tipe obyek i dan obyek j, ( S ij ) , sebagai berikut:
ordinal, misalkan pada konteks permasalahan, p
angka 4 untuk kategori jawaban sangat baik,
angka 3 untuk kategori jawaban baik, angka 2
S ij = ∑b k (12)
k =1
untuk kategori jawaban kurang baik, dan angka
1 untuk kategori jawaban sangat tidak baik, Berdasarkan hasil-hasil kajian di atas, maka
maka struktur pola kategori 3 dan 4 akan pada tulisan ini akan dibahas perbandingan
dianggap berbeda dengan struktur pola aplikasi beberapa ukuran similaritas data biner.
kategori 1 dan 4. Dalam kajiannya telah Ukuran similaritas yang dibandingkan,
dikembangkan dan diusulkan ukuran diambilkan secara langsung dari sejumlah
similaritas untuk data ordinal dengan ukuran similaritas data biner yang sudah ada,
mempertimbangkan struktur pola kategori dan ukuran similaritas yang diturunkan dari
sesuai konteks permasalahan semula. data ordinal. Tulisan ini akan dibatasi pada
Misalkan dipunyai himpunan data S dengan N perbandingan aplikasi ukuran similaritas data
pengamatan dan p variabel random diskret biner yang diusulkan oleh Rogers – Tanimoto,
Gower – Legendre, Widodo, dkk, dan nilai
X = ( x1 , x2 , ......, x p ) . Untuk setiap variabel entropy. Hasil perbandingan yang diperoleh,
random diskret xk , 1 ≤ k ≤ p , mempunyai diharapkan dapat memberikan alternatif
validasi pemecahan masalah ukuran similaritas
nilai yang diambil dari domain Ak berhingga data biner.
dimana banyaknya kategori dalam domain Ak
adalah vk , dan kategori Ak berbeda dari Al HASIL DAN PEMBAHASAN
untuk suatu (k ≠ l ) . Widodo et al. (2009)
Ukuran similaritas data biner berbasiskan
mengusulkan ukuran similaritas dengan pada nilai entropy
terlebih dahulu menentukan bobot struktur pola Misalkan dipunyai himpunan data sampel S
kategori dalam variabel antara dua obyek. dengan n pengamatan dan p variabel random
Langkah pertama penentuan bobot struktur diskret, yaitu himpunan sampel dari vektor
pola angka, dimulai dengan memberikan
random diskret X = ( x1 , x2 , ......, x p ) . Untuk
rangking ( rk ) , pada kategori setiap variabel.
Jika variabel ke – k mempunyai vk setiap komponen xk , 1 ≤ k ≤ p nilai-nilainya

kategori, maka rk ∈ {1, 2,......, vk } . Langkah diambil dari domain Ak berhingga yang

kedua adalah menghitung selisih positif berbeda dengan Al (k ≠ l ) . Misalkan


180 Kesamaan Data Biner……….(Kariyam)

p ( xk = v ) ; v ∈ Ak menunjukkan probabilitas ⎛ 1 .log ⎛ 1 ⎞ ⎞ = m


H ( X Cg ) = −m ⎜ 2 ⎜ ⎟⎟ (16)
dari xk = v dalam himpunan data sampel S. ⎝ 2 ⎝ 2 ⎠⎠
Estimasi nilai entropy H(X) pada persamaan
(7) dengan menggunakan himpunan data Ukuran similaritas data biner berbasiskan
sampel S, dituliskan sebagai pada struktur pola kategori
Hˆ ( X ) = H ( X S ) , yaitu : Misalkan dipunyai himpunan data dengan N
p pengamatan dan p variabel random diskret
H (X S ) = − ∑ ∑ p(x k = v S ) log 2 p (x k = v S ) X = ( x1 , x2 , ......, x p ) bertipe biner. Menurut
k =1 v∈Ak

(13) Widodo, dkk, (2009), maka struktur pola


kategori antara dua buah obyek i dan obyek
Misalkan himpunan data sampel S dipartisi j, yang mungkin yaitu
dalam G kelompok, yaitu
{ ( 0, 0 ) ; ( 0,1) ; (1,1) ; (1, 0 ) } . Sedangkan
C = {C1 , C 2 ,......, C g }
G
dengan ng
nilai w yang mungkin pada persamaan (10)
menunjukkan jumlah anggota obyek dalam yaitu 0 dan 1, dan bobot dari setiap struktur
kelompok Cg. Misalkan pula bahwa
pola kategori bk untuk
p ( xk = v ) ; v ∈ Ak sebagai probabilitas dari
{ ( 0, 0 ) ; ( 0,1) ; (1,1) ; (1, 0 ) } menurut
xk = v dalam kelompok Cg yang berisi ng
persamaan (11) masing-masing adalah
anggota. Nilai entropy untuk suatu kelompok
Cg yang mempunyai anggota kelompok
{ 0; 1; 0; 1 } . Apabila dua buah obyek i
dan obyek j, diamati pada p variabel bertipe
sejumlah ng adalah:
biner, dan ditemukan u (u ≤ p ) buah
( ) ∑ ∑ p(x ) ( )
p
H X Cg = − k = v C g log 2 p x k = v C g variabel yang mempunyai kategori sama di
kedua obyek, dan m variabel ( m = p − u )
k =1 v∈Ak

(14)
Pada kasus suatu kelompok mempunyai dengan kategori berbeda di kedua obyek yaitu
salah satu obyek mempunyai kategori nol atau
anggota (obyek) ng = 2, dan p variabel
satu, maka ukuran similaritas pada persamaan
random diskret yang diamati pada kedua (12) menurut usulan Widodo et al. (2009),
obyek tersebut bertipe biner (dinotasikan 0 dan menjadi sangat sederhana, yaitu:
1), dan dengan mengambil
S ij = p − u = m (17)
p ( xk = 0 C g ) = pk , serta
Persamaan (16) dan (17) mempunyai hasil
p ( xk = 1 C 2 ) = q k , maka nilai entropy yang sama, sekalipun diturunkan dari cara
untuk persamaan (14), dapat dituliskan perhitungan yang berbeda. Kelebihan dari
sebagai berikut: persamaan (17) adalah penurunan rumus yang
digunakan lebih sederhana dan mudah.
( ) ( )
p 1
H ( X C g ) = −∑∑ p xk = v Cg log 2 p xk = v Cg
k =1 v = 0
p
= −∑ ( pk log 2 pk + qk log 2 qk ) Perbandingan aplikasi beberapa ukuran
k =1 similaritas data biner
(15) Validasi suatu ukuran similaritas salah satunya
Apabila kedua obyek mempunyai kategori dapat dilakukan melalui perbandingan
identik pada semua, p, variabel, maka nilai penerapan beberapa ukuran similaritas.
entropinya akan sama dengan nol. Sedangkan Apabila penerapan beberapa ukuran similaritas
apabila terdapat u variabel ( u < p ) yang memberikan hasil yang sama, dapat dikatakan
kategorinya identik di kedua obyek yaitu bahwa ukuran similaritas tersebut valid. Pada
keduanya 0 (nol) atau keduanya 1 (satu); tulisan ini akan diterapkan beberapa ukuran
similaritas untuk kasus pengelompokan
dan m variabel ( m = p − u ) dengan delapan rumah sakit negeri dan swasta (nama
kategori berbeda di kedua obyek yaitu salah rumah sakit tidak disebutkan, melainkan
satu obyek mempunyai kategori nol atau satu, digantikan dengan kode tertentu) berdasarkan
maka nilai entropy kedua obyek dapat ketersediaan fasilitas kamar kelas pertama.
dituliskan dengan : Data sekunder yang diambil pada tahun 2006
Jurnal ILMU DASAR, Vol. 11 No. 2, Juli 2010: 177-182 181

Tabel 2. Keberadaan Fasilitas Kamar Rumah Sakit di DIY untuk Kelas Satu

Kode Fasilitas kamar kelas 1


No
Rumah Sakit Air panas Televisi AC Layanan bel
1. A 0 0 0 1
2. B 0 1 1 0
3. C 0 1 1 1
4. D 1 1 1 1
5. E 0 1 0 1
6. F 1 1 1 0
7. G 0 0 0 1
8. H 0 1 1 1

untuk delapan rumah sakit di Daerah Istimewa semakin besar nilai similaritas, maka
Yogyakarta, adalah sebagaimana tertera pada menunjukkan bahwa kedua obyek tersebut
Tabel 2. Dalam konteks permasalahan ini, semakin mirip. Sebaliknya semakin kecil nilai
kategori nol berarti tidak ada fasilitas, dan similaritas, maka tingkat kemiripan kedua
kategori satu berarti ada fasilitas. obyek semakin kecil. Ukuran similaritas yang
Berdasarkan data Tabel 2., dengan diusulkan Rogers – Tanimoto dan Gower –
menerapkan persamaan (2) dan (4), maka Legendre, hanya berbeda pada bobot pembagi
matriks simetris ukuran similaritas antara kategori dua obyek yang berbeda.
obyek i dengan obyek j, dinotasikan dengan Dengan demikian kedua ukuran similaritas ini
matriks (S ) ,
ij
untuk delapan Rumah Sakit menghasilkan kesimpulan yang sama, yaitu
rumah sakit A dan G, serta rumah sakit C dan
adalah sebagai berikut: H, mempunyai fasilitas yang sama untuk kamar
(i) matriks ukuran similaritas Rogers – kelas I. Sebaliknya, bahwa tidak ada satupun
Tanimoto: fasilitas kamar kelas I yang sama untuk rumah
sakit A dengan F, serta rumah sakit F dengan
A B C D E F G H
A ⎡1, 00 0,14 0,33 0,14 0, 60 0, 00 1, 00 0,33 ⎤
rumah sakit G.
B ⎢ 1, 00 0, 60 0,33 0,33 0, 60 0,14 0, 60 ⎥⎥ Sementara itu dengan menerapkan

C ⎢ 1, 00 0, 60 0, 60 0,33 0,33 1, 00 ⎥ persamaan (16) dan (17) diperoleh matriks
⎢ ⎥
Sij = D ⎢ 1, 00 0,33 0, 60 0,14 0, 60 ⎥ simetriks ukuran similaritas, dengan hasil yang
⎢ 0, 60 ⎥
E

1, 00 0,14 0, 60
⎥ sama, yaitu sebagai berikut:
F ⎢ 1, 00 0, 00 0,33 ⎥

(iii) matriks ukuran similaritas Widodo et al.
G 1, 00 0,33 ⎥
⎢ ⎥ dan matriks nilai entropy
H ⎣⎢ 1, 00 ⎦⎥
A B C D E F H G
A ⎡0 3 2 3 1 4 2⎤ 0
(ii) matriks ukuran similaritas Gower – B ⎢ 0 1 2 2 1 1⎥ 3
Legendre: ⎢ ⎥
A B C D E F G H
C ⎢ 0 1 1 2 0⎥ 2
⎢ ⎥
A ⎡1,00 0,40 0,67 0,40 0,86 0,00 1,00 0,67⎤ S ij = D ⎢ 0 2 1 1⎥ 3
B ⎢ 1,00 0,86 0,67 0,67 0,86 0,40 0,86⎥
⎢ ⎥ E ⎢ 0 3 1 1⎥
C ⎢ 1,00 0,86 0,86 0,67 0,67 1,00 ⎥ ⎢ ⎥
D

1,00 0,67 0,86 0,40 0,86⎥
⎥ F ⎢ 0 4 2⎥
S ij = ⎢
E ⎢ 1,00 0,40 0,86 0,86⎥ G ⎢ 0 2⎥
F

1,00 0,00 0,67⎥
⎥ ⎢ ⎥
⎢ H ⎣ 0⎦
G ⎢ 1,00 0,67⎥
⎢ ⎥
H ⎣ 1,00 ⎦ Berkebalikan dengan makna pada ukuran
similaritas Rogers – Tanimoto maupun Gower
Ukuran similaritas yang diusulkan Rogers – – Legendre, maka nilai entropy dan ukuran
Tanimoto dan Gower – Legendre, mempunyai similaritas Widodo, dkk, mempunyai arti
rentang nilai antara 0 dan 1, dimana bahwa semakin besar nilainya menunjukkan
182 Kesamaan Data Biner……….(Kariyam)

tingkat kemiripan yang semakin rendah. dijadikan alternatif untuk validasi ukuran
Sedangkan angka nol menunjukkan bahwa similaritas himpunan data biner.
kedua obyek identik. Berdasarkan makna ini,
maka kesimpulan yang sama dapat dikatakan DAFTAR PUSTAKA
bahwa rumah sakit A dan G, serta rumah sakit
C dan H mempunyai fasilitas yang sama persis Chen K & Liu L. 2005. The “Bes K“ for Entropy-
untuk kamar kelas I. Sementara itu rumah sakit based Categorical Data Clustering,
A dan F, serta F dan G, mempunyai fasilitas http://www.cc.gatech.edu/~kekechen/papers/catv
yang sama sekali berbeda atau berkebalikan. al05.pdf .
Deng S, Xu X & He Z. 2006. Improving
Sesuai dengan harapan perbandingan Categorical Data Clustering Algorithm by
penerapan ukuran similaritas ini, maka untuk Weighting Uncommon Attribute Value Matches,
kasus ukuran similaritas antar rumah sakit di ComSIS, 3(1): 23 – 32.
Yogyakarta, menghasilkan kesimpulan yang Gower JC & Legendre P. 1986. Metric and
sama. Apabila dikembalikan pada konteks Euclidean Properties of dissimilarity
permasalahan semula, tentunya masyarakat coefficient”s, Journal of Classification, 3(1): 5 –
yang akan menjalani rawat inap, dan 48.
menghendaki fasilitas di kamar kelas I, dengan Hardle W & Simar L. 2007. Applied Multivariate
alasan terdapat sejumlah rumah sakit (yaitu A Analysis Statistical Analysis, Second Edition,
Springer–Verlag.
dan G, atau C dan H) yang mempunyai fasilitas Hair JF, Anderson RE, Tatham RL & Black, WG.
sama persis, masyarakat dapat memilih rumah 1995. Multivariate Data Analysis with Reading
sakit tersebut dengan mempertimbangkan ( 4 nd ed), New Jersey : Prentice-Hall.
harga sewa. Dalam konteks permasalahan ini
Johnson RA & Wichern DW. 1992. Applied
harga kamar rawat inap setiap rumah sakit
Multivariate Statistical Analysis (3nd ed), New
memang sengaja disembunyikan, dengan Jersey : Prentice Hall.
maksud ketika dua rumah sakit mempunyai
fasilitas sama, tentunya harga kamar akan Kim SY & Hamasaki T. 2008. Evaluation of
menjadi prioritas pertimbangan berikutnya. Clustering on Preprocessing in Gene Expression
Data, International Journal of Biological, 48 –
Secara prinsip, ukuran similaritas yang
53.
diturunkan dari usulan Widodo, dkk, ataupun
diturunkan dari nilai entropy, dapat dijadikan Kudova P, Rezankova H, Huzek D & Snasel V.
sebagai alternatif validasi ukuran similaritas 2006. Categorical Data Clustering Using
obyek bertipe biner. Statistical Methods and Neural Networks,
Proceedings of the Spring Young Researcher’s
Colloquium on Database and Information
KESIMPULAN System, Moscow, Rusia.

Peluang nilai kejadian dalam suatu kelompok Widodo E, Guritno S, Haryatmi S & Kariyam. 2009.
dapat digunakan untuk mengukur similaritas Ukuran Similaritas Data Kategorik Berbasiskan
antara obyek yang mempunyai bentuk data Pada Bobot Struktur Pola Kategori, laporan
penelitian internal Program Studi Statistika UII
biner. Demikian halnya dengan cara yang Yogyakarta.
sederhana, yaitu mempertimbangkan struktur
Zorn C. 2003. Agglomerative Clustering of
pola kategori antara dua buah obyek, dapat
Rangkings Data, with Application to Prison
digunakan dengan baik dan mudah untuk Rodeo Events, Department of Political Sciense,
mengukur similaritas antara dua buah obyek Emory Universit, Atlanta, GA 30322,
dengan tipe data biner. Ukuran similaritas czorn@emory.edu.
berbasiskan entropy ataupun berbasiskan pada
bobot struktur pola kategori dua obyek, dapat

Anda mungkin juga menyukai