Anda di halaman 1dari 24

PENGELOMPOKAN HYBRID HIERARCHICAL

CLUSTERING MENGGUNAKAN JARAK SQUARE


EUCLIDEAN

Proposal Skripsi
Disusun untuk melengkapi syarat-syarat
guna memperoleh gelar Sarjana Sains

ASTRID ALFIRA
3125121985

PROGRAM STUDI MATEMATIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI JAKARTA
2016

LEMBAR PENGESAHAN

Dengan ini saya mahasiswa Fakultas Matematika dan Ilmu Pengetahuan


Alam, Universitas Negeri Jakarta
Nama

: Astrid Alfira

No. Registrasi

: 3125121985

Program Studi

: Matematika

Judul

: Analisis Hybrid Hierarchical Clustering Menggunakan


Jarak Square Euclidean.

Menyatakan bahwa proposal skripsi ini telah siap diajukan untuk seminar pra
skripsi.

Menyetujui,
Dosen Pembimbing I

Dosen Pembimbing II

Ir. Fariani Hermin, M.T.

Dr. Eti Dwi Wiraningsih, S.Pd, M.Si.

NIP. 19600211 198703 2 001

NIP. 19810203 200604 2 001

DAFTAR ISI

DAFTAR ISI

DAFTAR GAMBAR
I

iii

PENDAHULUAN

1.1

Latar Belakang Masalah . . . . . . . . . . . . . . . . . . . . . .

1.2

Perumusan Masalah

. . . . . . . . . . . . . . . . . . . . . . . .

1.3

Pembatasan Masalah . . . . . . . . . . . . . . . . . . . . . . . .

1.4

Tujuan Penulisan . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5

Manfaat Penulisan . . . . . . . . . . . . . . . . . . . . . . . . .

1.6

Metode Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . .

II LANDASAN TEORI

2.1

Analisis Kelompok . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Analisis Korelasi . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3

Analisis Komponen Utama . . . . . . . . . . . . . . . . . . . . .

2.4

Jarak Square Euclidean . . . . . . . . . . . . . . . . . . . . . . . 11

2.5

Pengelompokan Metode Bottom-Up . . . . . . . . . . . . . . . . 12

2.6

Pengelompokan Metode Top-Down . . . . . . . . . . . . . . . . 14

2.7

Metode Hybrid Hierarchical Clustering menggunakan jarak Square Euclidean . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

III PEMBAHASAN
3.1

18

Pengelompokan Menggunakan Metode Hybrid Hierarchical Clustering dengan Jarak Square Euclidean

. . . . . . . . . . . . . . 18

3.2

Efektivitas Metode Hybrid Hierarchical Clustering dengan Jarak Square Euclidean . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3

Contoh Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

DAFTAR PUSTAKA

19

ii

DAFTAR GAMBAR

2.1

Diagram alir pengelompokan metode bottom-up (agglomerative). 13

2.2

Diagram alir pengelompokan metode top-down (k-means). . . . 15

2.3

Diagram alir pengelompokan menggunakan metode Hybrid Hierarchical Clustering dengan jarak Square Euclidean. . . . . . . 17

iii

BAB I
PENDAHULUAN

1.1

Latar Belakang Masalah

Cluster atau klaster dapat diartikan kelompok; dengan demikian, pada dasarnya analisis klaster akan menghasilkan sejumlah klaster (kelompok).
Analisis ini diawali dengan pemahaman bahwa sejumlah data tertentu sebenarnya mempunyai kemiripan diantara anggotanya. Karena itu, dimungkinkan
untuk mengelompokkan anggota-anggota yang mirip atau mempunyai karakteristik yang serupa tersebut dalam satu atau lebih dari satu klaster.
Salah satu cara kerja dan tujuan analisis klaster adalah mengelompokkan
objek-objek berdasarkan persamaan karakteristik di antara objek-objek tersebut. Objek yang akan diklaster bisa berupa produk (barang dan jasa), makhluk hidup (tumbuhan dan binatang), atau manusia (disebut responden, konsumen, partisipan dalam kegiatan eksperimen, atau yang lain). Objek tersebut
akan diklasifikasikan ke dalam satu atau lebih klaster (kelompok) sehingga
objek-objek yang berada dalam satu klaster akan mempunyai kemiripan satu
sama lain.
Dalam praktek, analisis klaster bisa diterapkan pada banyak bidang ilmu;
seperti psikologi, biologi, kedokteran, dan manajemen. Berikut contoh kegunaan analisis klaster pada bidang ilmu manajemen pemasaran. Sebuah perusahaan real estate ingin mengetahui perilaku konsumen yang membeli rumah di
lingkungan tertentu. Untuk itu, sekian responden diminta memberi pendapat
mereka tentang berbagai variabel pembelian sebuah rumah, seperti lingkung-

2
an yang aman, lingkungan yang nyaman dan bebas banjir, fasilitas umum dan
sosial yang memadai, letak perumahan yang strategis, harga yang terjangkau,
sistem pembayaran yang fleksibel dan sebagainya. Dengan analisis klaster diketahui bahwa ada tiga kelompok konsumen pembeli rumah tersebut, yakni
klaster yang memperhatikan lingkungan, klaster yang mengutamakan sistem
kredit dan klaster yang mengutamakan mutu rumah tersebut.
Analisis kelompok berguna untuk mengelompokkan objek berdasarkan ukuran kemiripan, dimana konsep dasar dari analisis kelompok adalah pengukuran
jarak dan kesamaan. Pengelompokan objek di dalam analisis kelompok dapat dilakukan dengan metode bottom-up, top-down, dan Hybrid Hierarchical
Clustering. Pengelompokan objek dengan bottom-up menggunakan metode pengelompokan yang dimulai dari kelompok kecil menjadi kelompok yang lebih
besar, pengelompokan objek dengan top-down menggunakan metode sebaliknya yaitu pengelompokan dengan memecah kelompok besar menjadi kelompok
yang lebih kecil. Metode Hybrid Hierarchical Clustering baru diperkenalkan
pada tahun 2006 oleh Hugh Chipman dan Robert Tibshirani, dimana metode
ini mengkombinasikan kelebihan metode bottom-up dan top-down. Algoritma
bottom-up baik dalam mengelompokkan ukuran sampel kecil dan sebaliknya,
algoritma top-down baik dalam mengelompokkan ukuran sampel besar. Metode Hybrid Hierarchical Clustering yang digunakan adalah metode pengelompokan hybrid melalui mutual cluster. Mutual cluster adalah pengelompokan
yang menggunakan jarak terbesar antara pasangan dalam kelompok yang lebih
kecil dari jarak terpendek ke setiap titik di luar kelompok.
Penelitian yang telah dilakukan untuk menangani masalah Hybrid Hierarchical Clustering diantaranya adalah Pemilihan Metode Pengelompokan Terbaik Kabupaten/Kota Berdasarkan Indikator Pendidikan Menggunakan Hybrid
Melalui Mutual Cluster, Bottom-Up dan Top-Down (Agustina, 2013) dan Ana-

3
lisis Hybrid Hierarchical Clustering Melalui Mutual Cluster, Bottom-Up dan
Top-Down Menggunakan Jarak Euclidean dan Mahalanobis (Madani, 2014).
Kedua penelitian tersebut masih membahas metode hybrid dengan menggunakan jarak Euclidean, dimana jarak Euclidean mempunyai asumsi bahwa antar peubah tidak saling berkorelasi.
Dalam skripsi ini, metode yang dipakai menggunakan jarak Square Euclidean yang merupakan pengembangan dari jarak Euclidean. Sebagaimana namanya, Square Euclidean adalah ukuran jarak dengan mengkuadratkan bobot
terbesar suatu jarak antara dua fasilitas yang berdekatan. Relatif untuk beberapa persoalan terutama menyangkut persoalan lokasi fasilitas diselesaikan
dengan penerapan Square Euclidean. Pemilihan metode pengelompokan terbaik dalam skripsi ini menggunakan nilai Cluster Tightness Measure (CTM),
dimana nilai CTM didasarkan pada simpangan baku dari beberapa kelompok
dengan beberapa peubah. Berdasarkan nilai CTM, akan ditunjukkan pengelompokan metode Hybrid Hierarchical Clustering menggunakan Square Euclidean.

1.2

Perumusan Masalah

Berdasarkan latar belakang di atas, permasalahan yang akan dikaji pada


skripsi ini adalah sebagai berikut:
1. Bagaimana cara pengelompokan menggunakan metode Hybrid Hierarchical Clustering dengan jarak Square Euclidean?
2. Bagaimana penerapan metode Hybrid Hierarchical Clustering dengan
jarak Square Euclidean dalam pengelompokan?

1.3

Pembatasan Masalah

Pembatasan ruang lingkup permasalahan yang dibahas dalam skripsi ini


diperlukan untuk membuat skripsi ini memiliki arah yang tepat dan selaras,
berikut ini merupakan pembatasan masalah yang dibuat antara lain:
1. Metode pemilihan model terbaik menggunakan Cluster Tightness Measure.
2. Data pada contoh kasus diasumsikan berdistribusi normal.

1.4

Tujuan Penulisan

Berdasarkan rumusan masalah dan pembatasan masalah yang dijelaskan


sebelumnya, maka didapat tujuan dari penulisan skripsi ini yaitu:
1. Mengetahui cara pengelompokan menggunakan analisis Hybrid Hierarchical Clustering dengan jarak Square Euclidean.
2. Mengetahui penerapan metode Hybrid Hierarchical Clustering dengan
jarak Square Euclidean dalam pengelompokan.

1.5

Manfaat Penulisan

Adapun manfaat dari penulisan ini yaitu:


1. Sumber pengetahuan mengenai dunia matematika di bidang statistika
khususnya clustering.
2. Alternatif sumber bacaan dalam pengembangan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan
berdasarkan fakta-fakta khusus.

5
3. Pengetahuan dalam mendeskripsikan sifat-sifat atau karakteristik dalam
masing-masing kelompok klaster.

1.6

Metode Penelitian

Skripsi ini merupakan kajian teori dalam bidang analisis peubah ganda dan
analisis runtun waktu yang didasarkan pada buku-buku dan jurnal-jurnal tentang teori permasalahan di bidang statistik. Referensi utama yang digunakan
yaitu Santoso (2010), Johnson & Wichern (2002).

BAB II
LANDASAN TEORI

Pada bab ini akan dibahas teori-teori mengenai analisis klaster (kelompok),
analisis korelasi, analisis komponen utama, lalu akan dijelaskan juga mengenai
jarak Square Euclidean, pengelompokan menggunakan metode bottom-up dan
top-down, serta metode Hybrid Hierarchical Clustering menggunakan jarak
Square Euclidean. Sebagai awalan, akan dijelaskan mengenai analisis kelompok.

2.1

Analisis Kelompok

Analisis kelompok merupakan suatu analisis multivariat yang digunakan


untuk mengelompokan objek pengamatan menjadi beberapa kelompok berdasarkan ukuran kemiripan antar objek, sehingga objek-objek yang berada dalam
satu kelompok memiliki kemiripan yang lebih homogen dibandingkan objek
dari kelompok yang berbeda (Johnson & Wichern, 2002). Terdapat 2 metode
pengelompokan dalam analisis kelompok yaitu metode pengelompokan hierarki
dan non-hierarki. Metode hierarki dibagi dalam dua algoritma, yaitu agglomerative dan divisive. Pada algoritma agglomerative, proses pengelompokan
berlangsung dengan penggabungan objek dalam kelompok-kelompok dan hasil akhirnya semua objek bergabung menjadi satu kelompok besar. Sedangkan
pada algoritma divisive bersifat sebaliknya, dimulai dari satu kelompok besar
yang mencakup semua kelompok selanjutnya kelompok yang memiliki ketidakmiripan cukup besar akan dipisahkan sehingga membentuk kelompok yang

7
lebih kecil. Metode pengelompokan non-hierarki telah ditentukan sebanyak
kelompok yang akan dibentuk (Johnson dan Wichern, 2002). Asumsi yang harus dipenuhi dalam analisis kelompok adalah antar peubah harus saling bebas
atau tidak terdapat korelasi antar peubah. Sehingga untuk mengetahui apakah
terdapat korelasi antar peubah dilakukan pengujian yaitu analisis korelasi.

2.2

Analisis Korelasi

Analisis korelasi mencoba mengukur keeratan hubungan antara dua peubah


melalui sebuah bilangan yang disebut koefisien korelasi. Ukuran hubungan
linear antara dua peubah diduga dengan koefisien korelasi dirumuskan sebagai
berikut (Walpole, 1995):


n
P



n
P

n
P

n X1i X2i
X1i
X2i
i=1
i=1
i=1
v
.
r= "
u
n
n
2 # " n
2 #
n
u P
P
P
P
t n X2
X1i
n X2
X2i
1i

i=1

2i

i=1

i=1

i=1

Keterangan:
r

koefisien korelasi

X1i

amatan ke-i pada kelompok pertama

X2i

amatan ke-i pada kelompok kedua

jumlah amatan.

Analisis kelompok tidak dapat dilakukan jika terdapat korelasi antar peubah, sehingga dilakukan analisis komponen utama dengan tujuan membentuk
peubah-peubah baru yang tidak saling berkorelasi, yang akan dibahas pada
subbab berikut.

2.3

Analisis Komponen Utama

Analisis Komponen Utama (Principal Component Analysis) adalah analisis


multivariat yang mentransformasi variabel-variabel asal yang saling berkorelasi
menjadi variabel-variabel baru yang tidak saling berkorelasi dengan mereduksi sejumlah variabel tersebut sehingga mempunyai dimensi yang lebih kecil
namun dapat menerangkan sebagian besar keragaman variabel aslinya.
Banyaknya komponen utama yang terbentuk sama dengan banyaknya variabel asli. Pereduksian (penyederhanaan) dimensi dilakukan dengan kriteria
persentase keragaman data yang diterangkan oleh beberapa komponen utama pertama. Apabila beberapa komponen utama pertama telah menerangkan
lebih dari 75 % keragaman data asli, maka analisis cukup dilakukan sampai
dengan komponen utama tersebut.
Bila komponen utama diturunkan dari populasi multivariat normal dengan

random vektor X = X1, X2, ....., Xp dan vektor rata-rata = (1 , 2 , ..., p )
dan matriks kovarians dengan akar ciri (eigenvalue) yaitu 1 2 ...
p 0 didapat kombinasi linier komponen utama yaitu sebagai berikut.

Y1 = e01 X = e011 X1 + e021 X2 + ... + e0p1 Xp


Y2 = e02 X = e012 X1 + e022 X2 + ... + e0p2 Xp
..
.
Yp = e0p X = e01p X1 + e02p X2 + ... + e0pp Xp
Maka V ar(Yi ) = ei0 ei dan Cov(Yi , Yk ) = ei0 ei dimana i, k = 1, 2, ..., p.
Syarat untuk membentuk komponen utama yang merupakan kombinasi
linear dari variabel X agar mempunyai varian maksimum adalah dengan memilih vektor ciri (eigen vector) yaitu e = (e1 , e2 , ..., ep ) sedemikian hingga

9
V ar(Yi ) = ei0 ei maksimum dan ei0 ei = 1. Pembentukan komponen utama
dijelaskan seperti berikut:
1. Komponen utama pertama adalah kombinasi linear e01 X yang memaksimumkan V ar(e01 X) dengan syarat e01 e1 = 1.
2. Komponen utama kedua adalah kombinasi linear e02 X yang memaksimumkan V ar(e02 X) dengan syarat e02 e2 = 1.
3. Komponen utama ke-i adalah kombinasi linear e0i X yang memaksimumkan V ar(e0i X) dengan syarat e0i ek = 1 dan Cov(e0i ek ) = 0 untuk k < 1.
Antar komponen utama tersebut tidak berkorelasi dan mempunyai variasi
yang sama dengan akar ciri dari merupakan varian dari komponen utama
Y, sehingga matriks ragam peragam

X
0
= .
..

dari Y adalah:

0 0

2 0

.
.. . .
..

. .
.

0 p

Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan oleh komponen utama yaitu:
p
X

var(Xi ) = tr() = 1 + 2 + + p =

j=1

p
X

var(Yi ).

j=1

Penyusutan dimensi dari variabel asal dilakukan dengan mengambil sejumlah kecil komponen yang mampu menerangkan bagian terbesar keragaman
data. Apabila komponen utama yang diambil sebanyak q komponen, dimana q < p, maka proporsi dari keragaman total yang bisa diterangkan oleh
komponen utama ke-i adalah:
i
; i = 1, 2, . . . , p.
1 + 2 + + p

10
Penurunan komponen utama dari matriks korelasi dilakukan apabila data sudah terlebih dahulu ditransformasikan ke dalam bentuk baku Z. Transformasi
ini dilakukan terhadap data yang satuan pengamatannya tidak sama. Bila
variabel yang diamati ukurannya pada skala dengan perbedaan yang sangat
lebar atau satuan ukurannya tidak sama, maka variabel tersebut perlu dibakukan (standardized). Variabel baku (Z) didapat dari transformasi terhadap
variabel asal dalam matriks berikut:


1/ 1
2
(X ).
Z= V
V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah
aii 1/2 sedangkan unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya adalah:




1/ 1
1/ 1
= .
V 2
Cov(Z) = V 2
Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri
yang didapat melalui matriks korelasi variabel asal . Untuk mencari akar ciri
dan menentukan vektor pembobotnya sama seperti pada matriks . Sementara trace matriks korelasi akan sama dengan jumlah p variabel yang dipakai.
Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan digunakan jika akar cirinya lebih besar dari
satu.
Setelah penjelasan teori tentang analisis klaster, analisis korelasi, dan analisis komponen utama, berikutnya kita akan mulai memasuki metode yang
akan digunakan pada skripsi ini yaitu metode Hybrid Hierarchical Clustering.
Seperti yang telah dijelaskan, metode Hybrid Hierarchical Clustering merupakan penggabungan dua metode bottom-up dan top-down. Sebelumnya, akan
dibahas terlebih dahulu mengenai jarak yang digunakan yaitu jarak Square
Euclidean.

11

2.4

Jarak Square Euclidean

Jarak Square Euclidean merupakan jarak yang dikembangkan dari jarak


Euclidean. Pada jarak Euclidean, jarak tersebut mempunyai asumsi bahwa
antar peubah tidak saling berkorelasi, memiliki satuan pengukuran yang sama,
dan pengukuran pembakuan mempunyai rata-rata nol dan standar deviasi
satu. Jarak Euclidean merupakan jarak antar objek, misalkan dua objek kei dan ke-j yang berada pada p dimensi dimana formulanya sebagai berikut
(Johnson & Winchen, 2002):
v
uX
u p
(Xiq Xjq )2 ,
dij = t
q=1

Keterangan:
dij

jarak antar objek ke-i dengan objek ke-j; i 6= j

1, 2, ..., n

1, 2, ..., p

Xiq

nilai pengamatan objek ke-i peubah ke-q

Xjq

nilai pengamatan objek ke-j peubah ke-q

banyaknya peubah,

sedangkan pada jarak Square Euclidean dapat diartikan sebagai suatu ukuran kesamaan jumlah kuadrat perbedaan tanpa akar kuadrat. Jarak Square Euclidean antara dua unit/observasi yang berdimensi p dengan koordinat
Xi = (X1 , X2 , ..., Xp ) dan Yi = (Y1 , Y2 , ..., Yp ). Formulanya sebagai berikut
(Hair dkk., 2010):
d2ij

p
X
q=1

(Xiq Xjq )2 .

12
Keterangan:
dij

jarak antar objek ke-i dengan objek ke-j; i 6= j

1, 2, ..., n

1, 2, ..., p

Xiq

nilai pengamatan objek ke-i peubah ke-q

Xjq

nilai pengamatan objek ke-j peubah ke-q

banyaknya peubah.

Jarak Square Euclidean digunakan dalam pengelompokan metode bottomup dan top-down. Berikut akan dijelaskan tentang metode bottom-up dan
top-down.

2.5

Pengelompokan Metode Bottom-Up

Pengelompokan dengan menggunakan metode bottom-up adalah suatu metode hierarki dimana n buah kelompok digabungkan menjadi satu kelompok
tunggal. Metode bottom-up ini meletakkan setiap objek data sebagai sebuah kelompok tersendiri (atomic cluster ) yang selanjutnya kelompok-kelompok
tersebut bergabung menjadi kelompok besar sampai akhirnya semua objek
menyatu dalam sebuah kelompok tunggal. Jarak antar objek diperlukan pada
tahap awal dalam penggabungan 2 kelompok dengan metode agglomerative
(Hair dkk., 2010).
Proses pengelompokan dengan metode bottom-up dimulai dengan terdapat
data amatan Xi dan Xj yang setiap objek dipandang sebagai kelompok tersendiri (atomic cluster). Langkah selanjutnya, hitung

n2 n
2

jarak antar atomic

cluster (dij ) menggunakan fungsi jarak Square Euclidean sebagai unsur-unsur


matriks awal D0 = (dij )nxn . Setelah itu, urutkan pasangan kelompok dari kelompok yang memiliki jarak terdekat ke kelompok yang memiliki jarak terjauh,

13
pasangan kelompok yang memiliki jarak terdekat adalah statistik peringkat
pertama d(uv) . Lalu, hitung kembali

(n1)2 (n1)
2

jarak kelompok pertama de-

ngan objek lain d(uv)w menggunakan metode pengelompokan average linkage


menghasilkan jarak pertama D1 = (dij )(n1)x(n1) . Hal ini dikarenakan 2 obyek
pada tahap awal membentuk satu kelompok tunggal, sehingga banyak obyek
berkurang 1. Penggabungan berakhir sampai n 1 obyek sehingga terbentuk
Dn2 berordo n(n 2). Berikut adalah diagram alir pengelompokan metode
bottom-up (agglomerative):

Gambar 2.1: Diagram alir pengelompokan metode bottom-up (agglomerative).

Dalam pengelompokan metode Hybrid Hierarchical Clustering, selain meto-

14
de bottom-up, dilakukan juga pengelompokan dengan metode top-down. Hasil
dari penggabungan metode bottom-up dan top-down merupakan pengelompokan metode Hybrid Hierarchical Clustering, sehingga pada subbab selanjutnya
akan dijelaskan secara rinci mengenai pengelompokan metode top-down.

2.6

Pengelompokan Metode Top-Down

Pengelompokan dengan metode top-down adalah membagi n objek ke dalam k kelompok yang bertujuan untuk mengelompokkan objek sehingga jarak
antar objek ke pusat kelompok di dalam satu kelompok minimum.
Proses pertama dalam mengelompokkan dengan menggunakan metode topdown yang bersifat non-hierarki (k-means) adalah terdapat data amatan Xi
dan Xj . Kemudian, partisikan obyek ke dalam k kelompok. Langkah selanjutnya, hitung pusat kelompok dimana pusat kelompok itu sendiri merupakan
rata-rata dari keseluruhan obyek yang berasa dalam kelompok tersebut. Setelah itu, hitung jarak setiap obyek ke pusat kelompok dengan menggunakan
jarak Square Euclidean. Jika terdapat obyek yang berpindah dari posisi awal,
maka pusat kelompok dihitung kembali dan periksa kembali posisi obyek. Ulangi langkah-langkah tersebut sampai tidak ada obyek yang berpindah posisi.
Metode bottom-up dan metode top-down yang telah dijelaskan di atas merupakan bagian dari metode Hybrid Hierarchical Clustering. Subbab berikut
akan menjelaskan Hybrid Hierarchical Clustering secara lebih terperinci. Sebelum membahas metode Hybrid Hierarchical Clustering, di bawah ini adalah
bentuk diagram alir pengelompokan dengan menggunakan metode top-down
(k-means):

15

Gambar 2.2: Diagram alir pengelompokan metode top-down (k-means).

2.7

Metode Hybrid Hierarchical Clustering menggunakan jarak Square Euclidean

Metode Hybrid terdiri dari dua metode yaitu bottom-up yaitu metode pengelompokan dimulai dari kelompok kecil menjadi kelompok yang lebih besar
(agglomerative) dan top-down yaitu metode pengelompokan dengan memecah
kelompok besar menjadi kelompok lebih kecil seperti metode k-means membagi sebanyak k kelompok, lalu terdapat analisis hierarchical clustering. Metode
analisis hierarchical clustering ini dibagi menjadi dua bagian yaitu agglomerative (penggabungan) dan divisive (pemecahan). Dalam metode agglomerative

16
tiap data amatan pada mulanya dianggap sebagai klaster tersendiri sehingga
pada tahap awal ini banyaknya klaster sama dengan banyaknya data amatan.
Kemudian dua data amatan yang terdekat kemiripannya digabung menjadi
satu klaster baru, sehingga jumlah klaster semula berkurang satu pada tiap
tahap. Dalam agglomerative juga terdapat beberapa jenis metode, diantaranya metode pautan (linkage method) yang terbagi lagi menjadi pautan tunggal
(single linkage), pautan lengkap (complete linkage), pautan rata-rata (average
linkage); metode varians (variance method); dan metode centroid.
Metode Hybrid Hierarchical Clustering merupakan metode pengelompokan
(agglomerative) objek-objek tertentu yang berasal dari hasil penggabungan
antara metode bottom-up dan top-down. Pengelompokan Hybrid Hierarchical
Clustering ini menggunakan jarak Square Euclidean. Menurut Manly (1998),
penggunaan jarak Euclidean memenuhi 3 asumsi yaitu mempunyai ukuran
satuan yang sama, pengukuran pembakuan mempunyai nilai tengah nol dan
simpangan baku satu dan peubah tidak saling berkorelasi.
Proses pengelompokan Hybrid Hierarchical Clustering dengan menggunakan jarak Square Euclidean dimulai dengan terdapat data amatan tentang Penduduk Buta Aksara Kabupaten/kota di Indonesia Tahun 2010-2015 (dalam
bentuk persen). Kemudian, objek-objek tersebut dipartisi ke dalam k kelompok. Lalu, hitung pusat kelompok dimana pusat kelompok merupakan ratarata dari keseluruhan obyek yang berada dalam kelompok tersebut. Setelah
itu, hitung jarak setiap objek ke pusat kelompok dengan menggunakan jarak
Square Euclidean. Jika ada obyek yang berpindah dari posisi awal, maka pusat
kelompok dihitung kembali, lalu cek kembali posisi obyeknya. Ulangi langkah
tersebut apabila posisi obyek masih berpindah-pindah. Jika sudah tidak ada
obyek yang berpindah posisi, hitung jarak kelompok pertama dengan objek lain menggunakan metode pengelompokan average linkage yang kemudian akan

17
menghasilkan jarak pertama. Dikarenakan 2 obyek pada tahap awal membentuk satu kelompok tunggal, sehingga banyak obyek berkurang 1. Penggabungan berakhir sampai terbentuk sebuah kelompok tunggal. Di bawah ini
adalah diagram alir mengenai pengelompokan menggunakan metode Hybrid
Hierarchical Clustering dengan jarak Square Euclidean:

Gambar 2.3: Diagram alir pengelompokan menggunakan metode Hybrid Hierarchical Clustering dengan jarak Square Euclidean.

BAB III
PEMBAHASAN

3.1

Pengelompokan Menggunakan Metode Hybrid


Hierarchical Clustering dengan Jarak Square Euclidean

Akan dimasukan diagram alir proses dan pengertian dari setiap variabel
serta interpretasi langkah langkah

3.2

Efektivitas Metode Hybrid Hierarchical Clustering dengan Jarak Square Euclidean

Kelebihan dari metode Hybrid Hierarchical Clustering untuk hasil yang


didapat

3.3

Contoh Kasus

Metode Hybrid Hierarchical Clustering ini akan diaplikasikan ke dalam


pengelompokan Penduduk Buta Aksara Kabupaten/Kota di Indonesia tahun
2010-2015.

18

DAFTAR PUSTAKA

Agustina, Mitakda dan Solimun. 2013. Pemilihan Metode Pengelompokan


Terbaik Kabupaten/Kota Berdasarkan Indikator Pendidikan Menggunakan Hybrid Melalui Mutual Cluster, Bottom-up, dan Top-down, Jurnal Mahasiswa Statistik Universitas Brawijaya-Malang Vol. 1 No. 3. Hal.
205-208.
Bikriyah. 2014. Analisis Hybrid Hierarchical Clustering Melalui Mutual Cluster, Bottom-up, dan Top-down Menggunakan Jarak Euclidean dan Mahalanobis, Jurnal Mahasiswa Statistik Universitas Brawijaya-Malang
Vol. 2 No. 5. Hal. 397-400.
Chipman dan Tibshirani. 2006. Hybrid Hierarchical Clustering With Applications To Microarray Data, Biostatistics Journal-Oxford England. Hal.
286-301.
Hair, dkk. 2010. Multivariate Data Analysis, Seventh Ed. New Jersey: Prentice
Hall International, Inc.
Johnson dan Wichern. 2002. Applied Multivariate Analysis, Fifth Edition. New
Jersey: Prentice Hall, Inc.
Manly. 1988. Multivariate Statistical Methods. New York: Chapman Hall.
Santoso. 2010. Statistik Multivariat. Jakarta: PT Elex Media Komputindo.
Walpole. 1995. Pengantar Statistika. Edisi ke-5. Jakarta: Terjemahan Bambang Sumantri, Gramedia.

19

Anda mungkin juga menyukai