Analisis Cluster
Analisis Cluster
ANALISIS CLUSTER
Pendahuluan
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama
untuk
mengelompokkan
objek-objek
berdasarkan
karakteristik
yang
dimil
ikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang paling dekat
kesamaannya dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang
terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang
tinggi. Berbeda dengan teknik multivariat lainnya, analisis ini tidak mengestimasi set
vaiabel secara empiris sebaliknya menggunakan setvariabel yang ditentukan oleh peneliti
itu sendiri. Fokus dari analisis cluster adlah membandingkan objek berdasarkan set
variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel sebagai
tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabel yang
merpresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis faktor
adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis
faktor terfokus pada kelompok variabel.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap
penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa solusi yang
berbeda dapat diperoleh dengan mengubah satu elemen atau lebih. Solusi cluster secara
keseluruhan bergantung pada variabel-variaabel yang digunakan sebagai dasar untuk
menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat
mempengaruhi substansi hasi analisisi cluster.
2
Cara Kerja Analisis Cluster
Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja analisis
cluster, yaitu :
1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu ukuran korelasi,
ukuran jarak, dan ukuran asosiasi.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yang
memiliki kesamaan yang tinggi ke dalam sutau cluster yang sama.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas alam cluster
secra otomatis akan menurun.
3
analisis cluster dapat diterapkan secara luas. Meskipun secara empiris merupakan teknik
eksplorasi analisis cluster dapat pula digunakan untuk tujuan konfirmasi.
a. Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan
struktur yang terbatas observasi/objek dapat dikelompokkan untuk analisis
selanjutnya.
b. Identifikasi Hubungan (Relationship Identification)
Hubunganantar objek diidentifikasi secara empiris. Struktur analisis cluster
yang sederhana dapat menggambarkan adanya hubungan atau kesamaan dan
perbedaan yang tidak dinyatakan sebelumnya.
dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan
dan secara spesifik harus sesuai dengan tujuan analisis cluster.
4
Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan,
dan standarisasi data.
A. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya. Outlier
dapat digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili
populasi umum, dan adanya undersampling dapat pula memunculkan outlier.
Outlier menyebabkan menyebabkan struktur yang tidak benar dan cluster yang
terbentuk menjadi tidak representatif.
B. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster. Kesamaan
antar objek merupakan ukuran korespondensi antar objek. Ada tiga metode yang
dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
a. Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik, namun
jarang digunakan karena titik bertnya pada nilai suatu pola tertentu,
padahal tisik berat analisis cluster adalah besarnya objek. Kesamaan
antar objek dapat dilihat dari koefisien korelasi antar pasangan objek
yang diukur dengan beberapa variabel.
b. Ukuran Jarak
Merupakan ukuran yang paling sering digunakan. Diterapkan untuk
data berskala metrik. Sebenarnya merupakan ukuran ketidakmiripan,
dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya
5
jarak yang pendek/kesil menunjukkan bahwa suatu objek makin mirip
dengan objek lain. Bedanya dengan ukuran korelasi adalah bnahwa
ukuran jarak fokusnya pada besarnya nilai. Cluster berdasarkan ukuran
korelasi bisa saja tidak memiliki kesamaan nilai tapi memiliki
kesamaan pola, sedangkan cluster dberdasrkan ukuran jarak lebih
memiliki kesamaan nilai meskipun polanya berbeda.
Ada beberapa tipe ukuran jarak antara lain jarak Euklidian, jarak cityBox, dan jarak Mahalanobis. Ukuran yang paling sering digunakan
adalah jarak Euklidian. Jarak Euklidian adalah besarnya jarak suatu
garis lurus yang menghubungkan antar objek. Misalkan ada dua objek
yaitu A dengan koordinat ( ) dan B dengan koordinat (
) maka jarak
C. Standarisasi Data
a. Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah konversi
setiap variabel terhadap skor atandar ( dikenal dengan Z score)
dengan melakukan substraksi nilai tengan dan membaginyadengan
standar deviasi tiap variabel.
b. Standarisasi Data
6
Berbeda dengan standarisasi variabel, standarisasi ndata dilakukan
terhadap observasi/objek yang akan dikelompokkan.
7
substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan
dilakukan terhadap hasil tersebut.
Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif cluster terhadap
variasi dalam cluster. Dua metode paling umum dalam algoritma cluster adalahmetode
hirarkhi dan metode non hirarkhi. Penentuan metode mana yag akan dipakai tergantung
kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan
konsep yang berlaku. Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan metode
hirarkhi adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun
kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan
untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki
keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada
data outlier, ukuran jarak yang digunakan, dan
variabel yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal
nonrandom, penggunaan metode non hirarkhi untuk titik bakal random secara nyata
lebih buruk dari pada metode hirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode ini. Pertama
gunakan metode hirarkhi kemudian dilanjutkan dengan metode non hirarkhi.
A. Metode Hirarkhi
Tipe dasar dalam metode ni adalah aglomerasi dan pemecahan. Dalam metode
aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga
8
terdapat cluster sebyak jumlah observasi. Kemudian dua cluster yang terdekat
kesamaannya digabung menjadi suatu cluster babru, sehingga jumlah cluster berkurang
satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar
yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak
sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga
tiap observasi menjadi cluster sendiri-sendiri.
Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu
bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
Ada lima metode aglomerasi dalam pembentukan cluster, yatiu :
a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek
yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan
pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama
pendekatan tetangga terdekat.
b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak
maksimum. Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu
sama lain pada suatu jarak maksimuma atau dengan kesamaan minimum.
c. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai
dari tengan atau pasangan observasi dengan jarak paling mendekati jarak ratarata.
9
d. Metode Ward (Wards Method)
Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara
dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk
mengkombinasi cluster-cluster dengan jumlah kecil.
e. Metode Centroid
Jarak antara dua cluster adalah jarak antar centroid cluster tersebut.
Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set
variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika
dibandingkan dengan metode lain.
B. Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi adalah bagaimana memilih
bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil
akhir analisis cluster. Bakal cluster pertama adalah observasi pertama dalam set
data tanpa missing value. Bakal kedua adalah observasi lengkap berikutnya (tanpa
missing data) yang dipisahkan dari bakal pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi, yaitu :
a. Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan menyertakan
seluruh objek dalam jarak tertentu. Jika seluruh objek dalam jarak tersebut
disertakan, bakal cluster kedua terpilih, kemudian proses terus
berlangsung seperti sebelumnya.
10
b. Parallel Threshold
Metode ini memilih beberapa bakal cluster secara simultan pada
permulaannya dan menandai objek-objek dengan jarak permulaan ke bakal
terdekat.
c. Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali pada
penandaan ulang terhadap objek-objek.
Hal penting lain dalam tahap keempat adalah menentukan jumlah cluster yang
akan dibentuk.Sebenarnya tidak ada standar,prosedur pemilihan tujuan eksis.
Karena tidak ada kriteria statistik internal digunakan untuk inferensia, seperti
tes
signifikansipada
teknik
multivariat
lainnya,
para
peneliti
telah
11
Secara keseluruhan proses analisis cluster berakhir setelah keenam tahap ini dilalui. Hasil
analisis cluster dapat digunakan untuk berbagai kepentingan sesuai dengan materi yang
dianalisis.
12
Contoh:
Berdasarkan data BPS pada laporan Sosial Indonesia dari Supas dan Sakernas
1995 didapatkan data seperti pada tabel 1.
Mengingat penduduk lansia semakin lama semakin banyak, didasarkan perkiraan
BPS pada tahun 2005 penduduk lansia cenderung bertambah atau ada perubahan struktur
dari struktur penduduk muda ke struktur penduduk tua. Maka dari itu perlu adanya
perhatian ekstra dari pihak pemerintah untuk permsalahan ini.
Pembentukan wilayah pembinaan untuk permasalahan lansia dapat dilakukan
dengan membentuk wilayah konsentrasi berdasarkan data pada tabel 1. Model analisis
cluster sangat mendukung penbentukan wilayah tersebut.
Tabel. 1
Enam Kriteria Keterlantara Lansia Menurut Propinsi
PROPINSI
SUMATERA
UTARA
SUMATERA
BARAT
RIAU
JAMBI
SUMATERA
SELATAN
BENGKULU
LAMPUNG
DKI JAKARTA
JAWA BARAT
JAWA TENGAH
makan
makanan
tidak pernah
pokok
sekolah/tamat
<21X
SD
dalam
seminggu
makan
tidak
lauk pauk
memiliki mempunyai
berprotein
pakaian tempat
tinggi<4X
<4 stel
tetap untuk
dalam
tidur
seminggu
bila
sakit
tidak
diobati
63,13
38,67
35,70
16,79
2,48
3,33
57,48
48,23
17,48
20,60
0,90
4,05
67,72
75,99
50,59
44,10
18,43
29,77
9,95
27,94
1,58
1,76
3,34
2,55
65,69
58,39
27,90
24,67
5,57
5,18
71,37
80,64
37,80
70,84
79,30
52,02
35,59
56,38
70,48
35,99
35,60
41,56
12,28
31,37
16,25
30,64
34,15
87,24
17,17
19,36
2,17
1,48
1,45
1,82
1,89
4,29
2,78
6,78
5,32
3,97
13
D.I.
YOGYAKARTA
JAWA TIMUR
BALI
NUSA
TENGGARA
BARAT
NUSA
TENGGARA
TIMUR
KALIMANTAN
BARAT
KALIMANTAN
TIMUR
KALIMANTAN
SELATAN
KALIMANTAN
TENGAH
SULAWESI
UTARA
SULAWESI
TENGAH
SULAWESI
SELATAN
SULAWESI
TENGGARA
IRIAN JAYA
76,05
46,27
11,35
17,45
1,17
4,72
82,76
77,96
30,86
42,28
15,13
6,28
30,77
25,74
2,01
0,34
3,55
4,87
86,92
33,09
23,48
48,28
3,20
4,64
87,36
56,75
58,67
49,77
1,42
9,31
83,48
54,34
38,60
29,46
3,87
7,51
60,37
50,29
18,78
28,13
6,69
2,68
76,93
38,72
16,65
29,37
2,77
7,07
73,43
52,45
18,18
12,72
1,11
1,01
51,30
58,14
25,58
11,08
1,84
2,89
66,01
54,47
16,29
32,81
2,47
8,66
77,62
58,74
10,93
24,03
3,70
6,89
74,65
72,91
3,19
17,78
1,07
8,78
52,32
70,04
30,37
16,84
6,58
18,62
Dalam melakukan analisis cluster terdapat dua metode yaitu metode kelompok
hiraki dan metode kelompok non hirarki.
Dalam hal ini metode yang digunakan adalah metode hiraki karena paling banyak
digunakan oleh para peneliti dan memiliki keunggulan tersendiri, yaitu pengelompokan
yang terbentuk dapat terjadi secara alamiah.
Berdasarkan hasil pengolahan didapatkan Hasil sebagai berikut:
14
15
Dilihat dari kemiripan dalam melakukan pengklusteran propinsi Jambi dengan
Sumatera Utara mempunyai jarak 2,241. sedang propinsi Jambi dengan Sumatera Selatan
berjarak 7,830. Jadi karakteristik lansia terlantar di propinsi Jambi dengan Sumatera
Utara lebih mirip bila dibandingkan dengan propinsi Jambi dengan Sumatera Selatan.
Demikian pula kemiripan propinsi0propinsi lainnya dapat dilihat dengan melihat
kedekatan jaraknya. Semakin dekat jaraknya berarti semakin mirip.
Dari tabel 3., kita bisa melihat bahwa aglomerasi melakukan pengelompokkan
secara satu demi satu. Pada tahap 1 (stage 1) kasus nomor 3 (propinsi ke 3) dan 19
(propinsi ke 19) adalah yang paling mirip, maka mereka menjadi kelompok terlebih
dahulu. Kemudian lihat kolom next stage pada baris pertama, yang merupakan kelanjutan
stage untuk cluster. Terlihat stage 14 yang berarti stage dilanjutkan ke stage 14.
Pada stage 14 terlihat bahwa angka 3 (propinsi 3) dan 11 (propinsi 11) hal ini
berarti bahwa propinsi 11 masuk pada kelompok 1 yang terbentuk yaitu 3 dan 19. dengan
demikian sudah diketahui bahwa ada 3 anggota yang sudah diketahui clusternya.
Kemudian lihat next stage pada baris ke 14. dimana cluster terakhir dilakukan. Terlihat
angka 17, yang berarti proses cluster dilanjutkan ke stage 17. demikian selanjutnya
sampai semua cluster terbentuk.
16
Tabel 3.
Agglomerasion Schedule
Agglomeration Schedule
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
Cluster Combined
Cluster 1
Cluster 2
3
19
10
12
11
13
4
6
10
18
2
20
5
17
21
22
1
4
1
7
2
3
10
14
9
16
21
23
10
11
9
21
1
2
5
9
1
10
5
15
5
24
5
8
1
5
Coefficients
.390
.788
1.188
1.759
2.758
3.828
4.909
6.047
7.473
9.159
11.209
13.356
16.215
19.278
22.930
28.014
35.627
45.231
56.362
69.666
86.659
108.660
138.000
Next Stage
11
5
15
9
12
11
18
14
10
17
17
15
16
16
19
18
19
20
23
21
22
23
0
Bila melihat keanggotaan kluster, terdapat perubahan letak propinsi dalam cluster,
seperti propinsi Irian jaya yang semula berada dalam kelompok 4 manjadi kelompok 2
dalam cluster 3. Sedang untuk jumlah cluster 2 terdapat perubahan cluster untuk propinsi
Jakarta yang semula ada pada cluster 3 menjadi cluster 2.
Perubahan-perubahan ini dapat dilihat pada tabel dibawah ini.
17
Tabel 4
Keanggotaan Kluster
Cluster Membership
Case
4 Clusters
1:SUMATERA UTARA
1
2:SUMATERA BARAT
1
3:RIAU
1
4:JAMBI
1
5:SUMATERA SELATAN
2
6:BENGKULU
1
7:LAMPUNG
1
8:DKI JAKARTA
3
9:JAWA BARAT
2
10:JAWA TENGAH
1
11:D.I. YOGYAKARTA
1
12:JAWA TIMUR
1
13:BALI
1
14:NUSA TENGGARA
1
BARAT
15:NUSA TENGGARA
2
TIMUR
16:KALIMANTAN BARAT
2
17:KALIMANTAN TIMUR
2
18:KALIMANTAN
1
SELATAN
19:KALIMANTAN TENGAH
1
20:SULAWESI UTARA
1
21:SULAWESI TENGAH
2
22:SULAWESI SELATAN
2
23:SULAWESI
2
TENGGARA
24:IRIAN JAYA
4
3 Clusters
1
1
1
1
2
1
1
3
2
1
1
1
1
2 Clusters
1
1
1
1
2
1
1
2
2
1
1
1
1
2
2
2
2
1
1
2
2
1
1
2
2
Secara visual hasil pengelompokan dapat dilihat pada dendogram di tabel 5..
Pengelompokan propinsi propinsi untuk lansia terlantar dapat dibagi atas beberapa
kelompok. Penentuan banyaknya kelompok dapat dilihat dari karakteristik masingmasing wilayah propinsi.
Melihat dari karakteristik masing-masing wilayah ada beberapa 3 pengelompokan, yaitu:
18
19