(CLUSTER ANALYSIS)
OLEH:
KELOMPOK 2
1. NI LUH GEDE SAPUTRI DEWI (1902612010139/02)
2. I MADE IRVAN WIDIATMIKA (1902612010141/04)
3. I MADE PRATAMA (1902612010166/29)
4. NI LUH PUTU MAHENI (1902612010167/30)
5. NI PUTU TYA RUMALA SARI (1902612010171/34)
1
ANALISIS KLUSTER
Kajian Analisis Kluster:
1
1. PENGERTIAN ANALISIS KLUSTER
Analisis kluster termasuk dalam analisis statistic multivariate metode
interdependen. Analisis kluster merupakan suatu alat analisis yang berguna untuk
meringkas data yang dapat dilakukan dengan jalan mengelompokkan obyek-obyek
berdasarkan kesamaan karakteristik tertentu di antara obyek-obyek yang hendak diteliti.
Kesamaan tersebut dinyatakan dalam ukuran similaritas atau disimilaritas.
Kesamaan obyek dapat diukur dengan koefisein korelasi (koefisien ini
menunjukkan jika satu variabel berubah apakah variabel lainnya juga berubah dalam
jumlah yang sama). Seacara teori koerelasi ini dapat diterapakan pada dua orang untuk
melihat apakah pola jawaban satu orang sama dengan pola jawaban orang lainnya.
Pengguna korelasi untuk membandingkan dua orang mempunyai kelemahan. Walaupun
korelasi dapat menjelaskan apakah pola jawaban dua orang itu sama atau mirip, tetapi
korelasi tidak dapat menjelaskan jarak (discante) antara profil dua orang tersebut .
Alternatif lain untuk mengukur kesamaan atau kemiripan adalah Euclidean distance
yaitu jarak geometris antara dua obyek (kasus). Dengan Euclidean distance semakin kecil
jarak, maka semakin mirip suatu kasus atau obyek. Namun demikian Euclidean distance
sangat sensitif terhadap besarnya sample dan besarnya sebaran variance Jika kasus yang
sedang kita bandingkan memiliki variance yang sangat berbeda, maka Euclidean distance
menjadi tidak akurat. Oleh sebab itu perlụ dilakukan standardisasi skore sebelum dilakukan
analisis. Standardisasi skore penting jika variabel diukur dengan skala pengukuran yang
berbeda.
Setelah pengukuran kemiripan antar kasus dilakukan langkah selanjutnya adalah
bagaimana cara mengelompokkan kasus berdasarkan kemiripannya. Ada beberapa metode
yang dapat dilakukan yang kesemuanya adalah dengan cara hierarki.
a. Single Linkage atau SLINK (Tetangga Terdekat) Metode ini adalah yang paling sederhana
dan merupakan titik awal memahami prinsip dasar bagaimana suatu kluster dibentuk.
Langkah yang dilakukan sebagai berikut:
1) Setiap kasus dimulai sebagai kluster
2) Tentukan dua kasus/kluster yang paling mirip (mis. A dan B) dengan melihat
kemiripan koefisien antar dua pasang kasus (korelasi atau Euclidean distance).
2
Kasus atau kluster yang memiliki kemiripan tertinggi dikelompokkan untuk
membentuk kluter yang lebih besar.
3) Kasus atau Kluster berikutnya (C) digabungkan dengan kluster besar ( A dan B)
adalah kasus yang mempunyai koefisien kemiripan tertinggi terhadap A atau B.
4) Kasus berikutnya digabungkan dengan kluster besar adalah kasus yang mempunyai
koefisien kemiripan teringgi terhadap A,B atau C dan seterusnya.
b. Complete Linkage atau CLINK (Tetangga Terjauh) Metode ini merupakan lawan dari
simple linkage. Prosedur sama dengan simple linkage yaitu kita melihat dua kasus yang
memiliki kemiripan tertinggi (berdasarkan pada korelasi atau euclidean distance). Dua
kasus yaitu A dan B membentuk inti dari kluster. Langkah berikutya adalah mencari kasus
yang memiliki kemiripan tertinggi terhadap kedua A dan B, misalkan C dan ditambahkan
kepada kluster. Langkah berikutnya mencari kasus yang memiliki kemiripan tértinggi
terhadap A, B dan C dan seterusnya.
c. Metode berikutnya adalah Average (between-group) linkage dan Ward's method.
d. Keterbatasan Analisis Kluster: analisis kluster memiliki beberapa keterbatasan antara lain:
1) Perbedaan metode kluster akan memberikan hasil yang berbeda. Hal ini terjadi
karena adanya perbedaan penggabungan kluster.
2) Kecuali metode single linkage, metode lainnya sangat dipengaruhi oleh cara
pengurutan variabel di dalam analisis.
3) Analisis tidak stabil jika ada kasus yang di dropped.
3
Sedangkan manfaat analisis kluster adalah eskplorasi data peubah ganda, reduksi
data startifikasi sampling, dan prediksi keadaan obyek. Hasil dari analisis kluster
dipengaruhi oleh obyek yang diklusterkan, peubah yang diamati, ukuran kemiripan atau
jarak yang dipakai, skala ukuran yang dipakai, serta metode pengklusteran yang digunakan.
Analisis kluster memiliki banyak manfaat dalam riset pasar, seperti selektivitas tinggi dari
masing-masing kelompok melalui heterogenitas yang besar antar kelompok, karakterisasi
yang ditargetkan dari kelompok hestanto.web.id individu melalui homogenitas maksimum
serta membantu mengurangi kerugian divergensi dalam langkah pemasaran selanjutnya,
transfer sederhana dari cluster ke variable yang berbeda sehingga kelompok target dapat
dengan mudah ditentukan oleh perusahaan yang berbeda melalui analisis cluster,
memungkinkan untuk evaluasi data yang ada, pengeluaran personel minimal serta biaya
rendah.
4
4. KASUS DALAM RISET PENGGUNAAN ANALISIS KLUSTER
Contoh kasus riset penggunaan analisis kluster, dimana terdapat 19 kabupaten dengan 7
variabel yang akan dianalisis dengan menggunakan cara Hierarki metode Single Linkage
5
3) Tampak di layar windows Descriptives. kemudian masukkan seluruh variable
instrument penilai (dalam hal ini variable kabupaten tidak dimasukkan karena data
bertipe string)). Kemudian berikan centang pada Save Standardized Values As
Variables kemudian klik OK.
Sehingga muncul output deskriptif statistic. Kemudian pada data view akan terlihat
hasil perhitungan Z-Score dan hasil Z-Score inilah yang akan dipakai sebagai dasar
analisis cluster. Namun apabila data yang terkumpul tidak mempunyai variabilitas
satuan, maka proses analisis cluster dapat langsung dilakukan tanpa terlebih dahulu
melakukan transformasi atau standardisasi.
6
4) Selanjutnya, klik menu Analyze, lalu submenu Classify dan pilih Hierarchical
Cluster.
7
7) Pilih Method dan pilih Nearest neighbor pada bagian Cluster Method, pada
Measure lalu Interval pilih Euclidean distance, dan pada Transform Values lalu
Standardize pilih Z scores lalu tekan Continue.
8) Pilih Plots lalu aktifkan Diendrogram, All clusters, dan Vertical lalu tekan
Continue.
8
Tutorial data yang digunakan dalam analisis Cluster Membership:
1) Tampak di layar windows Hierarchical Cluster Analysis pada bagian Statistics, aktifkan
Agglomeration Schedule dan Proximity Matrix. Kemudian pada Range of solutions
pilih angka 2 pada Minimum number of cluster dan angka 5 pada Maximum number
of cluster. Lalu klik Continue.
2) Kemudian pada bagian Plots aktifkan Dendogram, lalu pada bagian Icicle pilih None.
Selanjutnya klik Continue.
9
Hasil Analisis Deskriptive Statistik
Descriptive Statistics
Proximities
Case Processing Summarya
Cases
Valid Missing Total
N Percent N Percent N Percent
Table output di atas menunjukkan bahwa semua data sejumlah 19 obyek telah diproses tanpa ada
data yang hilang.
10
Cluster
Table di atas menunjukkan matriks jarak antara variable satu dengan variable yang lain. Semakin
kecil jarak Euclidean, maka semakin mirip kedua variable tersebut sehingga akan membentuk
sebuah cluster atau kelompok.
Single Linkage
Agglomeration Schedule
1 3 7 .928 0 0 3
2 2 19 .989 0 0 13
3 3 6 1.107 1 0 5
4 1 11 1.124 0 0 7
5 3 18 1.226 3 0 17
6 4 14 1.323 0 0 10
7 1 5 1.327 4 0 9
8 9 12 1.526 0 0 9
9 1 9 1.528 7 8 13
10 4 17 1.549 6 0 11
11 4 8 1.598 10 0 12
12 4 15 1.658 11 0 14
13 1 2 1.779 9 2 15
14 4 16 2.018 12 0 16
15 1 10 2.024 13 0 18
16 4 13 2.034 14 0 17
17 3 4 2.295 5 16 18
11
18 1 3 2.364 15 17 0
Table aglgomeration schedule adalah bagian yang sangat penting pada saat mencoba
interpretasi analisis cluster hierarkis. Proses agglomeration ini bersifat kompleks, khususnya
perhitungan koefisien yang melibatkan sekian obyek dan terus bertambah. Proses agglomeration
akhirnya akan menyatukan semua obyek menjadi satu cluster dengan masing-masing anggotanya
tergantung jumlah cluster yang dibentuk.
Table di atas merupakan hasil proses clustering dengan metode Single Linkage. Setelah
jarak antar variable diukur dengan jarak Euclidean, maka dilakukan pengelompokkan yang
dilakukan secara bertingkat. Dimana stage 1 terbentuk cluster yang beranggotakan sampel no 3
dan 7 dengan jarak 0.928 karena proses aglomerasi dimulai dari 2 obyek yang terdekat, maka jarak
tersebut adalah jarak terdekat dari sekian kombinasi jarak 18 obyek yang ada. Selanjutnya dilihat
pada kolom terakhir (Next Stage) terlihat angka 3. Hal ini berarti clustering selanjutnya dilakukan
dengan melihat stage 3. Demikian seterusnya dari stage 3 dilanjutkan ke stage 13 sampai ke stage
terakhir.
12
Dendogram berguna untuk menunjukkan anggota cluster yang ada jika ditemukan
beberapa cluster yang seharusnya dibentuk. Hasil output di atas merupakan dendogram hasil
analisis cluster dengan metode Single Linkage. Dimana, semakin banyak cluster yang dipilih maka
jarak nya semakin kecil. Dari dendogram di atas dengan jarak lebih dari 25 maka diperoleh 1
cluster (tidak terjadi pengelompokkan), sedangkan jika jaraknya 25 maka didapat 2 cluster yaitu
cluster 1 terdiri dari Cianjur, Sukabumi, Banyuwangi, Pacitan, Jombang, Lumajang, Pamekasan,
dan Majalengka sedangkan kabupaten lainnya masuk ke cluster 2. Hasil ini serupa dengan tabel
output selanjutnya (tabel cluster membership) jika yang dipilih adalah 2 cluster. Begitu pula jika
kita mengambil jaraknya adalah 20 maka terdapat 3 cluster, dimana cluster 1 terdiri dari Jember,
Kediri, Kudus, dan Sleman, cluster 2 terdiri dari Cianjur, Sukabumi, Banyuwangi, Pacitan,
Jombang, Lumajang, Pamekasan, dan Majalengka, sedangkan kabupaten sisanya masuk ke cluster
3. Begitu pula untuk jarak lainnya yang menghasilnya jumlah cluster yang kemungkinan berbeda
satu sama lain. Semakin banyak cluster yang terbentuk maka jaraknya semakin kecil. Artinya,
13
semakin memiliki kemiripan yang besar di dalam cluster dan memiliki ketidakmiripan antar
cluster.
Dalam pengolahan analisis cluster dengan menggunakan spss, dapat dijadikan sebagai
catatan bahwa hasil dendogram pada metode hierarki tidak ditentukan jumlah clusternya. Hasil
atau output dendogram dengan jumlah cluster tertentu ditentukan oleh jaraknya sampai hanya
terbentuk 2 cluster. Pada dendogram di atas, jarak maksimumnya adalah 25 (yaitu hingga hanya
terbentuk 2 cluster). Berbeda dengan metode non-hierarki seperti K-Means yang terlebih dahulu
sudah ditentukan jumlah clusternya.
Hasil Analisis Cluster Membership:
Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada table output di bawah
ini:
Cluster Membership
1:Banyuwangi 1 1 1 1
2:Cianjur 1 1 1 1
3:Jember 2 2 2 2
4:Jepara 3 3 3 2
5:Jembang 1 1 1 1
6:Kediri 2 2 2 2
7:Kudus 2 2 2 2
8:Kulonprogo 3 3 3 2
9:Lumajang 1 1 1 1
10:Majalengka 4 1 1 1
11:Pacitan 1 1 1 1
12:Pamekasan 1 1 1 1
13:Pasuruan 5 4 3 2
14:Pati 3 3 3 2
15:Probolinggo 3 3 3 2
16:Rembang 3 3 3 2
17:Serang 3 3 3 2
18:Sleman 2 2 2 2
19:Sukabumi 1 1 1 1
Dari table di atas, jika mengingikan 2 cluster, maka yang menjadi anggota cluster 1 dilihat pada
kolom “2 cluster” dengan symbol 1 yaitu sampel Kabupaten Banyuwangi, Cianjur, Jembang,
Lumajang, Majalengka, Pacitan, Pamekasan, dan Sukabumi. Sedangkan Kabupaten lainnya
dikelompokkan pada cluster 2. Begitu juga untuk jumlah cluster sebanyak 3,4, dan 5.
14