ANALISIS CLUSTER
DISUSUN OLEH:
KELOMPOK 1
1. Ilham Agusman Hanafi 18037030
2. Lia Apriyani 18037036
3. Melia Wahyuni 18037044
4. Mutiara Putri 18037050
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI PADANG
2020
Analisis Cluster
Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam
beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain.
Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau
variasi obyek dalam kelompok yang terbentuk sekecil mungkin.
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari
populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur
sebenarnya dari populasi tersebut. Karena itu, pembuangan outliers sangat penting dalam
analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek
dengan profil-profil yang berbeda, atau value yang berbeda dalam satu atau beberapa
variabel.
2) Kesamaan Ukuran
Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject
Similarity adalah sebuah ukuran untuk kesesuaian atau kemiripan, diantara objek-objek
yang akan dipilah menjadi beberapa cluster. Interobject Similarity dapat diukur dengan
beberapa cara, antara lain : Correlatioal Measures, Distance Measures, dan Association
Measures. Pemilihan metode tergantung pada tujuan dan jenis data. Correlatioal
Measures dan Distance Measures digunakan untuk data dengan tipe metic,
sedangkan Association Measures digunakan bila data bertipe non-metic.
a. Correlatioal Measures
The Interobject Measures Similarity dapat diukur dengan corelation
coefficient antara pasangan obyek-obyek yang diukur dalam beberapa variabel.
Tingginya korelasi menujukkan kesamaan dan rendahnya korelasi menunjukkan
ketidaksamaan.
b. Distance Measures
Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya
semakin rendah kesamaan dalam pasangan obyek.
c. Association Measures
Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati
bertipe non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya
atau tidakdalam sebuah pertanyaan.
3) Standarisasi Data
Sama halnya dengan seleksi kesamaan ukuran, dalam standarisasi data ni peneliti
harus menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus
distandarisasi? Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa
masalah, misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala.
Secara umum, variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang
lebih pada hasil akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap
pengukuran dari variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu
: standarisasi berdasarkan variabel dan standarisasi berdasarkan observasi.
Clustering Algorithm
Petanyaan pertama yang harus dijawab dalam tahapan ini adalah : prosedur apa
yang akan digunakan untuk mengelompokkan obyek-obyek dalam kelompok-kelompok
atau cluster-cluster ? Atau dengan kata lain clustering algorithm atau aturan apa yang
lebih tepat ?
Secara umum clustering algorithm digolongkan dalam dua kategori, yaitu :
a. Metode Hirarki
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative
(pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap
obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap
selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah
cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita
beranjak dari sebuah cluster besar yang terdiri dari semua obyek atau observasi.
Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita
pisahkan demikian seterusnya.
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu : Single
Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid
Method.
Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua
obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung
menjadi satu cluster daan demikian saterusnya.
Complete Linkage, berlawanan dengan Single Linkage prosedur ini
pengelompokkannya berdasarkan jarak terjauh.
Average Linkage, prosedure ini hampir sama dengan Single Linkage
maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata jarak
seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster
yang lain.
Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan
total sum of square dua cluster pada masing-masing variabel.
Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan
jarak centroid dua cluster yang bersangkutan.
b. Metode Nonhirarki
Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi
proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster
sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah
memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak
tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster
selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-
objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada
cluster asalnya. Metode nonhirarki cluster berkaitan dengan K-means custering, dan
ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi
pada satu cluster.
a) Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan
satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke
dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan,
kemudian cluster yang kedua dipilih dan menempatkan semua objek yang
berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses
dilanjutkan seperti yang sebelumnya.
b) Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari
pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara
bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak
antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat
ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga
beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika
berada di luar jarak tertentu dari sejumlah cluster.
c) Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya
kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-
objek ke dalam cluster yang lebih dekat.
PANGSA
BANY PANGSA
PERSEN BANYAKN PASAR PANGSA
PERSENTAS AKNY PASAR
TASE YA ROKOK PASAR
E A ROKOK
KABUPA KELUAR INDUSTRI PRODUK ROKOK
PENDUDUK INDUS PRODUK
TEN GA KECIL DAN SI PRODUKSI
TIDAK TRI SI
PERTAN MENENGA GUDAN SAMPOERN
TAMAT SD PENGO DJARUM
IAN H G A
LAHAN KUDUS
GARAM
BANYU
21 30 166 55 2.7 30 13
WANGI
CIANJUR 36 35 220 206 6.9 30 12
JEMBER 30 5.2 538 255 20 29 27
JEPARA 8.4 4.5 555 119 13 27 18
JOMBAN
36 25 86 94 30 10 11
G
KEDIRI 5.7 2.3 468 287 19 11 24
KUDUS 9.8 35 579 397 21 28 26
KULONP
7.1 33 404 79 14 30 18
ROGO
LUMAJA
38 15 71 48 4.5 18 8.5
NG
MAJALE
22 13 114 65 12 11 18
NGKA
Tentukan jumlah gerombol dari data pada tabel di atas menggunakan metode berhirarki!!
Gunakan metode K-means dengan 2 gerombol!
METODE BERHIRARKI DENGAN MENGGUNAKAN PROGRAM SPSS
1) Buka Aplikasi SPSS, setelah itu buat variabel dantipe datanya, seperti gambar di bawah ini
Untuk 5 cluster, diperoleh pengelompokkan yaitu cluster 1 terdiri dari Banyuwangi, Cianjur,
jepara, kulonprogo, lumajang, majalengka. Cluster 2 yaitu jember. Cluster 3 yaitu jombang .
Cluster 4 yaitu Kediri. Cluster 5 :Kudus.
Hasil output di atas merupakan dendogram hasil analisis cluster dengan metode single linkage.
Dimana, semakin banyak cluster yang dipilih maka jarak nya semakin kecil. Dari dendogram di
atas dengan jarak lebih dari 25 maka diperoleh 1 cluster (tidak terjadi pengelompokkan),
sedangkan jika jaraknya 25 maka didapat 2 cluster yaitu cluster 1 terdiri dari
banyuwangi,cianjur,kulonprogo, jepara, lumajang, majalengka, jember, Kediri,jombang , cluster
2 yaitu kudus. Hasil ini serupa dengan tabel output sebelumnya (tabel cluster membership) jika
yang dipilih adalah 2 cluster. Begitu pula jika kita mengambil jaraknya adalah 20 maka terdapat
3 cluster, dimana cluster 1 terdiri dari banyuwangi,cianjur,kulonprogo, jepara, lumajang,
majalengka, cluster 2 yaitu kediri , sedangkan kabupaten sisanya masuk ke cluster 3. Begitu pula
untuk jarak lainnya yang menghasilnya jumlah cluster yang kemungkinan berbeda satu sama
lain. Semakin banyak cluster yang terbentuk maka jaraknya semakin kecil. Artinya, semakin
memiliki kemiripan yang besar di dalam cluster dan memiliki ketidakmiripan antar cluster.
Dalam pengolahan analisis cluster dengan menggunakan spss, dapat dijadikan sebagai catatan
bahwa hasil dendogram pada metode hirarki tidak ditentukan jumlah clusternya. Hasil atau
output dendogram dengan jumlah cluster tertentu ditentukan oleh jaraknya sampai hanya
terbentuk 2 cluster. Pada dendogram di atas, jarak maksimumnya adalah 25 (yaitu hingga hanya
terbentuk 2 cluster). Berbeda dengan metode non-hirarki seperti K-Means yang terlebih dahulu
sudah ditentukan jumlah clusternya.
Seperti yang telah dijelaskan sebelumnya, maka metode non-hirarki adalah metode
clustering dimana jumlah cluster nya diketahui. Pada kasus ini jumlah cluster ditentukan
sebanyak 2 cluster. Dari output di atas terlihat bahwa banyaknya objek di cluster pertama
sebanyak 5 kabupaten sedangkan sisanya (5 kabupaten) dikelompokkan ke cluster 2.