Anda di halaman 1dari 21

STATISTIKA MULTIVARIAT TERAPAN

ANALISIS CLUSTER

DISUSUN OLEH:
KELOMPOK 1
1. Ilham Agusman Hanafi 18037030
2. Lia Apriyani 18037036
3. Melia Wahyuni 18037044
4. Mutiara Putri 18037050

JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI PADANG
2020
Analisis Cluster

Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam
beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain.
Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau
variasi obyek dalam kelompok yang terbentuk sekecil mungkin.

1. Proses Analisis Cluster


Tujuan utama analisis cluster menggabungkan objek-objek yang mempunyai kesamaan
kedalam sebuah kelompok atau cluster. Untuk mencapai tujuan itu kita harus menjawab tiga
pertanyaan, yaitu :
a. Bagaimana kita mengukur tingkat kesamaan ?
b. Bagaimana kita membentuk cluster ?
c. Berapa banyak cluster yang akan kita benntuk ?

2. Proses Pengambilan Keputusan dalam Analisis Cluster


Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan, yaitu : menentukan
tujuan analisis cluster, menentukan desain penelitian analisis cluster, menentukan asumsi analisis
cluster, menurunkan cluster-cluster dan memperkirakan overall fit, menginterpretasi hasil
analisis cluster, mengukur tingkat validasi hasil analisis cluster.

Langkah 1 : Tujuan Analisis Cluster


Tujuan analisis cluster secara khusus antara lain :
a. Pengelompokkan
Analisis cluster digunakan dengan tujuan explanatory maupun confirmatory
b. Penyederhanaan data
Analisis cluster menetapkan struktur dari observasi atau data bukan variabel.
c. Pengidentifikasian hubungan
Analisis cluster dapat menunjukkan ada tidaknya hubungan antar observasi atau
obyek dalam analisis
Langkah 2 : Desain Penilitian dalam Analisis Cluster
Sebelum melakukan proses pemilahan obyek kedalam beberapa cluster, terlebih
dahulu peneliti harus menjawab tiga pentanyaan, yaitu : apakah outliers akan dihapus ?,
bagaimana obyek-obyek yang mempunyai kesamaan diukur ?, haruskah data distandarisasi ?
1) Mendeteksi Outliers
Dalam melakukan pemilahan obyek kedalam cluster-cluster, analisis tidak hanya
peka terhadap variabel-veriabel yang tidak sesuai dengan kasus yang diteliti tetapi juga
peka terhadap outliers (obyek-obyek yang “berbeda” dengan obyek yang
lainnya). Outliers terjadi karena 2 dua hal, yaitu :
a. Observasi “menyimpang” yang tidak mewakili populasi
b. Suatu undersampling kelompok-kelompok dalam populasi yang
menyebabkan underrepresentation kelompok-kelompok dalam sampel.

Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari
populasi sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur
sebenarnya dari populasi tersebut. Karena itu, pembuangan outliers sangat penting dalam
analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek
dengan profil-profil yang berbeda, atau value yang berbeda dalam satu atau beberapa
variabel.

2) Kesamaan Ukuran
Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject
Similarity adalah sebuah ukuran untuk kesesuaian atau kemiripan, diantara objek-objek
yang akan dipilah menjadi beberapa cluster. Interobject Similarity dapat diukur dengan
beberapa cara, antara lain : Correlatioal Measures, Distance Measures, dan Association
Measures. Pemilihan metode tergantung pada tujuan dan jenis data. Correlatioal
Measures dan Distance Measures digunakan untuk data dengan tipe metic,
sedangkan Association Measures digunakan bila data bertipe non-metic.
a. Correlatioal Measures
The Interobject Measures Similarity dapat diukur dengan corelation
coefficient antara pasangan obyek-obyek yang diukur dalam beberapa variabel.
Tingginya korelasi menujukkan kesamaan dan rendahnya korelasi menunjukkan
ketidaksamaan.

b. Distance Measures
Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya
semakin rendah kesamaan dalam pasangan obyek.

c. Association Measures
Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati
bertipe non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya
atau tidakdalam sebuah pertanyaan.

3) Standarisasi Data
Sama halnya dengan seleksi kesamaan ukuran, dalam standarisasi data ni peneliti
harus menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus
distandarisasi? Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa
masalah, misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala.
Secara umum, variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang
lebih pada hasil akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap
pengukuran dari variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu
: standarisasi berdasarkan variabel dan standarisasi berdasarkan observasi.

Langkah 3 : Asumsi-asumsi Analisis Cluster


Syarat normality, linearity, dan homoscedasticity sangat diperhatikan dalam
teknik-teknik multivariate yang lain tetapi tidak dalam analisis cluster. Dalam analisis
cluster, peneliti harus lebih memperhatikan masalah : seberapa besar sampel mewakili
populasi (representativeness) dan ada tidaknya multicollinearity.
Langkah 4 : Menurunkan Cluster-Cluster dan Memperkirakan Overall Fit
Peneliti pertama kali harus menentukan clustering algorithm yang akan
digunakan untuk membentuk cluster dan selanjutnya memutuskan berapa cluster yang
akan dibentuk. Dua hal ini mempunyai implikasi yang substensial tidak hanya pada hasil
yang akan diperoleh tetapi juga pada intepretasi hasil tersebut.

 Clustering Algorithm
Petanyaan pertama yang harus dijawab dalam tahapan ini adalah : prosedur apa
yang akan digunakan untuk mengelompokkan obyek-obyek dalam kelompok-kelompok
atau cluster-cluster ? Atau dengan kata lain clustering algorithm atau aturan apa yang
lebih tepat ?
Secara umum clustering algorithm digolongkan dalam dua kategori, yaitu :
a. Metode Hirarki
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative
(pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap
obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap
selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah
cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita
beranjak dari sebuah cluster besar yang terdiri dari semua obyek atau observasi.
Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita
pisahkan demikian seterusnya.
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu : Single
Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid
Method.
Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua
obyek terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung
menjadi satu cluster daan demikian saterusnya.
Complete Linkage, berlawanan dengan Single Linkage prosedur ini
pengelompokkannya berdasarkan jarak terjauh.
Average Linkage, prosedure ini hampir sama dengan Single Linkage
maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata jarak
seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam cluster
yang lain.
Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan
total sum of square dua cluster pada masing-masing variabel.
Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan
jarak centroid dua cluster yang bersangkutan.

b. Metode Nonhirarki
Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi
proses “treelike construction“. Justru menempatkan objek-objek ke dalam cluster
sekaligus sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah
memilih sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak
tertentu ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster
selanjutnya dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-
objek bisa ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada
cluster asalnya. Metode nonhirarki cluster berkaitan dengan K-means custering, dan
ada tiga pendekatan yang digunakan untuk menempatkan masing-masing observasi
pada satu cluster.
a) Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan
satu cluster dan menempatkan semua objek yang berada pada jarak tertentu ke
dalamnya. Jika semua objek yang berada pada jarak tertentu telah dimasukkan,
kemudian cluster yang kedua dipilih dan menempatkan semua objek yang
berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan proses
dilanjutkan seperti yang sebelumnya.
b) Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari
pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara
bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki jarak
antar muka terdekat. Pada saat proses berlangsung, jarak antar muka dapat
ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster. Juga
beberapa variasi pada metode ini, yaitu sisa objek-objek tidak dikelompokkan jika
berada di luar jarak tertentu dari sejumlah cluster.
c) Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya
kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-
objek ke dalam cluster yang lebih dekat.

Kapan Kita Menggunakan Metode Hirarki atau metode Non-Hirarki ?Jawaban


pasti tidak untuk pertanyaan tersebut tidak ada karena dua alasan. Pertama, penelitian
yang sedang diamati dimungkinkan dapat diselesaikan dengan kedua metode (hirarki atau
non-hirarki). Kedua, penelitian yang diamati mungkin sebaiknya diselesaikan dengan
suatu metode yang selanjutnya dengan metode yang lainnya.
Berapa Cluster yang Akan Dibentuk ? Banyaknya cluster yang akan dibentuk
tidak dapat ditentukan secara sembarang. Penentuan banyaknya cluster yang akan
dibentuk harus berdasarkan suatu teori yang akan mempengaruhi jumlah cluster secara
langsung atau alami.

Langkah 5 : Interpretasi Cluster


Tahap interpretasi meliputi pengujian masing-masing cluster dalam terminology
macam cluster untuk menamai atau memberikan keterangan secara tepat sebagai
gambaran sifat dari cluster.
Ketika memulai proses interpretasi, ada satu ukuran yang sering digunakan
yaitu cluster centroid. Jika prosedur pengelompokan dilakukan terhadap data asli, maka
ini akan memberikan gambaran yang logic. Tetapi jika data telah distandarisasi atau jika
analisis cluster dilakukan dengan menggunakan hasil analisis faktor (faktor komponen),
peneliti harus mengembalikan skor asli untuk variabel asal dan menghitung rata-rata
profiles menggunakan data ini.
Gambaran dan interpretasi cluster , memberikan hasil lebih daripada
deskriptif. Pertama, Metode ini memberikan sebuah rata-rata untuk perkiraan masing-
masing cluster yang terbentuk sebagaimana yang dikemukakan pada toeri sebelumnya
atau pengalaman praktek. Kedua, Gambaran cluster memberikan jalan untuk membuat
perkiraan signifikansi praktis. Peneliti mungkin memerlukan bahwa perbedaan substansi
yang ada pada sejumlah variable cluster dan penyelesaian cluster akan
dikembangkan sampai tampak sejumlah perbedaan.
Langkah 6 : Validasi dan Gambaran Cluster
Analisis cluster agak bersifat subjektif dalam penentuan penyelesaian cluster
yang optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai
validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun
tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa
pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan peneliti.
1. Validasi Hasil Cluster
Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa
hasil cluster adalah representatif terhadap populasi secara umum, dan dengan
demikian dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu.
Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah
kemudian membandingkan antara hasil cluster dengan perkiraan masing-masing
cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan
biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini
pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua
kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya
dibandingkan.

2. Profiling Hasil Cluster


Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster
untuk menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi.
Tipe ini meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster
ditentukan. Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur
cluster untuk menggambarkan karakteristik masing-masing cluster. Meskipun secara
teori tidak masuk akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini
diperlukan untuk memprediksi validasi taksiran, sehingga minimal penting secara
praktek.
CONTOH KASUS ANALISIS CLUSTER

PANGSA
BANY PANGSA
PERSEN BANYAKN PASAR PANGSA
PERSENTAS AKNY PASAR
TASE YA ROKOK PASAR
E A ROKOK
KABUPA KELUAR INDUSTRI PRODUK ROKOK
PENDUDUK INDUS PRODUK
TEN GA KECIL DAN SI PRODUKSI
TIDAK TRI SI
PERTAN MENENGA GUDAN SAMPOERN
TAMAT SD PENGO DJARUM
IAN H G A
LAHAN KUDUS
GARAM
BANYU
21 30 166 55 2.7 30 13
WANGI
CIANJUR 36 35 220 206 6.9 30 12
JEMBER 30 5.2 538 255 20 29 27
JEPARA 8.4 4.5 555 119 13 27 18
JOMBAN
36 25 86 94 30 10 11
G
KEDIRI 5.7 2.3 468 287 19 11 24
KUDUS 9.8 35 579 397 21 28 26
KULONP
7.1 33 404 79 14 30 18
ROGO
LUMAJA
38 15 71 48 4.5 18 8.5
NG
MAJALE
22 13 114 65 12 11 18
NGKA

Tentukan jumlah gerombol dari data pada tabel di atas menggunakan metode berhirarki!!
Gunakan metode K-means dengan 2 gerombol!
METODE BERHIRARKI DENGAN MENGGUNAKAN PROGRAM SPSS

1) Buka Aplikasi SPSS, setelah itu buat variabel dantipe datanya, seperti gambar di bawah ini

2) Lakukan entri data sesuai dengan studi kasus di atas.

3) Lakukan Transformasi atau standardisasi data tersebut. Klik menu Analyze>Descriptives


Statistics>Descriptives. Masukkan Seluruh variabel instrument penilai ,dalam hal ini variabel
kabupaten tidak dimasukkan karena data bertipe string. Kemudian berikan centang pada
“Save standardized values asvariables“. Kemudian klik OK.
4) Sehingga muncul output deskriptif statistik. Kemudian pada data view akan terlihat juga hasil
dari perhitungan z-score dan hasil z-score inilah yang akan dipakai sebagai dasar analisis
cluster. Namun apabila data yang terkumpul tidak mempunyai variabilitas satuan, maka
proses analisis cluster dapat langsung dilakukan tanpa terlebih dahulu melakukan transformasi
atau standardisasi.
5) Selanjutnya, klik menu Analyze>Classify>Hierarchical Cluster. Kemudian masukkan seluruh
variabel yang telah distandardisasikan tadi (Z-score) ke dalam kotak Variable(s). pada bagian
Label Cases by isi degan variabel Kabupaten sedangkan untuk bagian Cluster pilih Cases,
pada bagian Display pilih keduanya yaitu Statistics dan Plots.
6) Kemudian klik button Statistics, berikan centang pada Agglomeration Schdule dan Proximity
matrix. Kemudian tekan tombol Continue untuk kembali ke menu utama.

7) Kemudian klik button Plots. Aktifkan pilihan Dendogram, kemudian pada


bagian Icicle pilih None. Selanjutnya klik Continue untuk kembali ke menu utama.
8) Kemudian klik button Method. Pada bagian Cluster Method pilih Nearest Neighbor. Pada
Measure pilih Euclidean distance dan pada Transform Values pilih Z-score. Lalu tekan
tombol Continue untuk kembali ke menu utama. Dari tampilan menu utama, tekan
tombol OK. Pada Cluster Methodakan digunakan beberapa metode

Hasil Output Dengan Menggunakan Metode Single Linkage


Hasil output di atas menunjukkan pengelompokkan objek pengamatan terhadap 5 cluster yang
telah diset di awal. Tidak ada alasan khusus mengapa memilih 5 cluster. Hal ini dilakukan agar
hasil lebih terpusat pada 2, 3, 4, atau 5 cluster sehingga mudah dibaca. Misalkan jika digunakan
2 cluster maka Banyuwangi, Cianjur, jember, jepara, Jombang, Kediri, kulonprogo,Lumajang,
dan Majalengka berada pada cluster 1 sedangkan kabupaten lainnya dikelompokkan pada cluster
2. Begitu pula untuk jumlah cluster sebanyak 3, 4 atau 5.

Untuk 5 cluster, diperoleh pengelompokkan yaitu cluster 1 terdiri dari Banyuwangi, Cianjur,
jepara, kulonprogo, lumajang, majalengka. Cluster 2 yaitu jember. Cluster 3 yaitu jombang .
Cluster 4 yaitu Kediri. Cluster 5 :Kudus.
Hasil output di atas merupakan dendogram hasil analisis cluster dengan metode single linkage.
Dimana, semakin banyak cluster yang dipilih maka jarak nya semakin kecil. Dari dendogram di
atas dengan jarak lebih dari 25 maka diperoleh 1 cluster (tidak terjadi pengelompokkan),
sedangkan jika jaraknya 25 maka didapat 2 cluster yaitu cluster 1 terdiri dari
banyuwangi,cianjur,kulonprogo, jepara, lumajang, majalengka, jember, Kediri,jombang , cluster
2 yaitu kudus. Hasil ini serupa dengan tabel output sebelumnya (tabel cluster membership) jika
yang dipilih adalah 2 cluster. Begitu pula jika kita mengambil jaraknya adalah 20 maka terdapat
3 cluster, dimana cluster 1 terdiri dari banyuwangi,cianjur,kulonprogo, jepara, lumajang,
majalengka, cluster 2 yaitu kediri , sedangkan kabupaten sisanya masuk ke cluster 3. Begitu pula
untuk jarak lainnya yang menghasilnya jumlah cluster yang kemungkinan berbeda satu sama
lain. Semakin banyak cluster yang terbentuk maka jaraknya semakin kecil. Artinya, semakin
memiliki kemiripan yang besar di dalam cluster dan memiliki ketidakmiripan antar cluster.

Dalam pengolahan analisis cluster dengan menggunakan spss, dapat dijadikan sebagai catatan
bahwa hasil dendogram pada metode hirarki tidak ditentukan jumlah clusternya. Hasil atau
output dendogram dengan jumlah cluster tertentu ditentukan oleh jaraknya sampai hanya
terbentuk 2 cluster. Pada dendogram di atas, jarak maksimumnya adalah 25 (yaitu hingga hanya
terbentuk 2 cluster). Berbeda dengan metode non-hirarki seperti K-Means yang terlebih dahulu
sudah ditentukan jumlah clusternya.

METODE TAK BERHIRARKI Dengan Menggunakan Program SPSS


1) Buka Aplikasi SPSS, setelah itu buat variabel dantipe datanya, seperti gambar di bawah ini

2) Lakukan entri data sesuai dengan studi kasus di atas.

3) Lakukan Transformasi atau standardisasi data tersebut. Klik menu Analyze>Descriptives


Statistics>Descriptives. Masukkan Seluruh variabel instrument penilai ,dalam hal ini variabel
kabupaten tidak dimasukkan karena data bertipe string. Kemudian berikan centang pada
“Save standardized values asvariables“. Kemudian klik OK.
Hasil Output analisis cluster dengan Menggunakan SPSS

Seperti yang telah dijelaskan sebelumnya, maka metode non-hirarki adalah metode
clustering dimana jumlah cluster nya diketahui. Pada kasus ini jumlah cluster ditentukan
sebanyak 2 cluster. Dari output di atas terlihat bahwa banyaknya objek di cluster pertama
sebanyak 5 kabupaten sedangkan sisanya (5 kabupaten) dikelompokkan ke cluster 2.

Anda mungkin juga menyukai