Analisis Cluster
Sama dengan analisis factor, analisis cluster (cluster analysis) termasuk pada Interdependes
Techniques. Namun ada perbedaan mendasar di antara kedua alat analisis multivariate ini.
Jika analisis factor (R factor analysis) bertujuan mereduksi variabel, analisis cluster (Q factor
analysis) lebih bertujuan mengelompokkan isi variabel, walaupun bisa juga disertai dengan
pengelompokan variabel. Dalam terminology SPSS, analisis factor adalah perlakuan terhadap
kolom, sedangkan analisis cluster adalah perlakuan terhadap baris.
Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis
cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling
dekat kesamaannya) akan mengelompok kedalam satu cluster (kelompok) yang sama.
1. Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-
cluster).
2. Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang
lainnya (between-cluster).
Beberapa manfaat dari analisis cluster adalah: eksplorasi data peubah ganda, reduksi data,
stratifikasi sampling, prediksi keadaan obyek. Hasil dari analisis cluster dipengaruhi oleh:
obyek yang diclusterkan, peubah yang diamati, ukuran kemiripan (jarak) yang dipakai, skala
ukuran yang dipakai, serta metode pengclusteran yang digunakan.
Tahap 1:
Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang
mengelompokkan objek yang mempunyai kemiripan, proses pertama adalah mengukur
seberapa jauh ada kesamaan antar objek. Metode yang digunakan:
Mengukur jarak (distance) antara dua objek. Pengukuran ada bermacam-macam, yang
paling popular adalah metode Euclidian distance.
Tahap 2:
Membuat cluster. Metode dalam membuat cluster ada banyak sekali, seperti yang
digambarkan dalam diagram di bawah ini:
Hirarchial Methode
Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang
mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain
yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan
membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar
objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua
objek pada akhirnya akan membentuk sebuah cluster. Dendogram biasanya
digunakan untuk membantu memperjelas proses hirarki tersebut.
Kluster Hirarki
Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative
(pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap
obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap
selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah
cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita beranjak
dari sebuah cluster besar yang terdiri dari semua obyek atau observasi.
Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita
pisahkan demikian seterusnya.
Agglomerative
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu: Single
Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.
Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek
terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung
menjadi satu cluster daan demikian saterusnya.
Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan total
sum of square dua cluster pada masing-masing variabel.
Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan
jarak centroid dua cluster yang bersangkutan.
Non-Hirarchial Methode
Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu
jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah
jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses
hirarki. Metode ini biasa disebut dengan K-Means Cluster.
Kluster Non Hirarki
Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike
construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus
sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih
sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu
ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya
dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa
ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster
asalnya.
Optimization
Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil
cluster adalah representatif terhadap populasi secara umum, dan dengan demikian
dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu.
Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah
kemudian membandingkan antara hasil cluster dengan perkiraan masing-masing
cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan
biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini
pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua
kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya
dibandingkan.
Dalam artikel berikutnya, kami akan membahas bagaimana cara melakukan analisis cluster
dengan menggunakan aplikasi SPSS, yaitu pada dua artikel kami yang berjudul:
By Anwar Hidayat
Share0
Tweet
Share0
Share0
Share0
Jumlah Sampel
Dari data di atas, diketahui sampel sebanyak 14, yaitu dari A sampai N.
Dan jumlah variabel ada 5, yaitu Ekonomi, sosiologi, anthropologi, geografi
dan tata negara. Anggap saja kita akan melakukan analisis cluster siswa
sebuah kelas berdasarkan nilai-nilai ujian seperti di atas.
Standardisasi
Langkah pertama yang perlu diperhatikan adalah standardisasi.
Standardisasi diperlukan apabila terdapat variabilitas satuan, misal nilai
variabel ekonomi berkisar antara 1 sd 100 sedangkan variabel geografi
berkisar antara 1 sd 10. Contoh dalam tutorial ini sebenarnya tidak ada
variabilitas satuan, tetapi sebagai pembelajaran kita akan melakukan
langkah tersebut. Caranya:
Setelah anda klik OK, maka lihat pada dataset bahwa telah muncul
variabel z-score tiap variabel asli. Dasar dari perhitungan nilai z-score
adalah hasil uji descriptive tadi yang dapat dilihat pada output view sebagai
berikut:
Aglomeration Schedule
Dendogram
Setelah kilk “Continue”, maka anda klik tombol “Plots” kemudian centang
“Dendogram” dan pada “Icicle” pilih “None”.
Dendogram
Method Cluster
Setelah kilk “Continue”, maka anda klik tombol “Method”. Setelah muncul
jendela, pada “Cluster Method” pilih “Between-group linkage”. Pada
measure pilih interval kemudian pilih Squared Euclidian Distance”.
Kemudian pada “Transform Values” pilih “Z-Score”. Kemudian klik
“Continue”.
Method Cluster
Cluster Membership
Klik tombol “Save” kemudian plih range of solutions dan pada “minimum
number of cluster” isi dengan nilai “2”. Sedangkan pada “minimum number
of cluster” isi dengan nilai “4”.
Membership Cluster
Setelah anda klik “Continue”, maka pada jendela utama anda klik “OK”.
Lihat output dan anda telah selesai melakukan analisis cluster hirarkis
dengan menggunakan aplikasi SPSS. Untuk interprestasi hasil, silahkan
anda baca artikel kami selanjutnya, yaitu: Interprestasi Analisis Cluster
Hirarki dengan SPSS. Demikian penjelasan kami tentang Analisis Cluster
Hirarki dengan SPSS, semoga bermanfaat.
Proximities
Yang perlu anda lihat pertama kali adalah tabel proximities:
Interprestasi Analisis Cluster Hirarki
Matrix Proximities
Matrix Proximities
Average Linkage
Average Linkage
Tabel di atas merupakan hasil proses clustering dengan metode “Between
Group Linkage”. Setelah jarak antar variabel diukur dengan jarak
euclidean, maka dilakukan pengelompokan, yang dilakukan secara
bertingkat.
Aglomeratif
Aglomeratif adalah bagian yang sangat penting pada saat kita coba
interprestasi analisis cluster hirarki ini. Proses aglomerasi ini bersifat
kompleks, khususnya perhitungan koefisien yang melibatkan sekian
banyak obyek dan terus bertambah. Proses aglomerasi pada akhirnya
akan menyatukan semua obyek menjadi satu cluster. Hanya saja dalam
prosesnya dihasilkan beberapa cluster dengan masing-masing
anggotanya, tergantung jumlah cluster yang dibentuk.
Cluster Membership
Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada
tabel output berikut ini:
Tabel Cluster Membership
Dari table di atas, jika anda menginginkan 2 cluster, maka yang menjadi
anggota cluster 1 lihat pada kolom “2 clusters” dengan symbol 1, yaitu
sample A, E, F, G, I, J.
Dendogram
Diagram Dendogram
By Anwar Hidayat
K-Means Save
Setelah anda klik “Continue” maka selanjutnya anda berada pada jendela
utama, maka klik “OK” dan lihat “Output”.
Sampai tahap ini anda telah selesai melakukan analisis k-means cluster
dengan menggunakan aplikasi SPSS. Maka selanjutnya adalah anda
menginterprestasikan hasilnya dengan membaca artikel kami selanjutnya,
yaitu: Interprestasi Analisis Cluster Non Hirarki dengan SPSS. Demikianlah
artikel kami yang menjelaskan tentang Analisis Cluster Non Hirarki dengan
SPSS atau disebut juga dengan Analisis Cluster K Means.
By Anwar Hidayat
Initial Cluster
Iteration History
Di mana:
μ = Rata-rata populasi
Z = Nilai standardisasi
σ = Standar Deviasi
= 70,4015
Jadi rata-rata nilai geografi yang berada pada cluster 1 adalah 70,4015.
Cluster 1:
Dalam cluster 1 ini berisi siswa dengan nilai ekonomi dan sosiologi yang
rendah, nilai geografi yang sedang serta nilai anthropologi dan tata negara
yang tinggi.
Cluster 2
Dalam cluster 2 ini berisi siswa dengan nilai ekonomi dan sosiologi yang
rendah, nilai anthropologi dan tata negara yang sedang serta
nilai geografi yang tinggi.
Cluster 3
Rumus ANOVA
Sedikit review, bahwa rumus dari uji F Anova adalah:
Rumus Anova
Dimana dalam tabel ANOVA di atas “MS Between” ditunjukkan oleh nilai
“Means Square” dalam kolom “Cluster”, sedangkan “MS Within”
ditunjukkan oleh nilai “Means Square” dalam kolom “Error”.
Kesimpulannya adalah:
Semakin besar nilai F dan (sig < 0,05), maka semakin besar perbedaan
variabel pada cluster yang terbentuk.
Z-Score
NB: Apabila pada Analisis Cluster Hirarki dengan SPSS, pemberian tanda
sampel menjadi anggota cluster mana, dapat dilihat pada “Output View”
dan “Dataset”, tetapi pada Analisis Cluster Non Hirarki dengan SPSS,
tanda itu hanya dapat dilihat pada “Dataset” saja.
By Anwar Hidayat
Analisis Cluster
Analisis Cluster
Definisi
Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek
kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu
dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota
dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin.
Mendeteksi Outliers
Dalam melakukan pemilahan obyek kedalam cluster-cluster, analisis tidak hanya peka
terhadap variabel-veriabel yang tidak sesuai dengan kasus yang diteliti tetapi juga peka
terhadap outliers (obyek-obyek yang “berbeda” dengan obyek yang
lainnya). Outliers terjadi karena 2 dua hal, yaitu :
(1) Observasi “menyimpang” yang tidak mewakili populasi
(2) Suatu undersampling kelompok-kelompok dalam populasi yang
menyebabkan underrepresentation kelompok-kelompok dalam sampel
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari populasi
sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur
sebenarnya dari populasi tersebut. Karena itu, pembuangan outliers sangat penting dalam
analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek
dengan profil-profil yang berbeda, atau value yang berbeda dalam satu atau beberapa
variabel.
Kesamaan Ukuran
Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject Similarityadalah
sebuah ukuran untuk kesesuaian atau kemiripan, diantara objek-objek yang akan dipilah
menjadi beberapa cluster. Interobject Similarity dapat diukur dengan beberapa cara,
antara lain : Correlatioal Measures, Distance Measures, dan Association Measures.
Pemilihan metode tergantung pada tujuan dan jenis data. Correlatioal
Measures dan Distance Measures digunakan untuk data dengan tipe metic,
sedangkan Association Measures digunakan bila data bertipe non-metic.
Correlatioal Measures
The Interobject Measures Similarity dapat diukur dengan corelation coefficientantara
pasangan obyek-obyek yang diukur dalam beberapa variabel. Tingginya korelasi
menujukkan kesamaan dan rendahnya korelasi menunjukkan ketidaksamaan.
Distance Measures
Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya semakin
rendah kesamaan dalam pasangan obyek.
Association Measures
Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati
bertipe non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya
atau tidakdalam sebuah pertanyaan.
Standarisasi Data
Sama halnya dengan seleksi kesamaan ukuran, dalam standarisasi data ni peneliti harus
menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus distandarisasi?
Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa masalah,
misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala. Secara umum,
variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang lebih pada hasil
akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap pengukuran dari
variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu : standarisasi
berdasarkan variabel dan standarisasi berdasarkan observasi.
Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil
cluster adalah representatif terhadap populasi secara umum, dan dengan demikian dapat
digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan
langsung dalam hal ini adalah dengan analisis sample secara terpisah kemudian
membandingkan antara hasil cluster dengan perkiraan masing-masing cluster.
Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan biaya atau
ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini pendekatan tyang
biasa digunakan adalah dengan membagi sample menjadi dua kelompok. Masing-masing
dianalisis cluster secara terpisah, kemudian hasinya dibandingkan.