Anda di halaman 1dari 25

Penjelasan Lengkap Tentang Analisis Cluster

Analisis Cluster
Sama dengan analisis factor, analisis cluster (cluster analysis) termasuk pada Interdependes
Techniques. Namun ada perbedaan mendasar di antara kedua alat analisis multivariate ini.
Jika analisis factor (R factor analysis) bertujuan mereduksi variabel, analisis cluster (Q factor
analysis) lebih bertujuan mengelompokkan isi variabel, walaupun bisa juga disertai dengan
pengelompokan variabel. Dalam terminology SPSS, analisis factor adalah perlakuan terhadap
kolom, sedangkan analisis cluster adalah perlakuan terhadap baris.

Tujuan Analisis Cluster


Tujuan utama analisis cluster adalah mengelompokkan objek-objek berdasarkan kesamaan
karakteristik di antara objek-objek tersebut. Objek bisa berupa produk (barang dan jasa),
benda (tumbuhan atau lainnya), serta orang (responden, konsumen atau yang lain). Objek
tersebut akan diklasifikasikan ke dalam satu atau lebih cluster (kelompok) sehingga objek-
objek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lain.

Definisi Analisis Cluster


Jadi definisi analisis cluster:

Analisis cluster adalah teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek/cases berdasarkan karakteristik yang dimilikinya. Analisis
cluster mengklasifikasi objek sehingga setiap objek yang memiliki sifat yang mirip (paling
dekat kesamaannya) akan mengelompok kedalam satu cluster (kelompok) yang sama.

Secara logika, cluster yang baik adalah cluster yang mempunyai:

1. Homogenitas (kesamaan) yang tinggi antar anggota dalam satu cluster (within-
cluster).

2. Heterogenitas (perbedaan) yang tinggi antar cluster yang satu dengan cluster yang
lainnya (between-cluster).
Beberapa manfaat dari analisis cluster adalah: eksplorasi data peubah ganda, reduksi data,
stratifikasi sampling, prediksi keadaan obyek. Hasil dari analisis cluster dipengaruhi oleh:
obyek yang diclusterkan, peubah yang diamati, ukuran kemiripan (jarak) yang dipakai, skala
ukuran yang dipakai, serta metode pengclusteran yang digunakan.

Proses Analisis Cluster


Untuk menganalisis cluster, anda perlu melakukan proses sebagai berikut:

Tahap 1:
Mengukur kesamaan antar objek (similarity). Sesuai prinsip analisis cluster yang
mengelompokkan objek yang mempunyai kemiripan, proses pertama adalah mengukur
seberapa jauh ada kesamaan antar objek. Metode yang digunakan:

 Mengukur korelasi antar sepasang objek pada beberapa variabel

 Mengukur jarak (distance) antara dua objek. Pengukuran ada bermacam-macam, yang
paling popular adalah metode Euclidian distance.
Tahap 2:

Membuat cluster. Metode dalam membuat cluster ada banyak sekali, seperti yang
digambarkan dalam diagram di bawah ini:

Diagram Analisis Cluster

Hirarchial Methode
Metode ini memulai pengelompokan dengan dengan dua atau lebih objek yang
mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke objek lain
yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan
membentuk semacam “pohon”, di mana ada hirarki (tingkatan) yang jelas antar
objek, dari yang paling mirip sampai paling tidak mirip. Secara logika semua
objek pada akhirnya akan membentuk sebuah cluster. Dendogram biasanya
digunakan untuk membantu memperjelas proses hirarki tersebut.

Kluster Hirarki

Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative
(pemusatan) dan divisive (penyebaran). Dalam metode agglomerative, setiap
obyek atau observasi dianggap sebagai sebuah cluster tersendiri. Dalam tahap
selanjutnya, dua cluster yang mempunyai kemiripan digabungkan menjadi sebuah
cluster baru demikian seterusnya. Sebaliknya, dalam metode divisive kita beranjak
dari sebuah cluster besar yang terdiri dari semua obyek atau observasi.
Selanjutnya, obyek atau observasi yang paling tinggi nilai ketidakmiripannya kita
pisahkan demikian seterusnya.

Agglomerative
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu: Single
Linkage, Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.

 Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek
terpisah oleh jarak yang pendek maka kedua obyek tersebut akan digabung
menjadi satu cluster daan demikian saterusnya.

 Complete Linkage, berlawanan dengan Single Linkageprosedur ini


pengelompokkannya berdasarkan jarak terjauh.

 Average Linkage, prosedure ini hampir sama dengan Single Linkage


maupun Complete Linkage, namun kriteria yang digunakan adalah rata-rata
jarak seluruh individu dalam suatu cluster dengan jarak seluruh individu dalam
cluster yang lain.

 Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan total
sum of square dua cluster pada masing-masing variabel.

 Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan
jarak centroid dua cluster yang bersangkutan.

Manfaat Analisis Kluster Hirarki


Keuntungan penggunaan metode hierarki dalam analisis Cluster adalah
mempercepat pengolahan dan menghemat waktu karena data yang diinputkan
akan membentuk hierarki atau membentuk tingkatan tersendiri sehingga
mempermudah dalam penafsiran, namun kelemahan dari metode ini adalah
seringnya terdapat kesalahan pada data outlier, perbedaan ukuran jarak yang
digunakan, dan terdapatnya variabel yang tidak relevan. Sedang metode non-
hierarki memiliki keuntungan dapat melakukan analisis sampel dalam ukuran
yang lebih besar dengan lebih efisien. Selain itu, hanya memiliki sedikit
kelemahan pada data outlier, ukuran jarak yang digunakan, dan variabel tak
relevan atau variabel yang tidak tepat. Sedangkan kelemahannya adalah untuk
titik bakal random lebih buruk dari pada metode hirarkhi.

Non-Hirarchial Methode
Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih dahulu
jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang lain). Setelah
jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses
hirarki. Metode ini biasa disebut dengan K-Means Cluster.
Kluster Non Hirarki
Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike
construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus
sehingga terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih
sebuah cluster sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu
ditempatkan pada cluster yang terbentuk. Kemudian memilih cluster selanjutnya
dan penempatan dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa
ditempatkan lagi jika jaraknya lebih dekat pada cluster lain daripada cluster
asalnya.

Pendekatan Metode non hirarki cluster


Metode nonhirarki cluster berkaitan dengan K-means custering, dan ada tiga
pendekatan yang digunakan untuk menempatkan masing-masing observasi pada
satu cluster.

Sequential Threshold, Metode Sequential Threshold

 Sequential Threshold, Metode Sequential Threshold memulai dengan


pemilihan satu cluster dan menempatkan semua objek yang berada pada jarak
tertentu ke dalamnya. Jika semua objek yang berada pada jarak tertentu telah
dimasukkan, kemudian cluster yang kedua dipilih dan menempatkan semua
objek yang berjarak tertentu ke dalamnya. Kemudian cluster ketiga dipilih dan
proses dilanjutkan seperti yang sebelumnya.

Parallel Threshold, Metode Parallel Threshold

 Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari


pendekatan yang pertama yaitu dengan memilih sejumlah cluster secara
bersamaan dan menempatkan objek-objek kedalam cluster yang memiliki
jarak antar muka terdekat. Pada saat proses berlangsung, jarak antar muka
dapat ditentukan untuk memasukkan beberapa objek ke dalam cluster-cluster.
Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak
dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.

Optimization

 Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya


kecuali bahwa metode ini memungkinkan untuk menempatkan kembali objek-
objek ke dalam cluster yang lebih dekat.

Interprestasi Analisis Cluster


Setelah cluster terbentuk, entah dengan metode hirarki atau non-hirarki, langkah
selanjutnya adalah melakukan interprestasi terhadap cluster yang terbentuk, yang pada
intinya memberi nama spesifik untuk menggambarkan isi cluster. Misalnya, kelompok
konsumen yang memperhatikan lingkungan sekitar sebelum membeli sebuah rumah
bisa dinamai “cluster lingkungan”.

Tahap validasi Cluster


Melakukan validasi dan profiling cluster. Cluster yang terbentuk kemudian diuji apakah hasil
tersebut valid. Kemudian dilakukan proses profiling untuk menjelaskan karakteristik setiap
cluster berdasarkan profil tertentu (seperti usia konsumen pembeli rumah, tingkat
penghasilannya dan sebagainya). Analisis cluster agak bersifat subjektif dalam penentuan
penyelesaian cluster yang optimal, sehingga peneliti seharusnya memberikan perhatian yang
besar mengenai validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster.
Meskipun tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa
pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan peneliti.

 Validasi Hasil Cluster

Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil
cluster adalah representatif terhadap populasi secara umum, dan dengan demikian
dapat digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu.
Pendekatan langsung dalam hal ini adalah dengan analisis sample secara terpisah
kemudian membandingkan antara hasil cluster dengan perkiraan masing-masing
cluster. Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan
biaya atau ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini
pendekatan tyang biasa digunakan adalah dengan membagi sample menjadi dua
kelompok. Masing-masing dianalisis cluster secara terpisah, kemudian hasinya
dibandingkan.

 Profiling Hasil Cluster

Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk


menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi.
Tipe ini meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah
cluster ditentukan. Peneliti menggunakan data yang sebelumnya tidak masuk
dalam prosedur cluster untuk menggambarkan karakteristik masing-masing
cluster. Meskipun secara teori tidak masuk akal (rasional) dalam perbedaan silang
cluster, akan tetapi hal ini diperlukan untuk memprediksi validasi taksiran,
sehingga minimal penting secara praktek.

Asumsi Analisis Cluster


Untuk melakukan proses analisis cluster ini, ada asumsi yang harus terpenuhi, yaitu:
Sampel yang diambil benar-benar dapat mewakili populasi yang ada (representativeness of
the sample) dan Multikolinieritas. Sedangkan asumsi lainnya yang biasanya dilakukan pada
analisis multivariat tidak perlu dilakukan, seperti: Uji Normalitas, Uji Linearitas dan Uji
Heteroskedastisitas.

Dalam artikel berikutnya, kami akan membahas bagaimana cara melakukan analisis cluster
dengan menggunakan aplikasi SPSS, yaitu pada dua artikel kami yang berjudul:

Analisis Cluster Hirarki dengan SPSS.

By Anwar Hidayat

Tutorial Analisis Cluster Hirarki dengan SPSS


Posted By: Anwar Hidayaton: Maret 27, 2014In: Hipotesis, Komputerisasi, Multivariat, SPSSTags: Analisis
Multivariat, Tutorial, Tutorial SPSSNo Comments

Share0

Tweet

Share0

Share0

Share0

Analisis Cluster Hirarki dengan SPSS


Pada artikel sebelumnya kita telah membahas panjang lebar
tentang Analisis Cluster dan berbagai jenisnya. Sedikit review saja,
bahwasanya analisis cluster dibagi dalam 2 kelompok, yaitu hirarki dan
non-hirarki. Dalam kesempatan kali ini, penulis akan membagikan tutorial
melakukan Analisis Cluster Hirarki dengan SPSS.

Tutorial Analisis Cluster Hirarki dengan SPSS


Buka aplikasi SPSS anda dan masukkan data sebagai berikut:

Dataset Analisis Cluster

Atau Download file kerja tutorial ini:


Dataset
Output

Jumlah Sampel
Dari data di atas, diketahui sampel sebanyak 14, yaitu dari A sampai N.
Dan jumlah variabel ada 5, yaitu Ekonomi, sosiologi, anthropologi, geografi
dan tata negara. Anggap saja kita akan melakukan analisis cluster siswa
sebuah kelas berdasarkan nilai-nilai ujian seperti di atas.

Standardisasi
Langkah pertama yang perlu diperhatikan adalah standardisasi.
Standardisasi diperlukan apabila terdapat variabilitas satuan, misal nilai
variabel ekonomi berkisar antara 1 sd 100 sedangkan variabel geografi
berkisar antara 1 sd 10. Contoh dalam tutorial ini sebenarnya tidak ada
variabilitas satuan, tetapi sebagai pembelajaran kita akan melakukan
langkah tersebut. Caranya:

Langkah Analisis Cluster Hirarki dengan SPSS


Analisis Deskriptif

Pada menu SPSS, klik “Analyze”, “Descriptives Statistics”, “Descriptives”.


Setelah jendela terbuka, maka langkah selanjutnya adalah memasukkan
semua variabel ke kotak “Variable(s)” dan jangan lupa centang “Save
standardized values as variables” yang artinya kita memerintahkan SPSS
untuk otomatis menyimpan nilai Z Score atau nilai variabel yang telah
distandardisasi.

Deskriptive Analisis Cluster Hirarki dengan SPSS

Setelah anda klik OK, maka lihat pada dataset bahwa telah muncul
variabel z-score tiap variabel asli. Dasar dari perhitungan nilai z-score
adalah hasil uji descriptive tadi yang dapat dilihat pada output view sebagai
berikut:

Output Deskriptive Statistics Analisi Cluster SPSS

Setelah kita mendapatkan variabel z-score, maka perlu dipahami


bahwasanya variabel z-score inilah yang akan kita gunakan dalam analisis
cluster selanjutnya.

Konsep Analisis Cluster Hirarki


Sekali lagi mengingatkan pembaca, bahwa dalam tutorial ini kita akan
melakukan analisis cluster hirarkis. Konsep dari metode hirarkis ini dimulai
dengan menggabungkan 2 obyek yang paling mirip, kemudian gabungan 2
obyek tersebut akan bergabung lagi dengan satu atau lebih obyek yang
paling mirip lainnya. Proses clustering ini pada akhirnya akan
‘menggumpal’ menjadi satu cluster besar yang mencakup semua obyek.
Metode ini disebut juga sebagai “metode aglomerativ” yang digambarkan
dengan dendogram.

Langkah Analisis Cluster

Langkah berikutnya pada menu, klik “Analyze”, “Classify”, “Hierarchical


Cluster”. Kemudian masukkan variabel-variabel z-score ke kotak
“Variable(s)” dan variabel Sample ke kotak “Label Cases By”. Pada cluster
pilih “Cases” dan pada Display pilih “Statistics” dan “Plots”.

Analisis Cluster Hirarki dengan SPSS

Aglomeration Schedule

Klik tombol “Statistics”, centang kotak “Agglomeration Schedule” dan


“Proximity Matrix”. Proximity matrix berguna untuk menampilkan jarak antar
variabel. Pada “Cluster membership”, klik “Range of Solution” lalu ketik “2”
pada “From” atau “Minimum number of cluster” dan “4” pada “Trough” atau
“Maximum number of cluster” (maksudnya adalah kita akan menampilkan
susunan 2,3 dan 4 cluster).
Agglomeration Schedule

Dendogram

Setelah kilk “Continue”, maka anda klik tombol “Plots” kemudian centang
“Dendogram” dan pada “Icicle” pilih “None”.

Dendogram

Method Cluster

Setelah kilk “Continue”, maka anda klik tombol “Method”. Setelah muncul
jendela, pada “Cluster Method” pilih “Between-group linkage”. Pada
measure pilih interval kemudian pilih Squared Euclidian Distance”.
Kemudian pada “Transform Values” pilih “Z-Score”. Kemudian klik
“Continue”.

Method Cluster
Cluster Membership

Klik tombol “Save” kemudian plih range of solutions dan pada “minimum
number of cluster” isi dengan nilai “2”. Sedangkan pada “minimum number
of cluster” isi dengan nilai “4”.

Membership Cluster

Setelah anda klik “Continue”, maka pada jendela utama anda klik “OK”.

Lihat output dan anda telah selesai melakukan analisis cluster hirarkis
dengan menggunakan aplikasi SPSS. Untuk interprestasi hasil, silahkan
anda baca artikel kami selanjutnya, yaitu: Interprestasi Analisis Cluster
Hirarki dengan SPSS. Demikian penjelasan kami tentang Analisis Cluster
Hirarki dengan SPSS, semoga bermanfaat.

Interprestasi Analisis Cluster Hirarki dengan


SPSS
Setelah kita melakukan analisis cluster seperti yang dibahas dalam artikel
sebelumnya, yaitu: analisis cluster hirarki dengan SPSS, maka sampai
pada kita bagaimana menginterprestasikan hasilnya. Baiklah, mari kita
bahas secara detail, perihal Interprestasi Analisis Cluster Hirarki dengan
SPSS.

Tutorial Cara Baca Output Analisis Kluster Hirarki


Buka output SPSS anda berdasarkan artikel sebelumnya.

Proximities
Yang perlu anda lihat pertama kali adalah tabel proximities:
Interprestasi Analisis Cluster Hirarki

Tabel output di atas menunjukkan bahwa semua data sejumlah 14 obyek


telah diproses tanpa ada data yang hilang.

Matrix Proximities

Matrix Proximities

Tabel diatas menunjukkan matriks jarak antara variabel satu dengan


variabel yang lain. Semakin kecil jarak euclidean, maka semakin mirip
kedua variabel tersebut sehingga akan membentuk kelompok (cluster).

Average Linkage

Average Linkage
Tabel di atas merupakan hasil proses clustering dengan metode “Between
Group Linkage”. Setelah jarak antar variabel diukur dengan jarak
euclidean, maka dilakukan pengelompokan, yang dilakukan secara
bertingkat.

Stage 1: terbentuk 1 cluster yang beranggotakan Sampel no 4 dan 11


dengan jarak 0.000 (perhatikan pada kolom Coefficients). Karena proses
aglomerasi dimulai dari 2 obyek yang terdekat, maka jarak tersebut adalah
yang terdekat dari sekian kombinasi jarak 14 obyek yang ada. Selanjutnya
lihat kolom terakhir (Next Stage), terlihat angka 3. Hal ini berarti clustering
selanjutnya dilakukan dengan melihat stage 3.

Demikian seterusnya dari stage 3 dilanjutkan ke stage 11, sampai ke stage


terakhir.

Aglomeratif
Aglomeratif adalah bagian yang sangat penting pada saat kita coba
interprestasi analisis cluster hirarki ini. Proses aglomerasi ini bersifat
kompleks, khususnya perhitungan koefisien yang melibatkan sekian
banyak obyek dan terus bertambah. Proses aglomerasi pada akhirnya
akan menyatukan semua obyek menjadi satu cluster. Hanya saja dalam
prosesnya dihasilkan beberapa cluster dengan masing-masing
anggotanya, tergantung jumlah cluster yang dibentuk.

Cluster Membership
Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada
tabel output berikut ini:
Tabel Cluster Membership

Dari table di atas, jika anda menginginkan 2 cluster, maka yang menjadi
anggota cluster 1 lihat pada kolom “2 clusters” dengan symbol 1, yaitu
sample A, E, F, G, I, J.

Dendogram

Diagram Dendogram

Dendogram berguna untuk menunjukkan anggota cluster yang ada jika


akan ditentukan berapa cluster yang seharusnya dibentuk. Sebagai contoh
yang terlihat dalam dendogram, apabila akan dibentuk 2 cluster, maka
cluster 1 beranggotakan sample D sampai dengan Sampel B (sesuai
urutan dalam dendogram); dan cluster 2 beranggotakan sample G sampai
dengan Sampel E. Demikian seterusnya dapat dengan mudah dilihat
anggota tiap cluster sesuai jumlah cluster yang diinginkan.

Pemilihan Anggota Cluster


Kemudian anda lihat dataset anda pada “data view”, di mana ada variabel
baru dengan nama “Cluster Between Average Linkage”. Variabel tersebut
memberikan tanda pada sampel, masuk menjadi anggota cluster mana.

Demikian tutorial tentang Interprestasi Analisis Cluster Hirarki dengan


SPSS. Sialakan anda baca artikel kami selanjutnya: Analisis Cluster Non-
Hirarki dengan SPSS.

By Anwar Hidayat

Analisis Cluster Non Hirarki dengan SPSS


Sebelumnya kita telah mempelajari Interprestasi Analisis Cluster Hirarki
dengan SPSS. Selanjutnya perlu diingat kembali bahwasanya ada dua
macam analisis cluster, yaitu analisis cluster hirarki dan analisis cluster non
hirarki. Analisis cluster non hirarki salah satunya dan yang paling populer
adalah analisis cluster dengan K-Means Cluster. Ciri khas dari analisis
cluster yang satu ini adalah kita menentukan sendiri dari awal berapa
cluster yang akan kita bentuk. Oleh karena itu dalam tutorial ini, kita akan
coba membuat 3 cluster pada sampel dan variabel seperti artikel
sebelumnya yaitu analisis cluster hirarki dengan SPSS. Langsung saja kita
pelajari tutorial uji atau Analisis Cluster Non Hirarki dengan SPSS.

Download file kerja dalam tutorial ini: Dataset dan Output.

Standarisasi Analisis Cluster


Sebelum melangkah lebih jauh, silahkan anda lakukan proses standarisasi
variabel seperti yang telah kami jelaskan sebelumnya pada analisis cluster
hirarki. Setelah proses standarisasi selesai, maka kita bulai tutorial ini,
yaitu:

Pada menu, klik “Analyze”, “Classifiy”, “K-Means Cluster”.

Analisis K-Means Cluster

Langkah Analisis Cluster K Means dengan SPSS


Perhatikan jendela di atas, anda masukkan variabel yang telah
distandarisasi ke dalam kotak “Variables” dan masukkan variabel “Sampel”
ke dalam kotak “Label Cases by:”. Kemudian pada “Method” pilih “iterate
and classify” serta pada “Number of cluster” anda masukkan angka 3.
Angka 3 di sini berarti anda akan membentuk 3 cluster. Selanjutnya klik
tombol “Continue”.

Klik tombol “Save” kemudian centang “Cluster Membership” dan “Distance


from cluster center”. Proses “Save” berguna untuk membentuk variabel
baru secara otomatis untuk keperluan tahap akhir clustering yaitu tahap
profiling. “Cluster Membership” artinya pada dataset, kita akan memberi
tanda tiap sampel akan masuk ke salah satu cluster yang telah kita bentuk.
Sedangkan “Distance from cluster center” untuk membentuk variabel baru
yang merupakan jarak dengan nilai tengah cluster. Selanjutnya klik tombol
“Continue”.

K-Means Save

Klik tombol “Options” kemudian pada “Statistics” centang “initial cluster


center” dan “Anova Table”.

K-Means Initial Cluster

Setelah anda klik “Continue” maka selanjutnya anda berada pada jendela
utama, maka klik “OK” dan lihat “Output”.

Sampai tahap ini anda telah selesai melakukan analisis k-means cluster
dengan menggunakan aplikasi SPSS. Maka selanjutnya adalah anda
menginterprestasikan hasilnya dengan membaca artikel kami selanjutnya,
yaitu: Interprestasi Analisis Cluster Non Hirarki dengan SPSS. Demikianlah
artikel kami yang menjelaskan tentang Analisis Cluster Non Hirarki dengan
SPSS atau disebut juga dengan Analisis Cluster K Means.

By Anwar Hidayat

Interprestasi Analisis Cluster Non Hirarki


dengan SPSS
Setelah kita berhasil melakukan proses Analisis Cluster Non Hirarki
dengan SPSS, maka langkah selanjutnya adalah menginterprestasikan
hasilnya. Mari kita bersama-sama pelajari tutorial interprestasi analisis
cluster non hirarki dengan SPSS. Langsung saja anda buka output view
anda yang sudah anda hasilkan dari artikel sebelumnya.

Initial Cluster

Tabel Initial Cluster

Tabel “Initial Cluster Centers” di atas merupakan tampilan awal proses


clustering sebelum dilakukan proses iterasi.

Iterasi Analisis Cluster


Agar kita dapat mengetahui berapa kali dilakukan proses iterasi yang
dilakukan pada objek sebanyak 14 sampel, dapat anda lihat di bawah ini:

Iteration History

Dari tabel “Iteration History” di atas, dapat diketahui bahwasanya proses


iterasi dilakukan sebanyak 3 kali. Proses ini dilakukan untuk mendapatkan
cluster yang tepat. Dapat diketahui bahwa jarak minimum antar pusat
cluster yang terjadi dari hasil iterasi adalah 3,632.

Output Analisis Cluster dengan SPSS


Hasil akhir dari proses clustering dapat anda lihat seperti di bawah ini:

Tabel Final Cluster

Pada output di tabel “Final Cluster Centers” dapat anda perhatikan,


bahwasanya data di atas masih terkait dengan proses standarisasi yang
mengacu pada z-score dengan ketentuan sebagai berikut:

 Nilai negatif (-) berarti data berada di bawah rata-rata total

 Nilai positif (+) berarti data berada di atas rata-rata total.


Rumus Cluster
Rumus yang digunakan sebagai berikut:

Rumus Rata-rata Sampel dalam Cluster

Di mana:

X = Rata-rata sampel dalam cluster

μ = Rata-rata populasi

Z = Nilai standardisasi

σ = Standar Deviasi

Misalnya, apabila ingin mengetahui rata-rata nilai Geografi dalam cluster 1,


yaitu:

(rata-rata nilai Geografi seluruh siswa) + (0,06984 x Standar Deviasi rata-


rata Nilai Geografi)
= 69,43 + (0,06984 x 13,91)

= 70,4015

Jadi rata-rata nilai geografi yang berada pada cluster 1 adalah 70,4015.

Demikian seterusnya dapat diketahui rata-rata nilai masing-masing variabel


dalam tiap cluster.

Interprestasi Analisis Cluster Non Hirarki dengan SPSS


Interprestasi Analisis Cluster Non Hirarki dengan SPSS adalah:
Berdasarkan tabel “Output Final Cluster Centers”, dengan ketentuan yang
telah dijelaskan di atas, dapat didefinisikan sebagai berikut:

Cluster 1:

Dalam cluster 1 ini berisi siswa dengan nilai ekonomi dan sosiologi yang
rendah, nilai geografi yang sedang serta nilai anthropologi dan tata negara
yang tinggi.

Cluster 2

Dalam cluster 2 ini berisi siswa dengan nilai ekonomi dan sosiologi yang
rendah, nilai anthropologi dan tata negara yang sedang serta
nilai geografi yang tinggi.

Cluster 3

Dalam cluster 3 ini berisi siswa dengan nilai ekonomi, anthropologi,


geografi dan tata negara yang rendah serta nilai sosiologi yang sedang.

Perlu diingat kembali, penamaan masing-masing cluster sangat bersifat


subjektif tergantung pada peneliti dengan mengacu pada tujuan penelitian.

Tahapan selanjutnya yang perlu dilakukan yaitu melihat perbedaan variabel


pada cluster yang terbentuk. Dalam hal ini dapat dilihat dari nilai F dan nilai
probabilitas (sig) masing-masing variabel, seperti yang dapat anda lihat
dalam tabel berikut:
Interprestasi Analisis Cluster Non Hirarki

Rumus ANOVA
Sedikit review, bahwa rumus dari uji F Anova adalah:

Rumus Anova

Dimana dalam tabel ANOVA di atas “MS Between” ditunjukkan oleh nilai
“Means Square” dalam kolom “Cluster”, sedangkan “MS Within”
ditunjukkan oleh nilai “Means Square” dalam kolom “Error”.

Kesimpulannya adalah:

Semakin besar nilai F dan (sig < 0,05), maka semakin besar perbedaan
variabel pada cluster yang terbentuk.

Kesimpulan Analisis Cluster


Maka berdasarkan tabel yang kita dapatkan dalam tutorial ini, yaitu bahwa
untuk instrumen “Tata Negara” adalah variabel yang paling menunjukkan
adanya perbedaan diantara siswa-siswa pada ketiga cluster yang
terbentuk. Hal ini dengan ditunjukkannya nilai F = 27,528 dan sig = 0,000.
Dan untuk variabel yang lain dapat anda didefinisikan lebih lanjut.

Langkah selanjutnya adalah untuk mengetahui jumlah anggota masing-


masing cluster yang terbentuk, yaitu dengan melihat pada tabel output di
bawah ini:

Number Each Cluster


Pembagian Cluster
Nampak jelas bahwa cluster-1 beranggotakan 5 siswa, cluster-2 berisi 5
siswa, dan pada cluster-3 terdapat 4 siswa yang mengelompok. Dan untuk
mengetahui siswa-siswa mana saja yang masuk dalam kategori tiap-tiap
cluster dapat kembali dibuka tampilan “data view” dari dataset SPSS anda,
yaitu pada kolom terakhir akan nampak seperti berikut ini:

Z-Score

Perhatikan 2 kolom terakhir pada tabel di atas. “qcl_1” menunjukkan nomor


cluster dari keberadaan siswa, dan “qcl_2” merupakan jarak antara obyek
dengan pusat cluster. Dengan demikian, dapat ditafsirkan sebagai berikut:

Cluster-1 : berisikan Siswa A, C, E, F, dan I dengan masing-masing jarak


terhadap pusat cluster-1 adalah 0,82973; 1,58817; 1,83593; 0,25547; dan
1,54385.

Cluster-2 : berisikan siswa B, G, J, L dan N, dengan masing-masing jarak


terhadap pusat cluster-2 seperti yang anda lihat pada kolom “QCL_2”.

Cluster-3 : berisikan Siswa D, H, K, dan M, dengan masing-masing jarak


terhadap pusat cluster-3 seperti yang anda lihat pada kolom “QCL_2”.

NB: Apabila pada Analisis Cluster Hirarki dengan SPSS, pemberian tanda
sampel menjadi anggota cluster mana, dapat dilihat pada “Output View”
dan “Dataset”, tetapi pada Analisis Cluster Non Hirarki dengan SPSS,
tanda itu hanya dapat dilihat pada “Dataset” saja.

Demikianlah semua materi yang berkaitan dengan Analisis Cluster.


Semoga artikel Interprestasi Analisis Cluster Non Hirarki dengan SPSS ini
dapat bermanfaat bagi para peneliti atau mahasiswa yang sedang
membaca jurnal tutorial ini.

By Anwar Hidayat

Analisis Cluster
Analisis Cluster
Definisi
Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek
kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu
dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota
dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin.

Proses Analisis Cluster


Tujuan utama analisis cluster menggabungkan objek-objek yang mempunyai kesamaan
kedalam sebuah kelompok atau cluster. Untuk mencapai tujuan itu kita harus menjawab
tiga pertanyaan, yaitu :
(1) Bagaimana kita mengukur tingkat kesamaan ?
(2) Bagaimana kita membentuk cluster ?
(3) Berapa banyak cluster yang akan kita benntuk ?

Proses Pengambilan Keputusan dalam Analisis Cluster


Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan, yaitu : menentukan
tujuan analisis cluster, menentukan desain penelitian analisis cluster, menentukan asumsi
analisis cluster, menurunkan cluster-cluster dan memperkirakan overall
fit, menginterpretasi hasil analisis cluster, mengukur tingkat validasi hasil analisis cluster.

Langkah 1 : Tujuan Analisis Cluster


Tujuan analisis cluster secara khusus antara lain :
(1) Pengelompokkan
Analisis cluster digunakan dengan tujuan explanatory maupun confirmatory
(2) Penyederhanaan data
Analisis cluster menetapkan struktur dari observasi atau data bukan variabel.
(3) Pengidentifikasian hubungan
Analisis cluster dapat menunjukkan ada tidaknya hubungan antar observasi atau
obyek dalam analisis

Langkah 2 : Desain Penilitian dalam Analisis Cluster


Sebelum melakukan proses pemilahan obyek kedalam beberapa cluster, terlebih dahulu
peneliti harus menjawab tiga pentanyaan, yaitu : apakah ourliers akan dihapus ?,
bagaimana obyek-obyek yang mempunyai kesamaan diukur ?, haruskah data
distandarisasi ?

Mendeteksi Outliers
Dalam melakukan pemilahan obyek kedalam cluster-cluster, analisis tidak hanya peka
terhadap variabel-veriabel yang tidak sesuai dengan kasus yang diteliti tetapi juga peka
terhadap outliers (obyek-obyek yang “berbeda” dengan obyek yang
lainnya). Outliers terjadi karena 2 dua hal, yaitu :
(1) Observasi “menyimpang” yang tidak mewakili populasi
(2) Suatu undersampling kelompok-kelompok dalam populasi yang
menyebabkan underrepresentation kelompok-kelompok dalam sampel
Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari populasi
sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur
sebenarnya dari populasi tersebut. Karena itu, pembuangan outliers sangat penting dalam
analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek
dengan profil-profil yang berbeda, atau value yang berbeda dalam satu atau beberapa
variabel.

Kesamaan Ukuran
Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject Similarityadalah
sebuah ukuran untuk kesesuaian atau kemiripan, diantara objek-objek yang akan dipilah
menjadi beberapa cluster. Interobject Similarity dapat diukur dengan beberapa cara,
antara lain : Correlatioal Measures, Distance Measures, dan Association Measures.
Pemilihan metode tergantung pada tujuan dan jenis data. Correlatioal
Measures dan Distance Measures digunakan untuk data dengan tipe metic,
sedangkan Association Measures digunakan bila data bertipe non-metic.

Correlatioal Measures
The Interobject Measures Similarity dapat diukur dengan corelation coefficientantara
pasangan obyek-obyek yang diukur dalam beberapa variabel. Tingginya korelasi
menujukkan kesamaan dan rendahnya korelasi menunjukkan ketidaksamaan.

Distance Measures
Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya semakin
rendah kesamaan dalam pasangan obyek.

Association Measures
Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati
bertipe non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya
atau tidakdalam sebuah pertanyaan.

Standarisasi Data
Sama halnya dengan seleksi kesamaan ukuran, dalam standarisasi data ni peneliti harus
menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus distandarisasi?
Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa masalah,
misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala. Secara umum,
variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang lebih pada hasil
akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap pengukuran dari
variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu : standarisasi
berdasarkan variabel dan standarisasi berdasarkan observasi.

Langkah 3 : Asumsi-asumsi Analisis Cluster


Syarat normality, linearity, dan homoscedasticity sangat diperhatikan dalam teknik-
teknik multivariate yang lain tetapi tidak dalam analisis cluster. Dalam analisis cluster,
peneliti harus lebih memperhatikan masalah : seberapa besar sampel mewakili populasi
(representativeness) dan ada tidaknya multicollinearity.

Langkah 4 : Menurunkan Cluster-Cluster dan Memperkirakan Overall Fit


Peneliti pertama kali harus menentukan clustering algorithm yang akan digunakan untuk
membentuk cluster dan selanjutnya memutuskan berapa cluster yang akan dibentuk. Dua
hal ini mempunyai implikasi yang substensial tidak hanya pada hasil yang akan diperoleh
tetapi juga pada intepretasi hasil tersebut.
Clustering Algorithm
Petanyaan pertama yang harus dijawab dalam tahapan ini adalah : prosedur apa yang
akan digunakan untuk mengelompokkan obyek-obyek dalam kelompok-kelompok atau
cluster-cluster ? Atau dengan kata lain clustering algorithm atau aturan apa yang lebih
tepat ?
Secara umum clustering algorithm digolongkan dalam dua kategori, yaitu :
(1) Metode Hirarki
(2) Metode Nonhirarki

Metode Hirarki Cluster


Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative (pemusatan)
dan divisive (penyebaran). Dalam metode agglomerative, setiap obyek atau observasi
dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang
mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya.
Sebaliknya, dalam metode divisive kita beranjak dari sebuah cluster besar yang terdiri
dari semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi
nilai ketidakmiripannya kita pisahkan demikian seterusnya.
Dalam agglomerative ada lima metode yang cukup terkenal, yaitu : Single Linkage,
Complete Linkage, Average Linkage, Ward’s Method, Centroid Method.
Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh
jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan
demikian saterusnya.
Complete Linkage, berlawanan dengan Single Linkage prosedur ini
pengelompokkannya berdasarkan jarak terjauh.
Average Linkage, prosedure ini hampir sama dengan Single Linkage maupun Complete
Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam
suatu cluster dengan jarak seluruh individu dalam cluster yang lain.
Ward’s Method, jarak antara dua cluster dalam metode ini berdasarkan total sum of
square dua cluster pada masing-masing variabel.
Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan
jarak centroid dua cluster yang bersangkutan.

Metode Non-Hirarki Cluster


Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses “treelike
construction“. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga
terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster
sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada
cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan
dilanjutkan sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika
jaraknya lebih dekat pada cluster lain daripada cluster asalnya. Metode nonhirarki
cluster berkaitan dengan K-means custering, dan ada tiga pendekatan yang digunakan
untuk menempatkan masing-masing observasi pada satu cluster.
Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan satu
cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika
semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang
kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya.
Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.
Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari pendekatan
yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan
menempatkan objek-objek kedalam cluster yang memiliki jarak antar muka terdekat.
Pada saat proses berlangsung, jarak antar muka dapat ditentukan untuk memasukkan
beberapa objek ke dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa
objek-objek tidak dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.
Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali
bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke dalam
cluster yang lebih dekat.

Kapan Kita Menggunakan Metode Hirarki atau metode Non-Hirarki ?


Jawaban pasti tidak untuk pertanyaan tersebut tidak ada karena dua alasan. Pertama,
penelitian yang sedang diamati dimungkinkan dapat diselesaikan dengan kedua metode
(hirarki atau non-hirarki). Kedua, penelitian yang diamati mungkin sebaiknya
diselesaikan dengan suatu metode yang selanjutnya dengan metode yang lainnya.

Berapa Cluster yang Akan Dibentuk ?


Banyaknya cluster yang akan dibentuk tidak dapat ditentukan secara sembarang.
Penentuan banyaknya cluster yang akan dibentuk harus berdasarkan suatu teori yang
akan mempengaruhi jumlah cluster secara langsung atau alami.

Langkah 5 : Interpretasi Cluster


Tahap interpretasi meliputi pengujian masing-masing cluster dalam terminology macam
cluster untuk menamai atau memberikan keterangan secara tepat sebagai gambaran sifat
dari cluster.
Ketika memulai proses interpretasi, ada satu ukuran yang sering digunakan yaitu cluster
centroid. Jika prosedur pengelompokan dilakukan terhadap data asli, maka ini akan
memberikan gambaran yang logic. Tetapi jika data telah distandarisasi atau jika analisis
cluster dilakukan dengan menggunakan hasil analisis faktor (faktor komponen), peneliti
harus mengembalikan skor asli untuk variabel asal dan menghitung rata-rata profiles
menggunakan data ini.
Gambaran dan interpretasi cluster , memberikan hasil lebih daripada deskriptif. Pertama,
Metode ini memberikan sebuah rata-rata untuk perkiraan masing-masing cluster yang
terbentuk sebagaimana yang dikemukakan pada toeri sebelumnya atau pengalaman
praktek. Kedua, Gambaran cluster memberikan jalan untuk membuat perkiraan
signifikansi praktis. Peneliti mungkin memerlukan bahwa perbedaan substansi yang ada
pada sejumlah variable cluster dan penyelesaian cluster akan dikembangkan sampai
tampak sejumlah perbedaan.

Langkah 6 : Validasi dan Gambaran Cluster


Analisis cluster agak bersifat subjektif dalam penentuan penyelesaian cluster yang
optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai
validasi dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun
tidak ada metode untuk menjamin validitas dan tingkat signifikansi , beberapa
pendekatan telah dikemukakan untuk memberikan dasar bagi perkiraan peneliti.

Validasi Hasil Cluster

Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil
cluster adalah representatif terhadap populasi secara umum, dan dengan demikian dapat
digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan
langsung dalam hal ini adalah dengan analisis sample secara terpisah kemudian
membandingkan antara hasil cluster dengan perkiraan masing-masing cluster.
Pendekatan ini sering tidak praktis, karena adanya keterbatasan waktu dan biaya atau
ketidaktersediaan objek untuk perkalian analisis cluster. Dalam hal ini pendekatan tyang
biasa digunakan adalah dengan membagi sample menjadi dua kelompok. Masing-masing
dianalisis cluster secara terpisah, kemudian hasinya dibandingkan.

Profiling Hasil Cluster


Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk
menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi. Tipe ini
meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster ditentukan.
Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur cluster untuk
menggambarkan karakteristik masing-masing cluster. Meskipun secara teori tidak masuk
akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini diperlukan untuk
memprediksi validasi taksiran, sehingga minimal penting secara praktek.

Anda mungkin juga menyukai