Anda di halaman 1dari 25

Analisis Cluster

Analisis Cluster
Definisi
Analisis cluster adalah suatu analisis statistik yang bertujuan memisahkan obyek kedalam
beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang
lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam
kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin.

Proses Analisis Cluster


Tujuan utama analisis cluster menggabungkan objek-objek yang mempunyai kesamaan
kedalam sebuah kelompok atau cluster. Untuk mencapai tujuan itu kita harus menjawab
tiga pertanyaan, yaitu :
(1) Bagaimana kita mengukur tingkat kesamaan ?
(2) Bagaimana kita membentuk cluster ?
(3) Berapa banyak cluster yang akan kita benntuk ?

Proses Pengambilan Keputusan dalam Analisis Cluster


Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan, yaitu : menentukan
tujuan analisis cluster, menentukan desain penelitian analisis cluster, menentukan asumsi
analisis cluster, menurunkan cluster-cluster dan memperkirakan overall fit,
menginterpretasi hasil analisis cluster, mengukur tingkat validasi hasil analisis cluster.

Langkah 1 : Tujuan Analisis Cluster


Tujuan analisis cluster secara khusus antara lain :
(1) Pengelompokkan
Analisis cluster digunakan dengan tujuan explanatory maupun confirmatory
(2) Penyederhanaan data
Analisis cluster menetapkan struktur dari observasi atau data bukan variabel.
(3) Pengidentifikasian hubungan
Analisis cluster dapat menunjukkan ada tidaknya hubungan antar observasi atau
obyek dalam analisis
Langkah 2 : Desain Penilitian dalam Analisis Cluster
Sebelum melakukan proses pemilahan obyek kedalam beberapa cluster, terlebih dahulu
peneliti harus menjawab tiga pentanyaan, yaitu : apakah ourliers akan dihapus ?,
bagaimana obyek-obyek yang mempunyai kesamaan diukur ?, haruskah data
distandarisasi ?

Mendeteksi Outliers

Dalam melakukan pemilahan obyek kedalam cluster-cluster, analisis tidak hanya peka
terhadap variabel-veriabel yang tidak sesuai dengan kasus yang diteliti tetapi juga peka
terhadap outliers (obyek-obyek yang berbeda dengan obyek yang lainnya). Outliers
terjadi karena 2 dua hal, yaitu :

(1) Observasi menyimpang yang tidak mewakili populasi

(2) Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan


underrepresentation kelompok-kelompok dalam sampel

Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dari populasi
sehingga kita akan memperoleh cluster-cluster yang tidak sesuai dengan struktur
sebenarnya dari populasi tersebut. Karena itu, pembuangan outliers sangat penting dalam
analisis ini. Outliers dapat dilihat melalui Profile Diagram. Outliers adalah obyek-obyek
dengan profil-profil yang berbeda, atau value yang berbeda dalam satu atau beberapa
variabel.

Kesamaan Ukuran

Konsep kesamaan yang diperlukan dalam analisis cluster. Interobject Similarity adalah
sebuah ukuran untuk kesesuaian atau kemiripan, diantara objek-objek yang akan dipilah
menjadi beberapa cluster. Interobject Similarity dapat diukur dengan beberapa cara, antara
lain : Correlatioal Measures, Distance Measures, dan Association Measures. Pemilihan
metode tergantung pada tujuan dan jenis data. Correlatioal Measures dan Distance
Measures digunakan untuk data dengan tipe metic, sedangkan Association Measures
digunakan bila data bertipe non-metic.
Correlatioal Measures

The Interobject Measures Similarity dapat diukur dengan corelation coefficient antara
pasangan obyek-obyek yang diukur dalam beberapa variabel. Tingginya korelasi
menujukkan kesamaan dan rendahnya korelasi menunjukkan ketidaksamaan.

Distance Measures

Distance Measures merupakan ukuran ketidaksamaan. Semakin tinggi nilainya semakin


rendah kesamaan dalam pasangan obyek.

Association Measures

Association Measuresbi of Similarity digunakan bila obyek-obyek yang diamati bertipe


non-metic (tipe nominal atau ordinal). Misalnya, responden hanya menjawab ya
atau tidakdalam sebuah pertanyaan.

Standarisasi Data
Sama halnya dengan seleksi kesamaan ukuran, dalam standarisasi data ni peneliti harus
menjawab sebuah pertanyaan, yaitu : Apakah data yang tersedia harus distandarisasi?
Dalam menjawab pertanyaan ini, penelti harus memperhatikan beberapa masalah,
misalnya, jarak nilai dari masing-masing variabel karena perbedaan skala. Secara umum,
variabel dengan penyebaran nilai yang tinggi mempunyai dampak yang lebih pada hasil
akhir. Karena itu, peneliti diharapkan mengetahui secara lengkap pengukuran dari
variabel-variabel. Proses standarisasi dalam analisi cluster ada dua, yaitu : standarisasi
berdasarkan variabel dan standarisasi berdasarkan observasi.

Langkah 3 : Asumsi-asumsi Analisis Cluster

Syarat normality, linearity, dan homoscedasticity sangat diperhatikan dalam teknik-teknik


multivariate yang lain tetapi tidak dalam analisis cluster. Dalam analisis cluster, peneliti
harus lebih memperhatikan masalah : seberapa besar sampel mewakili populasi
(representativeness) dan ada tidaknya multicollinearity.
Langkah 4 : Menurunkan Cluster-Cluster dan Memperkirakan Overall Fit

Peneliti pertama kali harus menentukan clustering algorithm yang akan digunakan untuk
membentuk cluster dan selanjutnya memutuskan berapa cluster yang akan dibentuk. Dua
hal ini mempunyai implikasi yang substensial tidak hanya pada hasil yang akan diperoleh
tetapi juga pada intepretasi hasil tersebut.

Clustering Algorithm
Petanyaan pertama yang harus dijawab dalam tahapan ini adalah : prosedur apa yang akan
digunakan untuk mengelompokkan obyek-obyek dalam kelompok-kelompok atau cluster-
cluster ? Atau dengan kata lain clustering algorithm atau aturan apa yang lebih tepat ?

Secara umum clustering algorithm digolongkan dalam dua kategori, yaitu :

(1) Metode Hirarki

(2) Metode Nonhirarki

Metode Hirarki Cluster

Dalam metode hirarki cluster terdapat dua tipe dasar yaitu agglomerative (pemusatan) dan
divisive (penyebaran). Dalam metode agglomerative, setiap obyek atau observasi
dianggap sebagai sebuah cluster tersendiri. Dalam tahap selanjutnya, dua cluster yang
mempunyai kemiripan digabungkan menjadi sebuah cluster baru demikian seterusnya.
Sebaliknya, dalam metode divisive kita beranjak dari sebuah cluster besar yang terdiri dari
semua obyek atau observasi. Selanjutnya, obyek atau observasi yang paling tinggi nilai
ketidakmiripannya kita pisahkan demikian seterusnya.

Dalam agglomerative ada lima metode yang cukup terkenal, yaitu : Single Linkage,
Complete Linkage, Average Linkage, Wards Method, Centroid Method.

Single Linkage, prosedur ini didasarkan pada jarak terkecil. Jika dua obyek terpisah oleh
jarak yang pendek maka kedua obyek tersebut akan digabung menjadi satu cluster daan
demikian saterusnya.

Complete Linkage, berlawanan dengan Single Linkage prosedur ini pengelompokkannya


berdasarkan jarak terjauh.
Average Linkage, prosedure ini hampir sama dengan Single Linkage maupun Complete
Linkage, namun kriteria yang digunakan adalah rata-rata jarak seluruh individu dalam
suatu cluster dengan jarak seluruh individu dalam cluster yang lain.

Wards Method, jarak antara dua cluster dalam metode ini berdasarkan total sum of square
dua cluster pada masing-masing variabel.

Centroid Method, jarak antara dua cluster dalam metode ini berdasarkan jarak centroid
dua cluster yang bersangkutan.

Metode Non-Hirarki Cluster

Kebalikan dari metode hirarki, metode nonhirarki tidak meliputi proses treelike
construction. Justru menempatkan objek-objek ke dalam cluster sekaligus sehingga
terbentuk sejumlah cluster tertentu. Langkah pertama adalah memilih sebuah cluster
sebagai inisial cluster pusat, dan semua objek dalam jarak tertentu ditempatkan pada
cluster yang terbentuk. Kemudian memilih cluster selanjutnya dan penempatan dilanjutkan
sampai semua objek ditempatkan. Objek-objek bisa ditempatkan lagi jika jaraknya lebih
dekat pada cluster lain daripada cluster asalnya. Metode nonhirarki cluster berkaitan
dengan K-means custering, dan ada tiga pendekatan yang digunakan untuk menempatkan
masing-masing observasi pada satu cluster.

Sequential Threshold, Metode Sequential Threshold memulai dengan pemilihan satu


cluster dan menempatkan semua objek yang berada pada jarak tertentu ke dalamnya. Jika
semua objek yang berada pada jarak tertentu telah dimasukkan, kemudian cluster yang
kedua dipilih dan menempatkan semua objek yang berjarak tertentu ke dalamnya.
Kemudian cluster ketiga dipilih dan proses dilanjutkan seperti yang sebelumnya.

Parallel Threshold, Metode Parallel Threshold merupakan kebalikan dari pendekatan


yang pertama yaitu dengan memilih sejumlah cluster secara bersamaan dan menempatkan
objek-objek kedalam cluster yang memiliki jarak antar muka terdekat. Pada saat proses
berlangsung, jarak antar muka dapat ditentukan untuk memasukkan beberapa objek ke
dalam cluster-cluster. Juga beberapa variasi pada metode ini, yaitu sisa objek-objek tidak
dikelompokkan jika berada di luar jarak tertentu dari sejumlah cluster.
Optimization, Metode ketiga adalah serupa dengan kedua metode sebelumnya kecuali
bahwa metode ini memungkinkan untuk menempatkan kembali objek-objek ke
dalam cluster yang lebih dekat.

Kapan Kita Menggunakan Metode Hirarki atau metode Non-Hirarki ?

Jawaban pasti tidak untuk pertanyaan tersebut tidak ada karena dua alasan. Pertama,
penelitian yang sedang diamati dimungkinkan dapat diselesaikan dengan kedua metode
(hirarki atau non-hirarki). Kedua, penelitian yang diamati mungkin sebaiknya diselesaikan
dengan suatu metode yang selanjutnya dengan metode yang lainnya.

Berapa Cluster yang Akan Dibentuk ?

Banyaknya cluster yang akan dibentuk tidak dapat ditentukan secara sembarang.
Penentuan banyaknya cluster yang akan dibentuk harus berdasarkan suatu teori yang akan
mempengaruhi jumlah cluster secara langsung atau alami.

Langkah 5 : Interpretasi Cluster


Tahap interpretasi meliputi pengujian masing-masing cluster dalam terminology macam
cluster untuk menamai atau memberikan keterangan secara tepat sebagai gambaran sifat
dari cluster.
Ketika memulai proses interpretasi, ada satu ukuran yang sering digunakan yaitu cluster
centroid. Jika prosedur pengelompokan dilakukan terhadap data asli, maka ini akan
memberikan gambaran yang logic. Tetapi jika data telah distandarisasi atau jika analisis
cluster dilakukan dengan menggunakan hasil analisis faktor (faktor komponen), peneliti
harus mengembalikan skor asli untuk variabel asal dan menghitung rata-rata profiles
menggunakan data ini.

Gambaran dan interpretasi cluster , memberikan hasil lebih daripada deskriptif. Pertama,
Metode ini memberikan sebuah rata-rata untuk perkiraan masing-masing cluster yang
terbentuk sebagaimana yang dikemukakan pada toeri sebelumnya atau pengalaman
praktek. Kedua, Gambaran cluster memberikan jalan untuk membuat perkiraan
signifikansi praktis. Peneliti mungkin memerlukan bahwa perbedaan substansi yang ada
pada sejumlah variable cluster dan penyelesaian cluster akan dikembangkan sampai
tampak sejumlah perbedaan.
Langkah 6 : Validasi dan Gambaran Cluster
Analisis cluster agak bersifat subjektif dalam penentuan penyelesaian cluster yang
optimal, sehingga peneliti seharusnya memberikan perhatian yang besar mengenai validasi
dan jaminan tingkat signifikansi pada penyelesaian akhir dari cluster. Meskipun tidak ada
metode untuk menjamin validitas dan tingkat signifikansi , beberapa pendekatan telah
dikemukakan untuk memberikan dasar bagi perkiraan peneliti.

Validasi Hasil Cluster


Validasi termasuk usaha yang dilakukan oleh peneliti untuk menjamin bahwa hasil cluster
adalah representatif terhadap populasi secara umum, dan dengan demikian dapat
digeneralisasi untuk objek yang lain dan stabil untuk waktu tertentu. Pendekatan langsung
dalam hal ini adalah dengan analisis sample secara terpisah kemudian membandingkan
antara hasil cluster dengan perkiraan masing-masing cluster. Pendekatan ini sering tidak
praktis, karena adanya keterbatasan waktu dan biaya atau ketidaktersediaan objek untuk
perkalian analisis cluster. Dalam hal ini pendekatan tyang biasa digunakan adalah dengan
membagi sample menjadi dua kelompok. Masing-masing dianalisis cluster secara terpisah,
kemudian hasinya dibandingkan.

Profiling Hasil Cluster


Tahap Profiling meliputi penggambaran karakteristik masing-masing cluster untuk
menjelaskan bagaimana mereka bisa berbeda secara relevan pada tiap dimensi. Tipe ini
meliputi penggunaan analisis diskriminan. Prosedur dimulai setelah cluster ditentukan.
Peneliti menggunakan data yang sebelumnya tidak masuk dalam prosedur cluster untuk
menggambarkan karakteristik masing-masing cluster. Meskipun secara teori tidak masuk
akal (rasional) dalam perbedaan silang cluster, akan tetapi hal ini diperlukan untuk
memprediksi validasi taksiran, sehingga minimal penting secara praktek.
Cluster Analysis

Analisis cluster adalah teknik multivariate yang bertujuan untuk mengelompokkan obyek pada
posisi karakteristiknya. Analisis Cluster merupakan salah satu jenis multivariat untuk
mengklasifikasikan obyek atau variabel berdasarkan kesamaan karakteristik yang mereka
miliki. Analisis Cluster digunakan untuk meminimalkan varians dalam kelompok dan
memaksimalkan varians antara kelompok. Hasil dari analisis cluster adalah sejumlah kelompok
heterogen dengan isi homogen.

Cluster Analysis Sebagai Teknik Multivariat

Cluster Analisis mengklasifikasikan obyek pada sebuah susunan pengguna dari karakteristik
yang dipilih. Hasil dari analisis cluster haruslah menampilkan homogenitas internal (within-
cluster) yang tinggi dan heterogenitas eksternal yang tinggi (between cluster). Variat cluster
mewakili representasi matematiis pada sebuah susunan variable dimana membandingkan
kesamaan obyek.

Pengembangan Konseptual dengan Cluster Analysis

Analisis cluster dapat mengklasifikasikan obyek lain disbanding manusia individual, termasuk
struktur pasar, analisis similaritas dan perbedaan diantara produk baru dan evaluasi performa
sebuah perusahaan untuk mengidentifikasi kelompok berbasiss pada strategi perusahaan atau
orientasi strategis.

Peran umum cluster analisis yang digunakan dalam pengembangan konseptual yaitu :

1. Reduksi Data

Analisis cluster dapat melakukan prosedur data reduksi berdasarkan obyek dengan mengurangi
informasi daripopulasi keseluruhan atau sample untuk informasi mengenai grup spesifik.
Mengurangi informasi dari seluruh populasi atau sampel menjadi informasi yang lebih spesifik
dengan sub kelompok yang lebih kecil. Hasil dari reduksi, data menjadi lebih ringkas, deskripsi
dari observasi yang dapat dipahami, dengan meminimalkan hilangnya informasi.

2. Hypothesis Generation

Analisis Cluster juga sangat bermanfaat untuk mengembangkan hipotesis yang diharapkan
memperhatikan data asli dan atau menguji pernyataan hipotesis. Memungkinkan
pengembangan hipotesis tentang sifat data atau pengujian hipotesis yang telah dinyatakan
sebelumnya.

3. Klasifikasi

Responden sampel dapat diprofilkan, dapat diketahui kesamaan demografis atau kelompok
pola konsumsi.

Kebutuhan dukungan Konseptual dalam Analisis Cluster

Analisis cluster dapat dikritisasi untuk bekerja terlalu baik dalam hasil statistik yang dihasilkan
meski berdasarkan logika untuk cluster tidak nyata.

Analisis cluster menjelaskan, tak berteori, dan noninferensial

Analisis cluster tidak memiliki dasar statistic untuk menggambarkan kesimpulan dari sample
populasi, dan banyak pendapat bahwa ini hanyalah sebuah tekni eksploratory.

Analisis cluster akan selalu menciptakan cluster, tanpa memperhatikan eksistensi struktur
dalam data aktual.

Hanya dukungan konseptual yang kuat saja kemudian validasi potensi cluster yang relevan dan
bermakna.

Solusi cluster tidak digeneralisasi karena sangatlah dependen diantara variable yang
digunakan sebagai basis pengukuran similaritas.

Analisis cluster dianggap lebih dependen pada pengukuran yang dgunakan untuk
mengkarakteristikkan obyek disbanding teknik multivariate.
Perbedaan Analisis Cluster dan Analisis Faktor :

Tujuan Analisis Cluster Analisis Faktor

Reduksi Data Tujuan reduksi data untuk Tujuan reduksi data untuk
mengidentifikasi entitas-entitas menggabungkan atau meringkas
serupa dari karakteristik yang obyek dalam jumlah besar ke
dimiliki. Analisis Cluster dalam kelompok yang jelas
mengidentifikasi dan berbeda dalam populasi yang lebih
mengklasifikasikan obyek atau besar (Q analisis faktor).
variabel sehingga setiap obyek
memiliki kesamaan sangat mirip
dengan obyek lain dalam cluster
dengan memperhatikan beberapa
kriteria seleksi yang telah
ditentukan.

Analisis Cluster harus digunakan


ketika peneliti tertarik dalam
pengelompokan responden
berdasarkan kesamaan / perbedaan
pada variabel yang dianalisis
daripada memperoleh kelompok
individu yang memiliki pola
respons yang sama

Pengelompokan Pada pendekatan analisis cluster, Pada pendekatan analisis faktor,


Responden pengelompokan responden yang pengelompokan responden
dibuat berdasarkan pada berdasarkan pada interkorelasi
pengukuran jarak antara skor antara mean dan standar deviasi
responden pada variabel yang dari responden sehingga kelompok
dianalisis. individu menunjukkan pola
respons yang sama pada variabel
yang dimasukkan dalam analisis.

Bagaimana Analisis Cluster Bekerja

Contoh Sederhana

Tujuan utama cluster nalaisis adalah untuk menjelaskan struktur data dengan menempatkan
observasi dengan kemiripan yang sama dalam sebuah grup. Yang perlu diperhatikan yaitu :

Bagaimana mengukur similaritas

Beberapa metode yang mungkin digunakan termasuk korelasi antar obyek atau sebuah
pengukuran untuk kedekatan jarak dua dimensi termasuk jarak anatara observasi yang
mengindikasikan similaritas.

Bagaimana membentuk cluster

Prosedur harus dikelompokkan dengan observasi yang memiliki kemiripan dalam sebuah
cluster, dengan demikian menjelaskan anggota grup dari tiap observasi untuk tiab cluster pu
terbentuk.

Berapa banyak grup yang harus dibentuk

Pilihlah sebuah kelompok cluster sebagai solusi final ; cluster yang lebih sedikit dan kurang
homogen dengan cluster dengan jumlah besar dan lebih within group-homogenity.
Mengukur Similaritas

Similaritas mewakili derajat korespondensi diantara obyek diantara semua karakteristik yang
digunakan dalam analisa.

Hal-hal yang harus dipertimbangkan ketika memilih ukuran kesamaan dalam


menggunakan Analisis Cluster.

1. Analis harus mempertimbangkan bahwa dalam banyak situasi, pengukuran jarak yang
berbeda menyebabkan solusi cluster yang berbeda. Sebaiknya menggunakan beberapa
pengukuran dan membandingkan hasil analisis dengan teori atau pola yang telah yang dikenal
sebelumnya.

2. Ketika variabel memiliki unit yang berbeda, harus dilakukan standarisasi data sebelum
melakukan analisis cluster.

3. Ketika variabel-variabel terinterkorelasi (baik secara positif atau negatif), pengukuran jarak
Mahalanobis kemungkinan akan menjadi yang paling tepat digunakan karena menyesuaikan
dengan interkorelasi dan bobot semua variabel sama

Membentuk Cluster

Untuk membentuk cluster berbasis pengukuran similaritas tiap observasi. Membentuk


sejumlah solusi cluster. Saat cluster dibentuk, kemudian pilih solusi cluster akhir dari sebuah
susunan solusi yang mungkin. Aturannya dengan mengidentifikasi dua observasi yang paling
dekat kemiripannya yang belum berada dalam satu cluster kemudian menggabungkannya.

Tahapan dalam Analisis Cluster

Tahapan dasar dalam penerapan analisis cluster adalah sebagai berikut :

Partitioning yaitu proses menentukan jika dan bagaimana cluster dapat dikembangkan.

Interpretasi yaitu proses memahami karakteristik setiap cluster dan mengembangkan nama
atau label yang tepat mendefinisikan sifatnya.

Profiling yaitu proses yang melibatkan deskripsi karakteristik dari tiap cluster untuk
menjelaskan bagaimana mereka dapat berbeda pada dimensi yang relevan.
Perbedaan Antara Tahap Interpretasi Dan Tahap Profiling:

Tahap interpretasi melibatkan pemeriksaan pernyataan yang


digunakan untuk mengembangkan cluster guna menamai atau memberikan label yang secara
akurat menggambarkan sifat dari cluster. Tahap profiling melibatkan penggambaran
karakteristik tiap cluster untuk menjelaskan bagaimana mereka dapat berbeda pada dimensi
yang relevan. Analisis profil berfokus pada menggambarkan apa yang tidak langsung
menentukan cluster tetapi karakteristik dari cluster setelah mereka diidentifikasi.
Penekanannya adalah pada karakteristik yang berbeda secara signifikan di seluruh cluster, dan
bahkan dapat digunakan untuk memprediksi keanggotaan dalam sebuah perilaku cluster
tertentu.

Tiap observasi sebagai cluster tersendiri dan kemudian menggabungkan dua cluster dalam satu
waktu hingga semua observasi berada dalam cluster tunggal disebut prosedur hierarkis, yang
juga merupakan metode aglomerasi karena cluster dibentuk dengan menggabungkan cluster
yang ada. Enam langkah proses clustering yaitu :

1. Mengidentifikasi dua observasi (E dan F) yang paling mirip dan menggabungkan


mereka ke dalam satu cluster. Sehingga dari tujuh cluster menjadi enam cluster.
2. Temukan bagian observasi selanjutnya yang paling memiliki kedekatan.
3. Menggabungkan anggota cluster tunggal sehingga kita memiliki empat cluster.
4. Gabungkan B dengan dua member cluster C dan D yang telah dibentuk oleh langkah
sebelumnya.
5. Gabungkan dua tiga-anggota cluster ke dalamn satu enam anggota cluster.
6. gabungkan observasi A dengan sisa enam cluster ke dalamn cluster tunggal dalam
sebuah jarak.

Menjelaskan banyaknya cluster dalam satu solusi final

Metode hierarki menghasilkan sebuah angka solusi cluster. Tujuannya untuk mengidentifikasi
segmen dengan menggabungkan observasi, namun pada saat yang sama memperkenalkan
jumlah kecil heterogenitas.
Memilih solusi Cluster Akhir

Mencoba untuk mendapat struktur sederhana yang paling mungkin yang merepresentasikan
homogenitas grup. Peningkatan besar dalam heterogenitas mengindikasikan cua cluster yang
paling tidak mirip dalam sebuah stage. Untuk memilih cluster akhir, diuji pengukuran
perubahan homogentas untuk mengidentifikasi peningkatan besar yang mengindikasi
penggabungan cluster yang tidak mirip :

saat menggabungkan dua observasi kemudian kita membuat tiga anggota pertama cluster kita
melihat peningkatan besar yang wajar.

Pertimbangan Obyektif vs Subyektif

Proses Keputusan Analisis Cluster

partisi susunan data yang terbentuk dan memilih solusi cluster

Menginterpretasi cluster untuk memahami karakteristik tiap cluster dan mengembangkan


nama atau label yang cocok dengan keasliannya

Memvalidasi hasil dari solusi final diantara menjelaskan karakteristik tiap cluister untuk
menjelaskan bagaimana mereka berbeda dalam dimensi yang berbeda seperti demografi.

Stage 1 : Obyek Analisis Cluster

Tujuan utama analisis cluster adalah mempartisi susunan obyek ke dalam dua taua lebih grup
berdasarkan kemiripannya dengan obyek untuk karakteristik tertentu.

Tujuan Analisis Cluster

Sementara tujuan utama dari analisis cluster adalah untuk partition satu set obyek menjadi dua
atau lebih kelompok berdasarkan kesamaan dari objek pada serangkaian karakteristik tertentu,
kegunaan lain dari analisis cluster meliputi:

Analisis eksplorasi untuk mengembangkan sebuah sistem klasifikasi.

Membangkitkan hipotesis dan analisis konfirmatori untuk menguji struktur yang diusulkan.

Pertanyaan Riset dalam Analisis Cluster


1. Taxonomy Description

Taxonomy untuk tujuan eksploratori, berbasis empiris mengklasifikasikan obyek. Analisis


cluster juga menggenneralisasi hipotesis terkait struktur obyek. Meskipun secara prinsip
terlihat sebagai teknik eksploratiry, analisis cluster dapat digunakan untuk tujuan konfirmatori.
Typology yang merupakan teori berbasis klasifikasi dapat dibandingkan dari yang berasal dari
analisis cluster.

2. Data Simplification

Dengan mendefinisikan struktur diantara observasi,n analisis cluter juga mengembangkan


oerpektif sederhana dengan mengelompokkan observasi pada analisis yang lebih jauh.
Sebaliknya terlihat dari semua observasi yang unik, mereka terlihat unik, meraka bisa
ditampilkan sebagai anggota cluster dan diprofilkan dari karakteristik general mereka.

3. Relationship Identification

Analisis seperti diskriminan digunakan secara empiris mengidentifikasi hubungan atau grup
yang diuji dengan metode kualitatif lain, yang disederhanakan dari analisis cluster seringnya
mengidentifkasi hubungan atau kemiripan dan perbedaan yang tidak dibuktikan sebelumnya.

Memilih Clustering Variables

Derived Cluster merefleksikan struktur yang melekat pada data dan didefinisikan oleh variabel.

Pertimbangan konseptual

1. Karakteristik obyek diclusterkan


2. Terkait spesifikasi obyektif dari analisis cluster.

Teknik analisis cluster tidak memiliki arti dari mendiferensiasikan relevansi dari variabel yang
tidak relevan dan berasal dari yang paling konsisten, tapi yang berbeda, kelompok obyek
diantara semua variabel.
Praktik Pertimbangan

Analisis cluster dapat berefek dramatis dengan inklusi hanya satu atau dua variabel yang tidak
memiliki kecocokan atau berbeda.
Stage 2 : Desain Riset dalam Cluster Analysis

Analisis cluster diantara analisis faktor adalah seni dari sains. Pentingnya bahasan ini membuat
langkah selanjutnya menjadi lebih nyata ketika kita sadar bahwa analisis cluster sebenarnya
mencari struktur dalam data.

Analisis cluster tidak dapat mengevaluasi seluruh partisi yang mungkin karena meskipun
relativitas masalah kecil dari partisi 25 obyek ke dalam 5 nonoverlap cluster melibatkan
2,431x1012 partisi yang mungkin.

Sample Size

Ukuran sampel harus cukup besar untuk menyediakan representasi dari grup kecil diantara
populasi dan merepresentasikan struktur utama. Grup yang kecil secara alami ditampilkan
sebagai sejumlah kecil observasi, terutama saat ukuran sampel itu kecil. Ukuran sampel yang
kecil meningkatkan kesempatan bahwa ukuran grup yang kecil akan direpresentasikan oleh
kasus yang cukup untuk membuatnya hadir dan mudah diidentifikasi.

Dalam menjelaskan ukuran sampel peneliti harus menentukan ukuran grup yang dibutuhkan
untuk relevansi bagi pertanyaan yang diminta. Lebih jelasnya, apabila analisa obyektif
membutuhkan identifikasi grup kecil dalam populasi, peneliti harus berusaha mendapatkan
sampel yang lebih besar.

Mendeteksi Outliers

Outliers dapat juga mewakili :

1. Penyimpangan observasi yang tidak bermanfaat dan tidak merepresentasi populasi


umumnya
2. mewakili observasi dari segmen kecil dan insignifikan dalam populasi
3. undersampling dari grup aktula dalam populasi yang menyebabkan representasi lemah
grup dari sampel.

Pendekatan Grafis

Satu dari cara paling sederhana untuk screen data untuk outlier untuk menyiapkan gambar
diagram profil. Tiap poin mewakili bilai korespondensi variabel, dan terhubung untuk
interpretasi visual. Profil untuk semua obyek kemudian diplot pada gambar, sebuah garis untuk
tiap obyek. Outliers dari responden memiliki perbedaan profil yang sangat berbeda dari tipikal
responden lain.

Pendekatan Empiris

Mendeteksi outliers harus melampaui batas pendekatan univariat. Karena outliers juga
mungkin didefinisikan dalam multivariat yang memiliki profil unik diantara keseluruhan
susunan bariabel yang membedakan merka dengan observasi lainnya.

Pendekatan lain adalah untuk mengidentifikasi oulier melalui pengukuran kemiripan. Contoh
yang paling jelas dari outlier adalah observasi tunggal yang paling tidak mirip dari observasi
lain. Sebelum analisa, kemiripan dari seluruh observasi dapat dibandingkan pada keseluruhan
grup centroid. Pola clustering juga dapat diobservasi saat program cluster sedang dijalankan.

Desain Penelitian dalam Analisis Cluster

1. Hasil dari analisis cluster adalah hanya sebaik variabel yang dimasukkan dalam analisis.

Variabel yang tidak relevan akan memiliki efek substantif yang merugikan pada hasil.
Setiap variabel harus memiliki alasan tertentu untuk diikutsertakan.
Variabel harus dikeluarkan apabila peneliti tidak dapat mengidentifikasi mengapa variable
tersebut harus dimasukkan dalam analisis.

2. Analisis cluster sangat sensitif terhadap outlier dalam dataset, karenanya peneliti harus
melakukan pemeriksaan awal pada data yang akan dianalisis.

Outliers dapat berupa observasi yang sebenarnya tidak mewakili populasi atau observasi yang
mewakili sampling dari kelompok yang sebenarnya dalam populasi.

Diagram profil grafis dapat digunakan untuk mengidentifikasi outlier.

Outliers harus dinilai untuk representasi/keterwakilan dari populasi dan dihapus jika mereka
tidak representatif

3. Peneliti harus menentukan ukuran kesamaan antar obyek dan karakteristik yang akan
menentukan kesamaan antara objek-objek yang tercluster.
Mengukur Kemiripan

Interobject Similarity yaitu sebuah pengukuran empiris dari korespondensi atau kemiripan
antara obyek yang dicluster. Dalam diskusi analisis faktor matriks korelasi antara seluruh
bagian variabel digunakan untuk mengelompokkan variabel ke dalam faktor. Pengukuran
kemiripan dihitung dari seluruh bagian obyek dengan kemiripan berdasarkan profil tiap
observasi diantara karekteristik yang ditentukan oleh peneliti. Prosedur analisis cluster
kemudian diproses pada obyek grup yang mirip ke dalam cluster. Interobject similarity dapat
diukur dengan berbagai cara, namun tiga metode ini mendominasi aplikasi analisis cluster ;

A. Correlational measures.

B. Distance measures,

C. Association measures.

Digunakan untuk mewakili kemiripan antara obyek-obyek yang diukur dengan istilah
nonmetrik (pengukuran nominal atau ordinal). Seringkali pengukuran sederhana digunakan
untuk menentukan tingkat agreement atau disagreement antara sepasang hal.

Correlation Measures (dengan data metrik)

Mewakili kesamaan dengan pola menganalisis seluruh variabel. Pengukuran ini tidak
mempertimbangkan besarnya nilai variabel, hanya mempertimbangkan pola analisisnya saja,
dan dengan demikian jarang digunakan.

Pengukuran interobyek mungkin digunakan unruk koefisien korelasi antara pasangan obyek
yang diukur dari beberapa vvariabel.efeknya, sebaliknya dari korelasi dua set variabel yang
membalik matriks data sehingga kolom merepresentasikan obyek dan baris yang
merepresentasikan variabel.

Distance Measures (dengan data metrik)

Mewakili kesamaan sebagai kedekatan observasi satu sama lain di seluruh variabel.
Pengukuran ini fokus pada besarnya nilai-nilai, dengan cara mengelompokkan yang memiliki
kesamaan/kemiripan hal-hal yang dekat satu sama lain.

Meskipun pengukuran korelasi memiliki intuisi banding dan digunakan dalam berbagai teknik
multivariat lainnya, mereka tidak menggunakan pengukuran similaritas dalam analisis cluster.
Pengukuran jarak mengukur perbedaan secara aktual dengan nilai yang lebih besar yang
menunjukkan kemiripan yang kurang.

Jarak dikonversi ke dalam pengukuran kemiripan dengan menggunakan inverse relationship.


Beberapa pengukuran jarak yang tersedia ;

1. Euclidean Distance

Sering diartikan sebagai straight-line distance. Euclidean Distance antara poin adalah
kepanjangan dari hipotalamus dari segitiga yang benar yang dihitung dari formula dibawah
figure. Euclidean distance, merupakan panjang sisi miring pada segitiga siku-siku yang
dibentuk antara titik-titik, adalah ukuran paling umum digunakan.

2. Squared (Absolute) Euclidean Distance

Jumlah dari perbedaan square tanpa mengambil square root. Euclidean Distance squared
memiliki keunggulan dengan mengambil square root dimana kecepatan penghitungan
ditekankan.

3. Standardisasi

Digunakan ketika jangkauan atau skala satu variabel jauh lebih besar atau berbeda dari range
yang lain.

4. City-Block (Manhattan) Distance

Tidak berbasis pada Euclidean Distance. Sebaliknya, metode ini menggunakan jumlah
perbedaan absolut dari variabeln namun mungkin mengarah pada cluster yang invalid apabila
variabel yang dicluster terkorelasi tinggi.

5. Mahalanobis Distance (D2)

Generalisasi pengukuran jarak yang menghitung korelasi antara variabel dengan membagi
bobot sama rata. Keberadaan interkorelasi antara variabel pengelompokan: pengukuran yang
sering dipakai menggunakan jarak Mahalanobis, yang menstandarisasi data dan juga
menjumlahkan pooled dalam varians kelompok - matriks kovarians, mengkompensasi untuk
interkorelasi antar variabel.

Association Measures (dengan data nonmetrik)

Pengukuran asosiasi dari similaritas menggunakan obyek yang dibandingkan dimana


karakteristik pengukuran hanya nonmetrik. Sebuah pengukuran asosiasi dapat mengamati
derajat persetujuan atau kecocokan antara tiap pasangan responden. Bentuk paling sederhana
dari pengukuran asosiasi bisa berupa presentase persetujuan waktu yang terjadi diantara set
pertanyaan.

Standardisasi data

Data yang dicluster bukan berarti skala yang sama yang harus distandardisasi meskipun
dibutuhkan untuk menghindari instant dimana variable mempengaruhi solusi cluster yang lebih
besar daripada yang seharusnya.

Standardisasi Variabel

Bentuk paling umum dari standardisasi adalah konversi tiap variable pada skor standar dengan
mensubstraksi rata-rata dan membagi dengan standar deviasi tiap variable. Piliohan ini dapat
ditemukan di tiap program computer dan banyak lainnya bahkan secara langsung masuk dalam
prosedur analisis cluster. Ada dua manfaat utama standardisasi;

1. Jauh lebih mudah untuk membandingkan antara variable karena mereka berada di skala yang
sama,

2. Tidak ada perbedaan terjadi dalam nilai standardisasi hanya saat skala berubah.

Menggunakan Standar Pengukuran Jarak

Pengukuran euclidean distance yang secara langsung terkait prosedur standardisasi adalah
mahalanobis distance (D2). Pendekatan mahalanobis tidak hanya melakukan proses
standardisasi pada data dengan menskala dalam standar deviasi namun juga menjumlahkan
pooled within-grup variance-covariance dengan penyesuaian korelasi diantara variabel.
Mahalanobis menggeneralisasi prosedur jarak yang dihitung dari sebuah pengukuran jarak
antara obyek yang dibandingkan dengan R2 dalam analisis regresi.

Standardisasi observasi

Apabila kita ingin mengidentifikasi grup berdasarkan gaya respon mereka dan bahkan kontrol
dari pola, kemudian tipe standardisasi melalui penghitungan Z score tidaklah cocok. Kasus
within-case atau row-centering standardization dapat menjadi sangat efektif dalam
menghilangkan efek gaya respon dan utamanya sangat cocok pada berbagai bentuk data sikap.

Pentingnya Standaridisasi
Standardisasi menyediakan perbaikan dari isu dasar dalam pengukuran simuilaritas, sebagian
pengukuran jarak, dan berbagai penggunaan luas lainnya. Keputusan untuk menstandardisasi
haruslah berdasarkan dua alasan, yaitu landasan empiris dan konseptual.yang
merepresentasikan kedua obyektif riset dan kualitas empiris data.

Stage 3 : Asumsi Analisis Cluster

Cluster bukanlah teknik inferensial dimana parameter dari sampel dinilai sebagai representasi
populasi. Analisis cluster adalah metode untuk mengkuantitatifkan karakteristik struktural dari
susunan observasi.

Representatif Sampel

Outlier mungkin hanya sebuah undersampling dari grup divergen saat dibuang,
memperkenalkan bias pada struktur estimasi. Semua usaha haruslah dibuat untuk menjamin
bahwa sampel itu representatif dan hasilnya menggeneralisasikan populasi yang ingin
diketahui.

Asumsi dalam Analisis Cluster

1. Data dapat berupa metrik, nonmetrik, atau kombinasi keduanya.

Semua skala pengukuran dapat digunakan. Tetapi harus diperhatikan bahwa penggunaan
kombinasi tipe data akan membuat interpretasi dari analisis cluster bersifat sangat
tentatif/sementara. Peneliti harus berhati-hati menafsirkan kondisi ini.

2. Analisis Cluster mengasumsikan bahwa sampel adalah benar-benar representasi dari


populasi.

Outliers yang tidak mewakili penduduk harus dihapus.

3. Multikolinieritas antar variabel dapat memiliki efek buruk pada analisis.

Multikolinearitas menyebabkan variabel terkait yang akan dibobot menjadi lebih berat,
sehingga menerima penekanan yang tidak tepat dalam analisis. Satu atau lebih variabel yang
sangat kollinear harus dihapus atau menggunakan ukuran jarak, seperti jarak Mahalanobis,
yang mengkompensasi korelasi ini.

4. Kelompok yang terjadi secara alamiah harus terdapat dalam data.


Analisis Cluster mengasumsikan bahwa partition dari observasi dalam kelompok saling
eksklusif dan memang ada dalam sampel dan populasi.

Analisis cluster tidak dapat memastikan keabsahan pengelompokan ini. Peran ini harus
dilakukan oleh peneliti dengan :

Memastikan bahwa pembenaran teoritis ada untuk analisis kelompok.

Melaksanakan prosedur tindak lanjut untuk profiling dan discriminating antara kelompok.

Tahap 4 : Deriving Clusters dan Menilai Overall Fit

1. Hierarchical clustering memiliki dua pendekatan yaitu Agglomerative Method dan Divisive
Method.

Agglomerative method: dimulai dengan mengobservasi masing-masing cluster dan dengan


setiap langkah menggabungkan observasi untuk membentuk cluster, hingga dicapai hanya
terdapat satu cluster besar.

Divisive method: dimulai dengan satu cluster besar dan kemudian cluster tersebut dibagi
menjadi cluster-cluster yang lebih kecil yang paling tidak mermiliki kesamaan/kemiripan.

2. Clustering Algorithm

Clustering Algorithm untuk menentukan kesamaan antara multiple member cluster dalam
proses clustering. Ada 5 pendekatan untuk pembentukan cluster dalam hierarchical clustering,
yaitu :

a. Single linkage - berdasarkan jarak terdekat antara obyek.

b. Complete linkage - berdasarkan jarak maksimum antara obyek.

c. Average linkage - berdasarkan jarak rata-rata antara obyek.

d. Ward's method - berdasarkan jumlah kuadrat antara kedua cluster dijumlahkan dari semua
variabel.

e. Centroid method - berdasarkan jarak antara centroid cluster. Metode centroid memerlukan
data metrik.
3. Non hierarchical clustering menetapkan semua obyek dalam jarak set dari cluster seed ke
cluster daripada proses tree-building hierarchical clustering. Non hierarchical clustering
memiliki tiga pendekatan:

1) Sequential threshold - berdasarkan pada satu cluster seed yang telah dipilih dan membership
dalam cluster dipenuhi sebelum seed yang lain dipilih.

2) Parallel threshold - berdasarkan pada pemilihan cluster seed yang simultan dan membership
jarak threshold disesuaikan untuk memasukkan lebih banyak atau lebih sedikit obyek dalam
cluster.

3) Optimizing - sama dengan pendekatan yang laink\ kecuali memungkinkan membership


reassignment dari obyek ke cluster lain didasarkan pada beberapa optimizing criterion.

4. Meskipun tidak ada aturan yang ditetapkan untuk jenis clustering mana yang digunakan,
disarankan agar menggunakan keduanya, baik hierarchical dan nonhierarchial clustering
algorithms.

1) Tahap Pertama - sebuah analisis hierarchical cluster digunakan untuk menghasilkan dan
profil cluster.

2) Tahap Kedua - sebuah analisis nonhierarchical cluster digunakan untuk menyempurnakan


cluster membership dengan kemampuan untuk berpindah. Dalam hal ini, centroid dari
hierarchical clustering digunakan sebagai seeds untuk nonhierarchical clustering.

5. Tidak ada prosedur yang berlaku umum untuk menentukan jumlah cluster yang diambil.
Penentuan jumlah cluster yang diambil didasarkan pada teori dan kepraktisan hasil. Beberapa
metode yang paling umum digunakan untuk membantu analis menentukan berapa banyak
cluster yang diambil adalah sebagai berikut:

Clustering coefficient - pengukuran jarak antara dua obyek yang digabungkan. Nilai aktual
yang sebenarnya akan tergantung pada metode clustering dan ukuran kesamaan yang
digunakan.

Ukuran Koefisien menunjukkan homogenitas dari obyek yang digabungkan. Koefisien yang
kecil menunjukkan kewajaran homogenitas dari obyek yang digabungkan, sedangkan koefisien
yang besar adalah hasil dari obyek yang sangat berbeda yang digabungkan.

Peningkatan yang besar (mutlak atau persentase) dalam clustering coefficient adalah indikasi
dari bergabungnya dua cluster yang beragam, yang menunjukkan bahwa "kelompok alami"
mungkin ada sebelum cluster adalah digabungkan. Ini kemudian menjadi salah satu solusi
cluster yang potensial.

Peneliti kemudian harus menguji solusi yang mungkin yang diidentifikasi dari hasil dan
memilih satu sebagai yang terbaik untuk mendukung tujuan penelitian. Kesesuaian solusi ini
harus dikonfirmasi dengan analisis tambahan.

Dendrogram - representasi pictorial dari proses clustering yang mengidentifikasi bagaimana


observasi digabungkan menjadi setiap cluster. Sebagaimana garis penghubung cluster menjadi
lebih panjang, cluster menjadi semakin berbeda.

Vertical icicle - pictorially menggambarkan jumlah obyek di bagian atas dan jumlah dari
cluster turun ke samping. Kekosongan mewakili cluster dan X menunjukkan anggota per
cluster.

6. Ketika solusi cluster tercapai, peneliti harus memeriksa struktur dari setiap cluster dan
menentukan apakah solusinya harus ditentukan kembali

7. Penentuan kembali solusi mungkin diperlukan jika terjadi berbagai ukuran cluster atau cluster
dengan hanya satu sampai dua observasi yang ditemukan.

Tahap 5: Interpretasi dari Cluster

Cluster centroid pada setiap variabel adalah dasar interpretasi yang paling umum.

Centroid Cluster mewakili skor rata-rata untuk setiap kelompok. Skor ini dapat digunakan
untuk menetapkan label cluster.

Uji statistik (F statistik dan tingkat signifikansi dari setiap variabel) disediakan untuk
menunjukkan perbedaan yang signifikan di seluruh cluster.

Hanya variabel yang signifikan harus dipertimbangkan dalam menafsirkan dan pelabelan
clusters.

Profiling dari cluster dapat dihitung dengan analisis diskriminan, dengan memanfaatkan
variabel yang tidak digunakan dalam analisis cluster.

Tahap 6: Validasi dan Profiling dari Cluster


1. Validasi melibatkan proses menganalisis solusi cluster untuk representasi dari populasi dan
untuk generalisasi. Di antara metode yang tersedia adalah:

New, separate sample adalah cluster dianalisis dan dibandingkan.

Split the sample menjadi dua kelompok dan cluster menganalisis secara terpisah.

Mendapatkan cluster centers dari satu kelompok dan menggunakan mereka dengan
kelompok lain untuk mendefinisikan cluster.

2. Profiling melibatkan penilaian bagaimana setiap cluster berbeda dengan cluster lain pada
dimensi deskriptif yang relevan.

Hanya variabel yang tidak digunakan dalam analisis cluster yang digunakan dalam profiling.
Sering kali, variabel yang digunakan dalam langkah ini adalah demografi, psikografis, atau
pola konsumsi.

Analisis diskriminan adalah teknik yang sering digunakan.

3. Prediktif atau kriteria validitas dari cluster dapat diuji dengan memilih criterion variable yang
tidak digunakan dalam analisis cluster dan melakukan pengujian untuk variabilitas yang
diharapkan di seluruh cluster.