cluster
(PENGELOMPOKKAN)
PENGERTIAN
Analisis cluster adalah teknik analisis multivariat yang mempunyai
tujuan utama untuk mengelompokkan objek-objek yang memiliki
sifat atau katakteristik yang sama (homogenitas) atau yang disebut
cluster.
Analisis cluster mengklasifikasi objek sehingga setiap objek yang
paling dekat kesamaannya dengan objek lain berada dalam cluster
yang sama. Cluster-cluster yang terbentuk memiliki homogenitas
internal yang tinggi dan heterogenitas eksternal yang tinggi.
Analisis Cluster (analisis segmentasi) adalah sekumpulan teknik yang
melaksanakan tugas membagi-bagi sekumpulan obyek ke dalam sub
kumpulan yang relatif homogen didasarkan pada kesamaan
/kemiripan/ simililarity antar obyek.
TUJUAN ANALISIS CLUSTER
Tujuan dari Analisis Cluster
1. Mengelompokkan obyek berdasarkan kesamaan karakteristik di
antara obyek-obyek tersebut
2. Memaksimumkan homogenitas obyek dalam kelompok
3. Memaksimumkan heterogenitas antar kelompok
CIRI-CIRI ANALISIS CLUSTER
• Homogenitas internal (within cluster) : adanya kesamaan antar anggota
dalam satu cluster
• Heterogenitas external (between cluster) : perbedaan antara cluster yang
satu dengan cluster yang lain.
METODE NON
METODE HIRARKI HIRARKI
(Sampel < 100) (Sampel >100)
Metode Non-Hirarki
Metode yang dimulai dengan menentukan terlebih dahulu jumlah cluster
yang diinginkan dan kemudian baru dilakukan proses cluster.
TEKNIK PENGELOMPOKKAN
Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan.
Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai
pengelompokkan tersendiri sehingga terdapat pengelompokkan sebyak jumlah
observasi.
Sebaliknya pada metode pemecahan dimulai dari satu pengelompokkan besar yang
mengandung seluruh observasi.
Metoda Aglomerasi
Berawal dari masing-masing obyek berdiri sendiri Akhirnya keseluruhan obyek
berada dalam satu kelompok yang sama.
Metoda Divisive
Berawal dari seluruh obyek berada dalam satu kelpmpok yang sama Akhirnya
masing-masing obyek menjadi satu kelompok-kelompok yang saling terpisah
Perumusan kelompok
Prinsip: Obyek dalam satu kelompok mempunyai kemiripan satu dengan lain dan berbeda
dengan obyek-obyek dalam kelompok yang berbeda
Jumlah Kelompok: Sesuai dengan kebutuhan.
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Metoda Linkage
Metoda Mencari pasangan obyek dengan jarak terdekat digabungkan berdasarkan jarak
Aglomerasi dimana masing-masing obyek dianggap satu kelompok yang saling terpisah (n
kelompok)
1. Ada n-1 kelompok baru buatkan matrik jarak baru
2. Menghitung jarak ke kelompok baru
Single Linkage
Complete Linkage
Average Linkage
3. Mencari Pasangan Baru yang mempunyai jarak terdekat:
ObyekObyek
Obyek Kelompok
KelompokKelompok
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Single Linkage
Metoda Didasarkan pada jarak minimum (nearest neighbor ). Dimulai
Aglomerasi dengan dua objek yang dipisahkan dengan jarak paling pendek
maka keduanya akan ditempatkan pada cluster pertama, dan
Single Linkage
seterusnya.
Contoh : Jarak antara nearest
neighbor
Jarak antar
cluster
Cluster 1 Cluster 2
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Complete Linkage
Metoda Didasarkan pada jarak maksimum. Dalam metode ini seluruh
Aglomerasi objek dalam suatu cluster dikaitkan satu sama lain pada suatu
Complete jarak maksimuma atau dengan kesamaan minimum.
Linkage Jarak antara most
distance members
dari cluster
Cluster 1 Cluster 2
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Complete Linkage
Metoda Didasarkan pada jarak rata-rata antar object. Dimana jarak antar
Aglomerasi cluster merupakan jarak rata-rata antar obyek.
Average Linkage Jarak antara object ke i dalam cluster
(UV) dan object ke j dalam cluster (w)
dimana :
• nA dan nB masing-masing adalah banyaknya data dalam set A dan B
• s2AB adalah jarak antara klaster A dan B menggunakan centroid
linkage
Selesai
TEKNIK PENGELOMPOKKAN
Teknik Non- Metoda Splinter Average Distance
Hirarkis Melakukan pemisahan berdasarkan rata-rata jarak dengan
Metoda Divisive kelompok lain yang dipisahkan dan rata-rata jarak dalam
Metoda Splinter kelompok sendiri.
Average • Dengan anggapan semua obyek adalah satu kelompok,
Distance pemisahan dimulai dari obyek yang mempunyai jarak rata-
rata ke obyek lain yang terjauh
• Dari masing-masing kelompok yang telah terbentuk, dilakukan
pemisahan dengan cara yang sama
TEKNIK PENGELOMPOKKAN
Teknik Non- Metoda Pengelompokkan K – Means
HirarkisPenentuan Kelompok tidak final dapat diubah jika tidak tepat.
Metoda DivisiveDidasarkan optimasi kriteria formal dan telah didefinisikan.
Metoda Mengasumsikan jumlah kelompok diketahui dan dan telah
K – Means dispesifikasikan di awal
Tahapan:
1. Tentukan Kelompok awal berdasarkan perkiraan.
2. Membuat Tabel Karakteristik setiap kelompok, berdasarkan rata-
rata setiap variabel pada setiap kelompok.
3. Hitung Jarak antara individu dengan kelompok dimana individu
tersebut berada. 1
p 2
2
D i, l X i, j X l , j
j 1
4. Hitung kesalahan pengelompokkan.
5. Menguji penurunanan nilai kesalahan dengan adanya pemindahan
individu ke kelompok lain.
TEKNIK PENGELOMPOKKAN
Teknik Non-
Hirarkis
Algoritma 1 DATA
Metoda Divisive Algoritma 2 Subject Id Income Education
Metoda Algoritma 3 ($) (years)
K – Means S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
TEKNIK PENGELOMPOKKAN
Teknik Non- 1. Tentukan jumlah cluster (k) k=3 Initial
Hirarkis 2. Tentukan observasi yang menjadi centroid sejumlah (k) Cluster
Metoda Divisive Centroid
Metoda
K – Means
Algoritma 1
Jarak terkecil :
S1 & S2
TEKNIK PENGELOMPOKKAN
Teknik Non- 3.2 Menetukan replacement seeds
Hirarkis S4 tidak dapat dijadikan
Metoda Divisive replacement seed karena jarak S1
Metoda dan S2 tidak lebih kecil dari jarak
K – Means S4 dengan seed terdekat (S3).
Algoritma 2 S5 dijadikan replacement seed
karena jarak S1 dan S2 lebih
kecil dari jarak S5 dengan seed
3.3 Cluster Centroid hasil modifikasi terdekat (S3).
S5 menggantikan seed S2
karena jarak S5 dan S2 lebih
15 25
14 20
kecil daripada S5 dan S1.
TEKNIK PENGELOMPOKKAN
4. Menghitung jarak dari Cluster Centroids
Iterasi 1
D213= (5-27,5)2 + (5-19,5)2 = 716,5
a. Mengubah Cluster Centroids
External Validity
Diperoleh dengan membandingkan hasil dari analisis klaster
dengan kriteria eksternal.
Misalnya mengelompokkan perusahaan berdasarkan rasio keuangan sehingga
diperoleh 2 klaster, yaitu perusahaan yang sehat secara finansial dan
perusahaan yang tidak sehat secara finansial.
CONTOH
Dari penelitian yang dilakukan terhadap 12 kota, ingin
diketahui
pengelompokan kota-kota tersebut berdasarkan instrumen
5 variabel
yaitu :
1. jumlah pendapatan kota (trilyun Rp)
2. jumlah pinjaman pemerintah kota (milyar Rp)
3. jumlah dana hibah yang dimiliki kota (milyar Rp)
4. jumlah konsumsi pemerintah kota (milyar Rp)
5. Jumlah penduduk kota (juta jiwa).
Standarisasi Data
Mengingat data yang terkumpul mempunyai variabilitas satuan, maka perlu
dilakukan langkah standardisasi atau transformasi terhadap variabel yang relevan ke
bentuk zscore
Sebagai dasar
perhitungan Z-score
Hasil Z Score untuk Analisis Cluster
Tampilan
“dataview”
Analisis Cluster Metoda Non Hierarkis (K-Mean Cluster)
Analisis Cluster Metoda Hierarkis
• Konsep dari metode hirarkis ini dimulai dengan menggabungkan 2 obyek
yang paling mirip, kemudian gabungan 2 obyek tersebut akan bergabung lagi
dengan satu atau lebih obyek yang paling mirip lainnya.
• Proses clustering ini pada akhirnya akan ‘menggumpal’ menjadi satu cluster
besar yang mencakup semua obyek.
• Metode ini disebut juga sebagai “metode aglomerativ” yang digambarkan
dengan dendogram.