Anda di halaman 1dari 50

ANALISIS

cluster
(PENGELOMPOKKAN)
PENGERTIAN
Analisis cluster adalah teknik analisis multivariat yang mempunyai
tujuan utama untuk mengelompokkan objek-objek yang memiliki
sifat atau katakteristik yang sama (homogenitas) atau yang disebut
cluster.
Analisis cluster mengklasifikasi objek sehingga setiap objek yang
paling dekat kesamaannya dengan objek lain berada dalam cluster
yang sama. Cluster-cluster yang terbentuk memiliki homogenitas
internal yang tinggi dan heterogenitas eksternal yang tinggi.
Analisis Cluster (analisis segmentasi) adalah sekumpulan teknik yang
melaksanakan tugas membagi-bagi sekumpulan obyek ke dalam sub
kumpulan yang relatif homogen didasarkan pada kesamaan
/kemiripan/ simililarity antar obyek.
TUJUAN ANALISIS CLUSTER
Tujuan dari Analisis Cluster
1. Mengelompokkan obyek berdasarkan kesamaan karakteristik di
antara obyek-obyek tersebut
2. Memaksimumkan homogenitas obyek dalam kelompok
3. Memaksimumkan heterogenitas antar kelompok
CIRI-CIRI ANALISIS CLUSTER
• Homogenitas internal (within cluster) : adanya kesamaan antar anggota
dalam satu cluster
• Heterogenitas external (between cluster) : perbedaan antara cluster yang
satu dengan cluster yang lain.

Asumsi analisis cluster :


• Repsesentativeness of the sample : sampel yang dapat mewakili populasi
yang ada
• Multokolinieritas : terdapat hubungan yang linier antar variable.
SKEMA ANALISIS CLUSTER
ANALISIS CLUSTER

METODE NON
METODE HIRARKI HIRARKI
(Sampel < 100) (Sampel >100)

Single Complete Average Wards Centroid K – Means


Lingkage Lingkage Lingkage Method Method Method
INPUT DATA

Data Matrix Terbentuk


Mentah Similarity Kelompok
SIMILARITY MEASURES
Similarity measures dapat diklasifikasikan menjadi tiga
bentuk:
1. Distance measures
2. Association coefficient
3. Correlation coefficient
DISTANCE MEASURE
1. Euclidean Distance  untuk mengukur 2. Minkowski Metric general metric dari
similarity Jarak euclidean antara titik i Euclidean distance.
dengan j dalam dimensi p:

Jika n = 2 akan menghasilkan euclidean


Dij adalah jarak antara titik i dengan j dan distance, maka n = 1 akan menghasilkan
p adalah jumlah variable city-block distance

3. City-block or manhattan distance  4. Mahalanobis Distance menghitung


bentuk khusus dari minkowski metric korelasi diantara variabel.
dengan n = 1.
𝑝

𝐷𝑖𝑗 = ෍ 𝑋𝑖𝑘 − 𝑋𝑗𝑘 dimana Σ adalah covariance matrix


𝑘=1 Dalam hal Σ = 1, maka jarak ini menjadi
Euclidean
CONTOH MENGHITUNG
EUCLIDEAN DISTANCE
Menghitung Jarak Dengan menggunakan
euclidean distance :
D122 = (5-6)2 + (5-6)2 = 2
D12 = 1,41

Dengan menggunakan city-block distance :


D12 = I5-6I + I5-6I = 2
CORRELATION COEFFICIENT ASSOCIATION COEFFICIENT

Untuk mengukur similarity juga dapat Digunakan untuk menunjukkan


menggunakan pearson product similarity untuk variabel biner.
moment correlation coefficient. Untuk data biner dapat
Baik correlation coefficient maupun menggunakan ukuran seperti
association coefficient merupakan polychoric correlation atau simple
bentuk dissimilarity, dimana nilai matching coefficients atau variasi
tertinggi menunjukkan similarity dan untuk menunjukkan similarity antar
kebalikannya. observasi.
Koefisien korelasi dapat dengan
mudah dirubah ke bentuk similarity Contoh : 1 0
dengan menambahkan variabel satu 1 a b
dengan yang lain, namun tidak bisa 0 c d
untuk beberapa properti dari true
metric yang lain. a, b, c, d adalah frekuensi kejadian,
similarity antara 2 variabel tersebut
adalah : ad
abcd
METODE ANALISIS
Metode Hirarki
Metode yang memulai pengelompokan dengan dua atau lebih obyek yang
mempunyai kesamaan paling dekat, kemudian proses dilanjutkan ke objek
lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga
cluster akan membentuk semacam pohon, dimana terdapat hirarki
(tingkatan) yang jelas antar objek, dari yang paling mirip hingga yang
paling tidak mirip.

Metode Non-Hirarki
Metode yang dimulai dengan menentukan terlebih dahulu jumlah cluster
yang diinginkan dan kemudian baru dilakukan proses cluster.
TEKNIK PENGELOMPOKKAN
 Tipe dasar dalam metode ini adalah aglomerasi dan pemecahan.
 Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai
pengelompokkan tersendiri sehingga terdapat pengelompokkan sebyak jumlah
observasi.
 Sebaliknya pada metode pemecahan dimulai dari satu pengelompokkan besar yang
mengandung seluruh observasi.
Metoda Aglomerasi
Berawal dari masing-masing obyek berdiri sendiri Akhirnya keseluruhan obyek
berada dalam satu kelompok yang sama.
Metoda Divisive
Berawal dari seluruh obyek berada dalam satu kelpmpok yang sama Akhirnya
masing-masing obyek menjadi satu kelompok-kelompok yang saling terpisah
 Perumusan kelompok
 Prinsip: Obyek dalam satu kelompok mempunyai kemiripan satu dengan lain dan berbeda
dengan obyek-obyek dalam kelompok yang berbeda
 Jumlah Kelompok: Sesuai dengan kebutuhan.
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Metoda Linkage
Metoda Mencari pasangan obyek dengan jarak terdekat digabungkan berdasarkan jarak
Aglomerasi dimana masing-masing obyek dianggap satu kelompok yang saling terpisah (n
kelompok)
1. Ada n-1 kelompok baru buatkan matrik jarak baru
2. Menghitung jarak ke kelompok baru
 Single Linkage
 Complete Linkage
 Average Linkage
3. Mencari Pasangan Baru yang mempunyai jarak terdekat:
 ObyekObyek
 Obyek Kelompok
 KelompokKelompok
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Single Linkage
Metoda Didasarkan pada jarak minimum (nearest neighbor ). Dimulai
Aglomerasi dengan dua objek yang dipisahkan dengan jarak paling pendek
maka keduanya akan ditempatkan pada cluster pertama, dan
Single Linkage
seterusnya.
Contoh : Jarak antara nearest
neighbor

Jarak yang Paling


Minimum
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Object 5 dan object 3 digabungkan, kemudian dicari terdekat
Metoda menuju object berikutnya
Aglomerasi
Single Linkage Jarak yang paling
minimum adalah
dari object (3,5) ke
object 1

Object (5,3) digabungkan


dengan object 1.
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Jarak yang paling
Metoda minimum adalah dari
Aglomerasi object (1,3,5) ke object 4
Single Linkage
DENDOGRAM
Jarak yang
Paling
Minimum

Jarak antar
cluster

Cluster 1 Cluster 2
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Complete Linkage
Metoda Didasarkan pada jarak maksimum. Dalam metode ini seluruh
Aglomerasi objek dalam suatu cluster dikaitkan satu sama lain pada suatu
Complete jarak maksimuma atau dengan kesamaan minimum.
Linkage Jarak antara most
distance members
dari cluster

Awalnya dicari Jarak yang


Paling Minimum  3 dan 5
didekatkan/digabungkan
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Jarak paling
minimum
Metoda
adalah dari
Aglomerasi object 4 ke 2
Complete
Linkage
DENDOGRAM

Jarak yang paling


minimum. Sehingga
(2,4) didekatkan
dengan object 1

Cluster 1 Cluster 2
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Complete Linkage
Metoda Didasarkan pada jarak rata-rata antar object. Dimana jarak antar
Aglomerasi cluster merupakan jarak rata-rata antar obyek.
Average Linkage Jarak antara object ke i dalam cluster
(UV) dan object ke j dalam cluster (w)

Banyaknya item di cluster (UV) dan W

Subject Id Income Education


Contoh: ($ thous.) (years)
S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis
Metoda
Aglomerasi Dengan menggunakan
euclidean distance
Average Linkage diperoleh jarak paling
minimum yaitu S1 dan S2

Jarak paling minimum


selanjutnya sehingga S3
dan S4 digabungkan
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Complete Linkage
Metoda Didasarkan pada pertimbangan jarak centroid pada cluster.
Aglomerasi
Centroid
Method dimana
Jarak antara klaster
A dan klaster B
adalah jarak rata-
rata data x dan y
dari klaster A dan B

nA dan nB masing-masing adalah banyaknya data dalam set A


dan B
TEKNIK PENGELOMPOKKAN
Teknik Hirarkis Ward’s Method
Metoda Didasarkan pada jarak antara dua cluster adalah jumlah kuadrat
Aglomerasi antara dua cluster untuk seluruh variabel.
Ward’s Method

dimana :
• nA dan nB masing-masing adalah banyaknya data dalam set A dan B
• s2AB adalah jarak antara klaster A dan B menggunakan centroid
linkage

Metode ini bertujuan untuk meminimasi jumlah kuadrat dalam


cluster (within-cluster sum of square)
METODE NON-HIRARKI
 Berbeda dengan metode hirarki, metode ini Menentukan Banyaknya
dimulai dengan menentukan terlebih dahulu cluster (K)
jumlah cluster yang diinginkan (2 cluster, 3
cluster atau yang lain). Menentukan pusat (centroid )
 Setelah jumlah cluster diketahui, proses
dilakukan tanpa mengikuti proses hirarki Menghitung jarak obyek ke
 Metode ini lazim disebut metode k–means pusat (centroid)
cluster.
• Kelebihan : Cukup efisien, algoritma berhenti Mengelompokan obyek berdasarkan
dalam kondisi optimum.
jarak minimum
• Kelemahan : Harus menentukan jumlah
cluster yang dibentuk, tidak dapat menangani
data yang mengalami penyimpangan Terdapat obyek yang harus ya
(outlier). dipindahkan
Tidak

Selesai
TEKNIK PENGELOMPOKKAN
Teknik Non- Metoda Splinter Average Distance
Hirarkis Melakukan pemisahan berdasarkan rata-rata jarak dengan
Metoda Divisive kelompok lain yang dipisahkan dan rata-rata jarak dalam
Metoda Splinter kelompok sendiri.
Average • Dengan anggapan semua obyek adalah satu kelompok,
Distance pemisahan dimulai dari obyek yang mempunyai jarak rata-
rata ke obyek lain yang terjauh
• Dari masing-masing kelompok yang telah terbentuk, dilakukan
pemisahan dengan cara yang sama
TEKNIK PENGELOMPOKKAN
Teknik Non- Metoda Pengelompokkan K – Means
HirarkisPenentuan Kelompok tidak final dapat diubah jika tidak tepat.
Metoda DivisiveDidasarkan optimasi kriteria formal dan telah didefinisikan.
Metoda Mengasumsikan jumlah kelompok diketahui dan dan telah
K – Means dispesifikasikan di awal
Tahapan:
1. Tentukan Kelompok awal berdasarkan perkiraan.
2. Membuat Tabel Karakteristik setiap kelompok, berdasarkan rata-
rata setiap variabel pada setiap kelompok.
3. Hitung Jarak antara individu dengan kelompok dimana individu
tersebut berada. 1
 p 2
2
D  i, l     X  i, j   X  l , j  
 j 1 
4. Hitung kesalahan pengelompokkan.
5. Menguji penurunanan nilai kesalahan dengan adanya pemindahan
individu ke kelompok lain.
TEKNIK PENGELOMPOKKAN
Teknik Non-
Hirarkis
Algoritma 1 DATA
Metoda Divisive Algoritma 2 Subject Id Income Education
Metoda Algoritma 3 ($) (years)
K – Means S1 5 5
S2 6 6
S3 15 14
S4 16 15
S5 25 20
S6 30 19
TEKNIK PENGELOMPOKKAN
Teknik Non- 1. Tentukan jumlah cluster (k) k=3 Initial
Hirarkis 2. Tentukan observasi yang menjadi centroid sejumlah (k) Cluster
Metoda Divisive Centroid
Metoda
K – Means
Algoritma 1

3. Menghitung jarak dari Cluster Centroids


D213= (5-15)2 + (5-14)2 = 181

S3, S4, S5, & S6 tergabung


dalam satu cluster
TEKNIK PENGELOMPOKKAN
Iterasi 1
b. Menghitung jarak dari Cluster Centroids
a. Mengubah Cluster Centroids
DATA

Rata-rata D213= (5-21,5)2 + (5-17)2 = 416,25

Iterasi selesai karena


Reassigment = Previous
Assigment
TEKNIK PENGELOMPOKKAN
Teknik Non- 1. Tentukan jumlah cluster (k) k=3
Hirarkis Initial
2. Tentukan observasi yang menjadi centroid sejumlah (k) Cluster
Metoda Divisive
Centroid
Metoda
K – Means
Algoritma 2

3. Modifikasi Initial Cluster Centroid


3.1 Tentukan jarak terkecil (selain nol) antar observasi

Jarak terkecil :
S1 & S2
TEKNIK PENGELOMPOKKAN
Teknik Non- 3.2 Menetukan replacement seeds
Hirarkis S4 tidak dapat dijadikan
Metoda Divisive replacement seed karena jarak S1
Metoda dan S2 tidak lebih kecil dari jarak
K – Means S4 dengan seed terdekat (S3).
Algoritma 2 S5 dijadikan replacement seed
karena jarak S1 dan S2 lebih
kecil dari jarak S5 dengan seed
3.3 Cluster Centroid hasil modifikasi terdekat (S3).

S5 menggantikan seed S2
karena jarak S5 dan S2 lebih
15 25
14 20
kecil daripada S5 dan S1.
TEKNIK PENGELOMPOKKAN
4. Menghitung jarak dari Cluster Centroids

D212= (5-15)2 + (5-14)2 = 181 D213= (5-25)2 + (5-20)2 = 625

Iterasi 1
D213= (5-27,5)2 + (5-19,5)2 = 716,5
a. Mengubah Cluster Centroids

Iterasi selesai karena


Reassigment = Previous
Assigment

S1 & S2 S3 & S4 S5 & S6


TEKNIK PENGELOMPOKKAN
Teknik Non- Initial seeds (Ci) ditentukan dengan rumus
Hirarkis
Metoda Divisive
Metoda
K – Means
Algoritma 3
• Sum(i) : total nilai semua variable tiap observasi
• Min : nilai terkecil sum(i) dari data
• Max : nilai terbesar sum(i) dari data
• K : jumlah cluster
• Reassigment berdasarkan minimum Error Sum of Square (ESS)
RELIABILITY AND EXTERNAL VALIDITY
Reliability
Salah satu indikator reliability adalah degree of agreement
antara assignment dengan analisis klaster.

External Validity
Diperoleh dengan membandingkan hasil dari analisis klaster
dengan kriteria eksternal.
Misalnya mengelompokkan perusahaan berdasarkan rasio keuangan sehingga
diperoleh 2 klaster, yaitu perusahaan yang sehat secara finansial dan
perusahaan yang tidak sehat secara finansial.
CONTOH
Dari penelitian yang dilakukan terhadap 12 kota, ingin
diketahui
pengelompokan kota-kota tersebut berdasarkan instrumen
5 variabel
yaitu :
1. jumlah pendapatan kota (trilyun Rp)
2. jumlah pinjaman pemerintah kota (milyar Rp)
3. jumlah dana hibah yang dimiliki kota (milyar Rp)
4. jumlah konsumsi pemerintah kota (milyar Rp)
5. Jumlah penduduk kota (juta jiwa).
Standarisasi Data
Mengingat data yang terkumpul mempunyai variabilitas satuan, maka perlu
dilakukan langkah standardisasi atau transformasi terhadap variabel yang relevan ke
bentuk zscore

Sebagai dasar
perhitungan Z-score
Hasil Z Score untuk Analisis Cluster

Tampilan
“dataview”
Analisis Cluster Metoda Non Hierarkis (K-Mean Cluster)
Analisis Cluster Metoda Hierarkis
• Konsep dari metode hirarkis ini dimulai dengan menggabungkan 2 obyek
yang paling mirip, kemudian gabungan 2 obyek tersebut akan bergabung lagi
dengan satu atau lebih obyek yang paling mirip lainnya.
• Proses clustering ini pada akhirnya akan ‘menggumpal’ menjadi satu cluster
besar yang mencakup semua obyek.
• Metode ini disebut juga sebagai “metode aglomerativ” yang digambarkan
dengan dendogram.

Anda mungkin juga menyukai