Anda di halaman 1dari 35

1

ANALISIS CLUSTER
2
DEFINISI
Untuk mengidentifikasi sekelompok obyek (case atau variabel)
yang memiliki kemiripan karakteristik tertentu yang dapat
dipisahkan dari kelompok obyek lainnya.
Jumlah kelompok yang dapat diidentifikasi tergantung pada
jumlah dan variasi data obyek.


3
TUJUAN
Mengelompokkan sekumpulan obyek (case atau variabel) ke
dalam beberapa kelompok (cluster) yang memiliki karakteristik
tertentu dan dapat dibedakan satu sama lain untuk analisis dan
interpretasi lebih lanjut sesuai dengan tujuan penelitian yang
dilakukan.

4
PRINSIP DASAR
Pengelompokkan/pemisahan dilakukan berdasarkan similarity
(kesamaan) antar obyek.
Similarity (kesamaan) diperoleh dengan meminimalkan jarak
antar obyek dalam kelompok (within cluster) dan
memaksimalkan jarak antar kelompok (between cluster).
Pengukuran jarak (distance-type measure) digunakan untuk
data-data yang bersifat metrik, sementara pengukuran
kesesuaian (matching-type measure) digunakan untuk data-data
yang bersifat kualitatif.
5
INPUT DATA
Data yang menjadi input untuk proses cluster dapat berupa data
nominal, ordinal, interval, maupun rasio.
Apabila data bersifat campuran, maka kita memperlakukan seluruh
data sebagai data rasio.
Bila data berbentuk nominal atau ordinal saja, maka perhitungan
kemiripan (similarity) tidak menggunakan jarak tetapi menggunakan
metoda yang lain (misalnya matching-type measures)
Sebaiknya set data obyek memiliki variabel dengan tipe yang
sejenis, tidak bercampur antara tipe yang satu dengan yang lainnya.
6
TAHAPAN PEMBENTUKAN CLUSTER
Tahap-tahap pembentukan cluster secara umum sebagai berikut :

STEP 1 : Terdapat data mentah berupa matriks dengan n obyek
dan p variabel (sebaiknya jumlah obyek > jumlah variabel).

STEP 2 : Mentransformasikan matriks data mentah (n x p) menjadi
matriks jarak antar obyek (n x n) dengan menggunakan metode
penghitungan jarak.
7
TAHAPAN PEMBENTUKAN CLUSTER
(Lanjutan)

STEP 3 : Pembentukan cluster dilakukan dengan menggunakan
metoda tertentu (hierarchical clusters atau mutually exclusive
clusters).

STEP 4 : Mendiskripsikan profil cluster yang terbentuk.
8
DIAGRAM PEMBENTUKAN CLUSTER
(Lanjutan)

Pengambilan p pengukuran variabel
pada obyek
Pembentukan matriks data mentah
berukuran n x p
Pembentukan matriks similaritas
Berukuran n x n
Pemilihan algoritma pengelompokan
Cluster
Interpretasi dan deskripsi
9
METODA PERHITUNGAN JARAK
Asumsikan data mentah yang telah diperoleh dari n obyek atau
individu. Tiap obyek diwakili oleh sebuah vektor observasi x
,
=
(x
1
, x
2
, .., x
p
) pada p variabel. Untuk selanjutnya notasi x
,
i
=
(x
i1
, x
i2
,.,x
ip
) menunjukkan pengukuran pada obyek atau
individu ke-i
Terdapat jenis ukuran jarak untuk tipe data interval, frekuensi
dan biner.
1. Interval
Beberapa pengukuran jarak biasanya menggunakan jarak
Minkowski yang didefinisikan :



10
METODE PENGHITUNGAN JARAK (Lanjutan..)


dij menunjukkan jarak antara dua obyek i dan j. Jika r = 2, maka
diperoleh jarak euclidean yang dirumuskan sebagai berikut :



Jarak euclidian yang dikuadratkan akan menjadi square
euclidian distance.
Jika r = 1, akan diperoleh jarak absolut atau jarak city-block
yang dirumuskan sebagai berikut :
r
p
k
r
jk ik ij
X X d
1
1 )
`

=

=
2
1
1
2
)
`

=

=
p
k
jk ik ij
X X d
11
METODE PERHITUNGAN JARAK (Lanjutan.)


Penggunaan jarak city-block menghasilkan perhitungan jarak
dua obyek sama tanpa memperhatikan apakah obyek tersebut
berbeda dua satuan, misalnya pada dua variabel, atau berbeda
satu satuan pada variabel pertama dan tiga satuan pada
variabel yang keempat, dst. (tentunya dengan asumsi bahwa
skala antar variabel sama).

Kekurangan dari metode jarak euclidean adalah bahwa hasil
perhitungan dapat terdistorsi akibat perubahan atau perbedaan
skala perhitungan.

=
=
p
k
jk ik ij
X X d
1
12
METODE PERHITUNGAN JARAK
(Lanjutan..)
2. Frekuensi
Metoda pengukuran jarak yang biasa digunakan adalah chi-
square
Metoda lainnya adalah phi-square.

3. Biner
Metoda pengukuran jarak untuk data biner antara lain adalah
square euclidian distance, euclidian distance, size difference,
pattern difference,variance shape, Lance and Williams serta
Present and Absent.
13
METODA PEMBENTUKAN CLUSTER
Secara garis besar, terdapat dua metoda pembentukan cluster,
yakni :
Metoda hirarki (hierarchical methods)
Metoda partisi (partitioning methods)

Perbedaan antara kedua metoda tersebut adalah dalam
pengalokasian obyek ke dalam cluster.

Pada metode hirarki, jika suatu obyek dikelompokkan ke dalam
suatu cluster, maka obyek tersebut akan tetap berada di dalam
cluster tersebut, sehingga ketika obyek tadi akan dikelompokkan
dengan obyek lain, clusternya akan ikut dikelompokkan pula.

14
METODA PEMBENTUKAN CLUSTER
(Lanjutan.)
Pada metoda partisi, posisi obyek di dalam suatu cluster tidaklah
tetap. Artinya meskipun suatu obyek telah masuk ke dalam suatu
cluster, obyek tersebut dapat mengalami realokasi
(pengelompokan kembali) ke dalam cluster lain apabila ternyata
karakteristik awal pengelompokkan tidak akurat.

METODA HIRARKI
Metoda hirarki adalah teknik pengelompokan yang membentuk
konstruksi hirarki atau berdasarkan tingkatan tertentu seperti
struktur pohon, sehingga proses pengelompokan dilakukan secara
bertingkat dan bertahap.
15
METODA PEMBENTUKKAN CLUSTER
(Lanjutan..)
Metoda hirarki terbagi lagi menjadi dua, yakni :
A. Metoda aglomeratif ( agglomerative methods)
B. Metoda divisif (divisive methods)

A. METODA AGLOMERASI
Pada metoda aglomerasi, mula-mula setiap obyek membentuk
cluster masing-masing.
Kemudian dua obyek dengan jarak terdekat bergabung menjadi
satu cluster.
Selanjutnya obyek lain akan bergabung dengan cluster yang
ada atau obyek lain, membentuk cluster baru dengan tetap
memperhitungkan jarak kedekatan antar obyek.
16
METODE PEMBENTUKAN CLUSTER (Lanjutan)
Proses berlangsung terus sampai akhirnya terbentuk satu cluster
yang terdiri atas semua obyek.

Beberapa prinsip kemiripan (similarity) antara obyek dalam
bentuk jarak (distance) yang digunakan adalah :

1. Single Linkage (Nearest Neighbor Method)
Prinsip yang digunakan adalah aturan jarak minimum dalam
pembentukan cluster.
2. Complete Linkage (Furthest Neighbor Method)
Metoda ini merupakan kebalikan pendekatan yang digunakan
pada single linkage. Prinsip yang digunakan adalah aturan jarak
terjauh antar obyek.
17
METODA PEMBENTUKAN CLUSTER (Lanjutan.)
3. Average Linkage Between Group Method (UPGMA =
Unweighted Pair-Group Method using Arithmetic Averages)
Jarak antara dua cluster yang digunakan pada metoda ini
merupakan jarak rata-rata antara semua pasangan obyek yang
mungkin dari dua buah cluster.

4. Average Linkage Within Group Method.
Merupakan variasi UPGMA. Perbedaannya terletak pada cara
pembentukan cluster sehingga rata-rata jarak antar cluster
adalah yang terkecil.
Sebagaimana UPGMA, metoda ini memperhitungkan rata-rata
jarak semua pasangan obyek yang terdapat dalam dua cluster.





18
METODA PEMBENTUKAN CLUSTER (Lanjutan.)
5. Wards Error Sum of Squares Method
Ward mengajukan suatu metoda pembentukan cluster yang
didasari oleh hilangnya informasi akibat penggabungan obyek
antar cluster.

6. Centroid Method
Metoda ini mendefinisikan jarak antara dua buah cluster sebagai
jarak antara rataan tiap cluster (centroid) terhadap variabel.

7. Median Method
Metoda ini mirip dengan centroid method. Perbedaannya
terletak pada perhitungan centroid-nya yang tidak
menggunakan bobot. Artinya bahwa perhitungan rataan tiap
cluster tidak memperhitungkan ukuran suatu cluster.

19
METODA PEMBENTUKAN CLUSTER (Lanjutan..)

B. METODA DIVISIF
Metoda divisif (divisive methods) merupakan kebalikan dari
agglomerative method.
Langkah awalnya dilakukan dengan membagi n obyek menjadi
dua cluster. Lalu, tiap cluster tersebut dibagi atas dua kelompok
lagi, dan seterusnya sehingga akan terdapat n buah cluster
yang berisikan hanya satu obyek atau n buah cluster yang
diinginkan.
20
METODA PEMBENTUKAN CLUSTER
(Lanjutan..)
II. METODA PARTISI
Berbeda dengan metoda hirarki, prosedur non-hirarki dimulai
dengan memilih sejumlah nilai cluster sesuai dengan jumlah
yang diinginkan kemudian obyek digabungkan ke dalam cluster-
cluster tersebut.
Prosedur analisis cluster k-means digunakan untuk
mengelompokkan sejumlah kasus yang besar (>200 kasus)
dengan lebih efisien.
Metoda ini berdasarkan nearest centroid sorting yaitu
pengelompokan berdasarkan jarak terkecil antara kasus dan
pusat dari cluster.

21
INTERPRETASI
Pada tahap ini hasil pengelompokan berupa cluster-cluster
diinterpretasikan sesuai nilai karakteristik yang terkandung dalam
obyek-obyeknya.
Biasanya interpretasi berdasarkan nilai rata-rata dari karakteristik
obyek dalam cluster.
Pada tahap ini yang perlu diperhatikan ialah karakteristik apa
yang membedakan masing-masing cluster tersebut.
Interpretasi dapat dilakukan dari grafik dendogram maupun
analisis koefisien aglomerasi. Dendogram merupakan suatu
diagram pohon yang menggambarkan penggabungan atau
pemisahan obyek menjadi cluster dalam tiap tahap pemrosesan.
22
INTERPRETASI (Lanjutan)
sedangkan jarak antar pengelompokan merupakan interpretasi
dari beberapa nilai kedekatan penggabungan obyek ke dalam
cluster.
Cluster yang telah terbentuk diuji dengan membandingkan hasil
yang diperoleh dengan algoritma yang berbeda. Misalnya
dengan membandingkan hasil yang diperoleh melalui metoda
hirarki dengan hasil dari metoda non-hirarki. Apabila terdapat
perbedaan hasil yang cukup signifikan maka cluster yang
terbentuk masih belum dapat dikatakan valid karena tidak dapat
diterapkan secara umum.
23
Contoh :
Data hasil survei dari sebuah penelitian mengenai produk minuman
beer dari beberapa perusahaan. Atribut data yang disurvei meliputi
nama produk, kadar kalori, kadar sodium, kadar alkohol, serta
harga satuan produk.
24
Data Dasar
nama produk kadar kal kad sod kad alkh harga sat
B/W 144 15 4.7 .43
SCHIL 151 19 4.9 .43
LOWEN 157 15 4.9 .48
KBOURG 170 7 5.2 .73
HEIN 152 11 5.0 .77
OLD MIL 145 23 4.6 .03
AUSBIR 175 24 5.5 .40
STROHS 149 27 4.7 .42
MILLER 99 10 4.3 .43
B/W LIGHT 113 8 3.7 .44
COORS 140 18 4.6 .44
COORS LIGHT 102 15 4.1 .46
MICH LIGT 135 11 4.2 .50
BECKS 150 19 4.7 .76
KIRIN 149 6 5.0 .79
PAB EX 68 15 2.3 .38
HAMMS 136 19 4.4 .43
HEILMAN 144 24 4.9 .43
OLYMPIA 72 6 2.9 .46
SCHIL LIGHT 97 7 4.2 .47
25
Entri data dalam SPSS
26
Proses Perhitungan
27
Proses Perhitungan
Klik save
28
Proses Perhitungan
Klik options
29
Proses Perhitungan
30
Hasil Perhitungan
Initial Cluster Centers
68 175
15 24
2.3 5.5
.38 .40
CALORIES
SODIUM
ALCOHOL
COST
1 2
Cl uster
Iteration History
a
24.352 26.177
.000 .000
Iterati on
1
2
1 2
Change i n Cluster
Centers
Convergence achi eved due to no or smal l di stance
change. The maxi mum di stance by whi ch any center
has changed i s .000. The current i terati on i s 2. The
mini mum di stance between i ni tial centers i s 107.426.
a.
Cluster yang
pertama kali
terbentuk
K-mean cluster
akan menguji
hasil dengan
iterasi
31
Hasil Perhitungan (lanjutan)
Final Cluster Centers
92 150
10 17
3.6 4.8
.44 .50
CALORIES
SODIUM
ALCOHOL
COST
1 2
Cl uster
Hasil Akhir
nilai cluster
32
Hasil Perhitungan (lanjutan)
ANOVA
14105.610 1 182.733 18 77.193 .000
196.117 1 34.824 18 5.632 .029
6.290 1 .260 18 24.206 .000
.017 1 .030 18 .545 .470
CALORIES
SODIUM
ALCOHOL
COST
Mean Square df
Cl uster
Mean Square df
Error
F Si g.
The F tests shoul d be used onl y for descri ptive purposes because the cl usters have been chosen
to maxi mi ze the di fferences among cases i n di fferent cl usters. The observed si gnifi cance l evel s
are not corrected for thi s and thus cannot be interpreted as tests of the hypothesi s that the cl uster
means are equal .
Sig>0,05 tdk ada
perbedaan antara
cluster 1 dan 2
Sig<0,05
kebalikannya
Yang berpengaruh hanya variabel:
Calories, Sodium dan Alcohol
Semakin besar F
semakin besar
perbedaan cluster 1
dan cluster 2
33
Hasil Perhitungan (lanjutan)
Number of Cases in each Cluster
6.000
14.000
20.000
.000
1
2
Cl uster
Vali d
Missing
Jumlah masing-
masing cluster
34
Hasil Perhitungan (lanjutan)
Final Cluster Centers
92 150
10 17
3.6 4.8
.44 .50
CALORIES
SODIUM
ALCOHOL
COST
1 2
Cl uster
Calories:
membedakan
produk yang
masuk di cluster
1 dan 2.
kandungan di
cluster 2 lebih
besar dari pada
di cluster 1
35
Hasil Pengelompokkan Akhir
Kel cluster

2
2
2
2
2
2
2
2
1
1
2
1
2
2
2
1
2
2
1
1
nama produk kadar kal kad sod kad alkh harga sat

B/W 144 15 4.7 .43
SCHIL 151 19 4.9 .43
LOWEN 157 15 4.9 .48
KBOURG 170 7 5.2 .73
HEIN 152 11 5.0 .77
OLD MIL 145 23 4.6 .03
AUSBIR 175 24 5.5 .40
STROHS 149 27 4.7 .42
MILLER 99 10 4.3 .43
B/W LIGHT 113 8 3.7 .44
COORS 140 18 4.6 .44
COORS LIGHT 102 15 4.1 .46
MICH LIGT 135 11 4.2 .50
BECKS 150 19 4.7 .76
KIRIN 149 6 5.0 .79
PAB EX 68 15 2.3 .38
HAMMS 136 19 4.4 .43
HEILMAN 144 24 4.9 .43
OLYMPIA 72 6 2.9 .46
SCHIL LIGHT 97 7 4.2 .47