(CLUSTER ANALYSIS)
Teori Singkat
Analisis kelompok adalah analisis statistika yang bertujuan untuk mengelompokkan
data sedemikian hingga data yang berada dalam kelompok yang sama mempunyai sifat
yang relatif homogen daripada data yang berada dalam kelompok yang berbeda.
Dilihat dari apa yang dikelompokkan, maka analisis kelompok dibagi menjadi dua
yaitu :
a. Pengelompokan observasi
b. Pengelompokan variabel.
Secara umum ada dua metode di dalam analisis kelompok yaitu :
a. Metode hirarki, hasil pengelompokkannya disajikan secara hirarki atau
berjenjang dari n, (n-1) sampai 1 kelompok. yang termasuk dalam metode ini
adalah single linkage, complete linkage, average linkage, median linkage, dan
centroid linkage
b. Metode tak hirarki. Metode ini dipakai jika banyaknya kelompok sudah
diketahui dan biasanya metode ini dipakai untuk mengelompokkan data yang
berukuran besar, yang termasuk dalam metode ini adalah metode Kmeans
Untuk menyatakan suatu observasi atau variabel menpunyai sifat yang lebih dekat
dengan observasi tertentu daripada dengan observasi yang lain digunakan fungsi yang
disebut jarak (distance). Suatu fungsi disebut jarak jika mempunyai sifat :
a. Tak negatif d ij 0 dan d ij 0 jika i=j
b. Simetri d ij d ji
c. d ij d ik d jk panjang salah satu sisi segitiga selalu lebih kecil atau samadengan jumlah dua sisi yang lain
Beberapa macam jarak yang biasa dipakai di dalam analisis kelompok :
Nomor Jarak
1
Euclidean
2
Manhattan
Formula
d ij
x
k 1
Pearson
Korelasi
mutlak
korelasi
d ij xik x jk
d ij
4
5
ik
k 1
x jk
k 1
d ij 1 rij
d ij 1 rij
ik
x jk
var x k
Metode
Single linkage
Complete linkage
Average linkage
Median linkage
LIFEEXPF LIFEEXPM
65
61
72
66
68
63
79
73
72
65
Analisis Kelompok
Langkah awal analisis kelompok metode hirarki adalah membentuk matriks jarak
antar observasi :
Indonesia
Malaysia
Philippines
Singapore
Malaysia
74
Philippines
13
25
Singapore
340
98
221
Thailand
65
1
20
113
(Mal,Tha)
Philippines
13
Singapore
340
221
Jarak antara Indonesia dengan (Malaysia, Thailand) untuk berbagai metode adalah :
Nomor Metode
Jarak antara kelompok (Mal,Tha) dengan Indonesia
1
Single linkage
min(dina mal, dina tha)=min(74, 65)=65
2
Complete linkage max(dina mal, dina tha)=max(74, 65)=74
3
Average linkage
Average(dina mal, dina tha)=average(74, 65)=69.5
4
Median linkage
Median(dina mal, dina tha)=min(74, 65)=69.5
Analisis Kelompok
Indonesia
(Mal,Tha)
Philippines
Philippines
13
20
Singapore
340
98
221
Setelah tahap ini, maka observasi yang mempunyai jarak terdekat adalah Indonesia
dengan Philippines, sehingga dua negara ini digabung :
(Mal,Tha)
20
(Ina, Phi)
(Mal,Tha)
Singapore
221
98
Jaral terdekat adalah 20 sehingga kelompok (Ina Phi) bergabung dengan (Mal Tha)
sehingga matriks jarak berubah menjadi
Singapore
(Ina, Phi,
Mal, Tha)
98
Penggabungan terakhir adalah Singapore dengan (Ina Phi Mal Tha) pada jarak
penggabungan 98, secara ringkas pengekompokan negara-negara di ASEAN dengan
menggunakan metode single linkage adalah :
Tahap
Jarak
Penggabungan
Yang digabung
cluster 1 cluster 2
Banyak
Kelompok
1
2
3
4
1
13
20
98
Mal
Ina
(Mal Tha)
(Ina..Tha)
Tha
Phi
(Ina Phi)
Sin
4
3
2
1
Kelompok
(Ina) (Mal) (Phi) (Sin)
(Tha)
(Ina) (Mal Tha) (Phi)
(Sin)
(Ina Phi) (Mal Tha) (Sin)
(Ina Phi Mal Tha) (Sin)
(Ina Phi Mal Tha Sin)
2
5
1
3
4
0
20
40
60
80
100
+---------+---------+---------+---------+---------+
Analisis Kelompok
W (k )
1 / n k 1
W (k 1)
c.
Analisis Kelompok
Kegiatan Praktikum
COUNTRY
Afghanistan
Bangladesh
Cambodia
China
Hong Kong
India
Indonesia
Japan
Malaysia
N. Korea
Pakistan
Philippines
S. Korea
Singapore
Taiwan
Thailand
Vietnam
DENSITY
25
800
55
124
5494
283
102
330
58
189
143
221
447
4456
582
115
218
URBAN
18
16
12
26
94
26
29
77
43
60
32
43
72
100
71
22
20
LIFEEXPF
44
53
52
69
80
59
65
82
72
73
58
68
74
79
78
72
68
LIFEEXPM
45
53
50
67
75
58
61
76
66
67
57
63
68
73
72
65
63
LITERACY
29
35
35
78
77
52
77
99
78
99
35
90
96
88
91
93
88
BABYMORT
168
106
112
52
5.8
79
68
4.4
25.6
27.7
101
51
21.7
5.7
5.1
37
46
GDP_CAP
205
202
260
377
14641
275
681
19860
2995
1000
406
867
6627
14990
7055
1800
230
Ketrangan variabel :
Variabel
Penjelasan
Density
Banyaknya penduduk per km persegi
Urban
Persentase penduduk yang tinggal di perkotaan
Lifeexpf
Harapan hidup penduduk perempuan (tahun)
Ligeexpm
Harapan hidup penduduk laki-laki (tahun)
Literacy
Persentase penduduk yang bisa baca-tulis
Babymort
Banyaknya kematian bayi per 1000 kelahiran
Gdp_cap
Penghasilan penduduk per kapita pertahun (US$)
1.
2.
Analisis Kelompok
Penyelesaian 1
s =
Criterion
Test Statistic
Wilk's
0.00278
Lawley-Hotelling
43.01375
Pillai's
1.87499
Roy's
33.61024
m =
F
20.543
21.507
19.283
2.0
( 14,
( 14,
( 14,
Analisis Kelompok
n =
DF
16)
14)
18)
3.0
P
0.000
0.000
0.000
Nilai statistic uji F yang menggambarkan nisbah keragaman data antar kelompok
dengan dalam kelompok untuk metode complete linkage dan average linkage adalah :
Banyak
kelompok
3
4
5
Complete
linkage
20.543
21.963
14.167
Average
linkage
20.543
21.963
14.167
normal 50 c1;
normal 0 1.
normal 50 c2;
normal 0 1.
let c1=c1+1
let c2=c1+1
normal 50 c3;
normal 0 1.
normal 50 c4;
normal 0 1.
let c3=c3+4
let c4=c4+4
stack c1 c3 c5
stack c2 c4 c6
set c7
50(1)
50(2)
end
name c5 x c6 y c7 group
Pengelompokan
MTB > Cluo 'x' 'y';
SUBC>
Complete;
SUBC>
Number 2;
SUBC>
Member c9.
MTB > name c9 complete
Analisis Kelompok
1
2
All
Columns: complete
All
48
2
50
2
48
50
50
50
100
Ada 2 observasi yang berasal dari group 1 dimasukkan ke kelompok 2 dan ada 2
observasi yang berasal dari group 2 dimasukkan ke dalam kelompok 1 oleh metode
complete linkage, sehingga secara keseluruhan ada 4 observasi yang salah klasifikasi.
Frekuensi relatif observasi yang salah klasifikasi (misclassification error) untuk seluruh
metode adalah :
Metode
Single linkage
Complete linkage
Average linkage
Kmeans
misclassification error
0.50
0.04
0.03
0.02
Analisis Kelompok