Anda di halaman 1dari 13

Analisis Cluster

Analisis cluster merupakan suatu teknik analisis statistik yang ditujukan untuk menempatkan sekumpulan
obyek ke dalam dua atau lebih grup berdasarkan kesamaan-kesamaan obyek atas dasar berbagai karakteristik
Dalam menganalisis suatu data menggunakan analisis cluster diperlukan beberapa proses yang harus
dilakukan yaitu:
1. Standarisasi Data
Proses standarisasi dilakukan apabila diantara variabel-variabel yang diteliti terdapat perbedaan ukuran
satuan yang besar. Perbedaan satuan yang mencolok dapat mengakibatkan perhitungan pada analisis cluster
menjadi tidak valid. Untuk itu, perlu dilakukan proses standarisasi dengan melakukan transformasi
(standarisasi) pada data asli sebelum dianalisis lebih lanjut. Transformasi dilakukan terhadap variabel yang
relevan ke dalam bentuk z Skor.
2. Mengukur kemiripan atau ketakmiripan antar obyek
Sesuai dengan tujuan analisis cluster yaitu untuk mengelompokkan obyek yang mirip dalam cluster yang
sama, maka beberapa ukuran diperlukan untuk mengetahui seberapa mirip atau berbeda obyek-obyek
tersebut. Terdapat tiga metode yang dapat diterapkan dalam mengukur kesamaan antar
obyek yaitu ukuran asosiasi, ukuran korelasi, dan ukuran jarak. Pada persentasi ini kami menggunakan
Ukuran Jarak.

Ukuran Jarak
Metode ukuran jarak diterapkan pada data berskala metrik. Ukuran ini sebenarnya merupakan ukuran
ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak yang pendek/kecil
menunjukkan bahwa suatu obyek semakin mirip dengan obyek lain.
Pada persentasi ini digunakan kedekatan jarak Euclidean. Jarak Euclidean merupakan besarnya jarak suatu
garis lurus yang menghubungkan antar obyek yang diteliti. Jarak Euclidean biasanya
digunakan pada data mentah dan bukan data yang telah dilakukan standarisasi. Misalkan terdapat dua obyek
yaitu A dengan koordinat ( x 1 , y 1) dan B dengan koordinat ( x 2 , y 2) maka jarak antar kedua obyek tersebut
dapat diukur dengan rumus
2 2
√ ( x −x ) ( y − y )
1 2 1 2

Ukuran jarak antar obyek ke-i dengan obyek ke- j disimbolkan dengan dij
dan variabel ke-k dengan k =1 ,... , p . nilai d ij diperoleh melalui perhitungan jarak kuadrat Euclidean yang
dirumuskan sebagai berikut:
p
d ij = √∑
k=1
( x ik −x jk )
2

dengan:
d ij = Jarak kuadrat Euclidean antar obyek ke-i dengan obyek ke-j
p = Jarak variabel cluster
x ik = Nilai atau data dari obyek ke-i pada variabel ke-k
x jk = Nilai atau data dari obyek ke- j pada variabel ke-k

Memilih Suatu Prosedur Analisis Cluster


Prosedur cluster atau pengelompokan data dapat dilakukan dengan dua
metode yaitu metode hierarki dan metode non-hierarki.
a. Metode Hierarki
Tipe dasar dalam metode hierarki bisa aglomeratif atau devisif. Pada
pengclusteran aglomeratif, dimulai dengan menempatkan obyek dalam
cluster –cluster yang berbeda kemudian mengelompokkan obyek secara
17
bertahap ke dalam cluster-cluster yang lebih besar, sedangkan pada
pengclusteran devisif dimulai dengan menempatkan semua obyek sebagai
satu cluster. Kemudian secara bertahap obyek-obyek dipisahkan ke dalam
cluster-cluster yang berbeda, dua cluster, tiga cluster, dan seterusnya
(Simamora, 2005: 215)

Ada lima metode hierarki aglomeratif dalam pembentukan cluster


yaitu:
i. Pautan Tunggal (Single Linkage)
ii. Pautan Lengkap (Complete Linkage)
iii. Pautan Rata-rata (Average Linkage)
iv. Metode Ward (Ward’s Method)
v. Metode Centroid (pusat

Langkah-langkah analisis cluster metode hierarki average linkage:


1. Melakukan standarisasi data
2. Menentukan ukuran kemiripan dan ketakmiripan antara dua obyek
menggunakan rumus jarak Euclidean
3. Proses pengclusteran
4. Melakukan perbaikan matriks jarak menggunakan metode cluster yang
telah ditentukan
5. Menentukan jumlah anggota cluster
6. Melakukan interpretasi analisis cluster sesuai metode yang ditentukan

Secara umum langkah-langkah dalam metode cluster hierarki


aglomeratif untuk membentuk kelompok dari N obyek sebagai berikut :
a) Dimulai dengan N cluster, dimana masing-masing memuat satu
kesatuan. Jika terdapat matriks N x N dengan jarak D ={d ik}.
b) Mencari matriks jarak untuk pasangan cluster terdekat. Misalkan
pasangan cluster paling mirip obyek U dan V maka D = {d uv},
sehingga U dan V dipilih.
c) Menggabungkan cluster U dan V menjadi cluster baru (UV).
Memperbaharui masukan dalam matriks jarak dengan cara
1) Menghapus baris dan kolom sesuai dengan cluster U dan V
2) Menambahkan baris dan kolom dengan memberikan nilai jarak
antara cluster baru (UV) dan semua sisa cluster.

d) Mengulangi langkah (b) dan (c) sebanyak (n-1) kali. (Semua obyek
akan berada dalam cluster tunggal pada berakhirnya algoritma).

Contoh.
Seorang ahli pertanian ingin mengelompokkan (cluster) 5 jenis jagung berdasarkan sifat
produksinya (hasil produksi). Kelima jenis jagung itu adalah jenis 1,2,3,4 dan 5 dibudidayakan di
lima tempat atau lokasi.
Tabel 1
Rata-rata Hasil Produksi (kwintal per ha) dari 5 jenis jagung di 5 Lokasi yang Berbeda
Lokasi Jagung1 Jagung2 jagung3 jagung4 jagung5
L1 51,7 37,1 25,5 39,5 36,1
L2 30,2 29,5 32,9 47,6 40,3
L3 22,6 17,7 35,6 25,8 28,8
L4 23,7 23,9 32,2 30,6 30,6
L5 36,5 30,1 35,1 34,5 34,5

Penyelesian :
a). Membentuk matriks jarak
d 12=√ (51,7−37,1)2+(30,2−29,5)2 +…+(36,5−30,1)2=16,69
d 13=√ (51,7−25,5)2 +(30,2−32,9)2 +…+(36,5−35,1)2=30,61
d 14= √(51,7−39,5)2 +(30,2−47,6)2 +…+(36,5−34,5)2=22,65
d 15=√ (51,7−36,1)2+(30,2−40,3)2+ …+(36,5−34,5)2=20,88
d 23= √(37,1−25,5)2+(29,5−32,9)2 +…+(30,1−35,1)2=23,67
d 24= √(37,1−39,5)2+(29,5−47,6)2 +…+(30,1−34,5)2=21,52
d 25= √(37,1−36,1)2 +(29,5−40,3)2 + …+(30,1−34,5)2=17,47
d 34= √(25,5−39,5)2 +(32,9−47,6)2 +…+(35,1−34,5)2=22,61
d 35=√ (25,5−36,1)2+(32,9−40,3)2+ …+(35,1−34,5)2 =14,71
d 45= √(39,5−36,1)2+( 47,6−40,3)2 +…+(34,5−34,5)2 =8,59

0 16,69 30,61 22,65 20,88 1

[ 16,69
D1= { d ij } = 30,61
22,65
20,88
0
23,67
21,52
17,47
22,61 0
14,71 8,59
]
23,67 21,52 17,47 2
0 22,61 14,71 3
8,59 4
0 5

b. Pasangan yang berdekatan digabungkan menjadi satu cluster , yaitu jenis jagung 4 dan jagung
5 ,sehingga menghasilkan cluster (45)
c. Menghitung jarak jenis jagung 4 dn jagung 5 yang bergabung menjadi satu cluster dengan
responden yang lain;
d(4,5 )+ d(5,4)+ d(4,4 ) +d (5,5) 8,59+ 8,59+ 0+0
d (45)45= = =4,29
4 4
d(4,1) + d(5,1) 22,65+20,88
d (45)1= = =21,76
2 2
d ( )+ d (5,2) 21,52+ 17,47
d ( 45) 2= 4,2 = =19,49
2 2
d(4,3)+ d(5,3)
22,61+14,71
d (45)3= = =18,66
2 2
Sehingga menghasilakan matriks jarak baru;

4,29 21,76 19,49 18,66 45

[
D2= 21,76 0
19,49 16,69
16,69 30,61 1
0
18,66 30,61 23,67
23,67 2
0 3
]
d. Panggabungan berikut terjadi pada cluster yang paling mirip sehingga membentuk cluster yang
kedua yaitu cluster (12). Pada tahap ini dihitung ;
d (1,2)+ d(2,1) +d (1,1) +d (2,2) 16,69+16,69+0+ 0
d (12 )12= = =8,35
4 4
d ( )+ d( 1,5) +d ( 2,4) +d ( 2,5) 22,65+21,54+20,88+17,47
d (12 ) 45= 1,4 = =20,63
4 4
d (1,3) +d (2,3 ) 30,61+23,67
d (12 )3 = = =27,14
2 2

sehingga diperoleh matriks jarak baru ;

4,29 20,63 18,66 45

[
D3= 20,63 8,35 27,14 12
18,66 27,14 0 3 ]
e. Tahap penggabungan selanjutnya menghasilkan cluster (345) karena jenis jagung 3 dengan
cluster pertama yaitu jenis jagung 4 dan 5 memiliki jarak terkecil yaitu 18,66.
d (4,5) +d ( 5,4 )+d ( 3,4 ) +d (4,3) +d (3,5 ) +d (5,3)+ d(3,3) + d(4,4 )+ d(5,5)
d [ ( 45) 3 ][ ( 45) 3 ]=
9
8,59+8,59+22,6+22,61+14,71+14,71+0+0+ 0
¿ =10,20
9
d ( )+ d (4,2 )+ d (5 ,1 )+ d (5 ,2 )+ d( 3 ,1 )+d ( 3 ,2)
d [ ( 45) 3 ] 12= 4,1
6
22,65+ 21,52+ 20,88+17,47+30,61+23,67
¿ =22,8
6

Sehingga diperoleh Matriks jarak baru;

D4 = [ 10,20
22,8
22,8 345
8,35 12 ]
Matriks D5 merupakan matriks jarak terakhir dengan semua jenis jagung akan mengelompok
menjadi satu kelompok {1,2,3,4,5} dengan jarak d=22,8.
Hasil pengelompokkan 6 jenis jagung dengan menggunakan metode Average Linkage dalam
analisis cluster hirarki dapat disajikan dengan dendogram dibawah ini.
Metode Average Linkage
Pada metode ini, jarak antara dua cluster dianggap sebagai jarak rata-rata anatar semua anggota
dalam satu cluster dengan semua anggota cluster lain.

d (UV ) W =
∑ i ∑ k d ik
N (UV ) W
Dimana ;
d ik : Jarak antara objek i pada cluster (UV ) dan objek k pada cluster W
N UV : Jumlah item pada cluster (UV )
N k : Jumlah item pada cluster K
Jika Datanya dibalik ;
Jenis Lokasi
Jagung L1 L2 L3 L4 L5
Jagung1 51,7 30,2 22,6 23,7 36,5
Jagung2 37,1 29,5 17,7 23,9 30,1
Jagung3 25,5 32,9 35,6 32,2 35,1
Jagung4 39,5 47,6 25,8 30,6 34,5
Jagung5 36,1 40,3 28,8 30,6 34,5
SPSS

Average Linkage (Between Groups)


Output
Proximity Matrix

Case Euclidean Distance

1:Jagung1 2:Jagung2 3:Jagung3 4:Jagung4 5:Jagung5

1:Jagung1 ,000 16,693 30,609 22,659 20,867


2:Jagung2 16,693 ,000 23,673 21,523 17,467
3:Jagung3 30,609 23,673 ,000 22,606 14,706
4:Jagung4 22,659 21,523 22,606 ,000 8,594
5:Jagung5 20,867 17,467 14,706 8,594 ,000

This is a dissimilarity matrix

Anda mungkin juga menyukai