Analisis Cluster Besok
Analisis Cluster Besok
Dewa Sagita
Tujuan dari Analisis Cluster:
mengelompokkan obyek berdasarkan kesamaan karakteristik di antara
obyek-obyek tersebut,
memaksimumkan homogenitas obyek dalam kelompok,
memaksimumkan heterogenitas antar kelompok.
COMPLETE LINKAGE
AVERAGE LINKAGE
M WARD’S
CENTROID
1. Single Linkage
Dsl Ci , C j min x , y d ( x, y ) x Ci , y C j
2. Complete Linkage
Dcl Ci , C j max x, y d ( x, y) x Ci , y C j
3. Average Linkage
Davg Ci , C j
1
Ci C j
d ( x, y )
xCi , yC j
DcentroidsCi , C j d (ri , rj )
5. Centroid Method
Contoh Kasus Terdapat 5 atlit badminthon yang akan diseleksi untuk diikut sertakan dalam
PON JABAR 2016, kelima atlit ini bagi dalam beberapa kelompokj sesuai dengan
kondisinya. Kelompokanlah kelima atlit tersebut sesuai dengan kondisinya.
Nama Tinggi Berat
Cihuy (A) 160 55
Galang (B) 163 53
Dewa(C) 165 55
Asep(D) 161 50
Adit (E) 164 56
A B C D E
A 0 3,606 5,000 5,099 4,123
B 3,606 0 2,828 3,606 3,162
C 5,000 2,828 0 6,403 1,414
D 5,099 3,606 6,403 0 6,708
E 4,123 3,162 1,414 6,708 0
A B C D E
1.SINGLE LINGKAGE (NEAREST NEIGHBOUR METHODS)
Langkah Penyelesaian:
1.Cari objek dengan jarak terminimum (CE =1,414) membentuk 1 cluster
A B C D E
A 0 3,606 5,000 5,099 4,123
B 3,606 0 2,828 3,606 3,162
C 5,000 2,828 0 6,403 1,414
D 5,099 3,606 6,403 0 6,708
E 4,123 3,162 1,414 6,708 0
D(1) = C 5 3 0 4 6 AB 0 3 6 7
D 6 8 4 0 2
D(2) = C 3 0 4 6
E 8 7 6 2 0 D 6 4 0 2
E 7 6 2 0
4
AB C DE
3
AB 0 3 6
1
D(3) = C 3 0 4
DE 6 4 0
Contoh Kasus :
Berdasarkan data BPS (Badan Pusat Statistik) Semarang yaitu data tentang beban
pencemaran udara menurut industry di Jawa Tengah tahun 2005. Data yang diunakan
dalam permasalahan ini ada 3 variabel, dimana variable-variabel tersebut adalah jenis
polutan yangmeliputi debu, Sulfur dioksida (SO2) dan Nitrogen dioksida
(NO2).Sedangkan obyek-obyek yang digunakan adalah 5 jenis Industri di Jawa Tengah
yaitu Industri makanan, minuman, tekstil, kayu, olahan kayu. Dalam contoh ini akan
digunakan proses clustering secra non hirarki.
Sebagaimana telah dijelaskan sebelumnya bahwa metode K-Means Cluster ini jumlahcluster ditentukan
sendiri. Metode non-hirarki memproses semua objek (kasus) secarasekaligus. Metode yang digunakan
adalah k-means dimana k adalah banyaknya cluster Proses pengclusteran dengan metode k-means
adalah :
C1(centroid cluster 1) adalah nilai ketiga variabel dari obyek industri Makanan
C2(centroid cluster 2) adalah nilai ketiga variabel dari obyek industri Tekstil
C3(centroid cluster 3) adalah nilai ketiga variabel dari obyek industri Kayu
A. Jarak setiap objek dengan tiap centroid ( pusat cluster) pertama dengan
menggunakan kuadrat jarak Euclidean adalah ;
INDUSTRI C1
Makanan (16941.8 - 16941.8)² + (15756.3 - 15756.3)² + (73638.52-73638.52)² = 0
INDUSTRI C2
Makanan (16941.8 - 92737.1)² + (15756.3 - 862476 )² + (73638.52-403086.58)² = 8.312x10¹¹
INDUSTRI C3
Makanan (16941.8 - 37078.6)² + (15756.3 - 344839 )² + (73638.52-161163.97)² = 1.163x10¹¹
INDUSTRI C1 C2 C3
Makanan 0 8.312x10¹¹ 1.163x10¹¹
Minuman 1.455x10¹° 6.500x10¹¹ 4.417x10¹°
Teksil 8.312x10¹¹ 0 3.879x10¹¹
Kayu 1.163x10¹¹ 3.295x10¹¹ 0
Olahan Kayu 3.542x10¹¹ 1.008x10¹¹ 9.741x10¹°
Jarak terdekat industri Olahan Kayu adalah dengan c 3, sehingga industri minuman masuk ke
cluster 3.
Dari proses ini diperoleh anggota tiap cluster sebagai berikut :
C. Selanjutnya menghitung kembali centroid yang baru yang merupakan rataan ketiga
variabel pada tiap cluster.
1* (centroid cluster 1) adalah nilai ketiga variabel dari 3 objek yang masuk ke dalam
cluster 1 pada langkah b.c
2* (centroid cluster 2) adalah nilai rata-rata kelima variabel dari 10 objek yangmasuk ke
cluster 2 pada langkah b.c
3* (centroid cluster 3) adalah nilai rata-rata kelima variabel dari objek industri tekstil.
INDUSTRI C1*
Makanan (16941.8 - 15775.05)² + (15756.3 - 75808.65)² + (73638.52 - 68067.28)²= 2.249x10¹²
Minuman (14608.3 -15775.05)² + (135861 -75808.65)² + (62496.05 -68067.28)² = 3.821x10¹³
Teksil (92737.1 -15775.05)² + (862476 -75808.65)² + (403086.58 -68067.28)² = 7.370x10¹¹
Kayu (37078.6 -15775.05)² + (344839 -75808.65)² + (161163.97 -68067.28)² = 8.149x10¹°
Olahan Kayu (63789.9 -15775.05)² + (575982 -75808.65)² + (269190.49 -68067.28)² = 2.929x10¹¹
Jarak setiap objek dengan centroid (pusat cluster) kedua adalah sebagai
berikut :
Tabel 2.6
INDUSTRI C2*
Makanan (16941.8 -92737.1)² + (15756.3 -862476 )² + (73638.52 -403086.58)²= 8.312x10¹¹
Minuman (14608.3 -92737.1)² + (135861 -862476 )² + (62496.05 -403086.58)² = 6.500x10¹¹
Teksil (92737.1 -92737.1)² + (862476 -862476 )² + (403086.58 -403086.58)² = 0
Kayu (37078.6 -92737.1)² + (344839 -862476 )² + (161163.97 -403086.58)² = 3.295x10¹¹
Olahan Kayu (63789.9 -92737.1)² + (575982 -862476 )² + (269190.49 -403086.58)² = 1.008x10¹¹
Jarak setiap objek dengan centroid (pusat cluster) ketiga adalah sebagai berikut :
INDUSTRI C2*
Makanan (16941.8 -50434.25)² + (15756.3 -460410.5)² + (73638.52 -215177.23)²= 1.128x10¹¹
Minuman (14608.3 -50434.25)² + (135861 -460410.5)² + (62496.05 -215177.23)² = 1.299x10¹¹
Teksil (92737.1 -50434.25)² + (862476 -460410.5)² + (403086.58 -215177.23)² = 1.987x10¹¹
Kayu (37078.6 -50434.25)² + (344839 -460410.5)² + (161163.97 -215177.23)² = 2.184x10¹³
Olahan Kayu (63789.9 -50434.25)² + (575982 -460410.5)² + (269190.49 -4215177.23)² = 1.558x10¹³
Secara keseluruhan jarak tiap objek (industri) ke pusat cluster (centroid) adalah sebagaiberikut:
Jarak terdekat industri makanan adalah dengan c3, sehingga industri makananmasuk ke cluster 3.
Jarak terdekat industri minuman adalah dengan c3, sehingga industri makananmasuk ke cluster 3.
Jarak terdekat industri teksatil adalah dengan c2, sehingga industri makananmasuk ke cluster 2.
Jarak terdekat industri kayu adalah dengan c1, sehingga industri makananmasuk ke cluster 1.
Jarak terdekat industri Olahan kayu adalah dengan c2, sehingga industri makananmasuk ke cluster 2.