Anda di halaman 1dari 31

Rahful A, Madaul (25416063)

Dewa Sagita
Tujuan dari Analisis Cluster:
 mengelompokkan obyek berdasarkan kesamaan karakteristik di antara
obyek-obyek tersebut,
 memaksimumkan homogenitas obyek dalam kelompok,
 memaksimumkan heterogenitas antar kelompok.

 Cluster yang baik adalah cluster yang mempunyai:


 Homogenitas, kesamaan yang tinggi antaranggota
dalam satu cluster (within-cluster)
 Heterogenitas, perbedaan yang tinggi antar-cluster
yang satu dengan yang lainnya (between cluster)
 Mengukur kesamaan antarobjek (similarity)
 Membuat kumpulan objek (clustering)

Data Mentah Matriks Formasi


Obyek vs Variabel Similarity Kelompok
 Asumsi untuk analisis cluster terdiri dari:
 Jika data adalah sampel, maka sampel yang diambil
harus bisa mewakili populasi (uji normalitas)
 Jika data yang digunakan memiliki satuan yang
beragam, maka harus distandarisasi
 Multikolinieritas, yakni kemungkinan adanya korelasi
antar objek sebaiknya tidak ada
 Pengukuran Jarak (Distance-type Measures)
 Pengukuran Kecocokan (Matching-type Measures)
 Koefisien Korelasi
Ada dua metode:
1. Metode Hirarki
1. Aglomerasi
2. Divisive
2. Metode Non-Hirarki
1. Metode K-means
Agglomerative, berawal dari masing-masing obyek berdiri
sendiri kemudian obyek dikelompokkan berdasarkan
kesamaannya

Divisive, obyek dalam kelompok yang sama kemudian


dipisahkan
AGGLOMERATIVE DIVISIVE
SINGLE LINKAGE SPLINTER AVERAGE DISTANCE

COMPLETE LINKAGE
AVERAGE LINKAGE
M WARD’S
CENTROID
1. Single Linkage


Dsl Ci , C j   min x , y d ( x, y ) x  Ci , y  C j 
2. Complete Linkage

Dcl Ci , C j   max x, y d ( x, y) x  Ci , y  C j 
3. Average Linkage
Davg Ci , C j  
1
Ci  C j
 d ( x, y )
xCi , yC j

4. Ward’s Method Dw Ci , C j    x  r    x  r    x  r 


2 2 2
i j ij
xCi xC j xCij

DcentroidsCi , C j   d (ri , rj )
5. Centroid Method
Contoh Kasus Terdapat 5 atlit badminthon yang akan diseleksi untuk diikut sertakan dalam
PON JABAR 2016, kelima atlit ini bagi dalam beberapa kelompokj sesuai dengan
kondisinya. Kelompokanlah kelima atlit tersebut sesuai dengan kondisinya.
Nama Tinggi Berat
Cihuy (A) 160 55
Galang (B) 163 53
Dewa(C) 165 55
Asep(D) 161 50
Adit (E) 164 56

Jawab : Dengan Teknik Pengukuran Jarak Euclidian Distance, maka:


D (X,Y) = √ ∑ (Xi – Yi)2

DAB = √ (160-163)2 + (55-53)2 = √ 13 = 3,606


DAC = √ (160-165)2 + (55-55)2 = √ 25 = 5,000
DAD = √ (160-161)2 + (55-50)2 = √ 26 = 5,099
DAE = √ (160-164)2 + (55-56)2 = √ 17 = 4,123
DBC = √ (163-165)2 + (53-55)2 = √8 = 2,828
DBD = √ (163-161)2 + (53-50)2 = √ 13 = 3,606
DBE = √ (163-164)2 + (53-56)2 = √ 10 = 3,162

DCD = √ (165-161)2 + (55-50)2 = √ 41 = 6,403


DCE = √ (165-164)2 + (55-56)2 = √2 = 1,414

DDE = √ (161-164)2 + (50-56)2 = √ 45 = 6,708


Maka Matrik Similaritasnya adalah: (n x n)

A B C D E
A 0 3,606 5,000 5,099 4,123
B 3,606 0 2,828 3,606 3,162
C 5,000 2,828 0 6,403 1,414
D 5,099 3,606 6,403 0 6,708
E 4,123 3,162 1,414 6,708 0

CONTOH PERHITUNGAN TEKNIK AGLORITMA DENGAN


HIRARCHI METHODS (AGGLOMETARIVE METHODS)

Mengasumsikan bahwa individu-individu yang akan


berkelompok pada mulanya membentuk kelompok
sendiri yang anggotanya adalah dirinya sendiri, secara
bertahap dikelompokkan sedemikian rupa yang pada
akhirnya seluruh objek menjadi 1 kelompok

A B C D E
1.SINGLE LINGKAGE (NEAREST NEIGHBOUR METHODS)

Langkah Penyelesaian:
1.Cari objek dengan jarak terminimum (CE =1,414) membentuk 1 cluster
A B C D E
A 0 3,606 5,000 5,099 4,123
B 3,606 0 2,828 3,606 3,162
C 5,000 2,828 0 6,403 1,414
D 5,099 3,606 6,403 0 6,708
E 4,123 3,162 1,414 6,708 0

2. Hitung jarak antar cluster


D(CE)A = Min (DCA , DEA) = Min (5,000 ; 4,123) = DEA = 4,123
D(CE)B = Min (DCB , DEB) = Min (2,828 ; 3,162) = DCB = 2,828
D(CE)D = Min (DCD , DED) = Min (6,403 ; 6,708) = DCD = 6,403

3. Cari objek dengan jarak terdekat (CEB) menjadi 1 cluster


Maka terbentuk matrik:
CE A B D
CE 0 4,123 2,828 6,403
A 4,123 0 3,606 5,099
B 2,828 3,606 0 3,606
D 6,403 5,099 3,606 0
4. Hitung jarak antara cluster dengan objek lain
D(CEB)A = Min (DCA , DEA , DBA) = Min (5,000 ; 4,123 ; 3,606)
=
DBA = 3,606
D(CEB)D = Min (DCD , DED, DBD) = Min (6,403 ; 6,708 ; 3,606)
= DBD = 3,606

5. Cari objek dengan jarak terdekat (CEBA) bergabung


Maka terbentuk matrik:
CEB
A D
CEB 0 3,606 3,606
3,606
A 0 5,099
3,606
D 5,099 0

6. Hitung jarak antara cluster dengan objek lain


D(CEBA)D = Min (DCD , DED, DBD, DAD) = Min (6,403 ; 6,708 ; 3,606; 5,099)
= DBD = 3,606
7. Akhirnya CEBA gabung dengan CEBAD membentuk 1 cluster
Maka terbentuk matrik:
CEBA D
CEBA 0 3,606
D 3,606 0
1.COMPLETE LINGKAGE ( FURTHEST NEIGHBOUR METHODS)
Langkah penyelesaian:
1.Cari objek dengan jarak terminimum (CE = 1,414) membentuk 1 cluster
A B C D E
A 0 3,606 5,000 5,099 4,123
B 3,606 0 2,828 3,606 3,162
C 5,000 2,828 0 6,403 1,414
D 5,099 3,606 6,403 0 6,708
E 4,123 3,162 1,414 6,708 0

2. Hitung jarak antar cluster


D(CE)A = Mak (DCA , DEA) = Mak (5,000 ; 4,123) = DCA = 5,000
D(CE)B = Mak (DCB , DEB) = Mak (2,828 ; 3,162) = DEB = 3,162
D(CE)D = Mak (DCD , DED) = Mak (6,403 ; 6,708) = DED = 6,708

3. Cari objek dengan jarak terdekat (CEB) membentuk 1 cluster


Maka terbentuk matrik:
CE A B D
CE 0 5,000 3,162 6,708
A 5,000 0 3,606 5,099
B 3,162 3,606 0 3,606
D 6,708 5,099 3,606 0
4. Hitung jarak antar objek dengan cluster
D(CEB)A = Mak (DCA , DEA , DBA) = Mak (5,000 ; 4,123 ; 3,606)
= DCA = 5,000
D(CEB)D = Mak (DCD , DED, DBD) = Mak (6,403 ; 6,708 ; 3,606)
= DED = 6,708
5. Cari objek dengan jarak terdekat bergabung (CEBA) membentuk 1 cluster
Maka terbentuk matrik:
CEB A D
CEB 0 5,000 6,708
A 5,000 0 5,099
D 6,708 5,099 0

6. Hitung jarak cluster dengan objek lainnya


D(CEBA)D = Mak (DCD , DED, DBD, DAD) = Mak (6,403 ; 6,708 ; 3,606; 5,099)
= DED = 6,708

7. Langkah akhir cluster CEBA bergabung menjadi CEBAD


CEBA D
CEBA 0 6,708
D 6,708 0
1.AVERANGE LINGKAGE
Langkah penyelesaian:
1. Cari objek dengan jarak terminimum (CE = 1,414) membentuk 1 cluster
A B C D E
A 0 3,606 5,000 5,099 4,123
B 3,606 0 2,828 3,606 3,162
C 5,000 2,828 0 6,403 1,414
D 5,099 3,606 6,403 0 6,708
E 4,123 3,162 1,414 6,708 0
2. Hitung jarak antar cluster CE dengan yang lainnya memakai rata-rata:
D(CE)A = ½ (DCA + DEA) = ½ (5,000 + 4,123) = 4,561
D(CE)B = ½ (DCB + DEB) = ½ (2,828 + 3,162) = 2,995
D(CE)D = ½ (DCD + DED) = ½ (6,403 + 6,708) = 6,556
3. Cari objek dengan jarak terdekat (CEB) membentuk 1 cluster
Maka terbentuk matrik:
CE A B D
CE 0 4,561 2,995 6,556
A 4,561 0 3,606 5,099
B 2,995 3,606 0 3,606
D 6,556 5,099 3,606 0
4. Hitung jarak antar objek dengan cluster
D(CEB)A = 1/3 (DCA + DEA + DBA) = 1/3 (5,000 + 4,123 + 3,606)
= 4,243
D(CEB)D = 1/3 (DCD + DED + DBD) = 1/3 (6,403 + 6,708 + 3,606)
= 5,572
5. Cari objek dengan jarak terdekat bergabung (CEBA) membentuk 1 cluster
Maka terbentuk matrik:
CEB A D
CEB 0 4,243 5,572
A 4,243 0 5,099
D 5,572 5,099 0

6. Hitung jarak cluster dengan objek lainnya

D(CEBA)D = 1/4(DCD + DED + DBD + DAD)


= 1/4 (6,403 + 6,708 + 3,606+ 5,099)
= 5,454

7Langkah akhir cluster CEBA bergabung menjadi CEBAD


CEBA D
CEBA 0 5,454
D 5,454 0
Metode K-Means
1. Jumlah cluster yang diinginkan ditetapkan
terlebih dahulu
2. Tabel karakteristik rata-rata variabel pada setiap
kelompok
3. Jarak antara obyek/individu dengan kelompok
ditentukan
 Contoh Dillon,
A B C D E
p.168
A 0 1 5 6 8
AB C D E
B 1 0 3 8 7

D(1) = C 5 3 0 4 6 AB 0 3 6 7

D 6 8 4 0 2
D(2) = C 3 0 4 6
E 8 7 6 2 0 D 6 4 0 2
E 7 6 2 0

4
AB C DE
3

AB 0 3 6
1

D(3) = C 3 0 4

DE 6 4 0
Contoh Kasus :

Berdasarkan data BPS (Badan Pusat Statistik) Semarang yaitu data tentang beban
pencemaran udara menurut industry di Jawa Tengah tahun 2005. Data yang diunakan
dalam permasalahan ini ada 3 variabel, dimana variable-variabel tersebut adalah jenis
polutan yangmeliputi debu, Sulfur dioksida (SO2) dan Nitrogen dioksida
(NO2).Sedangkan obyek-obyek yang digunakan adalah 5 jenis Industri di Jawa Tengah
yaitu Industri makanan, minuman, tekstil, kayu, olahan kayu. Dalam contoh ini akan
digunakan proses clustering secra non hirarki.

Industri Debu SO2 NO2

Makanan 16941.8 15756.3 73638.52

Minuman 14608.3 135861 62496.05

Teksil 92737.1 862476 403086.58

Kayu 37078.6 344839 161163.97

Olahan Kayu 63789.9 575982 269190.49


Metode Non Hierarki

Sebagaimana telah dijelaskan sebelumnya bahwa metode K-Means Cluster ini jumlahcluster ditentukan
sendiri. Metode non-hirarki memproses semua objek (kasus) secarasekaligus. Metode yang digunakan
adalah k-means dimana k adalah banyaknya cluster Proses pengclusteran dengan metode k-means
adalah :

A. Besarnya k (banyaknya cluster) = Centroid ada 3 karena jumlah


cluster ada tiga.Nilai centroid diperoleh secara acak.

 C1(centroid cluster 1) adalah nilai ketiga variabel dari obyek industri Makanan

 C2(centroid cluster 2) adalah nilai ketiga variabel dari obyek industri Tekstil

 C3(centroid cluster 3) adalah nilai ketiga variabel dari obyek industri Kayu

Nilai centroid dari tiap cluster adalah :

C1= (16941.8 ; 15756.3 ; 73638.52 )

C2= (92737.1 ; 862476 ; 403086.58)

C3= (37078.6 ; 344839 ; 161163.97)


Industri Debu SO2 NO2
Makanan 16941.8 15756.3 73638.52
Minuman 14608.3 135861 62496.05
Teksil 92737.1 862476 403086.58
Kayu 37078.6 344839 161163.97
Olahan Kayu 63789.9 575982 269190.49

A. Jarak setiap objek dengan tiap centroid ( pusat cluster) pertama dengan
menggunakan kuadrat jarak Euclidean adalah ;

Tabel Jarak setiap objek dari pusat cluster pertama

INDUSTRI C1
Makanan (16941.8 - 16941.8)² + (15756.3 - 15756.3)² + (73638.52-73638.52)² = 0

Minuman (14608.3 - 16941.8)² + (135861 - 15756.3)² + (62496.05 - 73638.5)² = 1.455x10¹°


Teksil (92737.1 - 16941.8)² + (862476 - 15756.3)² + (403086.58 - 73638.5)² = 8.312x10¹¹
Kayu (37078.6 - 16941.8)² + (344839 - 15756.3)² + (161163.97 - 73638.5)² = 1.163x10¹¹
Olahan Kayu (63789.9 - 16941.8)² + (575982 - 15756.3)² + (269190.49 - 73638.5 )² = 3.542x10¹¹
Jarak setiap objek dari centroid (pusat cluster) kedua dengan menggunakan
kuadrat jarak euclidean adalah;

Tabel Jarak setiap objek dari pusat cluster kedua

INDUSTRI C2
Makanan (16941.8 - 92737.1)² + (15756.3 - 862476 )² + (73638.52-403086.58)² = 8.312x10¹¹

Minuman (14608.3 - 92737.1)² + (135861 - 862476)² + (62496.05 - 403086.58)² = 6.500x10¹¹


Teksil (92737.1 - 92737.1)² + (862476 - 862476)² + (403086.58 - 403086.58)² = 0
Kayu (37078.6 - 92737.1)² + (344839 - 862476)² + (161163.97 - 403086.58)² = 3.295x10¹¹
Olahan Kayu (63789.9 - 92737.1)² + (575982 - 862476)² + (269190.49 - 403086.58 )² = 1.008x10¹¹
Jarak setiap objek dari centroid (pusat cluster) ketiga dengan menggunakan kuadrat
jarak euclidean adalah ;

Tabel Jarak setiap objek dari pusat cluster ketiga

INDUSTRI C3
Makanan (16941.8 - 37078.6)² + (15756.3 - 344839 )² + (73638.52-161163.97)² = 1.163x10¹¹

Minuman (14608.3 - 37078.6)² + (135861 - 344839)² + (62496.05 - 61163.97)² = 4.417x10¹°


Teksil (92737.1 - 37078.6)² + (862476 - 344839)² + (403086.58 - 61163.97)² = 3.879x10¹¹
Kayu (37078.6 - 37078.6)² + (344839 - 344839)² + (161163.97 - 61163.97)² = 0
Olahan Kayu (63789.9 - 37078.6)² + (575982 - 344839)² + (269190.49 - 61163.97)² = 9.741x10¹°
Secara keseluruhan jarak tiap objek (industi) ke pusat cluster (centroid) adalah sebagai berikut;
Tabel Jarak tiap objek ke centroid secara keseluruhan

INDUSTRI C1 C2 C3
Makanan 0 8.312x10¹¹ 1.163x10¹¹
Minuman 1.455x10¹° 6.500x10¹¹ 4.417x10¹°
Teksil 8.312x10¹¹ 0 3.879x10¹¹
Kayu 1.163x10¹¹ 3.295x10¹¹ 0
Olahan Kayu 3.542x10¹¹ 1.008x10¹¹ 9.741x10¹°

Dari tabel 2.4 diperoleh sebagai berikut;


 Jarak terdekat industri makanan adalah dengan c 1, sehingga industri makanan masuk ke
cluster 1.
 Jarak terdekat industri minuman adalah dengan c 1, sehingga industri minuman masuk ke
cluster 1.
 Jarak terdekat industri tekstil adalah dengan c 2, sehingga industri minuman masuk ke cluster 2.
 Jarak terdekat industri Kayu adalah dengan c 3, sehingga industri minuman masuk ke cluster 3.

 Jarak terdekat industri Olahan Kayu adalah dengan c 3, sehingga industri minuman masuk ke
cluster 3.
Dari proses ini diperoleh anggota tiap cluster sebagai berikut :

 Cluster 1 dengan anggota : Industri makanan dan Industri Minuman


 Cluster 2 dengan anggota : Industri Tekstil
 Cluster 3 dengan anggota : Industri kayu dan Olahan Kayu

C. Selanjutnya menghitung kembali centroid yang baru yang merupakan rataan ketiga
variabel pada tiap cluster.

1* (centroid cluster 1) adalah nilai ketiga variabel dari 3 objek yang masuk ke dalam
cluster 1 pada langkah b.c

2* (centroid cluster 2) adalah nilai rata-rata kelima variabel dari 10 objek yangmasuk ke
cluster 2 pada langkah b.c

3* (centroid cluster 3) adalah nilai rata-rata kelima variabel dari objek industri tekstil.

Nilai centroid dari tiap cluster adalah :


1* = 15775.05 ; 75808.65 ; 68067.28
2* = 92737.1 ; 862476 ; 403086.58
3* = 50434.25 ; 460410.5 ; 215177.23
d. Jarak setiap objek dengan tiap centroidJarak setiap objek dengan centroid (pusat
cluster) pertama adalah sebagai berikut :

INDUSTRI C1*
Makanan (16941.8 - 15775.05)² + (15756.3 - 75808.65)² + (73638.52 - 68067.28)²= 2.249x10¹²
Minuman (14608.3 -15775.05)² + (135861 -75808.65)² + (62496.05 -68067.28)² = 3.821x10¹³
Teksil (92737.1 -15775.05)² + (862476 -75808.65)² + (403086.58 -68067.28)² = 7.370x10¹¹
Kayu (37078.6 -15775.05)² + (344839 -75808.65)² + (161163.97 -68067.28)² = 8.149x10¹°
Olahan Kayu (63789.9 -15775.05)² + (575982 -75808.65)² + (269190.49 -68067.28)² = 2.929x10¹¹
Jarak setiap objek dengan centroid (pusat cluster) kedua adalah sebagai
berikut :

Tabel 2.6

INDUSTRI C2*
Makanan (16941.8 -92737.1)² + (15756.3 -862476 )² + (73638.52 -403086.58)²= 8.312x10¹¹
Minuman (14608.3 -92737.1)² + (135861 -862476 )² + (62496.05 -403086.58)² = 6.500x10¹¹
Teksil (92737.1 -92737.1)² + (862476 -862476 )² + (403086.58 -403086.58)² = 0
Kayu (37078.6 -92737.1)² + (344839 -862476 )² + (161163.97 -403086.58)² = 3.295x10¹¹
Olahan Kayu (63789.9 -92737.1)² + (575982 -862476 )² + (269190.49 -403086.58)² = 1.008x10¹¹
Jarak setiap objek dengan centroid (pusat cluster) ketiga adalah sebagai berikut :

INDUSTRI C2*
Makanan (16941.8 -50434.25)² + (15756.3 -460410.5)² + (73638.52 -215177.23)²= 1.128x10¹¹
Minuman (14608.3 -50434.25)² + (135861 -460410.5)² + (62496.05 -215177.23)² = 1.299x10¹¹
Teksil (92737.1 -50434.25)² + (862476 -460410.5)² + (403086.58 -215177.23)² = 1.987x10¹¹
Kayu (37078.6 -50434.25)² + (344839 -460410.5)² + (161163.97 -215177.23)² = 2.184x10¹³
Olahan Kayu (63789.9 -50434.25)² + (575982 -460410.5)² + (269190.49 -4215177.23)² = 1.558x10¹³

Secara keseluruhan jarak tiap objek (industri) ke pusat cluster (centroid) adalah sebagaiberikut:

INDUSTRI C1* C2* C3*


Makanan 2.249x10¹² 8.312x10¹¹ 1.128x10¹¹

Minuman 3.821x10¹³ 6.500x10¹¹ 1.299x10¹¹


Teksil 7.370x10¹¹ 0 1.987x10¹¹

Kayu 8.149x10¹° 3.295x10¹¹ 2.184x10¹³

Olahan Kayu 2.929x10¹¹ 1.008x10¹¹ 1.558x10¹³


Keterangan :

 Jarak terdekat industri makanan adalah dengan c3, sehingga industri makananmasuk ke cluster 3.

 Jarak terdekat industri minuman adalah dengan c3, sehingga industri makananmasuk ke cluster 3.
 Jarak terdekat industri teksatil adalah dengan c2, sehingga industri makananmasuk ke cluster 2.
 Jarak terdekat industri kayu adalah dengan c1, sehingga industri makananmasuk ke cluster 1.
 Jarak terdekat industri Olahan kayu adalah dengan c2, sehingga industri makananmasuk ke cluster 2.

Dari proses ini diperoleh anggota tiap cluster sebagai berikut :

Cluster 1 dengan anggota : Industri Kayu


Cluster 2 dengan anggota : Industri tekstil dan Olahan Kayu
Cluster 3 dengan anggota : Industri Makanan dan Minuman
Cluster 1 : Kayu
 Untuk Untuk polutan debu terbanyak
Debu = 37078.6
SO2 = 344839 berada di cluster ketiga dengan rata-rata
NO2 = 161163.97 sebesar 15775.05 ton. Jadi
industri makanan dan minuman
Cluster 2 : Tekstil dan olahan Kayu menghasilkan polutan debu terbesar.
Debu = 78263.5 Sedangkan polutan debu terkecil adalah
So2 = 719229 dari cluster satu dengan sebesar 37078.6
No2 = 336138.53
ton.
Cluster 3 : makanan dan minuman
Debu = 15775.05  Untuk polutan SO2 terbanyak berada di
SO2 = 75808.65 cluster ketiga dengan rata-rata sebesar
NO2 = 68067.28 344839 ton. Sedangkan polutan SO2 terkecil
adalah dari cluster keduadengan rata-rata
sebesar 75808.653 ton

 Untuk polutan NO2 terbanyak berada di


cluster ketiga dengan rata-rata sebesar
336138.53 ton. Sedangkan polutan NO2
terkecil adalah dari cluster kedua
denganrata-rata sebesar 68067.28 ton

Anda mungkin juga menyukai