Anda di halaman 1dari 31

METODE

Hairani, S.Kom., M.Eng.


K-MEANS CLUSTERING
Outline

◉ Clustering
◉ K-Means Concept
◉ K-Means Step
◉ Case Studi

2
What is Clustering?

 Clustrering disebut juga sebagai Unsupervised Learning.


 Clustering merupakan mengelompokkan menjadi beberapa Cluster
(kelompok) berdasarkan kesamaannya.

3
What is a natural grouping among these objects ?

4
Two Types of Clustering?
 Partitional algorithms : Membuat beberapa partisi dan
mengelompokkan objek berdasarkan kriteria tertentu.
 Hierarchical algorithm : Membuatk dekomposisi
pengelompokan objek berdasarkan kriteria tertentu. Misal = tua-
muda, tua-muda (merokok-tidak merokok)..

5
K-Means Clustering

 K-Means merupakan salah satu metode Clustering partitional yang


digunakan untuk mempartisi N data ke dalam beberapa K
kelompok
 Parameter K menunjukkan banyaknya cluster yang akan dibentuk.
 Setiap kelompok data memiliki jarak terdekat dengan centroidnya
masing-masing.

6
K= 2 Menentukan Pusat Cluster
Initial Dataset

Pengelompokan data berdasarkan jarak terdekat dengan pusat Cluster


Update Pusat Cluster

Data
Science
7
Algoritma K-Means
• Tentukan jumlah cluster (K), serta tetapkan pusat cluster sembarang
1.

• Tentukan jarak setiap data ke pusat Cluster


2.

• Kelompokkan data ke dalam cluster dengan jarak paling pendek atau terdekat
3.

• Hitung Pusat cluster


4.
Data
• Ulangi langkah 2-4 hingga sudah tidak ada data lagi yang berpindah ke cluster
5. yang lain. Science
8
Algoritma K-Means
Start

Jumkah Cluster K
Tidak

Tentukan Centroid Tidak ada


data
berpindah End
Tentukan jarak setiap data ke pusat Cluster ke Cluster
lain
Data
Science
Kelompokkan Data ke dalam Cluster dengan
jarak terdekat 9
K-Means Clustering

◉Untuk
  melakukan perhitungan jara data ke-i () pada pusat cluster
ke-k (), diberi nama (), dapat digunakan formula seperti berikut:

10
11

CASE STUDI


Contoh Soal 1

 Diketahui angka kematian kasar (CDR) dan angka kelahiran kasar


(CBR) 10 negara seperti terlihat pada Tabel 1. Negara-negara
tersebut akan dikelompokkan berdasarkan CBR dan CDRnya
menjadi tiga kelompok. Proses pengelompokkan menggunakan
metode k-means

12
Tabel 1. CDR dan CBR tahun 1994
(sumber: ESCAP Population Data Sheet 1996)

No Negara CBR CDR


Contoh Soal 1
1 Brunei Darusalam 27 3
2 Kamboja 38 14
 Diketahui angka kematian kasar
3 Indonesia 24 8
(CDR) dan angka kelahiran kasar
(CBR) 10 negara seperti terlihat 4 Laos 43 15

pada Tabel 1. Negara-negara 5 Malaysia 28 5


tersebut akan dikelompokkan 6 Myanmar 32 11
berdasarkan CBR dan CDRnya 7 Filipina 30 7
menjadi tiga kelompok. Proses 8 Singapura 17 5
pengelompokkan menggunakan 9 Thailand 20 6
metode k-means 10 Vietnam 29 8
13
14

PEMBAHASAN


STEP 1

1. Misalkan kita akan pengelompokkan data tersebut


menjadi 3 cluster, K = 3. Misalkan pusat cluster kita
tetapkan sembarang,

C1 = (20, 5);
C2 = (25,4);
dan C3 = (30,10)
15
STEP 2
◉ 
2. Hitung jarak setiap data terhadap setiap pusat cluster. Misalkan untuk
menghitung
jarak data pertama (Brunei Darusalam) dengan pusat cluster
pertama adalah:

jarak data pertama (Brunei Darusalam) dengan pusat cluster kedua


adalah:

jarak data pertama (Brunei Darusalam) dengan pusat cluster ketiga


adalah:

16
STEP 2
◉ 
jarak data kedua (Kamboja) dengan pusat cluster pertama adalah:

jarak data kedua (Kamboja) dengan pusat cluster kedua adalah:

jarak data kedua (Kamboja) dengan pusat cluster ketiga adalah:

17
STEP 2

Perhitungan data 3 – 10 sama dengan sebelumnya.

18
Suatu data akan menjadi anggota dari suatu cluster yang memiliki jarak terkecil
dari pusat clusternya.
Negara Jarak Anggota Cluster
No Negara
CBR CDR C1 C2 C3 C1 C2 C3
Brunei
1 27 3 7,2801 2,2361 7,6158 *
Darusalam
2 Kamboja 38 14 20,1246 16,4012 8,9443 *
3 Indonesia 24 8 5,0000 4,1231 6,3246 *
4 Laos 43 15 25,0799 21,0950 13,9284 *
5 Malaysia 28 5 8,0000 3,1623 5,3852 *
6 Myanmar 32 11 13,4164 9,8995 2,2361 *
7 Filipina 30 7 10,1980 5,8310 3,0000 *
8 Singapura 17 5 3,0000 8,0623 13,9284 *
9 Thailand 20 6 1,0000 5,3852 10,7703 *
10 Vietnam 29 8 9,4868 5,6569 2,2361 *

19
STEP 3
◉ 

Hitung pusat cluster baru. Untuk cluster pertama (C1), ada 2 data yaitu
data ke-8 dan data ke-9, sehingga:

Sehingga ;
C1 = (18.5 , 5.5 )

20
STEP 3
◉ 

Untuk cluster kedua, ada 3 data yaitu data ke-1, data ke-3 dan data ke-5,
sehingga:

Sehingga ;
C2 = (26.33 , 5.33 )

21
STEP 3
◉ 

Untuk cluster ketiga, ada 5 data yaitu data ke-2, data ke-4, data ke-
6, data ke-7 dandata ke-10, sehingga:

Sehingga ;
C3 = (34.3 , 11 )

22
STEP 3

3 Pusat cluster baru didapatkan, masing-masing:

C1 = (18.5 , 5.5 )
C2 = (26.33 , 5.33 )
C3 = (34.3 , 11 )

23
STEP 2
◉ 
Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang
baru . Misalkan untuk menghitung
jarak data pertama (Brunei Darusalam) dengan pusat cluster baru
pertama adalah:

jarak data pertama (Brunei Darusalam) dengan pusat cluster baru


kedua adalah:

jarak data pertama (Brunei Darusalam) dengan pusat cluster baru


ketiga adalah:

24
STEP 2
◉ 
jarak data kedua (Kamboja) dengan pusat cluster pertama adalah:

jarak data kedua (Kamboja) dengan pusat cluster kedua adalah:

jarak data kedua (Kamboja) dengan pusat cluster ketiga adalah:

25
STEP 2

Perhitungan data 3 – 10 sama dengan sebelumnya.

26
Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang baru. Hasil
Perhitungan jarak setiap data dengan pusat cluster baru
Anggota Cluster Anggota
Negara Jarak
No Negara Lama Cluster Baru
CBR CDR C1 C2 C3 C1 C2 C3 C1 C2 C3
Brunei
1
Darusalam
27 3 8,8600 2,4244 10,8301 * *

2 Kamboja 38 14 21,2720 14,5381 4,7634 * *


3 Indonesia 24 8 6,0415 3,5434 10,8240 * *
4 Laos 43 15 26,2774 19,2671 9,4847 * *
5 Malaysia 28 5 9,5131 1,6997 8,7727 * *
6 Myanmar 32 11 14,5774 8,0139 2,4000 * *
7 Filipina 30 7 11,5974 4,0277 5,9464 * **
8 Singapura 17 5 1,5811 9,3393 18,4054 * *
9 Thailand 20 6 1,5811 6,3683 15,2434 * *
10 Vietnam 29 8 10,7935 3,7712 6,1774 * **
27
Terlihat masih ada 2 data yang berubah posisi dari kondisi
semula, yaitu data ke-7 dan ke-10. Sehingga perlu dihitung
pusat cluster baru.

Hitung pusat cluster baru sebagaimana pada langkah sebelumnya,


sehingga diperoleh:
C11 = 18,5; C12 = 5,5;
C21 = 27,6; C22 = 6,2;
C31 = 37,67; C32 = 13,33; 28
Ulangi menghitung jarak setiap data terhadap setiap pusat cluster yang baru. Hasil
Perhitungan jarak setiap data dengan pusat cluster baru
Anggota Cluster Anggota
Negara Jarak
No Negara Lama Cluster Baru
CBR CDR C1 C2 C3 C1 C2 C3 C1 C2 C3
Brunei
1
Darusalam
27 3 8,8600 3,2558 14,8511 * *

2 Kamboja 38 14 21,2720 13,0000 0,7454 * *


3 Indonesia 24 8 6,0415 4,0249 14,6705 * *
4 Laos 43 15 26,2774 17,7370 5,5877 * *
5 Malaysia 28 5 9,5131 1,2649 12,7628 * *
6 Myanmar 32 11 14,5774 6,5115 6,1283 * *
7 Filipina 30 7 11,5974 2,5298 9,9443 * *
8 Singapura 17 5 1,5811 10,6677 22,2835 * *
9 Thailand 20 6 1,5811 7,6026 19,1282 * *
10 Vietnam 29 8 10,7935 2,2804 10,1762 * *
29
Terlihat bahwa posisi data sudah tidak mengalami perubahan,
sehingga proses iterasi sudah dapat dihentikan.

30
Thanks!
Any questions ?
You can find me at
◉ @username
◉ user@mail.me

31

Anda mungkin juga menyukai