Anda di halaman 1dari 32

Algoritma K-

means
klustering
Euclidean/
Manhattan/MINkowski?
3

Tujuan V#5:
Mengetahui
Algoritma k-means klustering dan memilih rumus jarak
yang digunakan
4
5
6

Sumber: Data Flair


7

Apa itu klustering?


The process of organizing objects into groups whose
members are similar in some way
8

Intro K-Means klustering


• Memisahkan data ke k daerah bagian yang terpisah
• Contoh: K-means algorithm
• Gambaran Tugasnya: mampu untuk mengklaster data besar dan
data outlier dengan sangat cepat
• Setiap data harus termasuk ke cluster tertentu
• Memungkinkan bagi setiap data yang termasuk cluster tertentu
pada suatu tahapan proses, pada tahapan berikutnya berpindah
ke cluster yang lain
9

Ilustrasi proses klustering


K=2

Secara
random Perbarui
mempartisi centroid
objek cluster
menjadi
beberapa
The initial data kelompok Loop if
set Menugaskan kembali objek
needed
 Partisikan objek kedam suatu
subset
 Repeat
 Hitung centroid(i.e., mean
point) untuk setiap partisi Perbarui
 Tetapkan setiap objek ke centroid
cluster centroid cluster
terdekatnya
 Sampai tidak ada yang
berpindah
10

Flowchart k-
means
klustering
11

Rumus dan
studi kasus
Algoritma K-means
12

Tahapan Algoritma k-Means


1. Pilih jumlah klaster k yang diinginkan
2. Inisialisasi k pusat klaster (centroid) secara random
3. Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek
ditentukan berdasar jarak. Jarak yang dipakai pada algoritma k-Means
adalah Euclidean distance (d)  HARGA MUTLAK Sehingga jarak
selalu positif.

n
d Euclidean  x, y   
 i i  2
x  y
i 1

○ x = x1, x2, . . . , xn, dan y = y1, y2, . . . , yn merupakan banyaknya n


atribut(kolom)
13

Tahapan Algoritma k-Means**


4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang.
Pusat klaster adalah rata-rata (mean) dari semua data atau objek dalam
klaster tertentu
5. Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika
pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai.
Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak
berubah lagi (stabil) atau tidak ada penurunan yang signifikan dari
nilai SSE (Sum of Squared Errors)
14

Studi kasus
1. Tentukan jumlah klaster k=2
2. Tentukan centroid awal secara acak
misal dari data disamping m1 =(1,1),
m2=(2,1)
15

HITUNG JARAK MASING2 0BJEK KE TITIK


CENTROID YANG DITENTUKAN

n
d Euclidean  x, y   x  yi 
2
i
i 1
16

Hitungannya sbb: iterasi 1


✖  
✖ Poin a ke titik centroid (m1,m2) =
M1= = 2 (jarak ke Centroid 1)
M2= = 2,24 (jarak ke Centroid 2)
✖ Poin b ke titik centroid (m1,m2) =
M1= = 2.83 (jarak ke Centroid 1)
M2= = 2,24 (jarak ke Centroid 2)
17

Tahapan Algoritma k-Means**


✖  
✖ Poin c ke titik centroid (m1,m2) =
M1= = 3,60 (jarak ke Centroid 1)
M2= = 2,82 (jarak ke Centroid 2)
✖ Poin d ke titik centroid (m1,m2) =
M1= = 4,47 (jarak ke Centroid 1)
M2= = 3,60 (jarak ke Centroid 2)
18

 
Hitungannya sbb:
✖ Poin e ke titik centroid (m1,m2) =
M1= = 1 (jarak ke Centroid 1)
M2= = 1,41 (jarak ke Centroid 2)
✖ Poin f ke titik centroid (m1,m2) =
M1= = 3,16 (jarak ke Centroid 1)
M2= = 2,23 (jarak ke Centroid 2)
19

Tahapan Algoritma k-Means**


✖  
✖ Poin g ke titik centroid (m1,m2) =
M1= = 0 (jarak ke Centroid 1)
M2= = 1 (jarak ke Centroid 2)
✖ Poin h ke titik centroid (m1,m2) =
M1= = 1 (jarak ke Centroid 1) C1 a e g
M2= = 0 (jarak ke Centroid 2) C2 b c d f h
klustering -iterasi 2- first: 20

centroid baru
1. cluster1 = {A,E,G}, cluster2={B,C,D,F,H}
2. Mencari centroid baru
Jumlahkan semua anggota masing-masing
cluster lalu bagi jumlah anggota
3. M1=1+1+1/3=1---3+2+1/3=2
M2= 3+4+5+4+2/5= 3,6---3+3+3+2+1/5= 2,4
21

klustering -iterasiM1=1,2
2 , 2,4
M2=3,6
 
Poin a ke titik centroid (m1,m2) =
M1= = 1 (jarak ke Centroid 1)
M2= = 2,66 (jarak ke Centroid 2)
Poin b ke titik centroid (m1,m2) =
M1= = 2,23 (jarak ke Centroid 1)
M2= = 0,84 (jarak ke Centroid 2)
22

klustering -iterasiM1=1,2
2 , 2,4
M2=3,6
 
Poin c ke titik centroid (m1,m2) =
M1= = 3,16 (jarak ke Centroid 1)
M2= = 0,72 (jarak ke Centroid 2)
Poin d ke titik centroid (m1,m2) =
M1= = 4,12 (jarak ke Centroid 1)
M2= = 1,52 (jarak ke Centroid 2)
23

klustering -iterasi 2M1=1,2


M2=3,6 , 2,4
 
Poin e ke titik centroid (m1,m2) =
M1= = 0 (jarak ke Centroid 1)
M2= = 2,63 (jarak ke Centroid 2)
Poin f ke titik centroid (m1,m2) =
M1= = 1,41 (jarak ke Centroid 1)
M2= = 0,56 (jarak ke Centroid 2)
24

klustering -iterasiM1=1,2
2 , 2,4
M2=3,6
 
Poin g ke titik centroid (m1,m2) =
M1= = 1 (jarak ke Centroid 1)
C1 a e g h
M2= = 2,95 (jarak ke Centroid 2) C2 b c d f
Poin h ke titik centroid (m1,m2) =
M1= = 1,41 (jarak ke Centroid 1)
M2= = 2,12(jarak ke Centroid 2)
25

klustering -iterasi 3
1. cluster1 = {A,E,G,H}, cluster2={B,C,D,F}
2. Mencari centroid baru
Jumlahkan semua anggota masing-masing
cluster lalu bagi jumlah anggota
3. M1=1+1+1+2/4=1,25---3+2+1+1/4=1,75
M2= 3+4+5+4/4= 4--3+3+3+2/4= 2,75
26

klustering -iterasi 3 M1=(1,25 , 1,75)


M2=(4 , 2,75)

 
Poin a ke titik centroid (m1,m2) =
M1= = 1,27 (jarak ke Centroid 1)
M2= = 3,01 (jarak ke Centroid 2)
Poin b ke titik centroid (m1,m2) =
M1= = 2,15 (jarak ke Centroid 1)
M2= = 1,03(jarak ke Centroid 2)
27

klustering -iterasi 3 M1=(1,25 , 1,75)


M2=(4 , 2,75)
 
Poin c ke titik centroid (m1,m2) =
M1= = 3, 02 (jarak ke Centroid 1)
M2= = 0,25 (jarak ke Centroid 2)
Poin d ke titik centroid (m1,m2) =
M1= = 3,95 (jarak ke Centroid 1)
M2= = 1,03(jarak ke Centroid 2)
28

klustering -iterasi 3 M1=(1,25 , 1,75)


M2=(4 , 2,75)
 
Poin e ke titik centroid (m1,m2) =
M1= = 0,35 (jarak ke Centroid 1)
M2= = 3,09 (jarak ke Centroid 2)
Poin f ke titik centroid (m1,m2) =
M1= = 2,76(jarak ke Centroid 1)
M2= = 0,75(jarak ke Centroid 2)
29

klustering -iterasi 3 M1=(1,25 , 1,75)


M2=(4 , 2,75)
 
Poin g ke titik centroid (m1,m2) =
M1= = 0,79 (jarak ke Centroid 1)
M2= = 3,47 (jarak ke Centroid 2)
Poin h ke titik centroid (m1,m2) =
M1= = 1,06 (jarak ke Centroid 1)
M2= = 2,65(jarak ke Centroid 2)
30

klustering -iterasi 4
1. Tidak ada data/record yang berpindah cluster lagi
2. Centroid juga tidak berubah C1 a e g h
C2 b c d f
3. klustering dihentikan
M1=1+1+1+2/4=1,25---3+2+1+1/4=1,75
M2= 3+4+5+4/4= 4--3+3+3+2/4= 2,75
Tugas 31

besar 2
Kluster menjadi :3 kluster
Kasus:indeks kedalaman kemiskinan Jawa Timur
Tools: Gunakan excel dan praktek di rapidminer
32

Practice more
Be an expert

NEXT #6
Evaluasi Klustering
33

Thanks!
Any questions?
You can find me at:
Asia.tugas@gmail.com

Anda mungkin juga menyukai