Tgs KLPK 2
Tgs KLPK 2
ALGORITHM
CLUSTERING
KELOMPOK II
MAGISTER KOMPUTER
UNIVERSITAS PUTRA INDONESIA YPTK PADANG
K-MEANS
Secara Umum K-means clustering merupakan
salah satu metode data clustering non-hirarki
yang mengelompokan data dalam bentuk satu
atau lebih cluster/kelompok
Algoritma K-means
clustering
merupakan
salah
satu
metode
data
clustering
nonhirarki yang mengelompokan data dalam bentuk
satu atau lebih Cluster/Kelompok.
KLASIFIKASI
Clustering
algoritma
dapat
sebagai berikut:
1. Exclusive Clustering
2. Overlapping Clustering
3. Hierarchical Clustering
4. Probabilistic Clustering
diklasifikasikan
APLIKASI
Clustering algoritma dapat diterapkan
dalam berbagai bidang,misalnya:
1.
2.
3.
4.
6.
Bisnis
Biologi
Informasi
Multimedia
Dll
KELEMAHAN
1.
Jumlah
cluster,
sebanyak
K,
harus
ditentukan
3.
Tidak
pernah
mengetahui
real
cluster
dengan
Tidak
tahu
kontribusi
dari
atribut
dalam
proses
KELEBIHAN
Ada beberapa kelebihan pada algoritma
k-means, yaitu.
1. Mudah untuk diimplementasikan dan
dijalankan
2. Waktu yang dibutuhkan untuk
pembelajaran ini relatif cepat
3. Mudah untuk diadaptasi
4. Umum digunakan
Keterangan :
d = titik dokumen
x = data centroid
y = data record
4. Kelompokkan data sesuai dengan
cluster-nya, yaitu data yang memilik
jarak terpendek
5. Kembali
ke
tahap
2,
lakukan
perulangan hingga nilai centroid
yang dihasilkan tetap dan anggota
cluster tidak berpindah kecluster
Flowchart K-Means
Clustering
Start
Start
Jumlah
Jumlah
cluster
cluster K
K
Tentukan
Tentukan centroid
centroid
Hitung
Hitung jarak
jarak objek
objek
data
data ke
ke centroid
centroid
Kelompokkan
Kelompokkan objek
objek
data
data berdasarkan
berdasarkan
jarak
jarak minimum
minimum ke
ke
centroid
centroid
Ada
objek
yang
berpind
ah
kelomp
ok?
End
End
Transformasi
Data
berdasarkan frekuensi
Inisialisasikan
data
dari data tertinggi
1,
kemudian
data
dan Seterusnya.
Contoh :
Nama
Kota Asal
Padang
Pariaman
Solok
Bunga Randa
Pariaman
Sari LanoVha
Pariaman
Defnizal
Padang
Hasil Transformasi
Hobby
Frekuensi
Inisial
Pariaman
Padang
Solok
STUDI KASUS
Diberikan data nilai dari 8
Test Polri sebagai Berikut :
Peserta
NO
1
2
3
4
5
6
7
NO
CASIS
20150001
20150002
20150003
20150004
20150005
20150006
20150007
NAMA
CASIS
Sepsa N.R
TEST
TEST
KESEHATAN PSI&AKDMK
80
71
TOTAL
151
Fhela S
55
72
127
Sari L.V
65
66
131
Risa E
85
85
170
Jhodi H.K
60
73
133
Arif S.L
77
71
148
Itok P
45
61
106
Penyelesaian :
1. Menentukan titik pusat cluster
dengan cara random
Pusat Cluster 2
Diambil Data ke-8
85
85
170
75
96
170
(85-80)+(85-71)+(170-151)
C1 = 24.124676
C2 =
(75-80)+(95-71)+(170-151)
C2 = 31.016124
(85-55)+(85-72)+(170-127)
C1 = 54.018515
C2 =
(75-55)+(95-72)+(170-127)
C2 = 52.706735
(85-65)+(85-66)+(170-131)
C1 = 47.770284
C2 =
(75-65)+(95-66)+(170-131)
C2 = 49.618545
ke
(85-60)+(85-73)+(170-133)
C1 = 46.238512
C2 =
data
(75-60)+(95-73)+(170-133)
C1 = 45.585085
ke
(85-77)+(85-71)+(170-148)
C1 = 27.276363
C2 =
data
(75-77)+(95-71)+(170-148)
C1 = 32.619013
ke
(85-45)+(85-61)+(170-106)
C1 = 79.195959
C2 =
data
(75-45)+(95-61)+(170-106)
C1 = 78.434686
2015-0003
2015-0004
2015-0005
2015-0006
2015-0007
2015-0008
Sari L.V
Risa E
Jhodi H.K
Arif S.L
Itok P
Ika T
C1
24.124676
54.018515
C2
31.016124
52.706735
47.770284
0
46.238512
27.276363
79.195959
14.86607
49.618545
14.86607
45.585085
32.619013
78.434686
0
3. Pengelompokkan Data
1
2
3
4
5
6
7
8
NO
CASIS
NAMA
CASIS
C1
C2
JARAK JARAK
C1
C2
24.124676
31.016124
54.018515
52.706735
47.770284 49.618545
348.396326 417.372735
46.238512 45.585085
27.276363
32.619013
79.195959 78.434686
417.372735 348.396326
NO
CASIS
NAMA
CASIS
TWK
TIU
TKP
2015-0001
Sepsa N.R
80
71
151
2015-0003
Sari L.V
65
66
131
2015-0004
Risa E
85
85
170
2015-0006
Arif S.L
77
71
148
(80+65+85+77) / 4 = 76.75
C1 =
(71+66+85+71) / 4 = 73.25
(151+131+170+148) / 4 = 150
C1
76.5
73.25
150
NO
CASIS
20150002
5
20150005
7
20150007
8
2015C2 = 0008
NAMA
CASIS
TWK
TIU
TKP
Fhela S
55
72
127
Jhodi H.K
60
73
133
Itok P
45
61
106
95
170
(55+60+45+75) / 4 = 58.75
Ika T
75
(72+73+61+95) / 4 = 75.25
(127+133+106+170) / 4 = 134
C2
58.75
75.25
134
Pusat Cluster 1
C1
76.5
73.25
150
75.25
134
Pusat Cluster 2
C2
58.75
(76.5-80)+(73.25-71)+(150-151)
C1 = 4,27931
C2 =
(58.75-75)+(75.25-96)+(134-170)
C2 = 44.61642
(76.5-55)+(73.25-72)+(150-127)
C1 = 31.50893
C2 =
(58.75-55)+(75.25-72)+(134-127)
C2 = 8.50337
(76.5-65)+(73.25-66)+(150-131)
C1 = 20.65944
C2 =
(58.75-65)+(75.25-66)+(134-131)
C2 = 11.55963
NO
CASIS
2015-0001
2015-0002
2015-0003
2015-0004
2015-0005
2015-0006
2015-0007
2015-0008
NAMA
CASIS
Sepsa N.R
Fhela S
Sari L.V
Risa E
Jhodi H.K
Arif S.L
Itok P
Ika T
C1
C2
4,27931
44.61642
31.50893
8.50337
20.65944
11.55963
24.70450
30.44873
23.69203
2.76125
3.10243
23.39070
55.50957
28.97089
28.97089
44.16022
6. Pengelompokkan Data
Tabel 5. Posisi Cluster pada iterasi Kedua
NO
1
2
3
4
5
6
7
NO
CASIS
20150001
20150002
20150003
20150004
20150005
20150006
20150007
NAMA
Sepsa
N.R
Fhela S
Sari L.V
Risa E
Jhodi
H.K
Arif S.L
Itok P
C1
C2
JARAK C1 JARAK C2
20.63977
4,27931
8.50337
11.55963
30.44873
2.76125
23.39070
28.97089
31.50893
20.65944
24.70450
23.69203
3.10243
55.50957
: 1, 4, 6, 8
NO
NAMA
CASIS
KESEHAT PSI&AKD
TOTAL
AN
MK
2015-0002 Fhela S
55
72
127
65
66
131
5
7
60
45
73
61
133
106
(55+65+60+45) / 4 = 56.25
C1 =
(72+66+73+61) / 4 = 68
(127+131+133+106) / 4 = 124.25
C1
56.25
68
124.25
NO TEST
CPNS
NO
1
4
6
8
2015-0001
2015-0004
2015-0006
2015-0008
NAMA
CASIS
KESEHAT PSI&AKD
TOTAL
AN
MK
Sepsa N.R
Risa E
Arif S.L
Ika T
80
85
77
75
71
85
71
95
151
170
148
170
(80+85+77+75) / 4 = 79.25
C2 =
(71+85+71+95) / 4 = 80.5
(151+170+148+170) / 4 = 159.75
C2
79.25
80.5
159.75
Pusat Cluster 1
C1
56.25
68
124.25
80.5
159.75
Pusat Cluster 2
C2
79.25
(56.25-80)+(68-71)+(124.25-151)
C1 = 35.89742
C2 =
(79.25-80)+(80.5-71)+(159.75-151)
C2 = 8.75
(56.25-55)+(68-72)+(124.25-127)
C1 = 5.01248
C2 =
(79.25-55)+(80.5-72)+(159.75-127)
C2 = 41.62781
(56.25-65)+(68-66)+(124.25-131)
C1 = 11.23054
C2 =
(79.25-65)+(80.5-66)+(159.75-131)
C2 = 35.21186
NO
CASIS
2015-0001
2015-0002
2015-0003
2015-0004
2015-0005
2015-0006
2015-0007
2015-0008
NAMA
CASIS
Sepsa N.R
Fhela S
Sari L.V
Risa E
Jhodi H.K
Arif S.L
Itok P
Ika T
C1
C2
35.89742
8.75
5.01248
11.23054
41.62781
35.21186
56.64472
12.59464
10.74884
33.79904
31.75075
24.04423
22.55275
66.65114
56.33493
18.25856
9. Pengelompokkan Data
Tabel 7. Posisi Cluster pada iterasi Ketiga
NO
1
2
3
4
5
6
7
8
NO
CASIS
NAMA
CASIS
2015-0001 Sepsa
N.R
2015-0002 Fhela S
2015-0003 Sari L.V
2015-0004 Risa E
2015-0005 Jhodi
H.K
2015-0006 Arif S.L
2015-0007 Itok P
2015-0008 Ika T
JARAK C1
JARAK
C2
11.23054
41.62781
35.21186
12.59464
56.64472
10.74884
33.79904
1
C1
C2
35.89742
8.75
5.01248
31.75075
24.04423
22.55275
66.65114
56.33493
18.25856
ITERASI 2
JARAK B
ITERASI 3
JARAK C
C1
C2
C1
C2
C1
C2