Anda di halaman 1dari 44

K-MEANS

ALGORITHM
CLUSTERING
KELOMPOK II

MATA KULIAH TEKNOLOGI DATABASE


Dosen :Dr. Sarjon Defit,
M.Kom, M.Sc

MAGISTER KOMPUTER
UNIVERSITAS PUTRA INDONESIA YPTK PADANG

1. SEPSA NUR RAHMAN


2. SARI LANOVHA
3. KHAIRUL MUTTAQIN
4. NIKO BERLIAN
5. M. IBRAHIM NASUTION
6. TOMI TAMARA

K-MEANS
Secara Umum K-means clustering merupakan
salah satu metode data clustering non-hirarki
yang mengelompokan data dalam bentuk satu
atau lebih cluster/kelompok
Algoritma K-means
clustering
merupakan
salah
satu
metode
data
clustering
nonhirarki yang mengelompokan data dalam bentuk
satu atau lebih Cluster/Kelompok.

KLASIFIKASI
Clustering

algoritma

dapat

sebagai berikut:
1. Exclusive Clustering
2. Overlapping Clustering
3. Hierarchical Clustering
4. Probabilistic Clustering

diklasifikasikan

APLIKASI
Clustering algoritma dapat diterapkan
dalam berbagai bidang,misalnya:
1.
2.
3.
4.
6.

Bisnis
Biologi
Informasi
Multimedia
Dll

KELEMAHAN
1.

Jumlah

cluster,

sebanyak

K,

harus

ditentukan

sebelum dilakukan perhitungan.


2.

Bila jumlah data tidak terlalu banyak, mudah untuk


menentukan cluster awal.

3.

Tidak

pernah

mengetahui

real

cluster

dengan

menggunakan data yang sama, namun jika dimasukkan


dengan cara yang berbeda mungkin dapat memproduksi
cluster yang berbeda jika jumlah datanya sedikit.
4.

Tidak

tahu

kontribusi

dari

atribut

dalam

proses

pengelompokan karena dianggap bahwa setiap atribut


memiliki bobot yang sama

KELEBIHAN
Ada beberapa kelebihan pada algoritma
k-means, yaitu.
1. Mudah untuk diimplementasikan dan
dijalankan
2. Waktu yang dibutuhkan untuk
pembelajaran ini relatif cepat
3. Mudah untuk diadaptasi
4. Umum digunakan

Langkah-langkah dalam Alogritma


K-Means Clustering
1. Menentukan jumlah K Cluster
Banyaknya cluster harus lebih kecil
dari pada banyakya data (k < n)
2. Menentukan nilai centroid
Dalam menentukan nilai centroid bisa
dilakukan dengan berbagai cara. Namun
yang paling sering dilakukan adalah
dengan cara random atau acak.
3. Menghitung jarak antara titik centroid
dengan titik tiap objek
Untuk mengukur jarak antara data dengan
pusat cluster digunakan Euclidian
distance Sebagai berikut :

Keterangan :
d = titik dokumen
x = data centroid
y = data record
4. Kelompokkan data sesuai dengan
cluster-nya, yaitu data yang memilik
jarak terpendek
5. Kembali
ke
tahap
2,
lakukan
perulangan hingga nilai centroid
yang dihasilkan tetap dan anggota
cluster tidak berpindah kecluster

Flowchart K-Means
Clustering
Start
Start
Jumlah
Jumlah
cluster
cluster K
K

Tentukan
Tentukan centroid
centroid

Hitung
Hitung jarak
jarak objek
objek
data
data ke
ke centroid
centroid
Kelompokkan
Kelompokkan objek
objek
data
data berdasarkan
berdasarkan
jarak
jarak minimum
minimum ke
ke
centroid
centroid

Ada
objek
yang
berpind
ah
kelomp
ok?

End
End

Transformasi
Data

Metode K-Means Clustering hanya bisa


mengolah data dalam bentuk angka, maka
untuk data yang berbentuk nominal
harus
di
Inisialisasikan
terlebih
dahulu dalam bentuk angka. Langkahnya
adalah :
Urutkan data
kemunculannya.
tersebut mulai
dengan
nilai
selanjutnya 2, 3

berdasarkan frekuensi
Inisialisasikan
data
dari data tertinggi
1,
kemudian
data
dan Seterusnya.

Contoh :
Nama

Kota Asal

Sepsa Nur Rahman

Padang

Risa Nadia Ernes

Pariaman

Ika Reskian Tomi

Solok

Bunga Randa

Pariaman

Sari LanoVha

Pariaman

Defnizal

Padang

Hasil Transformasi
Hobby

Frekuensi

Inisial

Pariaman

Padang

Solok

STUDI KASUS
Diberikan data nilai dari 8
Test Polri sebagai Berikut :

Peserta

Tabel-1 Peserta Test Polri

NO
1
2
3
4
5
6
7

NO
CASIS
20150001
20150002
20150003
20150004
20150005
20150006
20150007

NAMA
CASIS
Sepsa N.R

TEST
TEST
KESEHATAN PSI&AKDMK
80
71

TOTAL
151

Fhela S

55

72

127

Sari L.V

65

66

131

Risa E

85

85

170

Jhodi H.K

60

73

133

Arif S.L

77

71

148

Itok P

45

61

106

Penyelesaian :
1. Menentukan titik pusat cluster
dengan cara random

Penentuan Pusat Awal Cluster


Pusat Cluster 1
Diambil Data ke-4

Pusat Cluster 2
Diambil Data ke-8

85

85

170

75

96

170

2. Perhitungan jarak pusat cluster


a) Perhitungan jarak dari data ke 1
terhadap pusat cluster
C1 =

(85-80)+(85-71)+(170-151)

C1 = 24.124676

C2 =

(75-80)+(95-71)+(170-151)

C2 = 31.016124

c) Perhitungan jarak dari data ke 2 terhadap


pusat cluster
C1 =

(85-55)+(85-72)+(170-127)

C1 = 54.018515

C2 =

(75-55)+(95-72)+(170-127)

C2 = 52.706735

b) Perhitungan jarak dari data ke 3 terhadap


pusat cluster
C1 =

(85-65)+(85-66)+(170-131)

C1 = 47.770284

C2 =

(75-65)+(95-66)+(170-131)

C2 = 49.618545

b) Perhitungan jarak dari


terhadap pusat cluster
C1 =

ke

(85-60)+(85-73)+(170-133)

C1 = 46.238512
C2 =

data

(75-60)+(95-73)+(170-133)

C1 = 45.585085

b) Perhitungan jarak dari


terhadap pusat cluster
C1 =

ke

(85-77)+(85-71)+(170-148)

C1 = 27.276363
C2 =

data

(75-77)+(95-71)+(170-148)

C1 = 32.619013

b) Perhitungan jarak dari


terhadap pusat cluster
C1 =

ke

(85-45)+(85-61)+(170-106)

C1 = 79.195959
C2 =

data

(75-45)+(95-61)+(170-106)

C1 = 78.434686

Perhitungan dilakukan terus sampai data ke 8


terhadap pusat cluster. Setelah dilakukan proses
perhitungan
maka
akan
didapatkan
data
selengkapnya adalah :
Tabel 2. Hasil perhitungan jarak setiap data ke Cluster
NO NO CASIS NAMA CASIS
1 2015-0001 Sepsa N.R
2 2015-0002 Fhela S
3
4
5
6
7
8

2015-0003
2015-0004
2015-0005
2015-0006
2015-0007
2015-0008

Sari L.V
Risa E
Jhodi H.K
Arif S.L
Itok P
Ika T

C1
24.124676
54.018515

C2
31.016124
52.706735

47.770284
0
46.238512
27.276363
79.195959
14.86607

49.618545
14.86607
45.585085
32.619013
78.434686
0

3. Pengelompokkan Data

Tabel 3. Posisi Cluster pada iterasi pertama


NO

1
2
3
4
5
6
7
8

NO
CASIS

NAMA
CASIS

2015-0001 Sepsa N.R


2015-0002 Fhela S
2015-0003 Sari L.V
2015-0004 Risa E
2015-0005 Jhodi H.K
2015-0006 Arif S.L
2015-0007 Itok P
2015-0008 Ika T

C1

C2

JARAK JARAK
C1
C2

24.124676

31.016124

54.018515

52.706735

47.770284 49.618545

348.396326 417.372735

46.238512 45.585085

27.276363

32.619013

79.195959 78.434686

417.372735 348.396326

3. Penentuan Pusat Cluster


Baru

Kemudian kita tentukan lagi pusat cluster dari


data yang baru, caranya dengan menjumlahkan
nilai semua fakultas yang merupakan anggota dari
cluster dan dibagi total jumlah anggota cluster

Cluster pertama punya 4 data : 1, 3, 4, 6


yaitu data ke :
Cluster kedua punya 6 data
: 2, 5, 7, 8
yaitu data ke :

Perhitungan Pusat Cluster Baru


NO

NO
CASIS

NAMA
CASIS

TWK

TIU

TKP

2015-0001

Sepsa N.R

80

71

151

2015-0003

Sari L.V

65

66

131

2015-0004

Risa E

85

85

170

2015-0006

Arif S.L

77

71

148

(80+65+85+77) / 4 = 76.75
C1 =

(71+66+85+71) / 4 = 73.25
(151+131+170+148) / 4 = 150

C1

76.5

73.25

150

Perhitungan Pusat Cluster Baru


NO

NO
CASIS

20150002
5
20150005
7
20150007
8
2015C2 = 0008

NAMA
CASIS

TWK

TIU

TKP

Fhela S

55

72

127

Jhodi H.K

60

73

133

Itok P

45

61

106

95

170

(55+60+45+75) / 4 = 58.75
Ika T

75

(72+73+61+95) / 4 = 75.25

(127+133+106+170) / 4 = 134
C2

58.75

75.25

134

5. Pengulangan langkah ke 2 hingga


posisi data tidak mengalami
perubahan

Pusat Cluster 1
C1

76.5

73.25

150

75.25

134

Pusat Cluster 2
C2

58.75

a) Perhitungan jarak dari data ke 1 terhadap


pusat cluster
C1 =

(76.5-80)+(73.25-71)+(150-151)

C1 = 4,27931

C2 =

(58.75-75)+(75.25-96)+(134-170)

C2 = 44.61642

kelompok 2 : Muhammad Ikhlas ; Mutia


Sanita ; Revi Gusriva ; Rizalina ; Romi
Wijaya

kelompok 2 : Muhammad Ikhlas ; Mutia


Sanita ; Revi Gusriva ; Rizalina ; Romi
Wijaya

b) Perhitungan jarak dari data ke 2 terhadap


pusat cluster
C1 =

(76.5-55)+(73.25-72)+(150-127)

C1 = 31.50893

C2 =

(58.75-55)+(75.25-72)+(134-127)

C2 = 8.50337

c) Perhitungan jarak dari data ke 3 terhadap


pusat cluster
C1 =

(76.5-65)+(73.25-66)+(150-131)

C1 = 20.65944

C2 =

(58.75-65)+(75.25-66)+(134-131)

C2 = 11.55963

Perhitungan dilakukan terus sampai data ke 10 terhadap pusat cluster.


Setelah dilakukan proses perhitungan maka akan didapatkan data
selengkapnya adalah :

Tabel 4. Hasil perhitungan jarak setiap data ke Cluster


NO
1
2
3
4
5
6
7
8

NO
CASIS

2015-0001
2015-0002
2015-0003
2015-0004
2015-0005
2015-0006
2015-0007
2015-0008

NAMA
CASIS

Sepsa N.R
Fhela S
Sari L.V
Risa E
Jhodi H.K
Arif S.L
Itok P
Ika T

C1

C2

4,27931

44.61642

31.50893

8.50337

20.65944

11.55963

24.70450

30.44873

23.69203

2.76125

3.10243

23.39070

55.50957

28.97089

28.97089

44.16022

6. Pengelompokkan Data
Tabel 5. Posisi Cluster pada iterasi Kedua
NO
1
2
3
4
5
6
7

NO
CASIS

20150001
20150002
20150003
20150004
20150005
20150006
20150007

NAMA

Sepsa
N.R
Fhela S
Sari L.V
Risa E
Jhodi
H.K
Arif S.L
Itok P

C1

C2

JARAK C1 JARAK C2

20.63977
4,27931

8.50337

11.55963

30.44873

2.76125

23.39070

28.97089

31.50893
20.65944
24.70450
23.69203
3.10243
55.50957

7. Penentuan Pusat Cluster Baru


Kemudian kita tentukan lagi pusat cluster dari
data yang baru, caranya dengan menjumlahkan
nilai semua fakultas yang merupakan anggota dari
cluster dan dibagi total jumlah anggota cluster
Cluster pertama punya 4 data : 2, 3, 5, 7
yaitu data ke :
Cluster kedua punya 6 data
yaitu data ke :

: 1, 4, 6, 8

Perhitungan Pusat Cluster Baru


NO
CASIS

NO

NAMA
CASIS

KESEHAT PSI&AKD
TOTAL
AN
MK

2015-0002 Fhela S

55

72

127

2015-0003 Sari L.V

65

66

131

5
7

2015-0005 Jhodi H.K


2015-0007 Itok P

60
45

73
61

133
106

(55+65+60+45) / 4 = 56.25
C1 =

(72+66+73+61) / 4 = 68
(127+131+133+106) / 4 = 124.25
C1

56.25

68

124.25

Perhitungan Pusat Cluster Baru

NO TEST
CPNS

NO

1
4
6
8

2015-0001
2015-0004
2015-0006
2015-0008

NAMA
CASIS

KESEHAT PSI&AKD
TOTAL
AN
MK

Sepsa N.R
Risa E
Arif S.L
Ika T

80
85
77
75

71
85
71
95

151
170
148
170

(80+85+77+75) / 4 = 79.25
C2 =

(71+85+71+95) / 4 = 80.5
(151+170+148+170) / 4 = 159.75
C2

79.25

80.5

159.75

8. Pengulangan langkah ke 2 hingga posisi data


tidak mengalami perubahan

Pusat Cluster 1
C1

56.25

68

124.25

80.5

159.75

Pusat Cluster 2
C2

79.25

a) Perhitungan jarak dari data ke 1 terhadap


pusat cluster
C1 =

(56.25-80)+(68-71)+(124.25-151)

C1 = 35.89742

C2 =

(79.25-80)+(80.5-71)+(159.75-151)

C2 = 8.75

b) Perhitungan jarak dari data ke 2 terhadap


pusat cluster
C1 =

(56.25-55)+(68-72)+(124.25-127)

C1 = 5.01248

C2 =

(79.25-55)+(80.5-72)+(159.75-127)

C2 = 41.62781

c) Perhitungan jarak dari data ke 3 terhadap


pusat cluster
C1 =

(56.25-65)+(68-66)+(124.25-131)

C1 = 11.23054

C2 =

(79.25-65)+(80.5-66)+(159.75-131)

C2 = 35.21186

Perhitungan dilakukan terus sampai data ke 10 terhadap pusat cluster.


Setelah dilakukan proses perhitungan maka akan didapatkan data
selengkapnya adalah :

Tabel 6. Hasil perhitungan jarak setiap data ke Cluster


NO
1
2
3
4
5
6
7
8

NO
CASIS

2015-0001
2015-0002
2015-0003
2015-0004
2015-0005
2015-0006
2015-0007
2015-0008

NAMA
CASIS

Sepsa N.R
Fhela S
Sari L.V
Risa E
Jhodi H.K
Arif S.L
Itok P
Ika T

C1

C2

35.89742

8.75

5.01248
11.23054

41.62781
35.21186

56.64472

12.59464

10.74884

33.79904

31.75075

24.04423

22.55275

66.65114

56.33493

18.25856

9. Pengelompokkan Data
Tabel 7. Posisi Cluster pada iterasi Ketiga
NO
1
2
3
4
5
6
7
8

NO
CASIS

NAMA
CASIS

2015-0001 Sepsa
N.R
2015-0002 Fhela S
2015-0003 Sari L.V
2015-0004 Risa E
2015-0005 Jhodi
H.K
2015-0006 Arif S.L
2015-0007 Itok P
2015-0008 Ika T

JARAK C1

JARAK
C2

11.23054

41.62781
35.21186

12.59464

56.64472

10.74884

33.79904
1

C1

C2

35.89742

8.75

5.01248

31.75075

24.04423

22.55275

66.65114

56.33493

18.25856

10. Karena C1 = C2 dimana anggota yang sama, maka


tidak perlu dilakukan iterasi / perulangan lagi. Dan
sampai disini hasil Clustering sudah mencapai
stabil dan Konvergen
11. Kesimpulan.
Hasil Clustering adalah
Cluster 1 : Peserta Test POLRI 2, 3, 5, 7
Cluster 2 : Peserta Test POLRI 1, 4, 6, 8

HASIL PENGELOMPOKAN CLUSTER


ITERASI 1
JARAK A

ITERASI 2
JARAK B

ITERASI 3
JARAK C

C1

C2

C1

C2

C1

C2

Anda mungkin juga menyukai