Anda di halaman 1dari 17

1.

LATAR BELAKANG
Clustering merupakan proses pengelompokan data ke dalam
cluster berdasarkan parameter yang telah ditentukan, sehingga obyekobyek dalam sebuah cluster memiliki tingkat kemiripan yang tinggi satu
sama lain dan sangat tidak mirip dengan obyek yang lain pada cluster
yang berbeda. Pembentukan cluster data merupakan salah satu teknik
yang digunakan dalam mengetahui pola kecenderungan suatu data.
Analisis cluster merupakan proses membagi data dalam suatu himpunan
ke dalam beberapa kelompok yang kesamaan karakteristik datanya dalam
suatu kelompok lebih besar daripada kesamaan karakteristik data tersebut
dengan data dalam kelompok lain.
Penggalian informasi pada sebuah data yang berukuran besar
(mempunyai jumlah record dan jumlah field yang cukup banyak) tidak
dapat dilakukan dengan mudah. Algoritma K-Means merupakan algoritma
teknik klustering yang berulang-ulang. Algoritma ini dimulai dengan
pemilihan secara acak K, yang merupakan banyaknya kluster yang ingin
dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara
nilai tersebut menjadi pusat dari kluster atau biasa disebut dengan
centroid / mean. Hitung jarak setiap data yang ada terhadap masingmasing centroid menggunakan rumus yang sudah disediakan hingga
diketemukan jarak yang paling dekat dari setiap data dengan centroid.
Klasifikasi setiap data berdasarkan kedekatannya dengan centroid.
Lakukan langkah tersebut sampai nilai centroid tidak berubah (stabil).

Data akademik merupakan hasil evaluasi belajar mahasiswa


berupa indeks kompulatif (IPK) dan data atribut identitas diri mahasiswa
seperti nim, nama, asal kota, asal SMA, jurusan SMA, dan tahun lulus
SMA. Dengan menggunakan data pencapaian indeks komulatif tersebut
maka dapat diketahui minat belajar mahasiswa dan dapat melakukan
pengelompokkan berdasarkan pola data yang ada.

2. RUMUSAN MASALAH
Bagaimana

membuat aplikasi

sistem

pendukung

keputusan

pengelompokan mahasiswa berdasarkan pola data dengan menggunakan


metode k-means clustering.

3. BATASAN MASALAH
a. Data mahasiswa yang digunakan hanya jurusan teknik informatika
dan teknik informatika - desain grafis angkatan 2011.
b. Data IPK yang digunakan dari semester 1-6.
c. Kriteria yang digunakan adalah jenis kota, jenis SMA, jurusan SMA,
tahun lulus SMA, dan IPK rata-rata.
d. Sistem ini dibangun berbasis desktop.
4. TUJUAN DAN MANFAAT PENULISAN
Tujuan
Tujuan dari dibuatnya sistem ini agar dapat membantu dalam
pengambilan

keputusan

untuk

menentukan

pengelompokan

mahasiswa berdasarkan pola data di STMIK ASIA Malang dengan


menggunakan metode k-means.
Manfaat Bagi Penulis

Dapat menambah ilmu pengetahuan terutama ilmu sistem pendukung


keputusan dengan metode k-means.
Manfaat Bagi Instansi
Dapat mempermudah dalam melakukan pengelompokan mahasiswa
berdasarkan pola data sehingga diperoleh sebuah informasi yang
berguna bagi instansi.
5. METODOLOGI PENELITIAN
Adapun metode penelitian yang digunakan yaitu :
1. Wawancara
Teknik pengumpulan data dengan cara mengadakan wawancara
langsung dengan BAA (Bagian Administrasi Akademik).
2. Observasi
Teknik pengumpulan data dengan mengadakan pengamatan
langsung terhadap objek yang dijadikan sumber data yaitu kampus
STMIK ASIA Malang pada bagian BAA (Bagian Administrasi
Akademik).
3. Studi Pustaka
Teknik pengumpulan data dengan cara pengumpulan bahan-bahan
refrensi baik dari buku, paper jurnal maupun laporan tugas khusus
yang tersedia di perpustakaan STMIK ASIA Malang.
6. LANDASAN TEORI
a. Pengertian Sistem Pendukung Keputusan
Sistem pendukung keputusan merupakan sistem informasi
interaktif

yang

menyediakan

informasi,

pemodelan

dan

pemanipulasian data. Sistem ini digunakan untuk membantu


mengambil keputusan dalam situasi yang semi terstruktur dan
situasi yang tidak terstruktur, dimana tak seorangpun tahu secara
pasti bagaimana keputusan seharusnya dibuat (Alter, 2002).
b. Algoritma K-Means

K-means merupakan salah satu algoritma clustering. Tujuan


algoritma ini yaitu untukmembagi data menjadi beberapa kelompok.
Algoritma ini menerima masukan berupa data tanpa label kelas. Hal
ini berbeda dengan supervised learning yang menerima masukan
berupa vektor (x1 , y1) , (x2 , y2) , , (xi , yi), di mana xi
merupakan data dari suatu data pelatihan dan yi merupakan label
kelas untuk xi. Pada algoritma pembelajaran ini, komputer
mengelompokkan sendiri data-data yang menjadi masukannya
tanpa mengetahui terlebih dulu target kelasnya. Pembelajaran ini
termasuk dalam unsupervised learning. Masukan yang diterima
adalah data atau objek dan k buah kelompok (cluster) yang
diinginkan. Algoritma ini akan mengelompokkan data atau objek ke
dalam k buah kelompok tersebut. Pada setiap cluster terdapat titik
pusat (centroid) yang merepresentasikan cluster tersebut. K-means
ditemukan oleh beberapa orang yaitu Lloyd (1957, 1982), Forgey
(1965), Friedman and Rubin (1967) , and McQueen (1967). Ide dari
clustering pertama kali ditemukan oleh Lloyd pada tahun 1957,
namun hal tersebut baru dipublikasi pada tahun 1982. Pada tahun
1965, Forgey juga mempublikasi teknik yang sama sehingga
terkadang dikenal sebagai Lloyd-Forgy pada beberapa sumber.

7. ANALISA DATA

Dalam penerapan algoritma k-means pada sistem pendukung


keputusan pengelompokan mahasiswa berdasarkan pola data dapat
dimodelkan sebagai berikut :
1. Tentukan jumlah kluster (k), tetapkan pusat kluster sembarang.
2. Hitung jarak setiap data ke pusat kluster.
3. Kelompokkan data ke dalam kluster yang dengan jarak yang
paling pendek.
4. Hitung pusat kluster yang baru.
Ulangi langkah 2 sampai dengan 4 hingga sudah tidak ada lagi data
yang berpindah ke kluster yang lain.
8. PEMBAHASAN
Diagram alir k-means:

1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.


2. Pilih K centroid (titik pusat cluster) awal secara random dalam
menentukan n buah pusat cluster awal dilakukan pemilihan

bilangan random yang merepresentasikan urutan data input. Pusat


awal

cluster

didapatkan

dari

data

sendiri

bukan

dengan

menentukan titik baru, yaitu dengan merandom pusat awal dari


data.
3. Hitung jarak setiap data ke masing-masing centroids. Untuk
mengukur jarak antaradata dengan pusat cluster digunakan
Euclidian distance. Algoritma perhitungan jarak data dengan pusat
cluster. Langkah-langkahnya, yaitu:
a. Ambil nilai data dan nilai pusat cluster.
b. Hitung Euclidian distance data dengan tiap pusat cluster.
Euclidian Distancemerupakan jarak yang didapat dari
perhitungan antara semua N data dengan K centroid dimana
akan memperoleh tingkat kedekatan dengan kelas yang
terdekat dengan populasi data tersebut.
Contoh kasus:
- Dataset
N
Nama
o
1 Aminulloh Khumaini
2 Arif Kurniawan
3 Probo Auristandi
4 Andri Setyawan
5 Andik Setyawan
6 Andika Pratamada
7 Lusia Devitasari
8 Sugianto Ardiansyah
9 Ari Dwi Anggara
10 Dani Sanjaya
Langkah langkah:

80
90
77
75
89
95
75
80
80
78

75
85
78
80
85
70
88
75
80
80

75
80
85
70
75
75
80
85
85
80

1. Tentukan banyaknya cluster , misalnya cluster (K) = 2.

2. Tentukan centroid setiap cluster


Untuk menentukan centroid awal (initial centroid) banyak metode yang
digunakan. Disini metode yang digunakan adalah mengambil dari data
sumber secara acak atau random.
c1 dari data No.1 sedangkan c2 data No.7, tabel diatas yang bertanda
warna kuning.
Tabel centroid perulangan ke-0.

c
1
c
2

80

75

75

75

88

80

3. Hitung jarak data denga centroid.

d = jarak
j = banyaknya data
c = centroid
x = data

Perulangan ke-0

Jarak data dengan cluster 1 adalah:

d x1, c1

80 80 2 75 75 2 75 75 2

d x 2, c1

90 80 2 85 75 2 80 75 2

15

d x3, c1

77 80 2 78 75 2 85 75 2

10,86278

d x 4, c1

75 80 2 80 75 2 70 75 2

8,660254

d x5, c1

89 80 2 85 75 2 75 75 2

13,45362

d x 6, c1

95 80 2 70 75 2 75 75 2

15,81139

d x 7 , c1

75 80 2 88 75 2 80 75 2

14,79865

d x8, c1

80 80 2 75 75 2 85 75 2

10

d x9, c1

80 80 2 80 75 2 85 75 2

11,18034

d x10, c1

78 80 2 80 75 2 80 75 2

7,348469

Jarak data dengan cluster 2 adalah:


d x1, c 2

80 75 2 75 88 2 75 80 2

14,79865

d x2, c 2

90 75 2 85 88 2 80 80 2

15,29706

d x 3, c 2

77 75 2 78 88 2 85 80 2

11,35782

d x 4, c 2

75 75 2 80 88 2 70 80 2

12,80625

d x 5, c 2

89 75 2 85 88 2 75 80 2

15,16575

d x6, c 2

95 75 2 70 88 2 75 80 2

27,36786

d x7 , c 2

75 75 2 88 88 2 80 80 2

d x 8, c 2

80 75 2 75 88 2 85 80 2

14,79865

d x9, c 2

80 75 2 80 88 2 85 80 2

10,67708

d x10, c 2

78 75 2 80 88 2 80 80 2

8,544004

Kelompokkan data sesuai dengan clusternya, yaitu data yang memiliki


jarak terpendek.
No
1
2
3
4
5
6
7
8
9

Nama
Aminulloh Khumaini
Arif Kurniawan
Probo Auristandi

A
80
90
77

B
75
85
78

C
75
80
85

Andri Setyawan

75

80

70

Andik Setyawan
Andika Pratamanda
Lusia Devitasari
Sugianto Ardiansyah
Ari Dwi Anggara

89
95
75
80
80

85
70
88
75
80

dc1
0
15
10,86278
8,66025

dc2
14,79865
15,29706
11,35782
12,8062

k1
*
*
*

4
13,4536

5
15,1657

2
5
15,81139 27,36786
14,79865
0
10
14,79865
11,18034 10,67708

*
*

k2

75
75
80
85
85

*
*
*

8,54400
10

Dani Sanjaya

78

80

80
7,348469

4. Tentukan centroid baru dengan cara menghitung rata-rata dari data


yang terletak pada centroid yang sama. Pusat cluster yang baru
akan digukan untuk iterasi selanjutnya, jika hasil yang didapat
belum konvergen. Proses iterasi akan berhenti jika hasil yang
dicapai sudah konvergen (pusat cluster baru sama dengan pusat
cluster lama).
n

cj

x
j 1

c = centroid pada cluster


xj

= objek ke-j
n = jumlah objek yang menjadi anggota cluster
c1 = (80+90+77+75+89+95+80+78)/8 = 83
(75+85+78+80+85+70+75+80)/8 = 78,5
(75+80+85+70+75+75+85+80)/8 = 78,125
c2 = (75+80)/2 = 77,5
(88+80)/2 = 84
(80+85)/2 = 82,5
Tabel centroid perulangan ke-1

c1

83

78,5

C
78,12
5

c2
-

77,5

84

82,5

Perulangan ke-1
Jarak data dengan cluster 1 adalah:
d x1, c1

80 83 2 75 78,5 2 75 78,125 2

5,569167

d x 2, c1

90 83 2 85 78,5 2 80 78,125 2

9,734764

d x3, c1

77 83 2 78 78,5 2 85 78,125 2

9,138688

d x 4, c1

75 83 2 80 78,5 2 70 78,125 2

11,50068

d x5, c1

89 83 2 85 78,5 2 75 78,125 2

9,381664

d x 6, c1

95 83 2 70 78,5 2 75 78,125 2

15,03382

d x 7 , c1

75 83 2 88 78,5 2 80 78,125 2

12,56048

d x8, c1

80 83 2 75 78,5 2 85 78,125 2

8,277417

d x9, c1

80 83 2 80 78,5 2 85 78,125 2

7,649551

d x10, c1

78 83 2 80 78,5 2 80 78,125 2

5,546677

Jarak data dengan cluster 2 adalah:


d x1, c 2

80 77,5 2 75 84 2 75 82,5 2

11,97915

d x2 c2

90 77,7 2 85 84 2 80 82,5 2

12,78671

d x 3, c 2

77 77,7 2 78 84 2 85 82,5 2

6,519202

d x 4, c 2

75 77,7 2 80 84 2 70 82,5 2

13,36039

d x 5, c 2

89 77,7 2 85 84 2 75 82,5 2

13,7659

d x6, c 2

95 77,7 2 70 84 2 75 82,5 2

23,6326

No
1
2
3
4

d x7, c2

75 77,7 2 88 84 2 80 82,5 2

5,338539

d x 8, c 2

80 77,7 2 75 84 2 85 82,5 2

9,66954

d x9, c 2

80 77,7 2 80 84 2 85 82,5 2

5,338539

d x10, c 2

78 77,7 2 80 84 2 80 82,5 2

Nama
Aminulloh Khumaini
Arif Kurniawan
Probo Auristandi

A
80
90
77

B
75
85
78

C
75
80
85

Andri Setyawan

75

80

70

Andik Setyawan

89

85

75

Andika Pratamanda

95

70

75

Lusia Devitasari

75

88

Sugianto Ardiansyah
Ari Dwi Anggara

80
80

75
80

85
85

10

Dani Sanjaya

78

80

80

c1 = (80+90+75+89+95+80)/6 = 84,83333
(75+85+80+85+70+75)/6 = 78,33333
(75+80+70+75+75+85)/6 = 76,66667
c2 = (77+75+80+78)/4 = 77,5
(78+88+80+80)/4 = 81,5
(85+80+85+80)/4 = 82,5

dc1
5,569167
9,734764
9,138688

dc2
11,97915
12,78671
6,519202
13,3603

k1
*
*

11,50068
9,381664
15,0338

9
13,7659

*
*

23,6326
5,33853

12,56048
8,277417
7,649551

9
9,66954
5,338539
4,74341

5,546677

k2

80

8
9

Hitung rata-rata:

4,743416

*
*
*
*

A
B
C
c1 84,83333 78,33333 76,66667
c2
77,5
81,5
82,5
Tabel centroid perulangan ke-2
-

Perulangan ke-2
Jarak data dengan cluster 1 adalah:
d x1, c1

80 84,83333 2 75 78,33333 2 75 76,66667 2

6,103274

d x 2, c1

90 84,83333 2 85 78,33333 2 80 76,66667 2

9,069182

d x3, c1

77 84,83333 2 78 78,33333 2 85 76,66667 2

11,44188

d x 4, c1

75 84,83333 2 80 78,33333 2 70 76,66667 2

11,99653

d x5, c1

89 84,83333 2 85 78,33333 2 75 76,66667 2

8,036381

d x 6, c1

95 84,83333 2 70 78,33333 2 75 76,66667 2

13,25079

d x7 , c1

75 84,83333 2 88 78,33333 2 80 76,66667 2

14,18626

d x8, c1

80 84,83333 2 75 78,33333 2 85 76,66667 2

10,19395

d x9, c1

80 84,83333 2 80 78,33333 2 85 76,66667 2

9,776669

d x10, c1

78 84,83333 2 80 78,33333 2 80 76,66667 2

7,783526

Jarak data dengan cluster 2 adalah:


d x1, c 2

80 77,5 2 75 81,5 2 75 82,5 2

10,23474

d x2 c2

90 77,5 2 85 81,5 2 80 82,5 2

13,2193

d x 3, c 2

77 77,5 2 78 81,5 2 85 82,5 2

4,330127

d x 4, c 2

75 77,5 2 80 81,5 2 70 82,5 2

12,8355

No
1
2
3
4
5
6

d x 5, c 2

89 77,5 2 85 81,5 2 75 82,5 2

14,16863

d x 6, c 2

95 77,5 2 70 81,5 2 75 82,5 2

22,24298

d x7, c2

75 77,5 2 88 81,5 2 80 82,5 2

7,399324

d x8, c 2

80 77,5 2 75 81,5 2 85 82,5 2

7,399324

d x9, c 2

80 77,5 2 80 81,5 2 85 82,5 2

3,840573

d x10, c 2

78 77,5 2 80 81,5 2 80 82,5 2

2,95804

Nama
Aminulloh Khumaini
Arif Kurniawan
Probo Auristandi
Andri Setyawan
Andik Setyawan
Andika Pratamanda

A
80
90
77
75
89
95

B
75
85
78
80
85
70

C
75
80
85
70
75
75

Lusia Devitasari

75

88

80

8
9
10

Sugianto Ardiansyah
Ari Dwi Anggara
Dani Sanjaya

80
80
78

75
80
80

85
85
80

Hitung rata-rata:
c1 = (80+90+75+89+95)/5 = 85,8
(75+85+80+85+70)/5 = 79
(75+80+70+75+75)/5 = 75
c2 = (77+75+80+80+78)/5 = 78
(78+88+75+80+80)/5 = 80,2
(85+80+85+85+80)/5 = 83
A
B
c1
85,8
79
c2
78
80,2
Tabel centroid perulangan ke-3
-

Perulangan ke-3

C
75
83

dc1
6,103274
9,069182
11,44188
11,99653
8,036381
13,25079

dc2
10,23474
13,2193
4,330127
12,8355
14,16863
22,24298
7,39932

14,18626
10,19395
9,776669
7,783526

4
7,399324
3,840573
2,95804

k1
*
*

k2

*
*
*
*
*
*
*
*

Jarak data dengan cluster 1 adalah:


d x1, c1

80 85,8 2 75 79 2 75 75 2

7,045566

d x 2, c1

90 85,8 2 85 79 2 80 75 2

8,86792

d x3, c1

77 85,8 2 78 79 2 85 75 2

13,35814

d x 4, c1

75 85,8 2 80 79 2 70 75 2

11,9432

d x5, c1

89 85,8 2 85 79 2 75 75 2

6,8

d x 6, c1

95 85,8 2 70 79 2 75 75 2

12,87012

d x 7 , c1

75 85,8 2 88 79 2 80 75 2

14,92113

d x8, c1

80 85,8 2 75 79 2 85 75 2

12,23274

d x9, c1

80 85,8 2 80 79 2 85 75 2

11,60345

d x10, c1

78 85,8 2 80 79 2 80 75 2

9,318798

Jarak data dengan cluster 2 adalah:


d x1, c 2

80 78 2 75 80,2 2 75 83 2

9,748846

d x2 c2

90 78 2 85 80,2 2 80 83 2

13,26801

d x 3, c 2

77 78 2 78 80,2 2 85 83 2

3,136877

d x 4, c 2

75 78 2 80 80,2 2 70 83 2

13,34316

d x 5, c 2

89 78 2 85 80,2 2 75 83 2

14,42359

d x6, c 2

95 78 2 70 80,2 2 75 83 2

21,37849

d x7, c2

75 78 2 88 80,2 2 80 83 2

8,879189

No
1
2
3
4
5
6
7
8
9
10

d x 8, c 2

80 78 2 75 80,2 2 85 83 2

5,919459

d x 9, c 2

80 78 2 80 80,2 2 85 83 2

2,835489

d x10, c 2

78 78 2 80 80,2 2 80 83 2

3,006659

Nama
Aminulloh Khumaini
Arif Kurniawan
Probo Auristandi
Andri Setyawan
Andik Setyawan
Andika Pratamanda
Lusia Devitasari
Sugianto Ardiansyah
Ari Dwi Anggara
Dani Sanjaya

A
80
90
77
75
89
95
75
80
80
78

B
75
85
78
80
85
70
88
75
80
80

Hitung rata-rata:
c1 = (80+90+75+89+95)/5 = 85,8
(75+85+80+85+70)/5 = 79
(75+80+70+75+75)/5 = 75
c2 = (77+75+80+80+78)/5 = 78
(78+88+75+80+80)/5 = 80,2
(85+80+85+85+80)/5 = 83
A
B
c1
85,8
79
c2
78
80,2
Tabel centroid perulangan ke-4

Perulangan ke-4

C
75
83

C
75
80
85
70
75
75
80
85
85
80

dc1
7,045566
8,86792
13,35814
11,9432
6,8
12,87012
14,92113
12,23274
11,60345
9,318798

dc2
9,748846
13,26801
3,136877
13,34316
14,42359
21,37849
8,879189
5,919459
2,835489
3,006659

k1
*
*

k2

*
*
*
*
*
*
*
*

Karena hasil centroid sama dengan centroid sebelumnya, maka


iterasi berhenti.

9. DAFTAR PUSTAKA
Kusrini, M.Kom, Konsep dan Apikasi Sistem Pendukung Keputusan.
Yogyakarta. Andi. 2007
Muliadinata, Saban, 2013. Algoritma K-Means, (Online),
(http://sharewy.blogspot.com/2013/04/algoritma-k-meansclustering.html). diakses 21 Februari 2015.
Dita, Fadlika Nurjanto, 2013, Tahap-tahap K-Means, (Online),
(https://fadlikadn.wordpress.com/2013/06/14/tahap-tahap-kmeans-clustering/) . diakses 21 Februari 2015.
Rahmawan, Ardian, 2015, Pembahasan K-Means Clustering, (Online),
(http://ardianrahmawan.com/pembahasan-k-mean-clusteringdata-mining-beserta-source-program/). diakses 21 Februari
2015.
Adawiyah, Sariatul, 2014, Metode K-Means, (Online),
(http://sariberbagiilmu.blogspot.com/2011/05/metode-kmeans.html). diakses 21 Februari 2015.

Anda mungkin juga menyukai