Anda di halaman 1dari 14

Clustering using

K- MEANS
MKB14-2337

Farhanna Mar’ie S.Kom.


Email : mariefarhanna@gmail.com

S1- Teknik Informatika


STMIK YADIKA BANGIL

www.yourcompany.com PitchDeck
K- MEANS
K-Means adalah algoritma yang cukup sederhana dan efektif dalam proses
pengelompokkan data berdasarkan kemiripannya atau disebut clustering.
Penentuan kemiripan data dihitung menggunakan rumus Euclidean Distance
(Anggodo dkk., 2017).

K-Means termasuk dalam salah satu algoritma yang bersifat unsupervised


yaitu sebuah algoritma yang tidak membutuhkan proses training atau
pembelajaran terlebih dahulu. Setiap cluster dibentuk berdasarkan titik centroid
atau titik pusat yang ditentukan. Jumlah titik centroid pada cluster
menggambarkan jumlah K atau cluster itu sendiri.

www.yourcompany.com PitchDeck 2
(Mahdi, 2019)
Kelebihan :
Mudah dilakukan saat pengimpelementasian dan di jalankan.
Waktu yang di butuhkan untuk melakukan pembelajaran relatif lebih cepat.
Sangat fleksibel, adaptasi yang mudah untuk di lakukan
Sangat umum penggunaannya.
Menggunakan prinsip yang sederhana dapat di jelaskan dalam non-statistik.

Kekurangan :
Sebelum algoritma di jalankan, titik K diinisialisasikan secara random sehingga pengelompokan data yang di
dapatkan bisa berbeda-beda. Namun apabila nilai yang diperoleh acak untuk penginisialisasi kurang baik
maka pengelompokan yang didapatkn menjadi tidak optimal.

Apabila hanya ada terdapat beberapa buah titik sampel data yang ada, maka hal yang mudah untuk
melakukan penghitungan dan mencari jarak titik terdekat dengan k titik yang telah di lakukan inisialisasi
yang secara acak. Namun jika ada banyak titik data, misalkan satu juta data, maka perhitungan dan
pencarian titik terdekat akan sangat membutuhkan waktu yang lama. Proses tersebut dapat dipercepat
namun dibutuhkan sebuah struktur data yang lebih rumit seperti kD-tree atau hashing untuk melakukan
proses tersebut.

Adanya penggunaan k buah random, tidak ada jaminan untuk menemukan kumpulan cluster yang optimal.
www.yourcompany.com PitchDeck 3
K- Means

www.yourcompany.com PitchDeck 4
Pada algoritma K-Means penentuan awal titik centroid didapatkan secara random, dan pada
iterasi berikutnya titik centroid didapatkan dari perhitungan jarak rata-rata dari anggota
cluster terhadap titik centroid awal. Adapun algoritma dari K-Means adalah sebagai berikut:

Adapun Algoritme dari K-Means adalah sebagai berikut:

1. Tentukan Nilai K terlebih dahulu. Nilai K adalah jumlah cluster yang ingin dibuat.
2. Generate titik centroid awal secara random, apabila K=2 maka diperlukan 2 titik centroid
awal yang didapatkan secara acak dari dataset.
3. Perhitungan jarak antara data 𝑥𝑖 dengan titik centroid dengan rumus Euclidean
Distance(D) pada persamaan (2) berikut.
𝑝

𝐷 (𝑋𝑖 , 𝐶𝑗 = ෍( 𝑋𝑖 − 𝐶𝑗 )2
𝑖=1

Keterangan =
𝑋𝑖 = data ke-i
𝐶𝑗 = titik pusat cluster atau (centroid)
P = dimensi data

www.yourcompany.com PitchDeck 5
4. Menentukan setiap objek data masuk kedalam cluster dengan jarak euclidean terdekat
atau terkecil.
5. Melakukan perhitungan ulang titik centroid pada iterasi berikutnya dengan menghitung
rata-rata jarak antara semua objek dalam cluster.
6. Ulangi langkah ke-3 hingga nilai centroid tidak berubah atau telah dalam kondisi berhenti
(stopping condition).

www.yourcompany.com PitchDeck 6
Contoh Studi Kasus :

Ditentukan banyaknya cluster yang dibentuk dua (k=2). Banyaknya cluster harus lebih kecil dari
pada banyaknya data (k<n).

Berikut adalah tabel nilai UTS dan UAS dari mahasiswa :

Nama Nilai UTS (a) Nilai UAS (b)


Bunga 8 7
Dahlia 6 7
Fani 8 9
Ayu 9 7
Bagas 5 8

Langkah Pertama :
Tentukan Nilai K terlebih dahulu. Nilai K adalah jumlah cluster yang ingin dibuat.
K=2

www.yourcompany.com PitchDeck 7
Contoh Studi Kasus :

Nama Nilai UTS (a) Nilai UAS (b)


Bunga 8 7
Dahlia 6 7
Fani 8 9
Ayu 9 7
Bagas 5 8

Inisialisasi centroid dataset pada tabel dataset diatas adalah C1 = {8 ,


7} dan C2 = {6, 7}. Inisialiasasi centroid dapat ditentukan secara manual
ataupun random.

Untuk iterasi berikutnya (iterasi ke-1 sampai selesai), centroid yang baru 𝑝
dihitung dengan menghitung nilai rata-rata data pada setiap cluster. Jika
𝐷 (𝑋𝑖 , 𝐶𝑗 = ෍( 𝑋𝑖 − 𝐶𝑗 )2
centroid baru berbeda dengan centroid sebelumnya, maka proses dilanjutkan
𝑖=1
ke langkah berikutnya. Namun jika centroid yang baru dihitung sama dengan
centroid sebelumnya, maka proses clustering selesai.

Rumus yang digunakan untuk menghitung distance space atau jarak data
dengan centroid menggunakan Euclidiean Distance.
www.yourcompany.com PitchDeck 8
Iterasi ke-1
Jarak data dengan Centroid C1 adalah:

𝑑(𝑥1,𝑐1) = (𝑎1 − 𝑐1𝑎 )2 + (𝑏1 − 𝑐1𝑏 )2 = (8 − 8)2 + (7 − 7))2 = 0


𝑑(𝑥2,𝑐1) = (𝑎2 − 𝑐1𝑎 )2 + (𝑏2 −𝑐1𝑏 )2 = (6 − 8)2 + (7 − 7))2 = 2
𝑑(𝑥3,𝑐1) = (𝑎3 − 𝑐1𝑎 )2 + (𝑏3 −𝑐1𝑏 )2 = (8 − 8)2 + (9 − 7))2 = 2
𝑑(𝑥4,𝑐1) = (𝑎4 − 𝑐1𝑎 )2 + (𝑏4 −𝑐1𝑏 )2 = (9 − 8)2 + (7 − 7))2 = 1
𝑑(𝑥5,𝑐1) = (𝑎5 − 𝑐1𝑎 )2 + (𝑏5 −𝑐1𝑏 )2 = (5 − 8)2 + (8 − 7))2 = 4

Nama Nilai UTS (a) Nilai UAS (b)


𝑥1 Bunga 8 7
𝑥2 Dahlia 6 7
𝑥3 Fani 8 9
𝑥4 Ayu 9 7
𝑥5 Bagas 5 8

www.yourcompany.com PitchDeck 9
Iterasi ke-2
Jarak data dengan Centroid C2 adalah:

𝑑(𝑥1,𝑐2) = (𝑎1 − 𝑐2𝑎 )2 + (𝑏1 − 𝑐2𝑏 )2 = (8 − 6)2 + (7 − 7))2 = 2


𝑑(𝑥2,𝑐2) = (𝑎2 − 𝑐2𝑎 )2 + (𝑏2 − 𝑐2𝑏 )2 = (6 − 6)2 + (7 − 7))2 = 0
𝑑(𝑥3,𝑐2) = (𝑎3 − 𝑐2𝑎 )2 + (𝑏3 − 𝑐2𝑏 )2 = (8 − 6)2 + (9 − 7))2 = 4
𝑑(𝑥4,𝑐2) = (𝑎4 − 𝑐2𝑎 )2 + (𝑏4 − 𝑐2𝑏 )2 = (9 − 6)2 + (7 − 7))2 = 3
𝑑(𝑥5,𝑐2) = (𝑎5 − 𝑐2𝑎 )2 + (𝑏5 − 𝑐2𝑏 )2 = (5 − 6)2 + (8 − 7))2 = 2

Nama Nilai UTS (a) Nilai UAS (b)


𝑥1 Bunga 8 7
𝑥2 Dahlia 6 7
𝑥3 Fani 8 9
𝑥4 Ayu 9 7
𝑥5 Bagas 5 8

www.yourcompany.com PitchDeck 10
𝑥3
9
𝑥5 Nama Nilai UTS (a) Nilai UAS (b)

8 𝑥1 Bunga 8 7
NILAI UAS (b)

𝑥2 Dahlia 6 7
𝑥3
7 𝑥3 Fani 8 9
𝑥4 Ayu 9 7
𝑥2 𝑥1
6 𝑥5 Bagas 5 8

5 6 7 8 9
NILAI UTS (a)

www.yourcompany.com PitchDeck 11
𝑥3
9
𝑥5 Nama Nilai UTS (a) Nilai UAS (b)

8 𝑥1 Bunga 8 7
NILAI UAS (b)

𝑥2 Dahlia 6 7
𝑥3
7 𝑥3 Fani 8 9
𝑥4 Ayu 9 7
𝑥1 𝑥2
6 𝑥5 Bagas 5 8

5 6 7 8 9
NILAI UTS (a)

www.yourcompany.com PitchDeck 12
Nama Nilai UTS (a) Nilai UAS (b)
𝑥7
𝑥3 𝑥1 Bunga 8 7
9
𝑥2 Dahlia 6 7
𝑥5
𝑥6 𝑥3 Fani 8 9
8
NILAI UAS (b)

𝑥4 Ayu 9 7
𝑥4 𝑥5 Bagas 5 8
7
𝑥6 Fajar 9 8
𝑥1 𝑥2 𝑥7 Putri 6 9
6

5 Jarak fajar dengan c1 (9-8)+(8-7) = 2


Jarak fajar dengan c2 (9-6)+(8-7) = 4

Jarak Putri dengan c1 (6-8)+(9-7) = 4


5 6 7 8 9
Jarak Putri dengan c2 (6-6)+(9-7) = 2
NILAI UTS (a)

www.yourcompany.com PitchDeck 13
Nama Nilai UTS (a) Nilai UAS dc1 dc2
(b)
𝑥1 Bunga 8 7 0 2
𝑥2 Dahlia 6 7 2 0
𝑥3 Fani 8 9 2 4
𝑥4 Ayu 9 7 1 3
𝑥5 Bagas 5 8 4 2
Fajar 9 8 2 4
Putri 6 9 4 2

C1 C2
Bunga Dahlia
Fani Bagas
Ayu Putri
Fajar

www.yourcompany.com PitchDeck 14

Anda mungkin juga menyukai