Anda di halaman 1dari 12

MAKALAH

KAPITA SELEKTA I

K-MEANS CLUSTERING

Oleh Kelompok 5:

1. Ridya Destriani (F1F018001)


2. Dyah Yunita Hartanti (F1F018012)
3. Vitaria Ronauli Silalahi (F1F018014)
4. Putri Mellina Jayanti (F1F018026)
5. Viola Oktamelisa (F1F018030

Dosen Pengampu : Herlin Fransiska, S.Si, M.Si

LABORATORIUM MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS BENGKULU
2021
KATA PENGANTAR
Puji syukur penulis ucapkan atas kehadirat Allah SWT, yang telah melimpahkan
rahmat serta hidayah-Nya sehingga kami dapat menyelesaikan tugas Makalah Kapita
Selekta I mengenai K-Means Clustering dengan tepat waktu. Shalawat serta salam
semoga senantiasa tercurahkan kepada Nabi Muhammad SAW, yang telah
dianugerahkan kepadanya mu’jizat tiada tandingan, yaitu Al-Qur’an.
Makalah ini telah disusun secara maksimal dan mendapat bantuan dari berbagai
pihak. Untuk itu penulis mengucapkan terima kasih kepada semua pihak, terutama
kepada Ibu Herlin Fransiska S.Si, M.Si yang telah membantu serta mengarahkan dalam
menyusun dan menyelesaikan makalah ini sehingga dapat selesai tepat waktu.
Dalam penulisan makalah ini tentu terdapat banyak kekurangan baik dalam
penulisan, materi, maupun penyajian. Untuk itu, penulis menerima berbagai kritik dan
saran dari berbagai pihak untuk memperbaiki dan menambah wawasan diri.

Bengkulu, 25 April 2021

Penulis

ii
DAFTAR ISI

HALAMAN JUDUL.........................................................................................................i
KATA PENGANTAR.....................................................................................................ii
DAFTAR ISI...................................................................................................................iii
BAB I PENDAHULUAN................................................................................................1
1.1 Latar Belakang .....................................................................................................1
1.2 Rumusan Masalah ..............................................................................................2
1.3 Tujuan .................................................................................................................2
BAB II PEMBAHASAN.................................................................................................3
2.1 K-Means Clustering ............................................................................................3
2.2 Langkah-Langkah K-Means Clustering .............................................................5
2.3 Jarak Euclidean.....................................................................................................5
2.4 Kelebihan dan Kekurangan K-Means Clustering ...............................................6
BAB III PENUTUP.........................................................................................................7
3.1 Kesimpulan ..........................................................................................................7
DAFTAR PUSTAKA

iii
BAB I
PENDAHULUAN
1.1 Latar Belakang
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan untuk
mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis
cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya
dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk
memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi.
Berbeda dengan teknik multivariat lainnya, analisis ini tidak mengestimasi set variabel
secara empiris sebaliknya menggunakan set variabel yang ditentukan oleh peneliti itu
sendiri. Fokus dari analisis cluster adalah membandingkan objek berdasarkan set
variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel sebagai
tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabel yang
mempresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis
faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan
analisis faktor terfokus pda kelompok variabel.
Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang
memiliki kemiripan karakteristik antara satu data dengan data yang lain. Dalam data
mining ada dua jenis metode clustering yang digunakan untuk pengelompokkan data,
yaitu hierarchical clustering dan non-hierarchical clustering. Hierarchical clustering
adalah suatu metode pengelompokkan data yang dimulai dengan mengelompokkan dua
atau lebih objek yang memiliki kesamaan paling dekat. Kemudian diteruskan ke objek
yang lain memiliki kedekatan kedua. Demikian seterusnya hingga membentuk sebuah
pohon hirarki yang jelas antar objek. Contoh dari hierarchical clustering adalah single
linkage, average linkage, complete linkage. Berbeda dengan hierarchical clustering,
non-hierarchical justru dimulai dengan menentukan terlebih dahulu jumlah cluster yang
ingin dibentuk lalu membentuk titik pusat (centroid) sebagai acuan dalam menentukan
jarak antar data yang lainnya. Non–hierarchical sering disebut juga dengan k-means
clustering.
K-means merupakan metode yang sering digunakan untuk mendapatkan dekripsi
dari sekumpulan dokumen dengan cara mengungkapkan kecenderungan setiap dokumen
untuk dikelompokkan dengan dokumen lainnya yang memiliki kemiripan. Penelitian

1
yang dilakukan oleh Osama Abu Abbas pada comparisons between data clustering
algorithm menyebutkan bahwa metode k-means lebih baik performansinya daripada
Hierarchical Clustering, Self- 2 Organization Map (SOM), dan Expectation
Maximation (EM). Hal itu dibuktikan dengan pengujian performansi yang dilakukan,
dengan jumlah cluster sebanyak 8, 16, 32, 64 performansi dari k-means masih lebih
baik daripada tiga algoritma clustering yang lain.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan masalah yang dapat disimpulkan adalah
disimpulkan adalah sebagai berikut:
a. Apa yang dimaksud dengan K-means Clustering?
b. Ukuran jarak apakah yang digunakan dalam K-means Clustering
c. Bagaimanakah algoritma K-means Clustering dan kapan waktu penggunaannya?
1.3 Tujuan
Berdasarkan rumusan masalah di atas, tujuan yang dapat disimpulkan adalah
sebagai berikut:
a. Menjelaskan mengenai sistem K-means Clustering.
b. Menentukan ukuran jarak menggunakan jarak Euclidean.
c. Menjelaskan algoritma K-means Clustering dan waktu penggunaannya.

2
BAB II
PEMBAHASAN
2.1 K-Means Clustering
Berbeda dengan pengelompokan hierarki, yang menghasilkan tingkat kluster yang
berurutan oleh fusi atau divisi berulang, pengelompokan non-hierarki atau pemartisian
sebagai tanda sekumpulan titik data ke dalam kluster c tanpa struktur hierarki apa pun.
Proses ini biasanya menyertai pengoptimalan fungsi kriteria, biasanya minimisasi fungsi
objektif yang mewakili kemampuan dalam berbagai cluster (Xu dan Wunsch, 2009).
Salah satu yang paling terkenal dan metode pengelompokan non-hierarki yang paling
populer adalah pengelompokan k-means.
Metode pengelompokan k-means (MacQueen, 1967) yang juga dikenal sebagai
pengelompokan k means adalah salah satu metode pengelompokan yang paling terkenal
dan paling populer. Metode pengelompokan k-means mencari partisi data yang optimal
dengan meminimalkan jumlah kriteria kesalahan kuadrat dengan pengoptimalan
berulang prosedur, yang termasuk dalam kategori algoritma mendaki bukit (Xu dan
Wunsch, 2009).
K-Means dapat juga diartikan merupakan metode Clustering yang termasuk dalam
pendekatan partitioning. Algoritma K-Means merupakan model centroid. Mode centroid
adalah model yang menggunakan centroid untuk membuat cluster. Centroid adalah titik
tengah suatu cluster. Centroid berupa nilai. Centroid digunakan untuk menghitung jarak
suatu objek data terhadap centroid. Suatu objek data termasuk dalam cluster jika
memiliki jarak terpendek terhadap centroid cluster tersebut. Algoritma K-Means dapat
diartikan sebagai algoritma pembelajaran yang sederhana untuk memecahkan suatu
permasalahan pengelompokkan yang bertujuan untuk meminimalkan kesalahan ganda
(Singla & Karambir, 2012: 300).
K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam
sejumlah cluster dan algoritma ini hanya bekerja pada atribut numerik. Algoritma K-
Means termasuk partitioning clustering yang memisahkan data ke k daerah bagian
yang terpisah. Algoritma K-means sangat terkenal karena kemudahan dan
kemampuannya untuk meng-cluster data yang besar dan data outlier dengan sangat
cepat. Dalam algoritma ini, setiap data harus termasuk ke cluster tertentu dan bisa

3
dimungkinkan bagi setiap data yang termasuk cluster tertentu pada suatu tahapan
proses, pada tahapan berikutnya berpindah ke cluster lainnya.
Pada awalnya, algoritma ini mengambil sebagian dari banyaknya komponen dari
populasi untuk dijadikan pusat cluster awal. Pada step ini, pusat cluster dipilih secara
acak dari sekumpulan populasi data. Berikutnya menguji masing-masing komponen di
dalam populasi data dan menandai komponen tersebut ke salah satu pusat cluster yang
telah didefinisikan tergantung dari jarak minimum antar komponen dengan tiap-tiap
pusat cluster. Posisi pusat cluster akan dihitung kembali sampai semua komponen data
digolongkan ke dalam tiap-tiap cluster dan terakhir akan terbentuk posisi cluster baru.
K-Means dapat diterapkan pada data yang direpresentasikan dalam r-dimensi ruang
tempat. K-Means mengelompokkan set data r-dimensi, X =17 {x i∨i=1 , … , N }, dimana

x i ∈ R d yang menyatakan data ke-I sebagai “titik data”. K-means mempartisi X ke dalam
K cluster. Algoritma K-means mengelompokkan semua titik data dalam X sehingga
setiap titik x i hanya jatuh ke dalam satu dari K partisi, yang perlu diperhatikan adalah
titik berada dalam cluster yang mana, dilakukan dengan cara memberikan setiap titik
sebuah ID cluster. Titik dengan ID cluster yang sama berarti berada dalam satu cluster
yang sama, sedangkan titik dengan ID cluster yang berbeda berada dalam cluster yang
berbeda. Parameter yang harus dimasukkan ketika menggunakan algoritma K-means
adalah nilai K. Nilai K yang digunakan biasanya didasarkan pada informasi yang
diketahui sebelumnya tentang sebenarnya berapa banyak cluster data yang muncul
dalam X. Berapa banyak cluster yang dibutuhkan untuk penerapannya, atau jenis
cluster dicari dengan mengeksplorasi/melakukan percobaan dengan beberapa nilai K.
Berapa nilai K yang dipilih tidak perlu memahami bagaimana K-means mempartisi set
data X (Prasetyo, 2014: 190).
K-means adalah suatu metode penganalisaan data atau metode yang melakukan
proses pemodelan tanpa supervise (unsupervised) dan merupakan salah satu metode
yang melakukan pengelompokan data dengan sistem partisi. Metode k-means berusaha
mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu
kelompok mempunyai karakteristik yang berbeda dengan data yang ada di dalam
kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan
variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan
data yang ada di cluster lainnya.

4
Secara matematis, metode pengelompokan k-means diformalkan sebagai berikut:
I C I C
2
min : ∑ ∑ uic d2ic ∑ ∑ uic‖x i−h c‖ ,
i=1 c=1 i =1 c=1

∑ u ic=1 , uic ≥ 0 ,u ic={0,1}


c=1

Dimana uic menunjukkan derajat keanggotaan unit ke-i ke cluster ke-c, uic ={0,1 },
yaitu, uic = 1 jika unit ke-i milik cluster ke-c.
2.2 Langkah-Langkah K-Means Clustering
Proses clustering dengan menggunakan algoritma K-Means memiliki langkah-
langkah sebagai berikut:
a. Inisialisasi : tentukan K sebagai jumlah cluster yang diinginkan dan
ketidakmiripan (jarak) yang diinginkan. Jika perlu ditetapkan ambang batas
perubahan fungsi objektif dan ambang batas perubahan centroid.
b. Pilih k data baru set data X sebagai centroid.
c. Alokasikan semua data ke centroid terdekat dengan metric jarak yang sudah
ditetapkan (memperbarui ID setiap data)
d. Hitung kembali centroid C berdasarkan data yang mengikuti cluster masing-
masing.
e. Ulangi langkah tiga dan empat hingga kondisi konvergen tercapai, yaitu (a)
perubahan fungsi objektif sudah dibawah ambang batas yang diinginkan, atau
(b) tidak ada data yang berpindah cluster, atau (c) perubahan posisi centroid
sudah dibawah ambang batas yang ditetapkan.
2.3 Jarak Euclidean
Pengukuran jarak mempengaruhi hasil akhir clustering, salah satunya
mempengaruhi hasil clustering k-means. Hal ini menunjukkan bahwa penentuan metode
pengukuran jarak adalah hal yang penting dilakukan dalam clustering. Mohibullah dkk.
mengungkapkan metode Euclidean lebih efektif dibandingkan metode jarak lainnya dan
cocok digunakan untuk dataset berukuran kecil. Performa hasil cluster dengan
menggunakan metode Euclidean dapat dikatakan baik di metode clustering partisi
tradisional. Jarak Euclidean umumnya digunakan untuk pengukuran jarak pada data
numerik.

5
Berikut adalah rumus untuk menghitung jarak Euclidean:
p
2
D L ( x2 , x1 ) =‖x 2−x 1‖ =
2 √∑
j=1
2
( x 2 j−x 1 j )

Dimana:
D L : Jarak kuadrat Euclidean antar objek
2

p : jumlah variabel cluster


x 2 j: nilai atau data dari objek ke-2 pada variabel ke-j
x 1 j : nilai atau data dari objek ke-1 pada variabel ke-j

2.4 Kelebihan dan Kekurangan


a. Kelebihan K-Means Clustering
1) Mudah dilakukan saat pengimpelementasian dan di jalankan.
2) Waktu yang di butuhkan untuk melakukan pembelajaran relatif lebih cepat.
3) Sangat fleksibel, adaptasi yang mudah untuk di lakukan
4) Sangat umum penggunaannya.
5) Menggunakan prinsip yang sederhana dapat di jelaskan dalam non-statistik.
b. Kekurangan K-Means Clustering
1) Sebelum algoritma di jalankan, titik K diinisialisasikan secara random
sehingga pengelompokan data yang di dapatkan bisa berbeda-beda. Namun
apabila nilai yang diperoleh acak untuk penginisialisasi kurang baik maka
pengelompokan yang didapatkn menjadi tidak optimal.

2) Apabila terjebak dalam kasus yang biasanya di sebut dengan curse of


dimensionality. Hal ini pun akan terjadi apabila salah satu data untuk
melakukan pelatihan mempunyai dimensi yang sangat banyak, sebagai
contoh; jika ada data pelatihan yang terdiri dari 2 buah atribut saja maka
dimensinya ada 2 dimensi pula, namun akan berbeda jika ada 20 atribut
maka akan ada 20 dimensi yang di miliki. Adapun salah satu dari cara kerja
algoritma cluster ini ialah untuk mencari jarak terdekat dari antara k titik
dangan titik lainnya. Apabila ingin mencari jarak untuk antar titik dari 2
dimensi hal itu masih mudah untuk di lakukan, namun bagaimana dengan 20
buah dimensi hal tersebut akan menjadi lebih sulit untuk di lakukan
pencarian jarak.

6
3) Apabila hanya ada terdapat beberapa buah titik sampel data yang ada, maka
hal yang mudah untuk melakukan penghitungan dan mencari jarak titik
terdekat dengan k titik yang telah di lakukan inisialisasi yang secara acak.
Namun jika ada banyak titik data, misalkan satu juta data, maka perhitungan
dan pencarian titik terdekat akan sangat membutuhkan waktu yang lama.
Proses tersebut dapat dipercepat namun dibutuhkan sebuah struktur data
yang lebih rumit seperti kD-tree atau hashing untuk melakukan proses
tersebut.

4) Adanya penggunaan k buah random, tidak ada jaminan untuk menemukan


kumpulan cluster yang optimal.

BAB III
PENUTUP
7
3.1 Kesimpulan
K-Means adalah metode clustering berbasis jarak yang membagi data ke dalam
sejumlah cluster dan algoritma ini hanya bekerja pada atribut numerik. Algoritma K-
Means termasuk partitioning clustering yang memisahkan data ke k daerah bagian
yang terpisah. Pada awalnya, algoritma ini mengambil sebagian dari banyaknya
komponen dari populasi untuk dijadikan pusat cluster awal. Pada step ini, pusat cluster
dipilih secara acak dari sekumpulan populasi data. Berikutnya menguji masing-masing
komponen di dalam populasi data dan menandai komponen tersebut ke salah satu pusat
cluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan
tiap-tiap pusat cluster. Posisi pusat cluster akan dihitung kembali sampai semua
komponen data digolongkan ke dalam tiap-tiap cluster dan terakhir akan terbentuk
posisi cluster baru.
Penentuan jarak yang cocok digunakan untuk metode ini adalah penentuan jarak
Euclidean, karena jarak ini umumnya digunakan untuk pengukuran jarak pada data
numerik.

DAFTAR PUSTAKA

8
Andayani, Sri. 2007. Pembentukan cluster dalam Knowledge Discovery in Database
dengan Algoritma K‐Means. http://staffnew.uny.ac.id/upload/132162018/penel
itian/Pembentukan%2Bcluster%2Bdlm%2BKDD%2Bdgn%2BAlgoritma
%2Bkmeans.pdf. Diakses pada 23 April 2021 pukul 10.04 WIB.
Nita, Kresentia Kurniadewi. 2016. Pengelompokan Sekolah Menengah Atas Di Provinsi
Daerah Istimewa Yogyakarta Berdasarkan Nilai Ujian Nasional Menggunakan
Algoritma K-Means Clustering. https://repository.usd.ac.id/9293/2/125314
047_full.pdf. Diakses pada 23 April 2021 pukul 10.10 WIB.
Setiawan, Dian dan Yusuf Sulisto. 2015. Perancangan Aplikasi K-Means Sebagai
Penentu Konsentrasi Bagi Mahasiswa Informatika UMS.
http://eprints.ums.ac.id/35905/1/NASKAH%2520PUBLIKASI.pdf. Diakses
pada 23 April 2021 pukul 10.23 WIB.
Salsabila, Najia. 2019. Klasifikasi Barang Menggunakan K-Means Clustering dalam
Penentuan Stok Barang. http://etheses.uin-malang.ac.id/16985/1/14650031.pdf.
Diakses pada 23 April 2021 pukul 10.45 WIB.

Anda mungkin juga menyukai