Anda di halaman 1dari 19

K-means Clustering

Pembelajaran Mesin
Senin, 13 September 2021

Dr. rer. nat. Akmal Junaidi, M.Sc.


& Dewi Asiah Shofana, S.Komp., M.Kom.
Jurusan Ilmu Komputer
FMIPA – Univ. Lampung
Supervised vs Unsupervised Learning
Supervised Learning

• Proses learning dengan melatih mesin


menggunakan sekumpulan data yang
telah diberi label yang benar.
• Setelah itu mesin diberikan sekumpulan
data baru untuk dianalisis berdasarkan
proses training tadi sehingga dapat
memprediksi label yang benar.
Supervised vs Unsupervised Learning
Unsupervised Learning

• Proses mesin mempelajari sekumpulan


data yang tidak berlabel dan
membiarkan mesin menjalankan
algoritma tanpa guidance/petunjuk.
• Tugas mesin adalah mengelompokkan
data berdasarkan tingkat kesamaan,
pola dan perbedaan tanpa diawali
dengan pelatihan mesin secara eksplisit.
Kategori Learning

Supervised Unsupervised
• Terdiri dari 2 kategori • Terdiri dari 2 kategori
• Classifcation • Clustering
• Regression • Association
Pendekatan Algoritma
Partition Algorithms Hierarchical
(fat) Algorithm

K-means • Bottom up –

Mixture Gaussian Agglomerative

Spectral Clustering • Top-down – Divisive
Clustering
• Ide dasar:
 Mengelompokkan data-data sejenis ke dalam
satu kelompok yang sama.
 Mengidentifkasi kelompok yang satu dengan
kelompok lainnya.
Contoh Clustering
Dua Cluster
Contoh Clustering
Tiga Cluster
Algoritma K-means
1. Pilih K cluster dan tentukan K centroid (gravity
center) dari data (K jumlah cluster/kelompok).
2. Hitung jarak tiap data ke centroid.
3. Kelompokkan data berdasarkan centroid terdekat.
4. Update centroid berdasarkan data yang baru
dikelompokkan.
5. Ulangi langkah 2 hingga tidak ada data lagi yang
berubah.
Catatan:

Centroid dapat diinterpretasikan sebagai pusat kelompok.

Nilai K adalah bilangan bulat.
Contoh Algoritma K-means
Id Buah Diameter Berat
1 7.0 165
2 7.1 170
3 6.5 180
4 6.6 195
5 6.8 200
(Data buah diukur pada hari Minggu, 25 Oktober 2020)

Kelompokkan data menjadi dua cluster!


Proses Iterasi
• K = 2 (2 cluster/kelompok)
• Pilih 2 centroid cluster (random):
 Pusat cluster 1: c1=(7.2 , 160)
 Pusat cluster 2: c2=(6.5 , 190)
Jarak (Euclidean Distance)
Id Buah Diameter Berat Jarak c1 Jarak c2
1 7.0 165 √25.04 √625.25
2 7.1 170 √100.01 √400.36
3 6.5 180 √400.49 √100
4 6.6 195 √1225.36 √25.01
5 6.8 200 √1600.16 √100.09


Selanjutnya: Pengelompokan
Pengelompokkan
Id Buah Diameter Berat Keanggotaan
1 7.0 165 c1
2 7.1 170 c1
3 6.5 180 c2
4 6.6 195 c2
5 6.8 200 c2


Selanjutnya: Update centroid
Update Centroid c1
Id Buah Diameter Berat Keanggotaan
1 7.0 165 c1
2 7.1 170 c1

7.0+7.1 165+170
��������� 1= ( 2
,
2 )
=( 7.05,167 .5 )
Pengelompokkan
Id Buah Diameter Berat Keanggotaan
3 6.5 180 c2
4 6.6 195 c2
5 6.8 200 c2
6.5+ 6.6+ 6.8 180+195+ 200
��������� 2= ( 3
,
3 )
��������� 2=( 6.63,191.67 )

Selanjutnya: Hitung jarak ke centroid baru
Analisis Kompleksitas Waktu
• Komputasi jarak antar dua data memerlukan
waktu O(m) dimana m adalah dimensi vektor.
• Mengatur ulang data terhadap cluster
memerlukan waktu O(Knm) perhitungan jarak,
dimana n adalah banyaknya data dan K adalah
banyak cluster.
• Update cluster memerlukan waktu O(Km).
• Jika jumlah iterasi yang dilakukan sebanyak I,
maka total kompleksitas waktu adalah O(IKmn).
Analisis Kompleksitas Ruang
• Proses penyimpanan variabel diperlukan untuk
menyimpan n data. Karena data berdimensi m,
algoritma memerlukan space O(mn).
• Proses penyimpanan juga digunakan untuk variabel
centroids, sehingga dibutuhkan space O(Km) .
• Total space yang dibutuhkan algoritma ini adalah
O((n+K)m).
Tantangan
• Pemilihan centroids awal tidak selalu optimal
menuju konvergensi.
• Gunakan beberapa konfgurasi centroids untuk
mendapatkan hasil yang lebih baik.
• Jumlah cluster yang tepat dengan kondisi data
sesungguhnya merupakan bagian dari penelitian
itu sendiri.
• Pendekatan L-bow dapat diterapkan untuk
memprediksi jumlah cluster yang tepat.
Terima kasih

Anda mungkin juga menyukai