Pembelajaran Mesin
Senin, 13 September 2021
Supervised Unsupervised
• Terdiri dari 2 kategori • Terdiri dari 2 kategori
• Classifcation • Clustering
• Regression • Association
Pendekatan Algoritma
Partition Algorithms Hierarchical
(fat) Algorithm
K-means • Bottom up –
Mixture Gaussian Agglomerative
Spectral Clustering • Top-down – Divisive
Clustering
• Ide dasar:
Mengelompokkan data-data sejenis ke dalam
satu kelompok yang sama.
Mengidentifkasi kelompok yang satu dengan
kelompok lainnya.
Contoh Clustering
Dua Cluster
Contoh Clustering
Tiga Cluster
Algoritma K-means
1. Pilih K cluster dan tentukan K centroid (gravity
center) dari data (K jumlah cluster/kelompok).
2. Hitung jarak tiap data ke centroid.
3. Kelompokkan data berdasarkan centroid terdekat.
4. Update centroid berdasarkan data yang baru
dikelompokkan.
5. Ulangi langkah 2 hingga tidak ada data lagi yang
berubah.
Catatan:
Centroid dapat diinterpretasikan sebagai pusat kelompok.
Nilai K adalah bilangan bulat.
Contoh Algoritma K-means
Id Buah Diameter Berat
1 7.0 165
2 7.1 170
3 6.5 180
4 6.6 195
5 6.8 200
(Data buah diukur pada hari Minggu, 25 Oktober 2020)
Selanjutnya: Pengelompokan
Pengelompokkan
Id Buah Diameter Berat Keanggotaan
1 7.0 165 c1
2 7.1 170 c1
3 6.5 180 c2
4 6.6 195 c2
5 6.8 200 c2
Selanjutnya: Update centroid
Update Centroid c1
Id Buah Diameter Berat Keanggotaan
1 7.0 165 c1
2 7.1 170 c1
7.0+7.1 165+170
��������� 1= ( 2
,
2 )
=( 7.05,167 .5 )
Pengelompokkan
Id Buah Diameter Berat Keanggotaan
3 6.5 180 c2
4 6.6 195 c2
5 6.8 200 c2
6.5+ 6.6+ 6.8 180+195+ 200
��������� 2= ( 3
,
3 )
��������� 2=( 6.63,191.67 )
Selanjutnya: Hitung jarak ke centroid baru
Analisis Kompleksitas Waktu
• Komputasi jarak antar dua data memerlukan
waktu O(m) dimana m adalah dimensi vektor.
• Mengatur ulang data terhadap cluster
memerlukan waktu O(Knm) perhitungan jarak,
dimana n adalah banyaknya data dan K adalah
banyak cluster.
• Update cluster memerlukan waktu O(Km).
• Jika jumlah iterasi yang dilakukan sebanyak I,
maka total kompleksitas waktu adalah O(IKmn).
Analisis Kompleksitas Ruang
• Proses penyimpanan variabel diperlukan untuk
menyimpan n data. Karena data berdimensi m,
algoritma memerlukan space O(mn).
• Proses penyimpanan juga digunakan untuk variabel
centroids, sehingga dibutuhkan space O(Km) .
• Total space yang dibutuhkan algoritma ini adalah
O((n+K)m).
Tantangan
• Pemilihan centroids awal tidak selalu optimal
menuju konvergensi.
• Gunakan beberapa konfgurasi centroids untuk
mendapatkan hasil yang lebih baik.
• Jumlah cluster yang tepat dengan kondisi data
sesungguhnya merupakan bagian dari penelitian
itu sendiri.
• Pendekatan L-bow dapat diterapkan untuk
memprediksi jumlah cluster yang tepat.
Terima kasih