Pendahuluan
1
untuk mengelola suatu data sekaligus mengingkatkan akurasi hasil clustering yang
dibentuk. Sedangkan metode k-means++ memberikan hasil cluster yang lebih
tersebar karena pada inisialisasi centroid tidak digunakan metode inisialisasi
secara acak.
Adapun yang menjadi batasan masalah pada penelitian Tugas Akhir ini adalah
:
a. Algoritma canopy digunakan sebagai metode pre-clustering sebelum
melakukan clustering dengan menggunakan algoritma k-means++
untuk inisialisasi centroid.
b. Analisis yang dilakukan yaitu dengan membandingkan algoritma k-
means standar dan algoritma k-means yang telah dikombinasikan
dengan k-means++ dan canopy clustering..
c. Analisis dilakukan dengan membandingkan akurasi dan waktu
running yang dibutuhkan kedua metode.
d. Masing-masing data dapat termasuk kedalam lebih dari satu cluster
sehingga dapat terjadi overlapping.
e. Dataset yang dipergunakan pada penelitian ini yaitu dataset dim1024
yang memiliki 1024 objek dan atribut, dan dataset iris dengan 150
objek dan 4 atribut.
1.3 Tujuan
Berdasarkan perumusan masalah diatas, tujuan yang ingin dicapai dari penelitian
ini adalah sebagai berikut :
1. Mengimplementasikan algoritma canopy sebagai inisialisasi dari metode
k-means.
2. Mengimplementasikan metode k-means++ untuk mencari pusat cluster
awal.
3. Menghitung akurasi yang didapatkan dengan mengkombinasikan
algoritma canopy dan k-means++.
2
4. Menghitung akurasi yang didapatkan pada k-means, kemudian
membandingkan dengan akurasi yang didapatkan pada kombinasi kedua
metode.
5. Menghitung waktu algoritma untuk memproses data yang didapatkan pada
k-means dan pada kombinasi kedua metode, kemudian membandingkan
waktu proses pada k-means dengan waktu proses pada kombinasi kedua
metode.
3
analisis, dan juga kesimpulan yang didapat dari penelitian sebagai
dokumentasi terhadap seluruh tahapan penelitian yang dilakukan.