Session 08
Bab VIII
Overview
E menyatakan tingkat error untuk semua tupples dalam data set, p sebagai
point dalam space sebagai data sedangkan ci adalah nilai tengah dari sebuah
cluster. Tujuan dari cluster K-Means adalah meminimasi error sebaik
mungkin, sehingga data tupples didistribusikan ke dalam cluster yang tepat.
Clusterisasi dengan menggunakan K-Means bertitik tolak pada nilai
tengah dari sebuah cluster. Terlebih dahulu, jumlah cluster harus
ditentukan secara bebas, kemudian tentukan nilai tengahnya. Berdasarkan
nilai tengah tersebut, data tupples dalam dataset dapat didistribusikan ke
dalam cluster dengan tingkat error yang paling kecil.
Menentukan suatu data tupples untuk masuk dalam cluster tertentu
adalah proses yang iteratif. Bisa saja suatu data tupples berpindah dari satu
cluster ke cluster lainnya dengan tujun untuk meminimasi error. Tetapi jika
telah ditetapkan jumlah cluster dan dimensi data, maka proses clustering
dapat diselesaikan lebih cepat menggunakan K-Means.
Merujuk pada Han et al. (2011), berikut ini adalah algoritma untuk
mendistribusikan data tupples n ke dalam cluster k.
Semua proses dilakukan secara iteratif hingga tidak ada lagi data tupples
yang berpindah dari satu cluster ke cluster lainnya, seperti yang dapat
dilihat pada Gambar 2f.
Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.
Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts and
Algorithms. Cambridge: Cambridge University Press.