Anda di halaman 1dari 8

LECTURE NOTES

ISYE8015 – Selected Topic in Industrial


Engineering

D6344 – Muhammad Asrol

Session 08

Clustering: Basic Concept

ISYE8015 – Selected Topic in Industrial Engineering


Daftar Isi

8 Clustering: Basic Concept .......................................................................................................... 3

8.1. Konsep Dasar Clustering ........................................................................................... 3

8.2. Teknik Clustering K-Means ...................................................................................... 5

8.3. Contoh clustering dengan K-Means ...................................................................... 6

Daftar Pustaka .............................................................................................................................. 8

ISYE8015 – Selected Topic in Industrial Engineering


8 Clustering: Basic Concept 3

Bab VIII

8 Clustering: Basic Concept

Overview

Setelah mempelajari banyak hal tentang classification, kita beranjak pada


tiang pendiri data science berikutnya yaiut clustering. Behavior clustering
sangat berbeda dengan classification, karena clustering termasuk pada
unsupervised algorithm. Pada bagian ini akan dijelaskan konsep dasar
clustering dan sedikit penerapannya pada studi kasus.

8.1. Konsep Dasar Clustering


Clustering adalah proses untuk mengelompokkan data berdasarkan
kemiripannya dalam dataset (Han et al. 2011). Ini tidak sama dengan
classification yang menggunakan class label, clustering mengelompokkan
data hanya berdasarkan tingkat kemiripan dan densitas data. Clustering juga

ISYE8015 – Selected Topic in Industrial Engineering


8 Clustering: Basic Concept 4

telah banyak diaplikasikan pada berbagai bidang, diantaranya biologi,


keamanan, web search dan business intelligence.
Pada penerapannya terdapat banyak Teknik clustering dan setiap
Teknik tersebut dapat memberikan hasil analisis cluster yang berbeda satu
sama lain. Secara umum, terdapat 4 teknik clustering dengan
karakteristiknya masing-masing, yang dapat dilihat pada Tabel 1.
Tabel 1. Teknik dan pendekatan clustering

Partioning adalah Teknik yang paling sederhana dalam clustering.


ada beberapa ketentuan pada Teknik partioning untuk memudahkan
permasalahan diantara-Nya jumlah cluster ditentukan pada awal clustering
dan setiap entitas data harus dimasukkan ke dalam suatu cluster. Salah satu
contoh metode dalam Teknik partitioning adalah K-Means.

ISYE8015 – Selected Topic in Industrial Engineering


8 Clustering: Basic Concept 5

8.2. Teknik Clustering K-Means


Misalkan dataset D terdiri atas n tupples yang perlu didistribusikan
ke sebanyak k cluster (C1, C2, …., Ck). Pendistribusian n tupples ke dalam k
cluster harus memperhatikan bahwa anggota dalam cluster harus memiliki
kemiripan satu sama lain sedangkan anggota antar cluster harus sangat
berbeda.
Untuk menentukan tingkat kualitas distribusi data ke dalam cluster-
cluster, diperlukan evaluasi model yang dalam hal ini menggunakan
persamaan sum square error, sebagai berikut:

E menyatakan tingkat error untuk semua tupples dalam data set, p sebagai
point dalam space sebagai data sedangkan ci adalah nilai tengah dari sebuah
cluster. Tujuan dari cluster K-Means adalah meminimasi error sebaik
mungkin, sehingga data tupples didistribusikan ke dalam cluster yang tepat.
Clusterisasi dengan menggunakan K-Means bertitik tolak pada nilai
tengah dari sebuah cluster. Terlebih dahulu, jumlah cluster harus
ditentukan secara bebas, kemudian tentukan nilai tengahnya. Berdasarkan
nilai tengah tersebut, data tupples dalam dataset dapat didistribusikan ke
dalam cluster dengan tingkat error yang paling kecil.
Menentukan suatu data tupples untuk masuk dalam cluster tertentu
adalah proses yang iteratif. Bisa saja suatu data tupples berpindah dari satu
cluster ke cluster lainnya dengan tujun untuk meminimasi error. Tetapi jika
telah ditetapkan jumlah cluster dan dimensi data, maka proses clustering
dapat diselesaikan lebih cepat menggunakan K-Means.

ISYE8015 – Selected Topic in Industrial Engineering


8 Clustering: Basic Concept 6

Merujuk pada Han et al. (2011), berikut ini adalah algoritma untuk
mendistribusikan data tupples n ke dalam cluster k.

8.3. Contoh clustering dengan K-Means


Ilustrasi clustering menggunakan algoritma K-Means pada Gambar 1.

Gambar 1 Ilustrasi clustering dengan Algoritma K-Means

ISYE8015 – Selected Topic in Industrial Engineering


8 Clustering: Basic Concept 7

Berikut ini disampaikan contoh perhitungan manual clustering


dengan menggunakan K-Means yang diadopsi dari Zaki dan Meira (2014).
Misalkan terdapat data satu dimensi pada Gambar 2a. Asumsikan bahwa
ingin didistribusikan data tersebut ke pada dua cluster (k=2) dengan nilai
inisial centroid 𝜇 1 = 2 dan 𝜇 2 = 4. Tahap pertama adalah mendistribusikan
data ke centroid yang paling dekat, sehingga anggota clusternya menjadi :

Selanjutnya adalah menghitung Kembali nilai means dalam cluster, menjadi:

Berdasarkan nilai centroid terbaru tersebut, distribusi data tupples dalam


dataset Kembali diperbarui untuk mendekati nilai centroid. Distribusi data
tupples dalam cluster dapat dilihat pada Gambar 2b. Kemudian, setelah
diperoleh distribusi data pada cluster terbaru, Kembali dihitung nilai
centroid data dalam cluster. Cluster terbaru sebagaimana dilihat pada
Gambar 2b dan 2c adalah sebagai berikut:

Kemudian, nilai centroid dalam cluster adalah:

Semua proses dilakukan secara iteratif hingga tidak ada lagi data tupples
yang berpindah dari satu cluster ke cluster lainnya, seperti yang dapat
dilihat pada Gambar 2f.

ISYE8015 – Selected Topic in Industrial Engineering


8 Clustering: Basic Concept 8

Gambar 2. Proses iterative clustering dengan K-Means

Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.

Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts and
Algorithms. Cambridge: Cambridge University Press.

ISYE8015 – Selected Topic in Industrial Engineering

Anda mungkin juga menyukai