LN9-Clustering Basic Concept-R1

LECTURE NOTES
ISYE8015 – Selected Topic in Industrial

Engineering
D6344 – Muhammad Asrol
Session 08
Clustering: Basic Concept
ISYE8015 – Selected Topic in Industrial Engineering

Daftar Isi
8 Clustering: Basic Concept .......................................................................................................... 3
8.1. Konsep Dasar Clustering ........................................................................................... 3
8.2. Teknik Clustering K-Means ...................................................................................... 5
8.3. Contoh clustering dengan K-Means ...................................................................... 6
Daftar Pustaka .............................................................................................................................. 8

8 Clustering: Basic Concept 3
Bab VIII
8 Clustering: Basic Concept
Overview
Setelah mempelajari banyak hal tentang classification, kita beranjak pada

tiang pendiri data science berikutnya yaiut clustering. Behavior clustering
sangat berbeda dengan classification, karena clustering termasuk pada
unsupervised algorithm. Pada bagian ini akan dijelaskan konsep dasar
clustering dan sedikit penerapannya pada studi kasus.
8.1. Konsep Dasar Clustering

Clustering adalah proses untuk mengelompokkan data berdasarkan
kemiripannya dalam dataset (Han et al. 2011). Ini tidak sama dengan
classification yang menggunakan class label, clustering mengelompokkan
data hanya berdasarkan tingkat kemiripan dan densitas data. Clustering juga

telah banyak diaplikasikan pada berbagai bidang, diantaranya biologi,

keamanan, web search dan business intelligence.
Pada penerapannya terdapat banyak Teknik clustering dan setiap
Teknik tersebut dapat memberikan hasil analisis cluster yang berbeda satu
sama lain. Secara umum, terdapat 4 teknik clustering dengan
karakteristiknya masing-masing, yang dapat dilihat pada Tabel 1.
Tabel 1. Teknik dan pendekatan clustering
Partioning adalah Teknik yang paling sederhana dalam clustering.

ada beberapa ketentuan pada Teknik partioning untuk memudahkan
permasalahan diantara-Nya jumlah cluster ditentukan pada awal clustering
dan setiap entitas data harus dimasukkan ke dalam suatu cluster. Salah satu
contoh metode dalam Teknik partitioning adalah K-Means.

8.2. Teknik Clustering K-Means

Misalkan dataset D terdiri atas n tupples yang perlu didistribusikan
ke sebanyak k cluster (C1, C2, …., Ck). Pendistribusian n tupples ke dalam k
cluster harus memperhatikan bahwa anggota dalam cluster harus memiliki
kemiripan satu sama lain sedangkan anggota antar cluster harus sangat
berbeda.
Untuk menentukan tingkat kualitas distribusi data ke dalam cluster-
cluster, diperlukan evaluasi model yang dalam hal ini menggunakan
persamaan sum square error, sebagai berikut:
E menyatakan tingkat error untuk semua tupples dalam data set, p sebagai
point dalam space sebagai data sedangkan ci adalah nilai tengah dari sebuah
cluster. Tujuan dari cluster K-Means adalah meminimasi error sebaik
mungkin, sehingga data tupples didistribusikan ke dalam cluster yang tepat.
Clusterisasi dengan menggunakan K-Means bertitik tolak pada nilai
tengah dari sebuah cluster. Terlebih dahulu, jumlah cluster harus
ditentukan secara bebas, kemudian tentukan nilai tengahnya. Berdasarkan
nilai tengah tersebut, data tupples dalam dataset dapat didistribusikan ke
dalam cluster dengan tingkat error yang paling kecil.
Menentukan suatu data tupples untuk masuk dalam cluster tertentu
adalah proses yang iteratif. Bisa saja suatu data tupples berpindah dari satu
cluster ke cluster lainnya dengan tujun untuk meminimasi error. Tetapi jika
telah ditetapkan jumlah cluster dan dimensi data, maka proses clustering
dapat diselesaikan lebih cepat menggunakan K-Means.

Merujuk pada Han et al. (2011), berikut ini adalah algoritma untuk
mendistribusikan data tupples n ke dalam cluster k.
8.3. Contoh clustering dengan K-Means

Ilustrasi clustering menggunakan algoritma K-Means pada Gambar 1.
Gambar 1 Ilustrasi clustering dengan Algoritma K-Means

Berikut ini disampaikan contoh perhitungan manual clustering

dengan menggunakan K-Means yang diadopsi dari Zaki dan Meira (2014).
Misalkan terdapat data satu dimensi pada Gambar 2a. Asumsikan bahwa
ingin didistribusikan data tersebut ke pada dua cluster (k=2) dengan nilai
inisial centroid 𝜇 1 = 2 dan 𝜇 2 = 4. Tahap pertama adalah mendistribusikan
data ke centroid yang paling dekat, sehingga anggota clusternya menjadi :
Selanjutnya adalah menghitung Kembali nilai means dalam cluster, menjadi:
Berdasarkan nilai centroid terbaru tersebut, distribusi data tupples dalam

dataset Kembali diperbarui untuk mendekati nilai centroid. Distribusi data
tupples dalam cluster dapat dilihat pada Gambar 2b. Kemudian, setelah
diperoleh distribusi data pada cluster terbaru, Kembali dihitung nilai
centroid data dalam cluster. Cluster terbaru sebagaimana dilihat pada
Gambar 2b dan 2c adalah sebagai berikut:
Kemudian, nilai centroid dalam cluster adalah:
Semua proses dilakukan secara iteratif hingga tidak ada lagi data tupples
yang berpindah dari satu cluster ke cluster lainnya, seperti yang dapat
dilihat pada Gambar 2f.

Gambar 2. Proses iterative clustering dengan K-Means
Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.
Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts and
Algorithms. Cambridge: Cambridge University Press.

LN9-Clustering Basic Concept-R1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

LN9-Clustering Basic Concept-R1

Diunggah oleh

Hak Cipta:

Format Tersedia

LECTURE NOTES

ISYE8015 – Selected Topic in Industrial

D6344 – Muhammad Asrol

Clustering: Basic Concept

ISYE8015 – Selected Topic in Industrial Engineering

8 Clustering: Basic Concept .......................................................................................................... 3

8.1. Konsep Dasar Clustering ........................................................................................... 3

8.2. Teknik Clustering K-Means ...................................................................................... 5

8.3. Contoh clustering dengan K-Means ...................................................................... 6

Daftar Pustaka .............................................................................................................................. 8

ISYE8015 – Selected Topic in Industrial Engineering

8 Clustering: Basic Concept

Setelah mempelajari banyak hal tentang classification, kita beranjak pada

8.1. Konsep Dasar Clustering

ISYE8015 – Selected Topic in Industrial Engineering

telah banyak diaplikasikan pada berbagai bidang, diantaranya biologi,

Partioning adalah Teknik yang paling sederhana dalam clustering.

ISYE8015 – Selected Topic in Industrial Engineering

8.2. Teknik Clustering K-Means

ISYE8015 – Selected Topic in Industrial Engineering

8.3. Contoh clustering dengan K-Means

Gambar 1 Ilustrasi clustering dengan Algoritma K-Means

ISYE8015 – Selected Topic in Industrial Engineering

Berikut ini disampaikan contoh perhitungan manual clustering

Selanjutnya adalah menghitung Kembali nilai means dalam cluster, menjadi:

Berdasarkan nilai centroid terbaru tersebut, distribusi data tupples dalam

Kemudian, nilai centroid dalam cluster adalah:

ISYE8015 – Selected Topic in Industrial Engineering

Gambar 2. Proses iterative clustering dengan K-Means

ISYE8015 – Selected Topic in Industrial Engineering

Anda mungkin juga menyukai