CIS62283 03 Klasterisasi

Data Mining
Klasterisasi
Ahmad Afif Supianto

Overview
•  Konsep Dasar
•  Tahapan Proses Klasterisasi
•  Ukuran Kemiripan Data
•  Algoritme Klasterisasi
•  Algoritme k-‐Means
Konsep Dasar
•  Klusterisasi Data, atau Data Clustering (atau Clustering),
juga disebut sebagai analisis klaster, analisis segmentasi,
analisis taxonomi, atau unsupervised classifica/on
•  Metode yang digunakan untuk membangun grup dari
objek-‐objek, atau klaster-‐klaster, dimana objek-‐objek
dalam satu kluster tertentu memiliki kesamaan ciri yang
Cnggi dan objek-‐objek pada kluster yang berbeda
memiliki kesamaan ciri yang rendah
Konsep Dasar
•  Tujuan dari klasterisasi data adalah mengelompokkan
data yang memiliki kesamaan ciri dan memisahkan data
ke dalam klaster yang berbeda untuk objek-‐objek yang
memiliki ciri yang berbeda
•  Berbeda dengan klasifikasi, yang memiliki klas yang telah
didefinisikan sebelumnya. Dalam klasterisasi, klaster
akan terbentuk sendiri berdasarkan ciri objek yang
dimiliki dan kriteria pengelompokan yang telah
ditentukan.
Konsep Dasar
•  Untuk menunjukkan klasterisasi dari sekumpulan data,
suatu kriteria pengelompokan haruslah ditentukan
sebelumnya.
•  Perbedaan kriteria pengelompokan akan memberikan
dampak perbedaan klaster juga.
Contoh Pengelompokan
•  Dua klaster dengan kriteria “How mammals bear their
progeny”
Blue shark, sheep, Lizard, sparrow, viper, seagull,

cat, dog goldfish, frog, red mullet

•  Dua klaster dengan kriteria “Existence of lungs”
Goldfish, red mullet, Sheep, sparrow, dog, cat,

blue shark seagull, lizard, frog, viper
Any Questions?
Tahapan Klasterisasi
1.  Feature SelecCon
•  Penentuan informasi fitur yang digunakan
2.  Proximity Measure
•  Tahap kuanCfikasi item kemiripan data
3.  Clustering Criterion
•  Penentuan fungsi pembobotan / Cpe aturan
4.  Clustering Algorithm
•  Metode klaster berdasarkan ukuran kemiripan data dan kriteria
klasterisasi
5.  ValidaCon of the Result
6.  InterpretaCon of the Result
Proximity Measure
•  Kemiripan data memiliki peranan yang sangat penCng dalam
proses analisis klaster
•  Pada berbagai literatur tentang clustering, ukuran kemiripan
(similarity measures), koefisien kemiripan (similarity
coefficients), ukuran keCdakmiripan (dissimilarity measures),
atau jarak (distances) digunakan untuk mendeskripsikan nilai
kuanCtaCf dari kemiripan atau keCdakmiripan dari dua CCk
atau dua klaster
Proximity Measure
•  Koefisien kemiripan data mengindikasikan kekuatan
hubungan antar dua data
•  Semakin banyak kemiripan satu sama lain, semakin besar
koefisien kesamaan
•  Misal x = (x1, x2, ..., xd) dan y = (y1, y2, ..., yd) dua data CCk
pada d-‐dimensi. Koefisien kemiripan data antara x dan y
merupakan fungsi jarak dari nilai atribut-‐atribut nya
s(x,y) = s(x1, x2, …, xd, y1, y2, …, yd)

Proximity Measure
•  Pemilihan jarak pada aplikasi clustering adalah sangat penCng,
dan pilihan yang terbaik sering diperoleh melalui pengalaman,
kemampuan, pengetahuan, dan keberuntungan.
•  Pengukuran Data
•  Numerik
-‐ Euclidean Distance -‐ Minkowski Distance
-‐ Manha_an Distance -‐ Mahalanobis Distance
-‐ Maximum Distance -‐ Average Distance
•  Kategorikal
-‐ Simple Matching Distance
Euclidean Distance
•  Euclidean distance merupakan pengukuran jarak yang
paling umum digunakan pada data numerik.
•  Untuk dua data CCk x dan y dalam d-‐ruang dimensi,
Euclidean distance antara CCk tersebut didefinisikan
sebagai berikut :

dimana xj dan yj masing-‐masing adalah nilai dari atribut
ke-‐j dari x dan y
Manhattan Distance
•  Manha_an distance disebut juga sebagai “city block
distance” merupakan jumlah jarak dari semua a_ribute.
Manha_an distance antara CCk tersebut didefinisikan
sebagai berikut :
Maximum Distance
•  Maximum distance disebut juga sebagai “sup distance”.
Didefinisikan sebagai nilai maximum dari jarak atribut-‐
atribut nya
Maximum distance antara CCk tersebut didefinisikan
sebagai berikut :
Minkowski Distance
•  Euclidean distance, Manha_an distance, dan maximum
distance merupakan Cga kasus khusus dari Minkowski
distance yang didefinisikan sebagai berikut :
r disebut sebagai order dari Minkowski distance.

Jika r=2, 1, and ∞, maka formulasi jarak tersebut masing-‐
masing adalah Euclidean distance, Manha_an distance,
and maximum distance
Mahalanobis Distance
•  Mahalanobis distance dapat mengurangi distorsi
(penyimpangan) jarak yang disebabkan oleh kombinasi
linier dari atribut.
•  Mahalanobis distance didefinisikan sebagai berikut:

dimana ∑ adalah matriks covariance dari data. Oleh
sebab itu, jarak ini mengaplikasikan skema bobot
terhadap data
Average Distance
•  Dua CCk data dalam Euclidean distance tanpa nilai
a_ribute biasanya memiliki jarak lebih kecil daripada
pasangan data yang mengandung nilai.
•  Pada kasus tersebut, average distance dikembangkan
untuk mengatasinya
•  Average distance merupakan hasil modifikasi dari

Euclidean distance
Simple Matching Distance
•  Misal x and y dua nilai data kategorikal. Maka simple matching
distance antara x dan y didefiniskan oleh:
•  Misal x dan y dua objek data kategorikal dideskripsikan oleh d

atribut kategorikal. Maka pengukuran kemiripan antara x dan
y menggunakan simple matching distance didefiniskan oleh:
Any Questions?
Clustering Algorithm
Partitioning Hierarchical
Divisive (top-down)
Hard Clustering
Combinations
Fuzzy Clustering
Agglomerative (bottom-up)
Possibilistic Clustering
•  Par$$oning: merupakan single clustering. One or few
sequenCal passes on the data.
•  Hierarchical: merupakan sekuen dari nested clusterings.
•  Hard clustering: seCap CCk data merupakan anggota dari
satu klaster secara eksklusif
•  Fuzzy clustering: seCap CCk data merupakan anggota
lebih dari satu klaster secara simultan
•  Possibilis$c clustering: klasterisasi yang didasarkan pada
possibility suatu CCk data terhadap klaster
Hard Clustering Algorithm
•  Hard Clustering
•  Basic hard clustering algorithms (e.g., k-‐means)
•  k-‐medoids algorithms
•  Mixture decomposiCon
•  Branch and bound
•  Simulated annealing
•  DeterminisCc annealing
•  Boundary detecCon
•  Mode seeking
•  GeneCc clustering algorithms
Fuzzy Clustering Algorithm
•  Fuzzy Clustering
•  Fuzzy k-‐means
•  Fuzzy k-‐modes
•  Fuzzy c-‐means
Hierarchical Clustering Algorithm
•  AgglomeraCve Hierarchical (bo_om-‐up)
•  Graph method
•  Single-‐link method
•  Complete-‐link method
•  Group average method
•  Weighted group average method
•  Geometric method
•  Ward’s method
•  Centroid method
•  Median method
•  Divisive Hierarchical (top-‐down) à kebalikan dari
agglomeraCve
Dendogram
20
Cutt-off 2 cluster
15
10 Cutt-off 3 cluster
3 4 2 1 5
Any Questions?
K-‐Means Clustering
•  K-‐mean merupakan teknik klastering yang paling umum dan
sederhana.
•  Tujuan klastering ini adalah mengelompokkan obyek ke dalam
k klaster/kelompok.
•  Nilai k harus ditentukan terlebih dahulu (berbeda dengan
hierarchical clustering).
•  Ukuran kemiripan/keCdakmiripan masih tetap digunakan
untuk mengelompokkan obyek yang ada.
Algoritme K-‐means
•  Secara ringkas algoritme K-‐means adalah sebagai berikut:
1.  Pilih jumlah klaster k
2.  Inisialisasi k pusat klaster
3.  Tempatkan seCap data/obyek ke klaster terdekat
4.  Perhitungan kembali pusat klaster
5.  Ulangi langkah 3 dengan memakai pusat klaster yang baru.
Jika pusat klaster Cdak berubah lagi maka proses
pengklasteran dihenCkan.

Penentuan Jumlah dan Pusat Klaster
•  Inisialisasi atau penentuan nilai awal pusat klaster dapat
dilakukan dengan berbagai macam cara, antara lain:
•  Pemberian nilai secara random
•  Pengambilan sampel awal dari data
•  Penentuan nilai awal hasil dari klaster hirarki dengan jumlah
klaster yang sesuai dengan penentuan awal.
•  Dalam hal ini biasanya user memiliki perCmbangan intuiCf
karena dia memiliki informasi awal tentang obyek yang
sedang dipelajari, termasuk jumlah klaster yang paling tepat.
Penempatan Obyek ke Dalam Klaster
•  Penempatan obyek ke dalam klaster didasarkan pada
kedekatannya dengan pusat klaster
•  Dalam tahap ini perlu dihitung jarak Cap data ke Cap pusat
klaster yang telah ditentukan.
•  Jarak paling dekat antara suatu data dengan pusat klaster
tertentu merupakan hal penentu data tersebut akan masuk
klaster yang mana.
Perhitungan Kembali Pusat Klaster
•  Pusat klaster ditentukan kembali dengan cara dihitung nilai rata-‐rata
data/obyek dalam klaster tertentu.
•  Jika dikehendaki dapat pula digunakan perhitungan median dari
anggota klaster yang dimaksud
•  Mean bukan satu-‐satunya ukurang yang bisa dipakai
•  Pada kasus tertentu pemakaian median memberikan hasil yang lebih
baik. Karena median Cdak sensiCf terhadap data outlier (data yang
terletak jauh dari yang lain, meskipun dalam satu klaster -‐ pencilan)
•  Contoh:
•  Mean dari 1, 3, 5, 7, 9 adalah 5
•  Mean dari 1, 3, 5, 7, 1009 adalah 205
•  Median dari 1, 3, 5, 7, 1009 adalah 5
Keterbatasan K-‐means
•  K-‐means sangat bergantung pada penentuan nilai pusat
klaster awal
•  Penentuan nilai awal yang berbeda dapat memberikan hasil
akhir yang berbeda.
Contoh Implementasi K-‐Means
•  Contoh
Contoh Penerapan Algoritme
Klasterisasi dengan Pemrosesan Data
•  h_p://afif.lecture.ub.ac.id/files/2014/05/Slide-‐11-‐Klasterisasi-‐
KMeans.pdf
•  h_p://afif.lecture.ub.ac.id/files/2014/05/Slide-‐12-‐Klasterisasi-‐
Hierarchical-‐Clustering.pdf
Diskusi Kelas
•  Pembahasan Tugas 1
•  Buatlah grup dari teman sekitar kemudian diskusikan tentang
Tugas 1 minggu lalu dan tentukan:
•  Produk dari penerapan Data Mining
•  Data mining Task yang digunakan
•  Perangkat lunak yang merupakan tools pemrosesan data mining
•  Data mining task yang terdapat dalam tools tersebut
Any Questions?

CIS62283 03 Klasterisasi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CIS62283 03 Klasterisasi

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining

Ahmad Afif Supianto

Blue shark, sheep, Lizard, sparrow, viper, seagull,

Goldﬁsh, red mullet, Sheep, sparrow, dog, cat,

s(x,y) = s(x1, x2, …, xd, y1, y2, …, yd)

r disebut sebagai order dari Minkowski distance.

•  Average distance merupakan hasil modiﬁkasi dari

•  Misal x dan y dua objek data kategorikal dideskripsikan oleh d

Anda mungkin juga menyukai

CIS62283 03 Klasterisasi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CIS62283 03 Klasterisasi

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining

Ahmad Afif Supianto

Blue shark, sheep, Lizard, sparrow, viper, seagull,

Goldﬁsh, red mullet, Sheep, sparrow, dog, cat,

s(x,y) = s(x1, x2, …, xd, y1, y2, …, yd)

r disebut sebagai order dari Minkowski distance.

• Average distance merupakan hasil modiﬁkasi dari

• Misal x dan y dua objek data kategorikal dideskripsikan oleh d

Anda mungkin juga menyukai

•  Average distance merupakan hasil modiﬁkasi dari

•  Misal x dan y dua objek data kategorikal dideskripsikan oleh d