adalah unsupervised learning yang dapat dilakukan dengan berbagai algoritma yang berbeda dalam menemukan
cluster secara efisien.
“Mengelompokkan objek-objek data, objek didalam kelompok yang sama lebih mirip dibandingkan objek yang ada di kelompok lain. “
Clustering yang baik adalah Cluster dengan jarak yang kecil / tingkat kemiripan yang
tinggi antar anggota cluster dan jarak yang jauh / tingkat kemiripan yang rendah antar cluster.Cluster yang baik bergantung pada similarity
measures yang dipakai, diimplementasikan, dan kemampuan untuk menemukan beberapa/seluruh pattern yang ada
Kegunaan
Outlier detection
Finding K-nearest neighbors
Data reduction
Hypothesis generation & testing
Prediction based on groups
Kelebihan
Mengidentifikasi Pola Tersembunyi
Segmentasi Data
Kekurangan Sensitif terhadap titik centroid awal
Sulit dalam menentukan jumlah cluster yang tepat
Pengurangan Dimensi
Cluster tidak selalu memiliki makna yang jelas
Identifikasi Outliers
Tidak selalu efektif untuk semua jenis data
Other distinctions
1. Exclusive vs non-exclusive
2. Fuzzy vs non-fuzzy
pada clustering fuzzy, tiap titik dimiliki oleh tiap cluster dengan
bobot tertentu yang jumlahnya adalah 1.
3. Partial vs complete
Pada kasus tertentu kita hanya ingin melakukan clustering pada
beberapa data
4. Heterogeneous vs homogenous
Cluster yang berbeda ukuran, bentuk, jenis dan kepadatan.
6.Interpretate Results
Compute the correlation between the two matrices, since the matrices are
symmetric, only the correlation between n(n-1)/2 entries needs to be calculated Jarak antar cluster
High correlation indicates that points that belong to the same cluster are close to Single link
each other Jarak terdekat antar satu
elemen dalam satu cluster ke
not a good measure for some density or contiguity based cluster satu elemen di cluster lain
Complete link
Internal Measures: Cohesion and separation
Jarak terjauh antar satu
Cluster Cohesion: Measures how closely realted are objects in a cluster
elemen dalam satu cluster ke
within cluster SSE
satu elemen di cluster lain
WSS = jumlah i jumlah x elemen ci (x-mi)^2
Cluster Separation: Measures how distinct or well-separated a cluster is from other Average
clusters Jarak rata-rata antar satu
between cluster SSE elemen dalam satu cluster ke
BSS = jumlah i |Ci|(m-mi)^2, where |Ci| is the size of cluster i satu elemen di cluster lain
Centroid
Jarak antar centroid dari kedua
2.Proximity Measure cluster
Similarity Medoid
Pengukuran numerikal seberapa mirip objek data, semakin tinggi maka semakin mirip. Jarak antar medoids dari
rangenya dari 0 - 1 kedua cluster
Dissimilarity medoid -> objek terpilih yang
Pengukuran numerikal seberapa berbeda objek data, semakin rendah maka semakin letaknya paling tengah dalam
mirip. minimumnya 0, maksimumnya beragam. cluster
Dissimilarity matrix
menyimpan dissimilarity value untuk 2 objek. n data point, matrix segitiga Tipe-Tipe Cluster
Well separated → dalam cluster
mirip, antar cluster jauh berbeda
Center based → objek dalam
cluster mirip dengan centroid
cluster tersebut
dibanding centroid lain
Contiguous → objek dalam cluster
mirip dengan satu atau lebih
objek lain dalam
cluster
Density based → pemisahan dua
kumpulan titik yang padat oleh
kumpulan titik-titik
jarang.
Property or conceptual →
mencari cluster yang berbagi
PM Type common property atau
merepresentasikan konsep
PM for nominal attribute tertentu
Described by an objective
Simple Matching function -> cari cluster yang
meminimalkan atau
m = jumlah yang cocok memaksimalkan objective
p = total variabel function
Clusteringpt3 for symmetric variable : for asymmetric variable :
Minkowski distance
2. Euclidean (h=2)
3. Supremum (h=infinite) jarak dari i ke j adalah jarak maksimum dari attribut kedua titik. misal:
attr 1 jaraknya 3
attr 2 jaraknya 5
attr 3 jaraknya 1, maka jarak dari point 1 ke point 2 adalah 5
Partitioning approach
PM for Ordinal Attributes Pembagian objek data ke cluster yang tidak overlap
odinal dapat berupa diskrit atau kontinu. order is important (rank) dimana tiap objek masuk
Mirip dengan numeric attribute, ganti xif dengan rank, rif (1,…,Mf) kedalam satu cluster yang akan dievaluasi menggunakan
Map range tiap atribut ke [0,1] kriteria tertentu
K-Means Clustering
4.Clustering Algorithms Membuat K set awal partisi
Tipe-tipe Clustering Kemudian di iterasi untuk berupaya memperbaiki
partisi dengan memindahkan objek dari satu kelompok
Hierarchical approach ke kelompok lain
Membuat dekomposisi hierarkikal dari Centroid awal sering kali dipilih secara acak dan
kumpulan data menggunakan sebuah biasanya merupakan ratarata dalam cluster
kriteria kedekatan titik diukur dengan euclidean distance,
(similarity atau distance). Tidak cosine similarity
memerlukan jumlah cluster sebagai input, Setiap cluster memiliki centroid dan setiap titik akan
tapi ditempatkan ke cluster dengan centroid terdekat
memerlukan termination condition. Sebagian besar pemindahan terjadi pada beberapa
Ada 2 tipe Hierarchical Clustering iterasi awal sampai hanya tersisa sedikit titik yang
1. Agglomerative berubah
mulai dengan tiap point sebagai cluster Kelebihan =
sendiri 1. Sederhana dan efisien
pada tiap step, gabungkan pasangan 2. Mampu menangani data besar
terdekat hingga hanya tersisa satu (atau 3. iteratif dan konvergen cepat
k)cluster 4. Bekerja baik pada data yang bentuk kelompoknya
2. Divisive sphere
mulai dengan satu cluster yang Kelemahan =
mengandung semua titik 1. Sensitif terhadap skala variabel
pada tiap step, pecah cluster hingga tiap 2. Menggunakan metode k-modes untuk data kategorikal
cluster memiliki satu point (atau hingga 3. Perlu menentukan jumlah cluster (k) diawal
ada k cluster) 4. Sensitif terhadap noisy data dan outlier
5. Tidak cocok untuk menemukan cluster dengan bentuk
Bisa juga direpresentasikan
tidak cembung
sebagai dendogram. Clustering
Variasi =
data dilakukan dengan
1. Jumlah K
memotong dendogram pada level
2. Dissimilarity calculations
yang diinginkan, kemudian setiap
3. Strategies to calculate cluster means
komponen yang
4. Handling categorical data: k-modes
terhubung membentuk cluster
Model Based Mengganti mean cluster menjadi mode
Density based approach Sebuah model dihipotesiskan Menggunakan dissimilarity measures baru
Berdasarkan fungsi connectivity untuk tiap cluster dan mencoba Menggunakan metode frequency-based untuk update
dan density. mencari model terbaik modes
DBSCAN, OPTICS sesuai dengan data pada tiap 5. Campuran categorical and numerical data: k-prototype
cluster. method
Grid based approach Fuzzy Clustering, Self Organizing K-Medoids
Menggunakan grid untuk
Map (SOM) Mean diganti medoids
mengorganisir data dan
mengelompokkan data dengan Frequent medoids adalah objek yang terletak paling tengah dalam
cluster
tingkat kehalusan / detail yang
Pattern Based secara iteratif mengganti medoid, apabila total distance
berbeda.
Berdasarkan Frequent Pattern Analysis meningkat maka dipilih
STING, CLIQUE
p-cluster
User guided or Dengan
Objek biasanya dihubungkan dengan berbagai
Mempertimbangkan user
constraint specified atau app Link Based cara, link yang besar / kuat dapat
digunakan untuk mengcluster objek
based specified constraints
Termasuk supervised Learning
input (attribute set [x]) -> classification model -> output (class label[y]) Classification
“Mengelompokkan objek ke salah satu label atau kategori yang telah ditentukan berdasarkan training data”.
Dataset terbagi menjadi training dan test, training adalah labeled data untuk
membangun classification model, test data digunakan untuk menentukan akurasi model
dan memvalidasi model yang telah di train. validation set adalah ketika test set
digunakan untuk memilih model.
Memberikan sekumpulan labeled dataset sebagai
training set untuk membuat model.
Model Construction
Model direpresentasikan dalam bentuk classification
rules, decision trees, atau fungsi matematika
(classifiers)
membutuhkan lebih
butuh lebih sedikit
banyak waktu untuk
waktu untuk prediksi
Kuat terhadap noisy data karena menggunakan rata-rata k titik terdekat melakukan prediksi
Curse of dimensionality: Jarak antar tetangga dapat didominasi oleh
atribut yang tidak
relevan, untuk mengatasinya dapat dilakukan peregangan sumbu atau
penghapusan
Efektif dengan ruang
attribut yang kurang relevan.
hipotesis yang lebih
Eager Learner : Decision Tree beragam karena hanya dapat
Sebuah tree memiliki 3 tipe node menggunakan banyak berkomitmen pada
1. Root node = node yang tidak memiliki edge fungsi linear lokal satu hipotesis tunggal
masuk dan nol atau lebih edge keluar
untuk membentuk yang mencakup
2. Internal nodes = tiap node yang memiliki tepat
satu edge masuk dan dua atau lebih
perkiraan global seluruh ruang contoh
edge keluar implisit terhadap
3. Leaf atau terminal nodes = satu edge masuk fungsi target
dan tidak ada edge keluar
Jalur dari root ke leaf merepresentasikan
classification rules Contoh: Decision
Contoh: Instance-
Tree, SVM, Neural
based learning
Network, etc
Decision Tree Algorithm
Basic Algorithm (greedy) Conditions for stopping partitioning
1. Tree dibentuk dalam cara top-down recursive divide-and- 1. Semua sampel untuk node tertentu termasuk
conquer dalam kelas yang sama
2. awalnya semua training examples ada di root 2. tidak ada attribute tersisa untuk dipartisi,
3. semua attribute adalah kategorikal majority voting digunakan untuk
4. training examples dipartisi secara rekursif berdasarkan mengklasifikasikan leaf node
atribut yang dipilih 3. tidak ada sample tersisa
5. test attributes dipilih berdasarkan pengukuran heuristic
atau statistikal (information
gain, gain index, dll)
pt2Classification
1. Information Gain
Attribute
Memilih attribute dengan information gain tertinggi
Selection Measure pi = probabilitas tuple sembarang di D termasuk dalam kelas Ci,
Expected information (entropy) yang diperlukan untuk mengklasifikasikan tuple di D
Information gained
Jika dataset D dibagi pada A menjadi 2 subset D1 dan D2, gini index
ditentukan dengan:
Reduction in impurity
3. hitung info yang didapat per attribut, misal dari attribut age
Class:
C1: buys_computer = “yes”
C2: buys_computer = “no”
Data to be classified:
X = (age≤30, income=medium, student=yes,
credit_rating=fair)
1. lakukan 10 fold
2. asumsikan sample mengikuti t distribution dengan k-1 degrees of freedom (karena
10 fold, k = 10) dapat berubah sesuai fold?
3. lakukan t-test atau student's t test significantly different?
4. Null Hypothesis: M1 dan M2 sama 1. compute t. select significance
5. jika null hypothesis dapat ditolak maka dapat ditarik kesimpulan bahwa ada level
perbedaan antara M1 dan M2 yang statistically significant dan kita dapat memilih 2. find t value corresponding to k-1
degrees of freedom
model dengan error rate yang lebih rendah
t distribution is symmetric:
typically upper % points of
Significance level = misal sig = 0.05 atau 5% artinya M1 dan M2 berbeda secara distribution shown -> look up
signifikan untuk 95% dari populasi value for confidence limit (z)
3. if t>z or t<-z, then reject null
hypothesis.