Minggu 13 - Unsupervised Learning
Minggu 13 - Unsupervised Learning
1
Cluster Validation
Supervised classification:
• Ground truth class labels known
• Accuracy, precision, recall Precision = 5/5 = 100%
Recall = 5/7 = 71%
Cluster analysis:
• No class labels Oranges:
2
Measuring clustering validity
Internal Index:
•Validate without external info
•With different number of
clusters ? ?
•Solve the number of clusters
External Index
•Validate against ground truth
•Compare two clusters: ?
(how similar)
?
3
Which clustering is better?
4
Which clustering is better?
5
Which clustering is better?
6
Clustering Evaluation
7
Clustering Evaluation
8
Clustering Evaluation
• Cluster validation refers to procedures that evaluate the results of
clustering in a quantitative and objective fashion. [Jain & Dubes, 1988]
• How to be “quantitative”: To employ the measures.
• How to be “objective”: To validate the measures!
9
Aspek dalam Validation Cluster
1. Menentukan clustering tendency dari sekumpulan data, misalnya membedakan apakah
struktur non-random berada dalam data
2. Membandingkan hasil analisis cluster secara eksternal, misalnya, memberikan label kelas
secara eksternal.
3. Mengevaluasi seberapa baik hasil analisis cluster yang cocok dengan data tanpa mengacu
pada informasi eksternal.
• Gunakan hanya data
4. Membandingkan hasil dari dua set analisis cluster yang berbeda untuk menentukan mana
yang lebih baik.
5. Menentukan ‘correct’ number of clusters.
Untuk point 2, 3, dan 4, kita dapat membedakan lebih lanjut apakah kita ingin mengevaluasi
seluruh clustering atau hanya cluster individu.
10
Validitas Cluster
• Ukuran numerik yang diterapkan untuk menilai berbagai aspek validitas cluster,
diklasifikasikan ke dalam tiga jenis
• Indeks Eksternal: Digunakan untuk mengukur sejauh mana label cluster cocok dengan label
kelas yang disediakan secara eksternal.
• Misalnya, entropi, presisi, recall
• Indeks Internal: Digunakan untuk mengukur kebaikan struktur pengelompokan tanpa mengacu
pada informasi eksternal.
• Misalnya, Jumlah Kesalahan Kuadrat (SSE)
• Indeks Relatif: Digunakan untuk membandingkan dua klaster atau klaster yang berbeda.
• Seringkali indeks eksternal atau internal digunakan untuk fungsi ini, misalnya, SSE atau entropi
11
Mengukur Validitas Cluster Melalui Korelasi
• Dua matriks
• Similarity atau Distance Matriks
• Satu baris dan satu kolom untuk setiap titik data
• Entri adalah kesamaan atau jarak dari pasangan titik yang terkait
• "Insiden“ Matrik
• Satu baris dan satu kolom untuk setiap titik data
• Entri adalah 1 jika pasangan poin terkait termasuk dalam cluster yang sama
• Entri adalah 0 jika pasangan poin terkait termasuk dalam cluster yang berbeda
• Korelasi yang tinggi (positif untuk kesamaan, negatif untuk jarak) menunjukkan bahwa titik-titik yang
termasuk dalam cluster yang sama saling berdekatan.
• Bukan ukuran yang baik untuk beberapa cluster berbasis kepadatan atau kedekatan.
12
Mengukur Validitas Cluster Melalui Korelasi
• Korelasi matriks insiden dan kedekatan untuk pengelompokan K-means dari dua set data
berikut.
13
Matrik Similarity untuk validasi cluster
• Matriks Similarity memiliki hubungan dengan label cluster dan pemeriksa secara visual.
14
Matrik Similarity untuk validasi cluster
• Clusters in random data are not so crisp
15
Matrik Similarity untuk validasi cluster
• Clusters in random data are not so crisp
16
Matrik Similarity untuk validasi cluster
• Clusters in random data are not so crisp
17
Matrik Similarity untuk validasi cluster
DBSCAN
• Clusters in more complicated figures are not well separated
• This technique can only be used for small datasets since it requires a quadratic
computation
18
Internal indexes
• Ground truth is rarely available but unsupervised validation must be done.
• Minimizes (or maximizes) internal index:
• Variances of within cluster and between clusters
• Rate-distortion method
• F-ratio
• Davies-Bouldin index (DBI)
• Bayesian Information Criterion (BIC)
• Silhouette Coefficient
• Minimum description principle (MDL)
• Stochastic complexity (SC)
19
Internal Measure : SSE
• Indeks Internal: Digunakan untuk mengukur kebaikan struktur pengelompokan tanpa
mengacu pada informasi eksternal, ex SSE
• SSE baik untuk membandingkan dua cluster (Average SSE).
• Dapat juga digunakan untuk memperkirakan jumlah cluster
20
Internal Measures: Cohesion and Separation
• Cohesion Cluster: Mengukur seberapa dekat keterkaitan objek dalam sebuah cluster
• Separation Cluster: Mengukur seberapa berbeda atau terpisah dengan baik sebuah
cluster dari cluster lain
• Contoh: Sequared Error
• Cohesion diukur dengan jumlah kuadrat dalam cluster (Sum of Squares / SSE)
• Separation diukur dengan jumlah antar cluster kuadrat (Sum of Squares / SSE)
• Dimana ‘mi’ adalah ukuran cluster ‘i’ , ‘c’ adalah overall mean
21
Internal Measures: Cohesion and Separation
• A proximity graph based approach can also be used for cohesion and separation.
• Cluster Cohesion adalah jumlah bobot semua link dalam sebuah cluster.
• Cluster separation adalah jumlah bobot antara node dalam cluster dan node di luar
cluster.
separation 22
Internal Measures: Silhouette Coefficient
• Silhouette Coefficient menggabungkan ide-ide dari kedua cohesion dan separation,
tetapi untuk poin individu, serta clustering
• Untuk titik individu i
• Hitung a = average distance of 𝑖 to the points in its own cluster
• Hitung b = min (over clusters) of the average distance of 𝑖 to points in other clusters
• The silhouette coefficient for a point is then given by
• S= 1 – a/𝑏
• Biasanya rentang 0 dan 1.
• Semakin mendekati 1 semakin baik.
• Bisa kurang dari 0 tapi ini adalah kasus yang bermasalah
23
Silhouette Coefficient Example
24
Davies-Bouldin index (DBI)
• Minimize intra cluster variance
• Maximize the distance between clusters
• Cost function weighted sum of the two:
MAE j + MAE k
R j ,k =
d (c j , c k )
M
1
DBI =
M
max R
j =1
j k
j ,k
25
Davies-Bouldin index (DBI)
26
Internal indexes
27
Internal indexes
Soft partitions
28
Internal measures – caveats
29
Framework for Cluster Validity
• Perlu Framework untuk menjelaskan hasil dari measure.
• Misalnya, jika measure/ukuran evaluasi kita bernilai 10, apakah itu baik, sedang, atau buruk?
• Untuk membandingkan hasil dari dua set analisis cluster yang berbeda, framework
kurang diperlukan.
• Namun, apakah perbedaan antara dua nilai indeks itu signifikan?
30
Statistical Framework For SSE
• Bandingkan SSE dari tiga cluster dalam data random
• Histogram SSE untuk tiga cluster dalam 500 kumpulan data random dari 100 random point
yang terdistribusi dalam rentang 0,2 – 0,8 untuk x dan y
• Nilai 0.005 sangat tidak mungkin
31
Statistical Framework for Correlation
• Correlation of incidence and proximity matrices for the K-means clustering of the
following two data sets.
32
Empirical p-value
• Jika kita memiliki pengukuran v (misalnya, nilai SSE)
• … dan kami memiliki N pengukuran pada dataset random
• … nilai p empiris adalah fraksi pengukuran dalam data random yang memiliki nilai lebih
kecil atau sama dengan nilai v (atau lebih besar atau sama jika kita ingin
memaksimalkan)
• yaitu, nilai dalam kumpulan data random setidaknya sama baiknya dengan nilai dalam data
nyata
33
Bayesian information criterion (BIC)
Formula for GMM
1
BIC = L( ) − m log n
2
L(θ) -- log-likelihood function of all models;
n -- size of data set;
m -- number of clusters
Under spherical Gaussian assumption, we get :
34
Knee Point Detection on BIC
35
Estimating the “right” number of clusters
• Typical approach: find a “knee” in an internal measure curve.
36
Estimating the “right” number of clusters
• SSE curve for a more complicated data set
37
External Measures for Clustering Validity
• Asumsikan bahwa data diberi label dengan beberapa label kelas
• Misalnya, dokumen diklasifikasikan ke dalam topik, orang diklasifikasikan menurut pendapatan
mereka, politisi diklasifikasikan menurut partai politik.
• Ini disebut “ground truth"
• Dalam hal ini kami ingin cluster menjadi homogen sehubungan dengan kelas
• Setiap cluster harus berisi elemen sebagian besar satu kelas
• Setiap kelas idealnya harus ditugaskan ke satu cluster
38
Confusion Matrix
39
Measure
40
Measure
41
Measure
42
Good and Bad clustering
43
Another Clustering
44
Comparison of the indexes (K-means)
45
External Measures of Cluster Validity: Entropy and Purity
46
Final Comment on Cluster Validity
47
TERIMA KASIH
Ada pertanyaan ???
48