| Set 1
Metrik kinerja yang berbeda digunakan untuk mengevaluasi Algoritma Pembelajaran
Mesin yang berbeda. Dalam hal masalah klasifikasi, kami memiliki berbagai ukuran
kinerja untuk mengevaluasi seberapa baik model kami. Untuk analisis kluster,
pertanyaan analognya adalah bagaimana cara mengevaluasi “kebaikan” kluster yang
dihasilkan?
Mengapa kita memerlukan indeks validitas klaster?
Untuk membandingkan algoritma pengelompokan.
Untuk membandingkan dua set cluster.
Untuk membandingkan dua kelompok yaitu yang mana yang lebih baik dalam hal
kekompakan dan keterhubungan.
Untuk menentukan apakah struktur acak ada dalam data karena kebisingan.
dimana,
# K-Means
from sklearn import sklearn
k_means = cluster.KMeans(n_clusters = 3 )
k_means.fit(df) #K-means training
y_pred = k_means.predict(df)
print (base.dunn(cluster_list))
Keluaran:
0,67328051
Indeks DB:
Indeks Davies-Bouldin (DBI) (diperkenalkan oleh David L. Davies dan Donald W.
Bouldin pada 1979), metrik untuk mengevaluasi algoritma pengelompokan, adalah
skema evaluasi internal, di mana validasi seberapa baik pengelompokan telah
dilakukan dibuat menggunakan jumlah dan fitur yang melekat pada dataset.
Turunkan nilai indeks DB, lebih baik adalah pengelompokan. Ini juga memiliki
kekurangan. Nilai yang baik yang dilaporkan oleh metode ini tidak menyiratkan
pengambilan informasi terbaik.
Indeks DB untuk k jumlah cluster didefinisikan sebagai:
dimana,
Di bawah ini adalah implementasi Python dari indeks DB di atas menggunakan
perpustakaan sklearn:
filter_none
brightness_4
from datasets import sklearn
from sklearn.cluster import
from sklearn.metrics import davies_bouldin_score
from sklearn.datasets.samples_generator import make_blobs
# K-Means
kmeans = kmeans KMeans(n_clusters = 4 , random_state = 1 ).fit(X)
Referensi:
http://cs.joensuu.fi/sipu/pub/qinpei-thesis.pdf
https://en.wikipedia.org/wiki/Davies%E2%80%93Bouldin_index
https://en.wikipedia.org/wiki/Dunn_index