Pertemuan 4
Dr. Oky Dwi Nurhayati, ST, MT
S1 – Akuntansi
Universitas Diponegoro
Outline Materi
Metode Analitik Data Tingkat Lanjut
Overview of Clustering
- K-means versus Kernel K-means
o Use Cases
o Overview of the Method
o Determining the Number of Clusters
- Additional Algorithms
K-Means Clustering
• K-Means Clustering adalah metode Data Mining yang
melakukan proses pemodelan (unsupervised) dan
melakukan pengelompokan data dengan partisi
• K-Means merupakan metode non hierarki clustering yang
menggunakan model centroid untuk sebuah cluster.
Centroid merupakan titik tengah dari suatu cluster yang
berupa nilai. Centroid untuk menghitung jarak suatu obyek
data terhadap centroid
3
Tujuan Analisis Cluster
• Tujuan dari Analisis Cluster adalah
mengelompokkan obyek berdasarkan
kesamaan karakteristik antar obyek
• Ciri-ciri suatu cluster yang baik yaitu adalah :
– Homogenitas internal (within cluster); yaitu
kesamaan antar anggota dalam satu cluster.
– Heterogenitas external (between cluster); yaitu
perbedaan antara cluster yang satu dengan cluster
yang lain.
Aplikasi Cluster Analysis
• Pengenalan Pola
• Spatial Data Analysis
– Cluster spatial
• Pemrosesan gambar
• Economic Science (terutama market research)
• WWW (internet)
– Berita, hasil pencarian
– Cluster Weblog data to discover groups of similar access patterns
Aplikasi clustering (lanj)
• Marketing: Membantu pihak pemasaran untuk menentukan
grup khusus dan membuat program khusus untuk grup.
• Land use: Identifikasi area yang digunakan untuk hal yang
sama.
• Asuransi: Identifikasi grup yang memiliki tingkat claim yang
tinggi.
• Tata kota: Identifikasi rumah-rumah berdasarkan tipe, harga
dan lokasi.
Pendekatan Clustering
• Partisi :
– Buat partisi dan evaluasi berdasarkan kriteria tertentu,
misalnya meminimalkan sum of square errors
– Metode: k-means, k-medoids, CLARANS
• Hirarkis:
– Buat struktur hierarchical menggunakan kriteria tertentu
– Metode: Diana, Agnes, BIRCH, ROCK, CAMELEON
• Density-based :
– Berdasarkan connectivity dan density functions
– Metode: DBSACN, OPTICS, DenClue
• Yang lain: Grid-based approach, model-based, frequent
pattern-based, user-guided or constraint-based:
Jarak antar cluster
• Single link: jarak terpendek antar elemen di dua cluster dis(Ki, Kj) =
min(tip, tjq)
• Complete link: jarak terjauh antar elemen di dua cluster, i.e., dis(Ki,
Kj) = max(tip, tjq)
# transformasi dengan skala pada nilai UTS dan UAS (kolom 9 dan 10 pada tabel1)
tabel2=scale(tabel1[,9:10])
# untuk menampilkan hasil perubahan tabel2 menggunakan sintaks berikut;
View(tabel2)
# menentukan jumlah cluster terbaik dengan metode elbow/within sum of square/wss
fviz_nbclust(tabel2, kmeans, method = "wss")
# menentukan jumlah cluster terbaik dengan metode silhouette
fviz_nbclust(tabel2, kmeans)
Lanjutan R script selanjutnya;
# menentukan cluster dengan metode k-means
tabelfinal = kmeans(tabel2,3)
# melihat hasil clustering
print (tabelfinal)
# melihat hasil clustering dalam bentuk grafik
fviz_cluster(tabelfinal,data=tabel2)
Lanjutan R script selanjutnya;
# melihat hasil clustering dalam bentuk tabel
finalakhir=data.frame(tabel2,tabelfinal$cluster)
View(finalakhir)
R script selanjutnya ;
a <- scale(kluster)
jarak <- get_dist(a)
fviz_dist(jarak,
gradient=list(low="#00AFBB",
mid="white", high="#FC4E07"))
Misalkan ditentukan 3 cluster maka sintaks yang digunakan:
k3 <- kmeans(a, centers = 3, nstart = 25) #penentuan jumlah
cluster
k3
fviz_cluster(k3, data=kluster) #visualisasi hasil pengelompokan
Terbentuk 3 cluster dengan cluster 1 berisi 17 daerah, cluster 2
berisi 13 daerah, dan cluster 3 berisi 20 daerah, dengan cluster
meansnya seperti pada gambar diatas yaitu merupakan centroid
dari masing-masing ketiga cluster. Hasil visualisasinya:
Untuk mendapatkan k optimal, seperti metode elbow atau within sum
square, silhoute, dan gap statistics dapat menambahkan sintaks berikut
#cluster optimal
fviz_nbclust(kluster, kmeans, method = "gap_stat")
fviz_nbclust(kluster, kmeans, method = "wss")
fviz_nbclust(kluster, kmeans, method="silhouette")
Latihan soal
1. Dengan menggunakan metode k –means clustering silhouette
dan wss, tentukan hasil cluster atribut ; income_husband dan
income_wife pada data acs. Simpulkan !
2. Dengan menggunakan k – means clustering silhouette dan wss,
tentukan hasil cluster atribut age_husband dan age_wife pada
data acs. Simpulkan !
TERIMA KASIH