Anda di halaman 1dari 34

Tugas Analisis Multivariat B

Penerapan Analisis Gerombol (Cluster)

Yuli Rochmawati
175090501111003 (05)
Perolehan Data
• Data didapat pada plattform website Badan Pusat Statistik
(BPS) Jawa Timur, sumber: https:/jatim.bps.go.id/
• Terdiri dari 3 variabel yang berkaitan dengan Indeks
Pembangunan Manusia (IPM) pada 38 kota/kabupaten di
Jawa Timur pada tahun 2017.
Peubah keterangan Satuan Skala

Rasio sekolah murid SMA


𝑋1 Persen (%) Rasio
Kabupaten/Kota Jawa Timur tahun 2017
Kepadatan penduduk Kabupaten/Kota
𝑋2 Orang Rasio
Jawa Timur tahun 2017

Fasilitas kesehatan (posyandu,rumah


𝑋3 sakit,puskesmas,polindes) Tempat/Fasilitas Rasio
Kabupaten/Kota Jawa Timur tahun 2017
Data sebagai contoh penerapan
Kabupaten/Kota Y X1 X2 X3 Kabupaten/Kota Y X1 X2 X3
Pacitan 66.51 10.23 553388 965 Magetan 72.6 9.79 628609 997
Ponorogo 69.26 11.02 869894 1249 Ngawi 69.27 12.25 829899 1395
Trenggalek 68.1 13.69 693104 988 Bojonegoro 67.28 13.85 1243906 2017
Tulungagung 71.24 10.68 1030790 1439 Tuban 66.77 14.28 1163614 1754
Blitar 69.33 11.88 1153803 1605 Lamongan 71.11 11.02 1188478 2001
Kediri 70.47 16.04 1561392 1997 Gresik 74.84 18 1285018 1630
Malang 68.47 18.54 2576596 3247 Bangkalan 62.3 16.11 970894 1304
Lumajang 64.23 13.9 1036823 1471 Sampang 59.9 12.61 958082 1255
Jember 64.96 17.13 2430185 3002 Pamekasan 64.93 11.88 863004 1196
Banyuwangi 69.64 15.9 1604897 2391 Sumenep 64.28 7.76 1081204 1643
Bondowoso 64.75 11.34 768912 25 Kota Kediri 77.13 18.52 284003 348
Situbondo 65.68 9.11 676703 991 Kota Blitar 77.1 17.16 139995 170
Probolinggo 64.28 15.99 1155214 84 Kota Malang 80.65 15.91 861414 665
Pasuruan 66.69 19.13 1605307 222 Kota Probolinggo
72.09 18.21 233123 224
Sidoarjo 78.7 20.24 2183682 144 Kota Pasuruan74.39 19.88 197696 298
Mojokerto 72.36 13.75 1099504 63 Kota Mojokerto
76.77 16.96 127279 172
Jombang 70.88 13.54 1253078 256 Kota Madiun 80.13 15.19 176099 276
Nganjuk 70.69 15.13 1048799 232 Kota Surabaya81.07 18.91 2874699 2360
Madiun 70.27 12.62 679888 1029 Kota Batu 74.26 20.27 203997 205
Metode Hierarki
Metode Penggumpalan : Agglomeratif

Berdasarkan default pada R, perhitungan


menggunakan jarak euclidean dan metode
average linkage (metode terbaik).
Langkah-Langkah & Interpretasi
Berikut langkah-langkah untuk analisis cluster hierarki
dengan software R:
• Masukan data dalam excel, dan simpan ke dalam
direktori file dalam format csv.
• Buka R Studio kemudian masukan koding
untuk membaca data kedalam R.
Direktori file tsb tersimpan

DATA=read.csv("E:/UB/SEMESTER 6/DATA CLUSTER.csv",


header=TRUE, sep=";")
nrow(DATA)
head(DATA)

Output pada Console

Banyak baris dalam data

Menampilkan beberapa data di awal


• Selanjutnya, melakukan membakukan data
(standardize). Hal ini dilakukan karena satuan
data yang tidak sama.
#STANDARDIZE DATA
X1_NEW=scale(DATA$X1,scale=TRUE,center=TRUE)
X2_NEW=scale(DATA$X2,scale=TRUE,center=TRUE)
X3_NEW=scale(DATA$X3,scale=TRUE,center=TRUE)
DATA_NEW=data.frame(cbind(X1_NEW, X2_NEW, X3_NEW))
head(DATA_NEW)

scale: perintah untuk standardize mengikuti distribusi Z(0,1)


DATA_NEW: data baru yang berisi data yang telah dibakukan

Output
pada
Console
• Selanjutnya, mengukur multikolinieritas (salah satu
asumsi dalam analisis cluster) dan jarak pada data.
multikol=cor(DATA_NEW)
multikol
jarak=dist(DATA_NEW)
jarak

Perhitunagan jarak antar objek pada perintah R, default memakai jarak euclidean

Output pada Console


Interpretasi Output
Dari output tersebut dapat diketahui
bahwa nilai korelasi antar variabel
tidak ada yang melebihi 0.7, artinya
dapat disimpulkan bahwa tidak
terjadi multikolinearitas antara
variabel satu dengan variabel lainnya.
Maka, dapat dilanjutkan analisis
cluster.

 Output untuk mencari berapa


selisih dari data 1 ke data yang lain.
Dimulai dari data kedua karena jika
dimulai dari data 1 nilainya 0,
karena jarak berada di dirinya
sendiri. Data pertama dengan data
kedua mempunyai jarak 0.6275,
begitu seterusnya hingga data
terakhir.
• Kemudian, menghitung kedekatan antar cluster yang
terbentuk dengan objek. Dilakukan dengan 3 metode
dan dibandingkan nilai korelasi chopenetic untuk
mengetahui metode terbaik.
hierarkiav = hclust(dist(DATA_NEW), method="ave")
hierarkiave
plot(hierarkiave, DATA$Kabupaten.Kota, labels =
DATA$Kabupaten.Kota) #dendogram
rect.hclust(hierarkiave,3) Banyak cluster yang akan terbentuk
anggotaave = data.frame(id=DATA$Kabupaten.Kota,
cutree(hierarkiave,k=3)) #hasil kelompok data
anggotaave
cophenetic(hierarkiave) #jarak cophenetic average
#korelasi cophenetic
d1 <- dist(DATA_NEW)
hc <- hclust(d1, "ave")
d2 <- cophenetic(hc)
corave=cor(d1, d2)
corave Metode Average Linkage
Output pada Console

Hasil cluster yang terbentuk


pada metode average

Nilai korelasi pada metode average


• Dilanjutkan pada metode complete linkage
#METODE COMPLETE LINKAGE
hierarkicomp = hclust(dist(DATA_NEW), method="complete")
hierarkicomp
plot(hierarkicomp, labels = DATA$Kabupaten.Kota) #dendogram
rect.hclust(hierarkicomp,3) #plot mengelompokkan data
anggotacomp = data.frame(id=DATA$Kabupaten.Kota,
cutree(hierarkicomp,k=3)) #hasil kelompok data
anggotacomp
cophenetic(hierarkicomp) #jarak cophenetic complete
#korelasi cophenetic
d1 <- dist(DATA_NEW)
hc <- hclust(d1, "complete")
d2 <- cophenetic(hc)
corcomp=cor(d1, d2)
corcomp

Metode Complete Linkage


Output pada Console

Hasil cluster yang terbentuk


pada metode complete

Nilai korelasi pada metode complete


• Terakhir, dilanjutkan pada metode single linkage
#METODE SINGLE LINKAGE
hierarkising = hclust(dist(DATA_NEW), method="single")
hierarkising
plot(hierarkising, labels = DATA$Kabupaten.Kota) #dendogram
rect.hclust(hierarkising,3) #plot mengelompokkan data
anggotasing = data.frame(id=DATA$Kabupaten.Kota,
cutree(hierarkising,k=3)) #hasil kelompok data
anggotasing
cophenetic(hierarkising) #jarak cophenetic single
#korelasi cophenetic
d1 <- dist(DATA_NEW)
hc <- hclust(d1, "single")
d2 <- cophenetic(hc)
corsing=cor(d1, d2)
corsing

Metode Single Linkage


Output pada Console

Hasil cluster yang terbentuk


pada metode single

Nilai korelasi pada metode single


• Membuat tabel berisi nilai korelasi cophenetic pada
ketiga metode untuk memilih metode terbaik
#MENENTUKAN METODE TERBAIK
metode.terbaik<-data.frame(corave, corcomp, corsing)
metode.terbaik

Output pada Console

Dari output diatas terlihat bahwa korelasi tertinggi


terdapat pada metode average yaitu sebesar
Interpretasi 0.8508798, artinya metode average merupakan
metode terbaik yang digunakan dalam studi kasus
saat ini.
Interpretasi Output
Hasil Metode Average

Plot Dendogram
Gambar tersebut
merupakan output dari plot
dendogram yang menunjukkan
bahwa terdapat
3 cluster dilihat dari jarak yang
terdekat antar objek. Dari plot
dendogramnya didapatkan
hasil cluster 1 terdapat 3
wilayah dan cluster 2 terdapat
2 wilayah serta cluster 3
terdapat 33 wilayah.
Hasil Penggelompokan
Wilayah

• Kemudian, dilakukan pemisahan data


berdasar cluster pada excel dan hitung
rata-rata per variabel pada data
• Melakukan analisis berdasarkan rata-rata setiap cluster
di setiap variabel pada excel

X1 : Rasio sekolah murid SMA


X2 : Banyak Penduduk

X3 : Banyak Fasilitas Kesehatan

Ketiga variabel selaras sebagai Indikator


Pembangunan Manusia (IPM)
Interpretasi Hasil Analisis
Metode hierarki pada agglomeratif (jarak euclidean, metode average
linkage) k (banyak cluster)=3

• Kluster 1 memiliki rasio murid SMA rendah, kepadatan penduduk


yang rendah dan mempunyai fasilitas kesehatan dengan kategori
sedang. Maka, dapat dikatan bahwa IPM pada 33 kota/kabupaten
rendah.
• Kluster 2 bercirikan rasio murid SMA sedang, kepadatan penduduk
yang tinggi dan mempunyai fasilitas kesehatan dengan kategori
tinggi. Maka, dapat dikatan bahwa IPM pada 3 kota/kabupaten
tinggi atau cenderung kota yang maju.
• Kluster 3 bercirikan rasio murid SMA tinggi, kepadatan penduduk
yang sedang dan mempunyai fasilitas kesehatan dengan kategori
rendah. Maka, dapat dikatan bahwa IPM pada 2 kota/kabupaten
sedang atau cenderung kota dalam tahap pengembangan.
Metode Non-Hierarki
Metode K-Means

Berdasarkan default pada R, perhitungan k-


means melalui satu perintah dan memnculkan
output secara lengkap.
Langkah-Langkah & Interpretasi
Berikut langkah-langkah untuk analisis cluster hierarki
dengan software R:
Pada langkah awal input data pada R sama dengan metode hierarki.

• Masukan data dalam excel, dan simpan ke dalam


direktori file dalam format csv.
• Buka R Studio kemudian masukan koding untuk
membaca data kedalam R.
• Selanjutnya, melakukan membakukan data
(standardize). Hal ini dilakukan karena satuan
data yang tidak sama.
• Berikutnya, install beberapa package untuk analisis ini
yaitu “cluster”, “factoextra”, dan “tidyverse”. Dalam
proses install pastikan tersambung dengan internet
#install package
install.packages("factoextra", type="win.binary")
install.packages("tidyverse", type="win.binary")
install.packages("cluster")
library(factoextra)
library(cluster)
library(tidyverse)

Setelah proses install berhasil library akan dapat terdeteksi oleh R

Output pada Console


• Selanjutnya, mengukur jarak korelasi antar variabel
#JARAK KORELASI
distance<-get_dist(DATA_NEW)
fviz_dist(distance, gradient = list(low = "green", mid =
"white", high = "red"))

Output pada Console & Interpretasi

• Gambar ini merupakan nilai jarak


antar data dan visualisasi dari jarak
antara data. Jarak digunakan untuk
mencari berapa selisih dari data 1 ke
data 2, dan begitu seterusnya.
• Warna merah menujukkan jarak yang
besar, warna putih menujukkan jarak
yang sedang, sedangkan warna hijau
menunjukkan jarak yang dekat atau
rendah.
• Masukan dan run koding untuk cluster k-means
#K-MEANS CLUSTER
final <- kmeans(DATA_NEW, 3) Banyak cluster yang akan terbentuk
print(final)
fviz_cluster(final, data = DATA_NEW)
DATA_NEW %>%
mutate(cluster = final$cluster) %>%
group_by(cluster) %>%
summarise_all("mean")
cluster
cbind(cluster, DATA)
K olom berisi kelompok cluster tiap objek pada dat a

Fviz.cluster: perintah untuk plot cluster yang terbentu pada metode k-means

%>%: perintah untuk memperbarui data menurut perintah yang


dijalankan, dalam hal ini berdasarkan rata-rata tiap cluster
Output pada Console

N yang terbentuk pada tiap cluster

Nilai rata-rata terbentuk dalam cluster

Hasil pengclusteran
Hasil Penggelompokan Wilayah

• Kemudian, dilakukan pemisahan data


berdasar cluster pada excel dan hitung
rata-rata per variabel pada data
Interpretasi Pada Output
• Terdapat 3 cluster tebentuk, dimana cluster 1 berisi 6
wilayah, cluster 2 berisi 17 wilyah dan cluster 3 berisi 15
wilayah.

 • Nilai rata X1 pada cluster 2 sebesar 0.8109187 (data baku)


untuk mencari nilai sebenar nya memakai rumus: (: rata-rata
variabel X ke i=1,2,3 dan : simpangan baku variabel X ke i)
• Melakukan analisis berdasarkan rata-rata setiap cluster
di setiap variabel pada excel

X1 : Rasio sekolah murid SMA


X2 : Banyak Penduduk

X3 : Banyak Fasilitas Kesehatan

Ketiga variabel selaras sebagai Indikator


Pembangunan Manusia (IPM)
Interpretasi Hasil Analisis
Metode mon-hierarki pada metode k-means dimana k (banyak cluster)=3

• Kluster 1 memiliki rasio murid SMA tinggi, kepadatan penduduk


yang tinggi dan mempunyai fasilitas kesehatan dengan kategori
tinggi. Maka, dapat dikatakan bahwa IPM pada 6 kota/kabupaten
tinggi/kota yang maju.
• Kluster 2 bercirikan rasio murid SMA rendah, kepadatan penduduk
yang sedang dan mempunyai fasilitas kesehatan dengan kategori
sedang. Maka, dapat dikatakan bahwa IPM pada 17 kota/kabupaten
sedang atau cenderung kota yang sedang berkembang.
• Kluster 3 bercirikan rasio murid SMA sedang, kepadatan penduduk
yang rendah dan mempunyai fasilitas kesehatan dengan kategori
rendah. Maka, dapat dikatakan bahwa IPM pada 15 kota/kabupaten
rendah atau cenderung kota yang tertittal pembangunannya.
Perbandingan Hasil Pada Metode
Hirarki dan Metode Non Hierarki
Metode hierarki menggunakan jarak euclidean dan
metode average linkage (metode terbaik) sedangkan
non-hierarki dengan metode k-means
Metode Hierarki

Pada k=3
banyak
Metode Non - Hierarki anggota dan
karateristik
tiap cluster
berbeda

K: banyak cluster
Kesimpulan
• Dari penggunaan 2 metode yaitu metode hierarki menggunakan
jarak euclidean pada metode average linkage dan non-hierarki
degan metode k-means, didapatkan hasil yang berbeda yaitu pada
anggota cluster dan karateristik cluster dengan banyak cluster
sebesar 3.
• Pada pendekatan hierarki terdapat 2 kota/kabupaten dengan IPM
yang tinggi/kota maju sedangkan metode non-hierarki terdapat 6
kota/kabupaten dengan IPM yang tinggi.
• Pada pendekatan hierarki karateristik cluster dengan anggota IPM
tinggi hanya memiliki 2 variabel (X2 & X3) dengan rata-rata
berkategori tinggi sedangkan pendekatan non-hierarki karateristik
cluster dengan anggota IPM tinggi, seluruh variabel (X1, X2 & X3)
memiliki rata-rata berkategori tinggi.
Daftar Pustaka
Everitt, B., & Hothorn, T. 2011. An introduction to applied multivariate analysis with R.
Berlin: Springer (Science & Business Media).
Härdle, W., & Simar, L. 2011. Applied multivariate statistical analysis. Berlin: Springer
(Science & Business Media).
Kassambara, A. 2017. Practical guide to cluster analysis in R: Unsupervised machine
learning (Vol. 1). Publikasi oleh: STHDA
Mattjik, A. A., Sumertajaya, I., Wibawa, G. N. A., & Hadi, A. F. .2011. Sidik peubah ganda
dengan menggunakan SAS. Bogor: IPB Press

Anda mungkin juga menyukai