LAPORAN PRAKTIKUM
Statistika Multivariat Terapan
Modul 7 : Analisis Cluster Non Hierarki
Muhammad Muhajir
S.Si., M.Sc
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA
2019
i
Daftar Isi
ii
Daftar Tabel
Daftar Gambar
iii
1 Pendahuluan
1. Hirarchial Methode
Metode ini memulai pengelompokan dengan dengan dua atau lebih objek
yang mempunyai kesamaan paling dekat. Kemudian proses diteruskan ke
objek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga
cluster akan membentuk semacam “pohon”, di mana ada hirarki (tingkatan)
1
yang jelas antar objek, dari yang paling mirip sampai paling tidak mirip.
Secara logika semua objek pada akhirnya akan membentuk sebuah
cluster. Dendogram biasanya digunakan untuk membantu memperjelas
proses hirarki tersebut.
2. Non-Hirarchial Methode
Berbeda dengan metode hirarki, metode ini justru dimulai dengan terlebih
dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster atau yang
lain). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa
mengikuti proses hirarki. Metode ini biasa disebut dengan K-Means Cluster.
K-means merupakan salah satu metode clustering non hirarki yang berusaha
mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini
mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik yang
sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai
karateristik yang berbeda di kelompokan ke dalam cluster yang lain. Secara umum
algoritma dasar dari K-Means Clustering adalah sebagai berikut : (Mauliadinata,
2013).
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam cluster secara random
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke centroid/rata-rata terdekat
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau
apabila perubahan nilai centroid, ada yang di atas nilai threshold yang
ditentukan atau apabila perubahan nilai pada objective function yang
digunakan di atas nilai threshold yang ditentukan
Distance space digunakan untuk menghitung jarak antara data dan centroid.
Adapun persamaan yang dapat digunakan salah satunya yaitu Euclidean Distance
Space. Euclidean distance space sering digunakan dalam perhitungan jarak, hal ini
2
dikarenakan hasil yang diperoleh merupakan jarak terpendek antara dua titik yang
diperhitungkan. Adapun persamaannya adalah sebagai berikut :
2
𝑑𝑖𝑗 = √∑𝑝𝑘=1{𝑥𝑖𝑘 − 𝑥𝑗𝑘 } …………………………………… (1.1)
Dimana :
dij = Jarak objek antara objek i dan j
P = Dimensi data
Xik = Koordinat dari obyek i pada dimensi k
Xjk = Koordinat dari obyek j pada dimensi k.
3
2 Deskripsi Kerja
No Kabupaten X1 X2 X3 X4 X5 X6
1 Cilacap 43.63 28.67 82.2 1.53 2.74 62.51
2 Banyumas 34.95 17.71 95.7 2.5 1.92 49.08
3 Purbalingga 35.95 17.35 52.7 2.7 5.54 54.94
4 Banjarnegara 24.49 14.48 44.9 1.5 4.62 59.18
5 Kebumen 22.47 23.37 52.5 1.35 4.51 60.59
6 Purworejo 25.91 46.05 48.2 1.87 2.54 48.79
7 Wonosobo 16.79 29.84 36.6 2.9 3.77 55.71
8 Magelang 35.82 63.66 70 2.76 1.65 61.02
9 Boyolali 37.47 66.6 67.4 2.3 6.98 44.71
10 Klaten 43.94 78.1 52.1 1.98 5.83 57.82
11 Sukoharjo 43.31 23.45 42.4 1.8 1.7 64.21
12 Wonogiri 26.57 22.06 50.3 0.98 2.54 67.49
13 Karanganyar 46.54 27.1 56.9 2.55 2.4 44.89
14 Sragen 25.82 15.82 65.2 0.65 2.7 54.03
4
15 Grobogan 27.99 43.14 51.6 1.84 6.12 57.62
16 Blora 18.11 32.19 43.4 1.54 5.62 48.94
17 Rembang 20 23.8 42.2 0.75 0.87 67.33
18 Pati 39.66 36.78 79 0.78 5.43 43.41
19 Kudus 26.39 20.01 52.7 0.45 2.67 42.76
20 Jepara 37.22 15.82 64.1 0.88 0.89 64.11
21 Demak 26.77 18.57 34.9 0.65 6.01 68.83
22 Semarang 48.71 37.57 70.9 2.6 1.65 47.66
23 Temanggung 21.43 18.06 34.7 1.95 1.99 43.05
24 Kendal 46.23 21.68 72.8 1.5 2.35 49.1
25 Batang 20.93 31.57 41 0.78 1.83 44.14
26 Pekalongan 28.34 36.62 42.2 0.58 1.55 53.61
27 Pemalang 20.35 62.76 56 0.48 6.02 58.74
28 Tegal 20.81 68.49 63.4 0.98 0.39 69.66
29 Brebes 54.5 38.51 65.4 0.47 1.45 40.23
30 Surakarta 37.8 77.36 88 0.23 0.41 77.46
31 Salatiga 38.71 57.7 36.2 0.53 0.55 60.86
5
2.2 Langkah Kerja
Adapun langkah-langkah dalam menyelesaikan diatas dengan menggunakan
software RStudio yaitu sebagai berikut:
1. Membuka aplikasi RStudio pada desktop.
2. Pada laporan ini, praktikan akan melakukan input data ke dalam aplikasi
RStudio dengan
datasyinta<-read.delim("lipboard")
datasyinta
3. Pada laporan ini, praktikan akan melakukan input data ke dalam aplikasi
RStudio dengan menggunakan syntax read delim. Adapun data yang
digunakan merupakan data data Kemiskinan berdasarkan Dimensi
Kualitas Kesehatan dan Kualitas Ekonomi di Jawa Tengah Tahun 2015,
dengan menggunakan syntax berikut:
datasyinta<-read.delim("clipboard")
datasyinta
#scalling data
sapply(datasyinta,var)
rge<-sapply(datasyinta,function(x) diff(range(x)))
data1<-sweep(datasyinta,2,rge,FUN="/")
sapply(data1,var)return(structure(list(statistic=chis
q, parameter=df, p.value=p.value, method=method,
data.name=data.name), class="htest"))}
6
6. Selanjutnya praktikan ingin menghitung nilai korelasi jarak yang
sebelumnya harus menjalankan package factoextra terlebih dahulu
dengan syntax seperti berikut.
library(factoextra)
distance<-get_dist(data1)
distance
7. Setelah itu praktikan akan membuat plot dari korelasi jarak yang
diperoleh dengan syntax seperti berikut.
7
library(gridExtra)
grid.arrange(p1,p2,p3,nrow=2)
fviz_nbclust(data1,kmeans,method = "wss")
fviz_nbclust(data1,kmeans,method =
"silhouette")
fviz_nbclust(data1,kmeans,method =
"gap_stat")<-kmeans(data1, centers = 3,
nstart = 25)
11. Setelah semua syntax dijalankan maka akan muncul output pada jendela
console RStudio yang kan dibahas lebih mendalam pada bab pembahasan.
8
3 Pembahasan
Gambar 3.2 di atas merupakan summary data yang berisi tentang mean (rata-
rata) dan ukuran persebaran diketahui informasi nilai terendah data (min), nilai
quartil pertama (1st Qu), Nilai Median atau nilai tengah, nilai rata-rata (mean), nilai
kuartil ketiga (3rd Qu), nilai maksimum (max), dan informasi NA’S. Dari gambar
di atas tidak terdapat keterangan NA yang artinya data yang diperoleh praktikan
tidak mengandung NA atau data missing.
10
0.09187595, dan X6 adalah 0.06624633. Kemudian berikut ini adalah output dari
jarak korelasi untuk setiap objek,
12
Gambar 3.8 Output komponen klaster
Berdasarkan gambar diatas yang merupakan hasil analisis K-Means
Clustering. Berdasarkan hasil output diatas dapat diketahui withinss yang nilai
withinss adalah jarak obyek didalam cluster yaitu pada cluster 1 jaraknya
0.6915699, cluster 2 jaraknya 4.6874782, dan cluster 3 jaraknya 4.0842544, jarak
obyek didalam cluster harus berdekatan agar membentuk anggota cluster yang
berkarakteristik hampir sama. Sedangkan nilai betweens sebesar 456131676 adalah
jarak obyek antar cluster atau jarak obyek diluar claster. Nilai betweens sebaiknya
jauh agar membentuk cluster-cluster yang tidak saling tumpang tindih. Size
merupakan jumlah objek dalam suatu klaster, klaster pertama ada 3 objek, klaster
kedua ada 17 objek dan klaster ketiga ada 11 objek. Berikut adalah hasil
pengelompokkan anggota cluster.
16
Pada gambar 3.12 dapat diketahui output metode gap_stat, dimana dengan
metode ini penentuan nilai “k” nya dilihat dari garis yang dihubungkan dengan garis
putus-putus. Garis yang dimaksud pada hasil metode gap_stat menunjukkan di
angka 1, hal ini berarti bahwa dengan menggunakan metode gap_stat nilai “k” nya
yaitu 1.
Setelah didapatkan nilai “k” dari tiga metode yang telah dilakukan,
menunjukkan baha metode wss dan metode silhouette nilai “k” nya 6, sedangkan
untuk metode gap_stat nilai “k” nya yaitu 1. Karena hasilnya 2:1 maka digunakan
nilai “k” nya yaitu 6. Sehingga akan dibentuk 6 kelompok dari data data
Kemiskinan berdasarkan Dimensi Kualitas Kesehatan dan Kualitas Ekonomi di
Jawa Tengah Tahun 2015.
18
Dari hasil pengkategorian berdasarkan hasil profilisasi rata-rata setiap
variabel maka Pemerintah Daerah dapat melihat bagaimana setiap kabupaten
berada pada kategori tingkat kemiskinan rendah, sedang, dan tinggi. Pada
kelompok kabupaten dengan tingkat kemiskinan tinggi, pemerintah dapat
memprioritaskan kabupaten-kabupaten tersebut agar turunnya tingkat kemiskinan
pada daerah tersebut dengan cara memberikan lapangan kerja, bantuan untuk rakyat
miskin, modal bagi UMKM, dan masih banyak lagi agar dapat terwujudnya
kesejahteraan yang merata di seluruh kabupaten di Jawa Tengah.
19
4 Penutup
20
5 Daftar Pustaka
21