ANALISIS MULTIVARIAT
MODUL 4
Oleh:
Sheryn Dian Permata 06211640000083
Nisfi Hemas Diga A. 06211640000126
Asisten Dosen:
Romy Yunika Putra
Dosen:
Dr. Bambang Widjanarko Otok, S.Si., M.Si.
Dr. Santi Wulan Purnami, S.Si., M.Si.
Seiring dengan pertumbuhan penduduk yang terus meningkat, kebutuhan rumah juga akan
meningkat. Oleh karena itu,saat banyak perusahaan ataupun perorangan yang
menawarkan produk rumahnya dengan beragam bentuk, ukuran, spesifikasi, lokasi, dan
tipe bangunan karena faktor-faktor tersebut dapat memengaruhi harga sebuah rumah.
Terdapat beberapa faktor yang mempengaruhi harga jual rumah antara lain adalah umur
rumah, jumlah ruangan, jumlah kamar tidur, jumlah rumah tangga, dan lain sebagainya.
Sebagai contoh, salah satu negara bagian Amerika Serikat yaitu California dengan jumlah
penduduk yang padat sehingga banyak perumahan yang ditawarkan dengan berbagai
harga. Pada praktikum ini akan dilakukan analisis kluster untuk mengelompokkan
perumahan berdasarkan faktor-faktor yang mempengaruhi harga perumahan dengan data
yang digunakan adalah California Housing Price yang diunduh dari Kaggle.Variabel yang
digunakan untuk praktikum ini adalah median umur rumah, jumlah ruangan, jumlah
kamar tidur, populasi, jumlah rumah tangga, median pendapatan rumah tangga, dan
median harga jual rumah. Metode yang digunakan dalam praktikum kali ini adalah
metode hierarki yaitu Single Linkage dan metode non hierarki yaitu K-Means. Pada
pengelompokan enggunakan metode hierarki, Single Linkage, didapatkan 6 cluster dengan
nilai Pseudo-f sebesar90,8823 dan nilai R2 sebesar 0,5691. Seangkan pengelompokan
menggunakan metode non hierarki, yaitu K-Means, didapatkan cluster sebanyak 5 dan
nilai Pseudo-f sebesar 285,2596 dan R2 sebesar 0,7678. Sehingga dapat disimpulkan
bahwa metode terbaik untuk analisis cluster pada ata California Housing Price adalah
metode K-Means karena memiliki nilai Pseudo-f dan R2 lebih tinggi dibandingkan dengan
metode Single Linkage.
ii
DAFTAR ISI
Halaman
HALAMAN JUDUL .............................................................................................. i
ABSTRAK ............................................................................................................. ii
DAFTAR ISI......................................................................................................... iii
DAFTAR TABEL ................................................................................................. v
DAFTAR GAMBAR ............................................................................................ vi
DAFTAR LAMPIRAN ....................................................................................... vii
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ............................................................................................ 1
1.2 Rumusan Masalah ....................................................................................... 2
1.3 Tujuan ......................................................................................................... 2
1.4 Manfaat ....................................................................................................... 3
1.5 Batasan Masalah ......................................................................................... 3
BAB II TINJAUAN PUSTAKA .......................................................................... 4
2.1 Statistika Deskriptif .................................................................................... 4
2.2 Outlier...........................................................................................................4
2.3 Analisis Cluster ........................................................................................... 5
2.3.1 Analisis Cluster Hierarki ........................................................................ 6
2.3.2 Analisis Cluster Non Hierarki ................................................................ 7
2.4 Nilai Jual Rumah......................................................................................... 8
BAB III METODOLOGI PENELITIAN ........................................................... 9
3.1. Sumber Data ................................................................................................ 9
3.2. Variabel Penelitian ...................................................................................... 9
3.3. Struktur Data ............................................................................................... 9
3.4. Langkah Analisis ........................................................................................ 9
3.5. Diagram Alir ............................................................................................. 10
BAB IV ANALISIS DAN PEMBAHASAN ...................................................... 11
4.1 Eksplorasi Data ......................................................................................... 11
4.2 Deteki Missing Value dan Outlier............................................................. 11
4.3 Cluster Hierarki ........................................................................................ 12
4.4 Cluster Non Hierarki ................................................................................. 14
4.5 Perbandingan Metode Hierarki dan Non Hierarki .................................... 16
iii
BAB V KESIMPULAN DAN SARAN .............................................................. 17
5.1 Kesimpulan ............................................................................................... 17
5.2 Saran ......................................................................................................... 17
DAFTAR PUSTAKA .......................................................................................... 18
LAMPIRAN..........................................................................................................19
iv
DAFTAR TABEL
v
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
Lampiran 1. Data California Housing ................................................................. 19
Lampiran 2. Output SPSS untuk Metode Single Linkage ................................... 20
Lampiran 3. Output SPSS untuk Metode K-Means ............................................ 21
Lampiran 4. Syntax Software R ........................................................................... 22
vii
BAB I
PENDAHULUAN
1
rumah apabila sudah mengetahui range harga rumah yang sesuai dengan
kemampuan finansial yang dimiliki.
Oleh karena itu, dalam praktikum ini akan dilakukan analisis kluster untuk
mengelompokkan perumahan berdasarkan faktor-faktor yang mempengaruhi harga
perumahan, seperti jumlah ruangan, jumlah kamar tidur, jumlah rumah tangga di
sekitar perumahan, lokasi perumahan, dan lain sebagainya. Analisis tersebut
dilakukan dengan menggunakan metode Hierarki dan Non Hierarki untuk
mengetahui banyak cluster beserta anggota yang ada di klaster-klaster tersebut.
Selain itu, praktikum ini juga akan membandingan antara kedua metode tersebut
guna mendapatkan metode terbaik dalam klasifikasinya..
1.3 Tujuan
Tujuan yang ingin dicapai dari praktikum ini berdasarkan rumusan masalah
tersebut yaitu sebagai berikut.
1. Mengetahui hasil preprocessing pada data California Housing.
2. Mengetahui karakteristik data California Housing.
3. Mengetahui hasil analisis klaster pada data California Housing menggunakan
metode Hierarki.
4. Mengetahui hasil analisis klaster pada data California Housing menggunakan
metode Non Hierarki.
5. Mengetahui perbandingan hasil analisis klaster pada data California Housing
menggunakan metode Hierarki dan Non Hierarki.
2
1.4 Manfaat
Manfaat yang diharapkan bagi pembaca yaitu dapat menambah pengetahuan
terkait salah satu metode statistika yang dapat digunakan untuk mengkasifikasikan
objek-objek pengamatan menjadi beberapa kelompok berdasarkan variabel-
variabel yang diamati sehingga objek dalam kelompok memiliki kemiripan
sedangkan objek antar kelompok tidak mirip. Sedangkan manfaat yang diharapkan
bagi penulis yaitu dapat meningkatkan pemahaman tentang Analisis Klaster jika
diterapkan untuk mengatasi masalah riil.
3
BAB II
TINJAUAN PUSTAKA
∑𝑛
𝑖=1 𝑥𝑖
𝑥̄ = (2.1)
𝑛
Keterangan :
𝑥𝑖 = data ke-i
𝑛 = banyaknya data
Deviasi standar (standard deviation) adalah ukuran yang mendeskripsikan
penyebaran suatu data. Berikut adalah rumus untuk menhitung deviasi standar.
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̄ )
2
𝑠=√ 𝑛−1
(2.2)
Keterangan :
𝑥𝑖 = data ke-i
𝑛 = banyaknya data
𝑋 = nilai rata-rata
2.2 Outlier
Outlier atau data ekstrim adalah data yang secara nyata berbeda dengan data-
data yang lain, bisa terjadi dikarenakan kesalahan dalam input data, kesalahan pada
pengambilan sampel, atau memang ada data ekstrem yang tidak bisa dihindarkan
4
keberadaannya. Adanya outlier berpengaruh terhadap hasil analisa data.
Pengecekan outlier dapat digunakan dengan dua cara yaitu secara univariat dan
multivariat. Dalam penelitian ini, menggunakan gabungan dari dua metode
tersebut. Apabila data terdapat outlier secara multivariat sekaligus univariat maka
dikategorikan sebagai outlier namun jika hanya salah satu uji saja maka akan
diasumsikan tidak outlier. Pemeriksaan multivariat outlier dapat dilakukan dengan
statistik Mahalanobis Distance (d2) yang berdistribusi chi square (χ²) dengan
derajat kebebasan (df) sejumlah variabel pengamatan (p). Sedangkan untuk
univariat outlier dapat menggunakan nilai 𝑧, sebagai normal standard setiap
observasi dengan ambang batas tertentu. Jika nilai 𝑧 melebihi 3,00 maka observasi
tersebut outlier.
4. Koefisien Czekanowski
5
𝑝
2 ∑𝑖=1 min(𝑥𝑖 ,𝑦𝑖 )
𝑑(𝑥, 𝑦) = 1 − 𝑝
∑𝑖=1(𝑥𝑖 + 𝑦𝑖 )
(2.6)
Secara umum, cluster analysis terbagi dalam dua metode, yaitu sebagai berikut.
1. Cluster hierarki.
2. Cluster non hierarki
6
𝑑(𝑢𝑣)𝑤 = min{𝑑𝑢𝑣 , 𝑑𝑣𝑤 } (2.8)
Keterangan :
d(uv) w = data kelompok ke (uv) dengan w
duw = data kelompok ke uw
dvw = data kelompok ke vw
3. Metode average linkage
Metode ini akan mengelompokkan objek berdasarkan jarak rata-rata yang
didapat dengan melakukan rata-rata semua jarak objek. Jarak antar kelompok
(u,v) dengan w adalah :
d ik
d ( uv) w = i k
(2.9)
N (uv)N w
Keterangan :
d(uv) w = data kelompok ke (uv) dengan w
dik = data kelompok ke ik
N(uv) = jumlah semua cluster uv
Nw = jumlah semua cluster w
Hasil dari analisis cluster akan disajikan dalam bentuk struktur pohon yang
disebut dendogram. Pemotongan dendogram dapat dilakukan pada selisih jarak
penggabungan yang terbesar (Johnson & Winchern, 2007).
2.3.2 Analisis Cluster Non Hierarki
Metode non-hierarki digunakan apabila jumlah kelompok yang diinginkan
diketahui dan biasanya dipakai untuk mengelompokkan data yang ukurannya besar.
Metode yang dipakai dalam mengcluster data yang berukuran besar yaitu metode
K-means. Algoritma dari metode ini sebagai berikut.
1. Menentukan k (yaitu banyaknya kelompok dan menentukan centroid di setiap
kelompok).
2. Menghitung jarak antara setiap objek dengan setiap centroid.
3. Menghitung kembali rataan (centroid) untuk kelompok yang baru terbentuk.
4. Mengulangi langkah kedua sampai tidak ada lagi pemindahan objek antar
kelompok.
Penentuan terakhir suatu objek ke suatu kelompok tertentu tidak tergantung
dari K inisial yang pertama kali ditentukan (Johnson & Winchern, 2007).
7
2.4 Nilai Jual Rumah
Faktor yang mempengaruhi nilai jual rumah dibagi menjadi 2 yaitu secara
arsitektur dan lingkungan. Faktor-faktor yang dikelompokkan dalam arsitektur
adalah luas tanah, banyak ruangan, jumlah kamar, dan lain sebagainya. Sedangkan
faktor-faktor yang dikelompokkan dalam lingkungan adalah jarak rumah terhadap
jalan raya, besar sudut cahaya, dan adanya ventilasi (Fung & Lee, 2014).
8
BAB III
METODOLOGI PENELITIAN
9
7. Memilih metode terbaik antara metode hierarki dan non hierarki.
8. Menarik kesimpulan dan saran.
Mendeskripsikan karakteristik
data
10
BAB IV
ANALISIS DAN PEMBAHASAN
11
Pada Tabel 4.2 dapat diketahui bahwa tidak ada nilai yang kurang dari 0,001
sehingga tidak ada data outlier secara multivariat. Oleh karena itu, maka tidak ada
data yang perlu dihilangkan.
Gambar 4.1 Banyaknya Klaster Optimum Single Linkage Menggunakan Metode Silhouette
12
Dendrogram
Single Linkage, Euclidean Distance
80.65
87.10
Similarity
93.55
100.00
1 2 3 4 7 28 12 42 14 45 16 18 37 43 40 15 44 25 34 17 21 26 50 30 27 23 22 36 29 31 35 32 39 41 13 38 33 5 9 11 6 8 10 19 47 24 20 49 46 48
Housing
Gambar 4.2 Dendogram Metode Single Linkage
13
4.4 Cluster Non Hierarki
Clustering secara non hierarki pada praktikum ini menggunakan metode K-
Means. Penentuan banyaknya klaster untuk K-Means ini menggunakan metode
Silhoutte yang diperoleh dari output software R dan disajikan dalam gambar
sebagai berikut.
14
klaster kelima memuat 6 anggota. Perumahan-perumahan yang dikelompok
kedalam klaster berdasarkan faktor-faktor yang mempengaruhi harga rumah akan
dijabarkan lebih jelas dalam tabel sebagai berikut.
Tabel 4.5 Hasil Klasifikasi Menggunakan Metode K-Means
Cluster ke- Anggota Cluster (Perumahan)
1 1,2,3.
2 11, 12, 37, 38, 42, 43, 44, 47.
7, 21, 22, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34,
3
35, 36, 41, 48, 49, 50.
13, 14, 15, 16, 17, 18, 19, 20, 23, 28, 39, 40,
4
45, 46.
5 4, 5, 6, 8, 9, 10.
Berdasarkan Tabel 4.6, dapat diketahui bahwa variabel X2, X3, X5, X6, dan
X7 mempunyai p-value kurang dari α = 0,05, maka keputusannya tolak 𝐻0 . Artinya,
variabel jumlah ruangan (X2), jumlah kamar tidur (X3), jumlah rumah tangga (X5),
median pendapatan rumah tangga (X6), dan median nilai jual rumah (X7)
berpengaruh signifikan dalam memengaruhi hasil pengelompokan analisis 5 klaster
secara non-hierarki dengan metode K-Means.
15
4.5 Perbandingan Metode Hierarki dan Non Hierarki
Analisis klaster dengan menggunakan metode Single Linkage dan K-Means
telah dilakukan. Masing-masing metode membentuk jumlah klaster yang berbeda
dengan anggota di tiap klaster yang berbeda pula, sehingga perlu dilakukan
perbandingan untuk memilih metode terbaik dari keduanya. Pemilihan metode yang
paling baik dapat dilihat berdasarkan nilai ICD Rate (Internal Cluster Dispersion
Rate), nilai Pseudo-f, dan nilai R2 yang didapatkan dari pengolahan data
menggunakan software R sebagai berikut.
Tabel 4.7 Nilai R2, Pseudo-f, dan ICD pada metode Single Linkage dan K-Means
Banyaknya
Metode R2 Pseudo-f ICD Rate
Cluster
Single Linkage 6 0,5691 90,8823 0,4308
K-Means 5 0,7678 285,2596 0,2321
16
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Kesimpulan dalam praktikum ini berdasarkan hasil analisis adalah sebagai
berikut:
1. Median umur rumah (X1), jumlah ruangan (X2), jumlah kamar tidur (X3),
populasi (X4), jumlah rumah tangga (X5), median pendapatan rumah tangga
(X6), dan median nlai jual rumah (X7) memiliki nilai mean berturut-turut
adalah 49,84, 1665, 376,20, 814,9, 352,3, 2,44, dan 165.130.
2. Berdasarkan hasil deteksi outlier univariat, terdapat 1 pengamatan outlier
pada variabel median pendapatan rumah tangga karena diperoleh nilai z =
4,124 sedangkan berdasarkan hasil deteksi outlier secara multivariat tidak
terdapat data yang outlier sehingga tidak ada data yang perlu dihilangkan.
3. Berdasarkan analisis cluster menggunakan metode Single Linkage didapatkan
hasil klasifikasi sebanyak 6 cluster. Cluster 2 merupakan cluster dengan
anggota paling banyak yaitu 37 perumahan.
4. Berdasarkan analisis cluster menggunakan metode K-Means didapatkan hasil
klasifikasi sebanyak 5 cluster. Cluster 3 merupakan cluster dengan anggota
paling banyak yaitu 19 perumahan.
5. Metode klasifikasi terbaik yang digunakan pada data California Housing
adalah metode K-Means karena mempunyai nilai R2 dan Pseudo-f berturut-
turut sebesar 0,767 dan 285,2596 di mana nilai tersebut lebih besar
dibandingkan dengan metode Single Linkage yang memiliki nilai R2 dan
Pseudo-f berturut-turut sebesar 0,5691 dan 90,8823.
5.2 Saran
Kegiatan praktikum tentang analisis cluster ini harus dilakukan dengan teliti
dan cermat, ketika proses penginputan data harus benar dan tepat sehingga
diharapkan dapat menunjukkan hasil yang lebih akurat dan sesuai. Selain itu, dalam
praktikum selanjutnya sebaiknya mengatasi data yang outlier karena
berkemungkinan untuk mengubah hasil analisisnya.
17
DAFTAR PUSTAKA
18
LAMPIRAN
19
Housing Median
Total Total Median
Housing Median Population Households House
Rooms Bedrooms Income
Age Value
38 52 2432 715 1377 696 2.5898 176000
39 52 1665 419 946 395 2.0978 155400
40 51 936 311 517 249 1.2852 150000
41 49 713 202 462 189 1.025 118800
42 52 950 202 467 198 3.9643 188800
43 52 1443 311 660 292 3.0125 184400
44 52 1656 420 718 382 2.6768 182300
45 50 1125 322 616 304 2.026 142500
46 43 1007 312 558 253 1.7348 137500
47 40 624 195 423 160 0.9506 187500
48 40 946 375 700 352 1.775 112500
49 43 1868 456 1061 407 1.5045 93800
50 52 1630 456 1162 400 1.2475 104200
20
Lampiran 3. Output SPSS untuk Metode K-Means
21
Lampiran 4. Syntax Software R
library(tidyverse)
library(cluster) # Algoritma klastering
library(factoextra) # Algoritma klastering dan visualisasi
cluster = read.csv("D:/Modul Clustering Analysis/standardized_housing.csv",sep=",")
fviz_nbclust(cluster, FUN=hcut, method = "silhouette")+labs(subtitle="Silhouette Method
for Single Linkage")
#Cluster
HC= hclust(dist(cluster,method="euclidean"),method="single")
fviz_nbclust(cluster, kmeans, method = "silhouette")+labs(subtitle="Silhouette Method for
K-Means")
Cluster3=kmeans(cluster,5)
single_Linkage3<-cutree(HC, 5)
K_means3=Cluster3$cluster
data_baru=data.frame(cluster,single_Linkage3,K_means3)
#ICDRate
icdrate = function(Data, nc, c)
{
22
n = dim(Data)[1]
p = dim(Data)[2]
X = Data[,1:(p-1)]
Group = Data[,p]
p = dim(X)[2]
Mean.X = matrix(ncol = p, nrow = (nc+1))
for (i in 1:nc)
{
for (j in 1:p)
{
Mean.X[i,j] = mean(X[which(Group==i),j])
Mean.X[(nc+1),j] = mean(X[,j])
}
}
SST = matrix(ncol=p, nrow=n)
for (i in 1:n)
{
for (j in 1:p)
{
SST[i,j] = (X[i,j] - Mean.X[(nc+1),j])^2
}
}
SST = sum(sum(SST))
SSE = matrix(ncol=p, nrow=n)
for (i in 1:n)
{
for (j in 1:p)
{
for (k in 1:nc)
{
if (Group[i]==k)
{
SSE[i,j] = (X[i,j] - Mean.X[k,j])^2
}
}
}
}
SSE = sum(sum(SSE))
Rsq = (SST-SSE)/SST
icdrate = 1-Rsq
Pseudof = (Rsq/(c-1))/((icdrate)/(nc-c))
list(Rsq=Rsq, icdrate=icdrate, pseudof=Pseudof)
}
icdr_single3=icdrate(data_baru[,1:8],350,6)
kkmeans=data.frame(cluster,K_means3)
icdr_kmeans3=icdrate(kkmeans,350,5)
icdr_single3
icdr_kmeans3
23