Analisis Cluster California Housing Price

LAPORAN PRAKTIKUM
ANALISIS MULTIVARIAT
MODUL 4
ANALISIS KLASTER MENGGUNAKAN METODE HIERARKI DAN

NON HIERARKI PADA DATA CALIFORNIA HOUSING PRICE
Oleh:
Sheryn Dian Permata 06211640000083
Nisfi Hemas Diga A. 06211640000126
Asisten Dosen:
Romy Yunika Putra
Dosen:
Dr. Bambang Widjanarko Otok, S.Si., M.Si.
Dr. Santi Wulan Purnami, S.Si., M.Si.
PROGRAM STUDI SARJANA

DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA, KOMPUTASI, DAN SAINS DATA
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
2019
ABSTRAK
Seiring dengan pertumbuhan penduduk yang terus meningkat, kebutuhan rumah juga akan
meningkat. Oleh karena itu,saat banyak perusahaan ataupun perorangan yang
menawarkan produk rumahnya dengan beragam bentuk, ukuran, spesifikasi, lokasi, dan
tipe bangunan karena faktor-faktor tersebut dapat memengaruhi harga sebuah rumah.
Terdapat beberapa faktor yang mempengaruhi harga jual rumah antara lain adalah umur
rumah, jumlah ruangan, jumlah kamar tidur, jumlah rumah tangga, dan lain sebagainya.
Sebagai contoh, salah satu negara bagian Amerika Serikat yaitu California dengan jumlah
penduduk yang padat sehingga banyak perumahan yang ditawarkan dengan berbagai
harga. Pada praktikum ini akan dilakukan analisis kluster untuk mengelompokkan
perumahan berdasarkan faktor-faktor yang mempengaruhi harga perumahan dengan data
yang digunakan adalah California Housing Price yang diunduh dari Kaggle.Variabel yang
digunakan untuk praktikum ini adalah median umur rumah, jumlah ruangan, jumlah
kamar tidur, populasi, jumlah rumah tangga, median pendapatan rumah tangga, dan
median harga jual rumah. Metode yang digunakan dalam praktikum kali ini adalah
metode hierarki yaitu Single Linkage dan metode non hierarki yaitu K-Means. Pada
pengelompokan enggunakan metode hierarki, Single Linkage, didapatkan 6 cluster dengan
nilai Pseudo-f sebesar90,8823 dan nilai R2 sebesar 0,5691. Seangkan pengelompokan
menggunakan metode non hierarki, yaitu K-Means, didapatkan cluster sebanyak 5 dan
nilai Pseudo-f sebesar 285,2596 dan R2 sebesar 0,7678. Sehingga dapat disimpulkan
bahwa metode terbaik untuk analisis cluster pada ata California Housing Price adalah
metode K-Means karena memiliki nilai Pseudo-f dan R2 lebih tinggi dibandingkan dengan
metode Single Linkage.
Kata kunci : Analisis Klaster, Housing Price, K-Means, Single Linkage.
ii
DAFTAR ISI
Halaman
HALAMAN JUDUL .............................................................................................. i
ABSTRAK ............................................................................................................. ii
DAFTAR ISI......................................................................................................... iii
DAFTAR TABEL ................................................................................................. v
DAFTAR GAMBAR ............................................................................................ vi
DAFTAR LAMPIRAN ....................................................................................... vii
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ............................................................................................ 1
1.2 Rumusan Masalah ....................................................................................... 2
1.3 Tujuan ......................................................................................................... 2
1.4 Manfaat ....................................................................................................... 3
1.5 Batasan Masalah ......................................................................................... 3
BAB II TINJAUAN PUSTAKA .......................................................................... 4
2.1 Statistika Deskriptif .................................................................................... 4
2.2 Outlier...........................................................................................................4
2.3 Analisis Cluster ........................................................................................... 5
2.3.1 Analisis Cluster Hierarki ........................................................................ 6
2.3.2 Analisis Cluster Non Hierarki ................................................................ 7
2.4 Nilai Jual Rumah......................................................................................... 8
BAB III METODOLOGI PENELITIAN ........................................................... 9
3.1. Sumber Data ................................................................................................ 9
3.2. Variabel Penelitian ...................................................................................... 9
3.3. Struktur Data ............................................................................................... 9
3.4. Langkah Analisis ........................................................................................ 9
3.5. Diagram Alir ............................................................................................. 10
BAB IV ANALISIS DAN PEMBAHASAN ...................................................... 11
4.1 Eksplorasi Data ......................................................................................... 11
4.2 Deteki Missing Value dan Outlier............................................................. 11
4.3 Cluster Hierarki ........................................................................................ 12
4.4 Cluster Non Hierarki ................................................................................. 14
4.5 Perbandingan Metode Hierarki dan Non Hierarki .................................... 16
iii
BAB V KESIMPULAN DAN SARAN .............................................................. 17
5.1 Kesimpulan ............................................................................................... 17
5.2 Saran ......................................................................................................... 17
DAFTAR PUSTAKA .......................................................................................... 18
LAMPIRAN..........................................................................................................19
iv
DAFTAR TABEL
Tabel 3.1 Variabel Penelitian ................................................................................. 9

Tabel 3.2 Struktur Data .......................................................................................... 9
Tabel 4.1 Karakteristik Data................................................................................. 11
Tabel 4.2 Hasil Deteksi Outlier.............................................................................11
Tabel 4.3 Hasil Klasifikasi Menggunakan Metode Single Linkage...................... 13
Tabel 4.4 Banyaknya Anggota dalam 6 Klaster.................................................... 14
Tabel 4.5 Hasil Klasifikasi Menggunakan Metode K-Means............................... 15
Tabel 4.6 ANOVA untuk 5 Cluster.......................................................................15
Tabel 4.7 Nilai R2, Pseudo-f, dan ICD pada metode Single Linkage dan
K-Means................................................................................................ 16
v
DAFTAR GAMBAR
Gambar 3.1 Flow Chart Praktikum ..................................................................... 10

Gambar 4.1 Banyaknya Klaster Optimum Single Linkage Menggunakan Metode
Silhouette.......................................................................................... 12
Gambar 4.2 Dendogram Metode Single Linkage ................................................ 13
Gambar 4.3 Banyaknya Klaster Optimum K-Means Menggunakan Metode
Silhouette ......................................................................................... 14
vi
DAFTAR LAMPIRAN
Lampiran 1. Data California Housing ................................................................. 19
Lampiran 2. Output SPSS untuk Metode Single Linkage ................................... 20
Lampiran 3. Output SPSS untuk Metode K-Means ............................................ 21
Lampiran 4. Syntax Software R ........................................................................... 22
vii
BAB I
PENDAHULUAN
1.1 Latar Belakang

Salah satu kebutuhan manusia yang paling mendasar adalah tempat tinggal
atau rumah. Rumah sebagai tempat tinggal merupakan salah satu kebutuhan pokok
manusia selain sandang dan pangan (Indriana, 2012). Setap manusia membutuhkan
rumah untuk tempat berlindung dan berkumpul serta sebagai tempat
berlangsungnya kegiatan keluarga, sekaligus barang investasi di masa yang akan
datang. Dewasa ini fungsi rumah sedikit berubah, dari yang semula hanya sekedar
sebagai tempat tinggal, saat ini rumah juga diharuskan dapat mendatangkan
kepuasan dan manfaat bagi pemiliknya, seperti lokasi yang strategis, kondisi rumah
dan ligkungan yang nyaman.
Seiring bertambahnya jumlah penduduk di seluruh dunia dan berkembangnya
tingkat perekonomian masyarakat, kebutuhan akan rumah semakin meningkat pula.
Semakin hari semakin banyak pengembang perumahan, baik perusahaan besar
maupun perorangan yang menawarkan produk rumahnya dengan beragam bentuk,
ukuran, spesifikasi, lokasi, dan tipe bangunan karena faktor-faktor tersebut dapat
memengaruhi harga sebuah rumah.
Harga jual rumah dibentuk melalui suatu proses negosiasi antara penjual dan
pembeli. Penjual menentukan harga rumah berdasarkan biaya yang dikeluarkan
untuk membangun suatu rumah, misalnya harga tanah, harga bahan bangunan, dan
harga komponen lain yang membentuk rumah tersebut (AIREA, 1992). Sedangkan
pembeli menentukan harga rumah yang ajan dibeli berdasarkan manfaat dan nilai
yang didapat, seperti fasilitas rumah, lingkungan di sekitar perumahan,
aksesibilitas, dan lain-lain.
Data terkait harga jual perumahan saat ini menjadi hal yang sangat penting
untuk diketahui sebagai acuan dalam menentukan kemampuan masyarakat untuk
memilih tempat tinggal. Sebagai contoh, California adalah negara bagian yang
paling banyak penduduknya dan ketiga terluas wilayahnya di Amerika Serikat.
Dengan banyaknya penduduk tersebut, di California terdapat banyak perumahan
yang ditawarkan dengan berbagai pilihan harga sesuai dengan fasilitasnya.
Penduduk California akan lebih mudah dalam menentukan pilihan dalam membeli
1
rumah apabila sudah mengetahui range harga rumah yang sesuai dengan
kemampuan finansial yang dimiliki.
Oleh karena itu, dalam praktikum ini akan dilakukan analisis kluster untuk
mengelompokkan perumahan berdasarkan faktor-faktor yang mempengaruhi harga
perumahan, seperti jumlah ruangan, jumlah kamar tidur, jumlah rumah tangga di
sekitar perumahan, lokasi perumahan, dan lain sebagainya. Analisis tersebut
dilakukan dengan menggunakan metode Hierarki dan Non Hierarki untuk
mengetahui banyak cluster beserta anggota yang ada di klaster-klaster tersebut.
Selain itu, praktikum ini juga akan membandingan antara kedua metode tersebut
guna mendapatkan metode terbaik dalam klasifikasinya..
1.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, rumusan masalah dalam laporan
praktikum ini yaitu sebagai berikut.
1. Bagaimanakah hasil preprocessing pada data California Housing?
2. Bagaimanakah karakteristik data California Housing?
3. Bagaimanakah hasil analisis klaster pada data California Housing
menggunakan metode Hierarki?
4. Bagaimanakah hasil analisis klaster pada data California Housing
menggunakan metode Non Hierarki ?
5. Bagaimanakah perbandingan hasil analisis klaster pada data California
Housing menggunakan metode Hierarki dan Non Hierarki?
1.3 Tujuan
Tujuan yang ingin dicapai dari praktikum ini berdasarkan rumusan masalah
tersebut yaitu sebagai berikut.
1. Mengetahui hasil preprocessing pada data California Housing.
2. Mengetahui karakteristik data California Housing.
3. Mengetahui hasil analisis klaster pada data California Housing menggunakan
metode Hierarki.
4. Mengetahui hasil analisis klaster pada data California Housing menggunakan
metode Non Hierarki.
5. Mengetahui perbandingan hasil analisis klaster pada data California Housing
menggunakan metode Hierarki dan Non Hierarki.
2
1.4 Manfaat
Manfaat yang diharapkan bagi pembaca yaitu dapat menambah pengetahuan
terkait salah satu metode statistika yang dapat digunakan untuk mengkasifikasikan
objek-objek pengamatan menjadi beberapa kelompok berdasarkan variabel-
variabel yang diamati sehingga objek dalam kelompok memiliki kemiripan
sedangkan objek antar kelompok tidak mirip. Sedangkan manfaat yang diharapkan
bagi penulis yaitu dapat meningkatkan pemahaman tentang Analisis Klaster jika
diterapkan untuk mengatasi masalah riil.
1.5 Batasan Masalah

Batasan masalah dalam praktikum ini yaitu apabila data yang diamati tidak
memenuhi asumsi distribusi Normal Multivariat, maka dianggap telah memenuhi
asumsi tersebut.
3
BAB II
TINJAUAN PUSTAKA
2.1 Statistika Deskriptif

Statistika deskriptif berkenaan dengan deskripsi data missal dengan
menghitung rata-rata dan varians dari data mentah; mendeskripsikan menggunakan
tabel-tabel atau grafik sehingga data mentah lebih mudah dipahami dan bermakna.
Statistika deskriptif menunjukkan bagaimana data dapat digambarkan (dideskrip-
sikan) atau disimpulkan baik secara numerik (misal menghitung rata-rata dan
deviasi standar) atau secara grafis (dalam bentuk tabel atau grafik) untuk mendapat-
kan gambaran sekilas mengenai data tersebut sehingga lebih mudah dibaca dan
bermakna.
Salah satu contoh statistika deskriptif adalah rata-rata dan deviasi standar.
Rata-rata n merupakan rasio dari total nilai pengamatan dengan banyaknya
pengamatan. Rumus yang digunakan untuk menghitung mean dari data tunggal
adalah sebagai berikut.
∑𝑛
𝑖=1 𝑥𝑖
𝑥̄ = (2.1)
𝑛
Keterangan :
𝑥𝑖 = data ke-i
𝑛 = banyaknya data
Deviasi standar (standard deviation) adalah ukuran yang mendeskripsikan
penyebaran suatu data. Berikut adalah rumus untuk menhitung deviasi standar.
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̄ )
2
𝑠=√ 𝑛−1
(2.2)
Keterangan :
𝑥𝑖 = data ke-i
𝑛 = banyaknya data
𝑋 = nilai rata-rata
2.2 Outlier
Outlier atau data ekstrim adalah data yang secara nyata berbeda dengan data-
data yang lain, bisa terjadi dikarenakan kesalahan dalam input data, kesalahan pada
pengambilan sampel, atau memang ada data ekstrem yang tidak bisa dihindarkan
4
keberadaannya. Adanya outlier berpengaruh terhadap hasil analisa data.
Pengecekan outlier dapat digunakan dengan dua cara yaitu secara univariat dan
multivariat. Dalam penelitian ini, menggunakan gabungan dari dua metode
tersebut. Apabila data terdapat outlier secara multivariat sekaligus univariat maka
dikategorikan sebagai outlier namun jika hanya salah satu uji saja maka akan
diasumsikan tidak outlier. Pemeriksaan multivariat outlier dapat dilakukan dengan
statistik Mahalanobis Distance (d2) yang berdistribusi chi square (χ²) dengan
derajat kebebasan (df) sejumlah variabel pengamatan (p). Sedangkan untuk
univariat outlier dapat menggunakan nilai 𝑧, sebagai normal standard setiap
observasi dengan ambang batas tertentu. Jika nilai 𝑧 melebihi 3,00 maka observasi
tersebut outlier.
2.3 Analisis Cluster

Analisis cluster adalah analisis statistika yang bertujuan untuk mengelompokkan
data sedemikian sehingga data yang berada dalam kelompok yang sama mempunyai sifat
yang relatif homogen daripada data yang berada dalam kelompok yang berbeda (Johnson
& Winchern, 2007).
Ditinjau dari hal-hal yang dikelompokkan, cluster analysis dibagi menjadi
dua macam, yaitu :
1. Pengelompokkan observasi
2. Pengelompokkan variable
Dalam proses penggabungan kelompok selalu diikuti dengan perbaikan
matriks jarak. Beberapa macam jarak yang biasa dipakai di dalam analisis
kelompok :
1. Jarak Euclidean
𝑑(𝑥, 𝑦) = √(𝑥 − 𝑦)′(𝑥 − 𝑦) (2.3)
2. Jarak Minkowski
1⁄
𝑑(𝑥, 𝑦) = [∑𝑝𝑖=1|𝑥𝑖 − 𝑦𝑖 |𝑚 ] 𝑚
(2.4)
3. Canbera Metric
|𝑥𝑖 − 𝑦𝑖 |
𝑑(𝑥, 𝑦) = ∑𝑝𝑖=1 (2.5)
𝑥𝑖 + 𝑦 𝑖
4. Koefisien Czekanowski
5
𝑝
2 ∑𝑖=1 min(𝑥𝑖 ,𝑦𝑖 )
𝑑(𝑥, 𝑦) = 1 − 𝑝
∑𝑖=1(𝑥𝑖 + 𝑦𝑖 )
(2.6)
Secara umum, cluster analysis terbagi dalam dua metode, yaitu sebagai berikut.
1. Cluster hierarki.
2. Cluster non hierarki
2.3.1 Analisis Cluster Hierarki

Metode ini digunakan untuk mencari struktur pengelompokkan dari objek-
objek. Jadi, hasil pengelompokkannya disajikan secara hierarki atau berjenjang.
Metode hierarki ini terdiri dari dua cara, yaitu :
a. Agglomerative (penggabungan).
Cara ini digunakan jika masing-masing objek dianggap satu kelompok
kemudian antar kelompok yang jaraknya berdekatan bergabung menjadi satu
kelompok.
b. Divise (pemecahan).
Cara ini dgunakan jika pada awalnya semua objek berada dalam satu
gerombol. Setelah itu, sifat paling beda dipisahkan dan membentuk satu
kelompok yang lain. Proses tersebut berlanjut sampai semua objek tersebut
masing-masing membentuk satu kelompok.
Metode-metode pengelompokkan hierarki dibedakan berdasarkan konsep
jarak antar kelompok, penentuan jarak antar kelompok untuk metode-metode
tersebut adalah :
1. Metode single linkage
Metode ini mengelompokkan dua objek yang mempunyai jarak terdekat
terlebih dahulu. Jarak antar kelompok (u,v) dengan w adalah :
𝑑(𝑢𝑣)𝑤 = min{𝑑𝑢𝑣 , 𝑑𝑣𝑤 } (2.7)
Keterangan :
d(uv)w = data kelompok ke (uv) dengan w
duw = data kelompok ke uw
dvw = data kelompok ke vw
2. Metode complete linkage
Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh
terlebih dahulu. Jarak antar kelompok (u,v) dengan w adalah :
6
𝑑(𝑢𝑣)𝑤 = min{𝑑𝑢𝑣 , 𝑑𝑣𝑤 } (2.8)
Keterangan :
d(uv) w = data kelompok ke (uv) dengan w
duw = data kelompok ke uw
dvw = data kelompok ke vw
3. Metode average linkage
Metode ini akan mengelompokkan objek berdasarkan jarak rata-rata yang
didapat dengan melakukan rata-rata semua jarak objek. Jarak antar kelompok
(u,v) dengan w adalah :
 d ik
d ( uv) w = i k
(2.9)
N (uv)N w
Keterangan :
d(uv) w = data kelompok ke (uv) dengan w
dik = data kelompok ke ik
N(uv) = jumlah semua cluster uv
Nw = jumlah semua cluster w
Hasil dari analisis cluster akan disajikan dalam bentuk struktur pohon yang
disebut dendogram. Pemotongan dendogram dapat dilakukan pada selisih jarak
penggabungan yang terbesar (Johnson & Winchern, 2007).
2.3.2 Analisis Cluster Non Hierarki
Metode non-hierarki digunakan apabila jumlah kelompok yang diinginkan
diketahui dan biasanya dipakai untuk mengelompokkan data yang ukurannya besar.
Metode yang dipakai dalam mengcluster data yang berukuran besar yaitu metode
K-means. Algoritma dari metode ini sebagai berikut.
1. Menentukan k (yaitu banyaknya kelompok dan menentukan centroid di setiap
kelompok).
2. Menghitung jarak antara setiap objek dengan setiap centroid.
3. Menghitung kembali rataan (centroid) untuk kelompok yang baru terbentuk.
4. Mengulangi langkah kedua sampai tidak ada lagi pemindahan objek antar
kelompok.
Penentuan terakhir suatu objek ke suatu kelompok tertentu tidak tergantung
dari K inisial yang pertama kali ditentukan (Johnson & Winchern, 2007).
7
2.4 Nilai Jual Rumah
Faktor yang mempengaruhi nilai jual rumah dibagi menjadi 2 yaitu secara
arsitektur dan lingkungan. Faktor-faktor yang dikelompokkan dalam arsitektur
adalah luas tanah, banyak ruangan, jumlah kamar, dan lain sebagainya. Sedangkan
faktor-faktor yang dikelompokkan dalam lingkungan adalah jarak rumah terhadap
jalan raya, besar sudut cahaya, dan adanya ventilasi (Fung & Lee, 2014).
8
BAB III
METODOLOGI PENELITIAN
3.1. Sumber Data

Data yang digunakan dalam laporan ini merupakan data sekunder yang
diperoleh dari Kaggle yang berjudul California Housing Dataset. Data diunduh pada hari
Kamis, tanggal 26 April 2019 pukul 19.33 WIB.
3.2. Variabel Penelitian

Variabel yang digunakan dalam penelitian kali ini adalah sebagai berikut.
Tabel 3.1 Variabel Penelitian
Variabel Keterangan
X1 Median umur rumah
X2 Jumlah ruangan
X3 Jumlah kamar tidur
X4 Populasi
X5 Jumlah rumah tangga
X6 Median pendapatan rumah tangga
X7 Median nilai jual rumah
3.3. Struktur Data
Berikut adalah struktur data dalam praktikum ini.
Tabel 3.2 Struktur Data
Perumahan X1 X2 … X7
Perumahan 1 X11 X12 … X17
… … … … …
3.4. Langkah Analisis

Langkah analisis yang dilakukan dalam penelitian ini adalah sebagai berikut.
1. Mengambil data sekunder
2. Merumuskan masalah dan menentukan tujuan.
3. Melakukan deskripsi karakteristik data.
4. Mendeteksi missing value dan outlier pada data.
5. Melakukan analisis cluster terhadap variabel menggunakan metode hierarki
dengan jarak Euclidean single linkage serta menggunakan metode non
hierarki yaitu K-means.
6. Melakukan pengelompokan variabel berdasarkan hasil output analisis cluster.
9
7. Memilih metode terbaik antara metode hierarki dan non hierarki.
8. Menarik kesimpulan dan saran.
3.5. Diagram Alir

Diagram alir yang dipakai dalam laporan ini adalah
Mengambil data sekunder
Merumuskan masalah dan

menentukan tujuan
Mendeskripsikan karakteristik
data
Mendeteksi missing value dan

outlier
Analisis cluster Analisis cluster

mengunakan metode mengunakan metode
hierarki non hierarki
Memilih metode terbaik
Menarik kesimpulan dan saran

Gambar 3.1 Flow Chart Praktikum
10
BAB IV
ANALISIS DAN PEMBAHASAN
4.1 Eksplorasi Data

Karakteristik data yang digunakan pada penelitian ini antara lain adalah mean
(rata-rata), deviasi standar, nilai minimum, dan nilai maksimum. Berikut
merupakan hasil output karakteristik data faktor-faktor yang mempengaruhi nilai
jual rumah menggunakan software Minitab.
Tabel 4.1 Karakteristik Data
Variabel Mean St.Deviation Minimum Maximum
Median umur rumah 49,84 3,716 40,00 52,00
Jumlah ruangan 1665,00 730,00 535,00 3549,00
Jumlah kamar tidur 376,20 154,40 123,00 752,00
Populasi 814,90 361,10 317,00 1551,00
Jumlah rumah tangga 352,30 152,80 115,00 734,00
Median pendapatan rumah tangga 2,44 1,16 0,95 7,26
Median nilai jual rumah 165.130 69.816 93.800 352.100
Berdasarkan Tabel 4.1 dapat diketahui bahwa nilai rata-rata dari median umur
rumah (X1), jumlah ruangan (X2), jumlah kamar tidur (X3), populasi (X4), jumlah
rumah tangga (X5), median pendapatan rumah tangga (X6), dan median nlai jual
rumah (X7) berturut-turut adalah 49,84, 1665, 376,20, 814,9, 352,3, 2,44, dan
165.130. Nilai deviasi standar dari variabel X2, X4, X3, X4, X5, dan X7 cukup besar
karena variabel – variabel tersebut berada pada rentang nilai yang besar pula.
4.2 Deteki Missing Value dan Outlier

Banyak yang digunakan pada praktikum ini adalah 50 pengamatan dan tidak
ada data yang missing value. Selanjutnya dilakukan deteksi outlier secara univariat
dan multivariat. Deteksi outlier secara univariat menggunakan nilai 𝑧 dan
didapatkan bahwa terdapat 1 pengamatan pada variabel X6 dengan nilai 𝑧 = 4,124
sehingga secara univariat data tersebut dikatakan sebagai outlier. Setelah dilakukan
deteksi outlier secara univariat maka dilanjutkan untuk mendeteksi outlier secara
multivariat menggunakan jarak Mahalanobis.
Tabel 4.2 Hasil Deteksi Outlier
Outlier
0,002
0,12
.
.
0,03
11
Pada Tabel 4.2 dapat diketahui bahwa tidak ada nilai yang kurang dari 0,001
sehingga tidak ada data outlier secara multivariat. Oleh karena itu, maka tidak ada
data yang perlu dihilangkan.
4.3 Cluster Hierarki

Clustering secara hierarki pada praktikum ini menggunakan metode Single
Linkage dengan memilih jarak terkecil dari matriks jarak Euclidean. Penentuan
banyaknya klaster untuk metode Single Linkage menggunakan metode Silhoutte
yang dapat dilihat pada gambar sebagai berikut.
Gambar 4.1 Banyaknya Klaster Optimum Single Linkage Menggunakan Metode Silhouette
Gambar 4.1 merupakan grafik yang menggambarkan banyaknya klaster

optimum yang akan digunakan pada metode Single Linkage. Berdasarkan grafik
tersebut, maka data California Housing akan diklasifikasikan menjadi 6 klaster
berdasarkan faktor-faktor yang mampengaruhi harga perumahan di California.
Setelah mengetahui jumlah klaster optimum, selanjutnya dilakukan
pengelompokan menggunakan software Minitab. Hasil klasifikasi disajikan pada
dendogram berikut ini.
12
Dendrogram
Single Linkage, Euclidean Distance
80.65
87.10
Similarity
93.55
100.00
1 2 3 4 7 28 12 42 14 45 16 18 37 43 40 15 44 25 34 17 21 26 50 30 27 23 22 36 29 31 35 32 39 41 13 38 33 5 9 11 6 8 10 19 47 24 20 49 46 48
Housing
Gambar 4.2 Dendogram Metode Single Linkage
Gambar 4.2 secara visual menunjukkan hasil klasifikasi perumahan-

perumahan yang ada di California dalam 6 klaster berdasarkan faktor-faktor yang
mempengaruhi harga perumahan. Tabel di bawah ini akan menjelaskan anggota
yang ada di setiap klaster pada metode Single Linkage.
Tabel 4.3 Hasil Klasifikasi Menggunakan Metode Single Linkage
Cluster ke- Anggota Cluster (Perumahan)
1 1, 2, 3.
4, 5, 7, 9, 11, 12, 13, 14, 15, 16, 17, 18, 21,
2 22, 23, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 50.
3 6, 8, 10.
4 19, 24, 47.
5 20, 49.
6 46, 48.
Berdasarkan Tabel 4.3, didapatkan anggota untuk masing-masing cluster.

Cluster pertama mempunyai 3 anggota yang di dalamnya memuat perumahan 1,2,
dan 3. Cluster kedua mepunyai 37 anggota, cluster ketiga dan keempat masing-
masing memiliki 3 anggota. Cluster kelima dan keenam masing-masing berisi 2
anggota, yakni perumahan 20 dan 49 yang diklasifikasikan ke dalam cluster 5 serta
perumahan 46 dan 48 yang dikelompokkan kedalam cluster 6.
13
4.4 Cluster Non Hierarki
Clustering secara non hierarki pada praktikum ini menggunakan metode K-
Means. Penentuan banyaknya klaster untuk K-Means ini menggunakan metode
Silhoutte yang diperoleh dari output software R dan disajikan dalam gambar
sebagai berikut.
Gambar 4.3 Banyaknya Klaster Optimum K-Means Menggunakan Metode Silhouette
Gambar 4.3 merupakan grafik yang menggambarkan banyaknya klaster

optimum yang akan digunakan pada metode K-Means. Berdasarkan grafik tersebut,
maka data California Housing akan diklasifikasikan menjadi 5 klaster berdasarkan
faktor-faktor yang mampengaruhi harga perumahan di California. Setelah
mengetahui jumlah klaster optimum, selanjutnya dilakukan pengelompokan
menggunakan software SPSS. Hasil klasifikasi dengan menggunakan metode K-
Means disajikan pada tabel berikut ini.
Tabel 4.4 Banyaknya Anggota dalam 6 Klaster
Banyaknya
Cluster ke- Valid Missing
Anggota Cluster
1 3
2 8
3 19 50,0 0,0
4 14
5 6
Berdasarkan Tabel 4.4, dapat diketahui bahwa dengan menggunakan metode

K-Means, maka banyaknya anggota dalam klaster pertama adalah sebanyak 3
perumahan. Anggota dalam klaster kedua yaitu sebanyak 8 perumahan, dan klaster
ketiga mempunyai 19 anggota. Selanjutnya, klaster keempat berisi 14 angota dan
14
klaster kelima memuat 6 anggota. Perumahan-perumahan yang dikelompok
kedalam klaster berdasarkan faktor-faktor yang mempengaruhi harga rumah akan
dijabarkan lebih jelas dalam tabel sebagai berikut.
Tabel 4.5 Hasil Klasifikasi Menggunakan Metode K-Means
Cluster ke- Anggota Cluster (Perumahan)
1 1,2,3.
2 11, 12, 37, 38, 42, 43, 44, 47.
7, 21, 22, 24, 25, 26, 27, 29, 30, 31, 32, 33, 34,
3
35, 36, 41, 48, 49, 50.
13, 14, 15, 16, 17, 18, 19, 20, 23, 28, 39, 40,
4
45, 46.
5 4, 5, 6, 8, 9, 10.
Berdasarkan Tabel 4.5, didapatkan anggota untuk masing-masing cluster.

Cluster pertama mempunyai 3 anggota yang di dalamnya memuat perumahan 1,2,
dan 3. Cluster kedua didalamnya terdapat perumahan 11, 12, 37, 38, 42, 43, 44, 47.
Cluster ketiga memiliki jumlah anggota terbanyak yakni 19, diikuti dengan klaster
keempat yang memiliki 14 anggota. Cluster kelima mempunyai 6 anggota, yakni
perumahan 4, 5, 6, 8, 9, dan 10. Selain itu, untuk mengetahui variabel yang
berkontribusi secara signifikan dalam memengaruhi hasil pengelompokan analisis
5 klaster secara non-hierarki dengan metode K-Means, maka digunakan ANOVA
yang disajikan dalam tabel berikut ini.
Tabel 4.6 ANOVA untuk 5 Cluster
Cluster Mean Error Mean
Variabel df df F Sig.
Square Square
X1 16,229 4 13,596 45 1,194 0,327
X2 1651640,068 4 433539,66 45 3,810 0,009
X3 63300,539 4 20315,063 45 3,116 0,024
X4 227155,712 4 88597,37 45 2,564 0,051
X5 66851,398 4 19474,766 45 3,433 0,016
X6 12,035 4 0,413 45 29,107 0,000
X7 5,789 × 1010 4 134518543,6 45 430,353 0,000
Berdasarkan Tabel 4.6, dapat diketahui bahwa variabel X2, X3, X5, X6, dan
X7 mempunyai p-value kurang dari α = 0,05, maka keputusannya tolak 𝐻0 . Artinya,
variabel jumlah ruangan (X2), jumlah kamar tidur (X3), jumlah rumah tangga (X5),
median pendapatan rumah tangga (X6), dan median nilai jual rumah (X7)
berpengaruh signifikan dalam memengaruhi hasil pengelompokan analisis 5 klaster
secara non-hierarki dengan metode K-Means.
15
4.5 Perbandingan Metode Hierarki dan Non Hierarki
Analisis klaster dengan menggunakan metode Single Linkage dan K-Means
telah dilakukan. Masing-masing metode membentuk jumlah klaster yang berbeda
dengan anggota di tiap klaster yang berbeda pula, sehingga perlu dilakukan
perbandingan untuk memilih metode terbaik dari keduanya. Pemilihan metode yang
paling baik dapat dilihat berdasarkan nilai ICD Rate (Internal Cluster Dispersion
Rate), nilai Pseudo-f, dan nilai R2 yang didapatkan dari pengolahan data
menggunakan software R sebagai berikut.
Tabel 4.7 Nilai R2, Pseudo-f, dan ICD pada metode Single Linkage dan K-Means
Banyaknya
Metode R2 Pseudo-f ICD Rate
Cluster
Single Linkage 6 0,5691 90,8823 0,4308
K-Means 5 0,7678 285,2596 0,2321
Berdsarkan Tabel 4.7 dapat disimpulkan bahwa metode K-Means dengan

banyak klaster sebanyak 5 merupakan metode yang paling baik dalam
mengklasifikasikan perumahan berdasarkan faktor-faktor yang mempengaruhi
harga perumahan di California, karena metode tersebut mempunyai nilai ICD Rate
yang lebih dan nilai Pseudo-f serta nilai R2 yang lebih besar daripada metode Single
Linkage.
16
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Kesimpulan dalam praktikum ini berdasarkan hasil analisis adalah sebagai
berikut:
1. Median umur rumah (X1), jumlah ruangan (X2), jumlah kamar tidur (X3),
populasi (X4), jumlah rumah tangga (X5), median pendapatan rumah tangga
(X6), dan median nlai jual rumah (X7) memiliki nilai mean berturut-turut
adalah 49,84, 1665, 376,20, 814,9, 352,3, 2,44, dan 165.130.
2. Berdasarkan hasil deteksi outlier univariat, terdapat 1 pengamatan outlier
pada variabel median pendapatan rumah tangga karena diperoleh nilai z =
4,124 sedangkan berdasarkan hasil deteksi outlier secara multivariat tidak
terdapat data yang outlier sehingga tidak ada data yang perlu dihilangkan.
3. Berdasarkan analisis cluster menggunakan metode Single Linkage didapatkan
hasil klasifikasi sebanyak 6 cluster. Cluster 2 merupakan cluster dengan
anggota paling banyak yaitu 37 perumahan.
4. Berdasarkan analisis cluster menggunakan metode K-Means didapatkan hasil
klasifikasi sebanyak 5 cluster. Cluster 3 merupakan cluster dengan anggota
paling banyak yaitu 19 perumahan.
5. Metode klasifikasi terbaik yang digunakan pada data California Housing
adalah metode K-Means karena mempunyai nilai R2 dan Pseudo-f berturut-
turut sebesar 0,767 dan 285,2596 di mana nilai tersebut lebih besar
dibandingkan dengan metode Single Linkage yang memiliki nilai R2 dan
Pseudo-f berturut-turut sebesar 0,5691 dan 90,8823.
5.2 Saran
Kegiatan praktikum tentang analisis cluster ini harus dilakukan dengan teliti
dan cermat, ketika proses penginputan data harus benar dan tepat sehingga
diharapkan dapat menunjukkan hasil yang lebih akurat dan sesuai. Selain itu, dalam
praktikum selanjutnya sebaiknya mengatasi data yang outlier karena
berkemungkinan untuk mengubah hasil analisisnya.
17
DAFTAR PUSTAKA
Indriana, Yeniar. 2012. Gerentologi dan Progeria. Pustaka Belajar: Yogyakarta.

AIREA (America Institute Real Estate Apprise). 1992. The Apprisal of Real Estate,
14th Edition. USA: Chicago Illionis
Tukey, J. W. (1977). In Exploratory Data Analysis. South Africa: National Library
of South Africa.
Johnson, R. A., & Winchern, D. (2007). Applied Multivariate Statistical Analysis.
New Jersey: Prentice Hall.
Walpole. (1993). Pengantar Statistika. Jakarta: PT Gramedia Pustaka Utama.
Y. W. Fung, W. L. Lee, (2014). Development of Price Models For Architectural
And Environmental Quality For Residential Developments in Hong Kong,
Habitat International 44 (2014) 186e193.
18
LAMPIRAN
Lampiran 1. Data California Housing

Housing Median
Total Total Median
Housing Median Population Households House
Rooms Bedrooms Income
Age Value
1 52 1467 190 496 177 7.2574 352100
2 52 1274 235 558 219 5.6431 341300
3 52 1627 280 565 259 3.8462 342200
4 52 919 213 413 193 4.0368 269700
5 52 2535 489 1094 514 3.6591 299200
6 52 3104 687 1157 647 3.12 241400
7 52 773 143 377 115 2.4083 98200
8 52 3549 707 1551 714 3.6912 261100
9 52 2202 434 910 402 3.2031 281500
10 52 3503 752 1504 734 3.2705 241800
11 52 2491 474 1098 468 3.075 213500
12 52 696 191 345 174 2.6736 191300
13 52 2643 626 1212 620 1.9167 159200
14 50 1120 283 697 264 2.125 140000
15 52 1966 347 793 331 2.775 152500
16 52 1228 293 648 303 2.1202 155500
17 50 2239 455 990 419 1.9911 158700
18 52 1503 298 690 275 2.6033 162900
19 40 751 184 409 166 1.3578 147500
20 42 1639 367 929 366 1.7135 159800
21 52 2436 541 1015 478 1.725 113900
22 52 1688 337 853 325 2.1806 99700
23 52 2224 437 1006 422 2.6 132600
24 41 535 123 317 119 2.4038 107500
25 49 1130 244 607 239 2.4597 93800
26 52 1898 421 1102 397 1.808 105500
27 50 2082 492 1131 473 1.6424 108900
28 52 729 160 395 155 1.6875 132000
29 49 1916 447 863 378 1.9274 122300
30 52 2153 481 1168 441 1.9615 115200
31 48 1922 409 1026 335 1.7969 110400
32 49 1655 366 754 329 1.375 104900
33 51 2665 574 1258 536 2.7303 109700
34 49 1215 282 570 264 1.4861 97200
35 48 1798 432 987 374 1.0972 104500
36 52 1511 390 901 403 1.4103 103900
37 52 1470 330 689 309 3.48 191400
19
Housing Median
Total Total Median
Housing Median Population Households House
Rooms Bedrooms Income
Age Value
38 52 2432 715 1377 696 2.5898 176000
39 52 1665 419 946 395 2.0978 155400
40 51 936 311 517 249 1.2852 150000
41 49 713 202 462 189 1.025 118800
42 52 950 202 467 198 3.9643 188800
43 52 1443 311 660 292 3.0125 184400
44 52 1656 420 718 382 2.6768 182300
45 50 1125 322 616 304 2.026 142500
46 43 1007 312 558 253 1.7348 137500
47 40 624 195 423 160 0.9506 187500
48 40 946 375 700 352 1.775 112500
49 43 1868 456 1061 407 1.5045 93800
50 52 1630 456 1162 400 1.2475 104200
Lampiran 2. Output SPSS untuk Metode Single Linkage
20
Lampiran 3. Output SPSS untuk Metode K-Means
21
Lampiran 4. Syntax Software R
library(tidyverse)
library(cluster) # Algoritma klastering
library(factoextra) # Algoritma klastering dan visualisasi
cluster = read.csv("D:/Modul Clustering Analysis/standardized_housing.csv",sep=",")
fviz_nbclust(cluster, FUN=hcut, method = "silhouette")+labs(subtitle="Silhouette Method
for Single Linkage")
#Cluster
HC= hclust(dist(cluster,method="euclidean"),method="single")
fviz_nbclust(cluster, kmeans, method = "silhouette")+labs(subtitle="Silhouette Method for
K-Means")
Cluster3=kmeans(cluster,5)
single_Linkage3<-cutree(HC, 5)
K_means3=Cluster3$cluster
data_baru=data.frame(cluster,single_Linkage3,K_means3)
#ICDRate
icdrate = function(Data, nc, c)
{
22
n = dim(Data)[1]
p = dim(Data)[2]
X = Data[,1:(p-1)]
Group = Data[,p]
p = dim(X)[2]
Mean.X = matrix(ncol = p, nrow = (nc+1))
for (i in 1:nc)
{
for (j in 1:p)
{
Mean.X[i,j] = mean(X[which(Group==i),j])
Mean.X[(nc+1),j] = mean(X[,j])
}
}
SST = matrix(ncol=p, nrow=n)
for (i in 1:n)
{
for (j in 1:p)
{
SST[i,j] = (X[i,j] - Mean.X[(nc+1),j])^2
}
}
SST = sum(sum(SST))
SSE = matrix(ncol=p, nrow=n)
for (i in 1:n)
{
for (j in 1:p)
{
for (k in 1:nc)
{
if (Group[i]==k)
{
SSE[i,j] = (X[i,j] - Mean.X[k,j])^2
}
}
}
}
SSE = sum(sum(SSE))
Rsq = (SST-SSE)/SST
icdrate = 1-Rsq
Pseudof = (Rsq/(c-1))/((icdrate)/(nc-c))
list(Rsq=Rsq, icdrate=icdrate, pseudof=Pseudof)
}
icdr_single3=icdrate(data_baru[,1:8],350,6)
kkmeans=data.frame(cluster,K_means3)
icdr_kmeans3=icdrate(kkmeans,350,5)
icdr_single3
icdr_kmeans3
23

Analisis Cluster California Housing Price

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Cluster California Housing Price

Diunggah oleh

Hak Cipta:

Format Tersedia

LAPORAN PRAKTIKUM

ANALISIS KLASTER MENGGUNAKAN METODE HIERARKI DAN

PROGRAM STUDI SARJANA

Kata kunci : Analisis Klaster, Housing Price, K-Means, Single Linkage.

Tabel 3.1 Variabel Penelitian ................................................................................. 9

Gambar 3.1 Flow Chart Praktikum ..................................................................... 10

1.1 Latar Belakang

1.2 Rumusan Masalah

1.5 Batasan Masalah

2.1 Statistika Deskriptif

2.3 Analisis Cluster

2.3.1 Analisis Cluster Hierarki

3.1. Sumber Data

3.2. Variabel Penelitian

3.4. Langkah Analisis

3.5. Diagram Alir

Merumuskan masalah dan

Mendeteksi missing value dan

Analisis cluster Analisis cluster

Memilih metode terbaik

Menarik kesimpulan dan saran

4.1 Eksplorasi Data

4.2 Deteki Missing Value dan Outlier

4.3 Cluster Hierarki

Gambar 4.1 merupakan grafik yang menggambarkan banyaknya klaster

Gambar 4.2 secara visual menunjukkan hasil klasifikasi perumahan-

Berdasarkan Tabel 4.3, didapatkan anggota untuk masing-masing cluster.

Gambar 4.3 Banyaknya Klaster Optimum K-Means Menggunakan Metode Silhouette

Gambar 4.3 merupakan grafik yang menggambarkan banyaknya klaster

Berdasarkan Tabel 4.4, dapat diketahui bahwa dengan menggunakan metode

Berdasarkan Tabel 4.5, didapatkan anggota untuk masing-masing cluster.

Berdsarkan Tabel 4.7 dapat disimpulkan bahwa metode K-Means dengan

Indriana, Yeniar. 2012. Gerentologi dan Progeria. Pustaka Belajar: Yogyakarta.

Lampiran 1. Data California Housing

Lampiran 2. Output SPSS untuk Metode Single Linkage

Anda mungkin juga menyukai