Anda di halaman 1dari 13

Implementasi Metode K-Medoids atau Partitioning Around Medoids (PAM)

dalam Pengelompokan Tipe Rumah di Daerah Tebet

PROPOSAL

Diajukan Guna Memenuhi Tugas Mata Kuliah Datamining

Disusun Oleh :

M Wildan Mahendra (192410101067)


Arham Zainul Abidin (192410101095)
Fernanda Rizky (192410101145)

PROGRAM STUDI SISTEM INFORMASI


FAKULTAS ILMU KOMPUTER
UNIVERSITAS JEMBER
2021
Bab I Pendahuluan

1.1 Judul
Implementasi Metode K-Medoids atau Partitioning Around Medoids (PAM) dalam
Pengelompokan Tipe Rumah di Daerah Tebet.

1.2 Latar Belakang


Pemenuhan kebutuhan perumahan dapat dilakukan oleh masyarakat dan juga
pengembang perumahan. Pemenuhan kebutuhan perumahan oleh pengembang perumahan
terdiri atas pengembang pemerintah dan pengembang real estate swasta. Penyediaan dan
juga pembangunan perumahan oleh pengembang real estate swasta sering kali didasarkan
atas profit oriented sehingga pengelompokan perumahan hanya dibebankan kepada harga
rumah dan lokasinya saja. Hal itu menyebabkan kondisi pengelompokan perumahan yang
timpang dan juga harga yang kurang sesuai. Kondisi ini juga menyebabkan terjadinya
pergeseran pengelompokan perumahan terutama pergeseran dari perumahan sederhana
menjadi perumahan menengah dan perumahan mewah.
Berdasarkan kondisi tersebut maka dibutuhkan suatu evaluasi mengenai
pengelompokan perumahan. Evaluasi dapat dilakukan dengan cara mengetahui detail
perumahan tersebut dan juga pola pembangunannya. Setelah dilakukan proses identifikasi
maka selanjutnya ialah tahap pengelompokannya. Proses pengelompokan perumahan
dapat dilakukan menggunakan sistem clustering. Dengan bantuan teknologi,
pengelompokan data atau yang disebut dengan clustering, bisa dilakukan dengan cepat,
efektif, dan efisien.
Clustering adalah suatu unsupervised learning, yang mana sekelompok data akan
dikelompokkan berdasarkan tingkat kemiripannya tanpa dilakukan supervisi (Simamora,
Furqon, & Priyambadha, 2017). Salah satu algoritma atau metode dari clustering ialah K-
Medoids atau Partitioning Around Medoids (PAM).
K-Medoids ialah metode clustering yang berfungsi untuk membagi dataset menjadi
beberapa kelompok. Kelebihan dari metode ini yakni mampu mengatasi kelemahan dari
metode K-Means yang sensitif terhadap outlier. Metode ini akan cocok jika digunakan
untuk mengelompokkan perumahan di daerah Tebet, Jakarta Selatan menjadi beberapa
tipe perumahan. Hal ini dikarenakan adanya outlier pada dataset perumahan daerah Tebet
yang dapat diatasi jika menggunakan metode K-Medoids.
Dari permasalahan tersebut, penulis mengajukan penelitian berjudul “Implementasi
Metode K-Medoids atau Partitioning Around Medoids (PAM) dalam Pengelompokan
Tipe Rumah di Daerah Tebet”.

1.3 Rumusan Masalah


Berdasarkan latar belakang tersebut, rumusan masalah yang dapat diambil yakni
bagaimana cara mengelompokkan tipe rumah di daerah Tebet, Jakarta Selatan
menggunakan metode K-Medoids atau Partitioning Around Medoids (PAM)?
1.4 Tujuan Masalah
Adapun tujuan dari penelitian ini ialah untuk mengelompokkan perumahan di
daerah Tebet, Jakarta Selatan menjadi beberapa tipe rumah dengan memanfaatkan data
detail rumah menggunakan metode K-Medoids atau PAM untuk mendapatkan
pengelompokan tipe rumah yang tepat dan tidak timpang.

1.5 Batasan Masalah


Adapun batasan dari penelitian ini diantaranya:
a. Dataset yang digunakan bersumber dari internet bebas, sehingga keabsahan datanya
belum bisa dipastikan.
b. Metode clustering yang digunakan untuk mengelompokkan perumahan hanya sebatas
K-Medoids atau PAM.

1.6 Manfaat Penelitian


Berikut manfaat dari penelitian yang telah dilakukan.
a. Bagi peneliti
1. Menambah pemahaman mengenai penerapan datamining menggunakan metode K-
Medoids atau PAM.
2. Mengetahui detail perhitungan pada metode K-Medoids atau PAM.
b. Bagi pengembang perumahan
1. Sebagai bahan acuan dalam mengelompokkan perumahan tanpa adanya
ketimpangan detail dan harga rumah.
c. Bagi masyarakat
1. Perumahan bertipe sederhana dapat dijangkau oleh masyarakat bawah dengan
harga murah.
Bab II Tinjauan Pustaka

2.1 Penelitian Terdahulu


Menurut Dyang Falila Pramesti, M. Tanzil Furqon, dan Candra Dewi dalam
penelitian yang berjudul “Implementasi Metode K-Medoids Clustering Untuk
Pengelompokan Data Potensi Kebakaran Hutan/Lahan Berdasarkan Persebaran Titik
Panas (Hotspot)”, bertujuan untuk membahas Implementasi Metode K-Medoids
Clustering Untuk Pengelompokan Data Potensi Kebakaran Hutan/Lahan Berdasarkan
Persebaran Titik Panas (Hotspot). Hal tersebut dilatarbelakangi oleh kebakaran hutan yang
terjadi setiap tahunnya di beberapa negara di dunia, yang mana Indonesia merupakan
negara dengan tingkat bencana kebakaran hutan tertinggi. Kebakaran hutan dideteksi oleh
satelit Terra/Aqua sebagai titik-titik api yang kemudian mengindikasikan sebagai titik
panas. Pemanfaatan data titik panas dapat dilakukan sebagai proses pengelompokan sesuai
dengan informasi yang dimiliki oleh data, sehingga dapat diketahui wilayah-wilayah yang
memiliki potensi kebakaran hutan yang tinggi.
Proses pengelompokan wilayah titik panas menggunakan metode K-Medoids
dikarenakan mampu mengatasi kelemahan K-Means yang sensitif terhadap outlier. Data
yang digunakan dalam penelitian tersebut diperoleh dari database situs resmi NASA
LANCE FIRM MODIS Active Fire, yang mana sebanyak 7352 data pada periode
September 2015 digunakan sebagai data sampel. Setelah dilakukan pengujian, didapatkan
nilai akurasi (Silhouette Coefficient) terbaik sebesar 0,56745 menggunakan dua cluster
dari sampel data yang ada. Dari hasil pengujian tersebut, diambil kesimpulan bahwa
metode K-Medoids dapat digunakan untuk proses pengelompokan data potensi kebakaran
hutan berdasarkan persebaran titik panas (hotspot) (Pramesti, Furqon, & Dewi, 2017).

2.2 Landasan Teori


2.2.1 Perumahan
Perumahan adalah kumpulan rumah sebagai bagian dari permukiman, baik
perkotaan maupun perdesaan, yang dilengkapi dengan sarana, prasarana, dan
utilitas umum sebagai hasil upaya pemenuhan rumah yang layak huni. Sarana
adalah fasilitas dalam lingkungan hunian yang berfungsi untuk mendukung
penyelenggaraan dan pengembangan kehidupan sosial, budaya, dan ekonomi.
Prasarana adalah kelengkapan dasar fisik lingkungan hunian yang memenuhi
standar tertentu untuk kebutuhan bertempat tinggal yang layak, sehat, aman, dan
nyaman. Utilitas umum adalah kelengkapan penunjang untuk pelayanan
lingkungan hunian (Pemerintah Indonesia, 2011).

2.2.2 Data Mining


Data mining adalah analisa yang dilakukan secara otomatis pada data yang
berjumlah besar dan kompleks dengan tujuan mendapatkan kecenderungan atau
pola penting yang keberadaannya masih tersembunyi atau belum ditemukan
(Pramudiono, 2006). Beberapa istilah lain yang bermakna sama dengan data
mining, yakni Knowledge Discovery in Databases (KDD), Ekstraksi Pengetahuan,
Analisa Data/Pola, Kecerdasan Bisnis, Data Archaeology, dan Data Dredging
(Larose, 2005).

2.2.3 Clustering
Clustering merupakan suatu proses pengelompokan record, observasi, atau
kelas yang memiliki kesamaan objek (Larose, 2005). Perbedaannya dengan
klasifikasi ialah tidak adanya variabel target dalam melakukan pengelompokan saat
proses clustering. Clustering sering dilakukan sebagai langkah awal dalam proses
data mining.
Kualitas hasil clustering sangat bergantung pada metode yang dipakai.
Beberapa metode clustering yang telah digunakan oleh para peneliti diantaranya
seperti K-Means, Improved K-Means, DBSCAN, K-Medoids (PAM), CLARANS,
Fuzzy C-Means, dan Fuzzy Substractive. Setiap metode memiliki kelebihan dan
kelemahan masing-masing, namun tetap memiliki prinsip yang sama, yakni
mengelompokkan data sesuai dengan karakteristik dan jarak kemiripan antar data
dalam satu kelompok atau cluster.

2.2.4 K-Medoids atau Partitioning Around Medoids (PAM)


K-Medoids atau Partitioning Around Medoids (PAM) adalah metode
clustering yang mirip dengan metode K-Means. Perbedaannya ialah K-Medoids
menggunakan objek perwakilan (medoid) sebagai pusat cluster pada tiap cluster,
sedangkan K-Means menggunakan nilai rata-rata (mean) sebagai pusat cluster
(Kaur, Kaur, & Singh, 2014). Metode K-Medoids memiliki kelebihan untuk
mengatasi kelemahan pada metode K-Means yang sensitif terhadap outlier dan
noise, yang mana objek bernilai besar memungkinkan menyimpang saat distribusi
data. Kelebihan lain dari metode K-Medoids yakni hasil clustering tidak
bergantung pada urutan masuk dataset. Berikut langkah-langkah metode K-
Medoids (Pramesti, Furqon, & Dewi, 2017):
1) Inisialisasi pusat cluster (medoid) sebanyak k (jumlah cluster).
2) Hitung jarak setiap data (objek) ke cluster terdekat menggunakan persamaan
ukuran jarak Euclidian Distance dengan persamaan:

𝑛
𝑑𝑖𝑠𝑡(𝑥, 𝑦) = √∑ (𝑥𝑖 − 𝑦𝑖 )2
𝑖=1

3) Pilih secara acak objek pada masing-masing cluster sebagai kandidat medoid
baru.
4) Hitung jarak setiap objek yang berada pada masing-masing cluster dengan
kandidat medoid baru.
5) Hitung total simpangan (S) dengan menghitung nilai total distance baru
dikurangi dengan total distance lama. Jika S < 0 maka tukar objek dengan data
cluster medoid baru untuk membentuk sekumpulan k objek baru sebagai
medoid.
6) Ulangi langkah 3 sampai 5 hingga tidak terjadi perubahan medoid, sehingga
didapatkan cluster beserta anggota cluster masing-masing.

2.2.5 Silhouette Coefficient


Silhouette Coefficient adalah metode yang digunakan untuk melihat kualitas
dan kekuatan dari cluster. Metode Silhouette Coefficient merupakan gabungan dari
dua metode yakni metode cohesion yang berfungsi untuk mengukur seberapa dekat
relasi antara objek dalam sebuah cluster, dan metode separation yang berfungsi
untuk mengukur seberapa jauh sebuah cluster terpisah dengan cluster lain. Berikut
tahapan perhitungan Silhouette Coefficient (Handoyo, Mangkudjaja, & Nasution ,
2014):
1) Hitung rata-rata jarak objek yang berada dalam satu cluster (average
dissimilarity). Dinotasikan dengan a(i).

1
𝑎(𝑖) = ∑ 𝑗 ∈𝐴,𝑗≠i 𝑑(𝑖, 𝑗)
[𝐴] − 1

2) Hitung rata-rata jarak objek dengan semua objek lain pada cluster lain,
kemudian ambil nilai paling minimum (lowest average dissimilarity).
Dinotasikan dengan b(i).

1
𝑏(𝑖) = 𝑑(𝑖, 𝐶) = ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)
[𝐴]

3) Hitung nilai Silhouette Coefficient. Jumlah S(i) diperoleh menggunakan


persamaan berikut.

𝑎(𝑖)
1− , 𝑖𝑓 𝑎(𝑖) < 𝑏(𝑖)
𝑏(𝑖)
𝑆(𝑖) 0, 𝑖𝑓 𝑎(𝑖) = 𝑏(𝑖)
𝑏(𝑖)
− 1, 𝑖𝑓 𝑎(𝑖) > 𝑏(𝑖)
{ 𝑎(𝑖)

Sehingga dapat dirumuskan:

𝑏(𝑖) − 𝑎(𝑖)
𝑆(𝑖) =
max(𝑎(𝑖), 𝑏(𝑖))
Nilai hasil perhitungan Silhouette Coefficient berada pada rentang nilai -1
hingga 1. Semakin mendekati nilai 1 maka semakin baik pengelompokan data
pada tiap cluster. Sebaliknya, jika mendekati nilai -1 maka semakin buruk
pengelompokan data pada tiap cluster.

2.3 Hasil Implementasi


2.3.1 Pemilihan Atribut
Pemilihan atribut digunakan untuk memilih atribut mana yang akan
digunakan sebagai proses clustering dan mengeliminasi atribut yang sekiranya
tidak berpengaruh besar terhadap proses clustering. Pada penelitian ini, peneliti
mengeliminasi dua dari delapan atribut pada dataset perumahan daerah Tebet,
sehingga atribut-atribut yang dipilih ialah Harga, LB (luas bangungan), LT (luas
tanah), KT (jumlah kamar tidur), KM (jumlah kamar mandi), dan GRS (jumlah
garasi). Berikut 5 data awal setelah proses pemilihan atribut:

Harga LB LT KT KM GRS
3800000000 220 220 3 3 0
4600000000 180 137 4 3 2
3000000000 267 250 4 4 4
430000000 40 25 2 2 0
9000000000 400 355 6 5 3

2.3.2 Normalisasi Data


Normalisasi digunakan untuk menyamakan skala atribut data ke dalam
range yang spesifik yang lebih kecil seperti -1 sampai 1 atau 0 sampai 1. Min-Max
Normalization merupakan teknik normalisasi dengan melakukan transformasi
linier pada atribut data asli untuk menghasilkan range nilai yang sama. Min-Max
Normalization memetakan sebuah value v dari atribut A menjadi v’, berikut
rumusnya:
𝑣 − 𝑚𝑖𝑛𝐴
𝑣′ =
𝑚𝑎𝑥𝐴 − 𝑚𝑖𝑛𝐴

Berikut 5 data awal dari dataset perumahan daerah Tebet setelah proses normalisasi:

Harga LB LT KT KM GRS
0,05219142 0,16574586 0,14181818 0,125 0,22222222 0
0,06458107 0,12891344 0,08145455 0,25 0,22222222 0,2
0,03980177 0,20902394 0,16363636 0,25 0,33333333 0,4
0 0 0 0 0,11111111 0
0,13272418 0,33149171 0,24 0,5 0,44444444 0,3
2.3.3 Menentukan Jumlah Cluster
Jumlah cluster yang akan digunakan dalam penelitian ini ialah sebanyak 3
cluster. Masing-masing cluster tersebut diasumsikan sebagai rumah tipe A, rumah
tipe B, dan rumah tipe C.

2.3.4 Inisialisi Pusat Cluster


Menginisialisasi pusat cluster (medoid) secara acak, kemudian menghitung
jarak data (objek) dengan medoid pada masing-masing cluster menggunakan
persamaan Euclidean Distance. Berikut pusat cluster yang telah dipilih secara acak:

Data ke- Harga LB LT KT KM GRS


300 0,06767849 0,19337017 0,10545455 0,25 0,33333333 0,3
600 0,03670435 0,10128913 0,05309091 0,25 0,22222222 0,1
900 0,00805328 0,08287293 0,04872727 0,25 0,11111111 0

Berikut 5 data awal setelah dilakukan perhitungan jarak menggunakan persamaan


Euclidean Distance:

Cost 1 Cost 2 Cost 3


0,34683706 0,1946588 0,21319638
0,16457807 0,11110675 0,2423466
0,12003031 0,35522156 0,48939642
0,50495126 0,31507304 0,26796851
0,34096431 0,49902982 0,61445138

Setelah dilakukan perhitungan jarak, langkah selanjutnya ialah mencari


jarak terdekat antara data (objek) dengan medoid, kemudian hitung total distance-
nya. Berikut 5 data awal pencarian jarak terdekat dengan medoid beserta total
distance dari 1010 data:

Cost Cluster
0,1946588 2
0,11110675 2
0,12003031 1
0,26796851 3
0,34096431 1
295,77313 Total Distance (keseluruhan data)

2.3.5 Inisialisasi Pusat Cluster Baru


Menginisialisasikan pusat cluster (medoid) baru secara acak, kemudian
lakukan langkah yang sama seperti proses inisialisasi pusat cluster awal tadi. Pada
bagian ini, peneliti mengambil data ke 100, 200, dan 400 sebagai pusat cluster baru.
Berikut 5 data awal setelah proses pencarian jarak terdekat beserta total distance
baru dari 1010 data:

Cost Cluster
0,24630099 1
0,15064421 2
0,25507892 3
0,35429937 1
0,31348545 3
292,046305 Total Distance (keseluruhan data)

2.3.6 Menghitung Total Simpangan (S)


Total simpangan merupakan selisih antara total distance baru dengan total
distance lama. Total simpangan didapat dari hasil pengurangan total distance baru
dengan total distance lama.

𝑆 = 𝑇𝑜𝑡𝑎𝑙 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑏𝑎𝑟𝑢 − 𝑇𝑜𝑡𝑎𝑙 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑙𝑎𝑚𝑎


𝑆 = 292,046305 − 295,77313
𝑆 = −3,726825314

Karena S < 0 maka tukar medoid lama dengan medoid baru. Ulangi proses
2.3.5 sampai 2.3.6 hingga didapatkan total simpangan (S) > 0, sehingga ditemukan
hasil cluster akhir beserta anggota cluster masing-masing. Berikut 5 data awal hasil
cluster akhir setelah S > 0:

Harga LB LT KT KM GRS Cluster


0,05219142 0,16574586 0,14181818 0,125 0,22222222 0 2
0,06458107 0,12891344 0,08145455 0,25 0,22222222 0,2 1
0,03980177 0,20902394 0,16363636 0,25 0,33333333 0,4 1
0 0 0 0 0,11111111 0 2
0,13272418 0,33149171 0,24 0,5 0,44444444 0,3 3

2.3.7 Pengujian Jumlah Cluster


Dari hasil cluster akhir, didapatkan nilai Silhouette Coefficient sebesar
0.2262001 untuk jumlah cluster sebanyak 3 dengan menggunakan persamaan
Silhouette Coefficient. Untuk mendapatkan hasil clustering yang lebih baik lagi,
dilakukan pengujian dengan menggunakan bahasa pemrograman Python untuk
mendapatkan perhitungan kualitas clustering secara cepat dan efisien dengan
mengambil jumlah cluster sebanyak 2 sampai 8 cluster. Berikut lampiran kode
programnya:
Berikut hasil pengujian terhadap 2 sampai 8 cluster:

Jumlah Cluster Silhouette Coefficient


2 0.2814077
3 0.2262001
4 0.1168363
5 0.1227302
6 0.1236657
7 0.1256540
8 0.1201288

Berdasarkan hasil uji di atas, jumlah cluster terbaik yakni sebanyak 2


dengan mendapatkan nilai Silhouette Coefficient sebesar 0.2814077.

2.3.8 Kesimpulan
Dari penelitian yang telah dilakukan, dapat ditarik kesimpulan bahwa
metode K-Medoids atau Partitioning Around Medoids (PAM) dapat
diimplementasikan untuk mengelompokkan perumahan di daerah Tebet, Jakarta
Selatan. Setelah uji perbandingan jumlah cluster, didapatkan nilai Silhouette
Coefficient terbaik 0.2814077 untuk jumlah cluster 2. Dari 1010 data diperoleh
cluster 1 sebanyak 517 data dan cluster 2 sebanyak 493 data.
Bab III Metodologi Penelitian

3.1 Jenis Penelitian


Metode penelitian yang digunakan ialah metode deskriptif kuantitatif. Metode
deskriptif adalah metode yang memberi gambaran sedetail mungkin mengenai suatu
variabel. Sedangkan metode kuantitatif adalah metode penelitian yang digunakan untuk
meneliti populasi atau sampel tertentu. Pada umumnya teknik pengambilan sampel
dilakukan secara acak. Pemeriksaan kualitas data dilakukan dengan menggunakan analisis
data yang bersifat kuantitatif dengan tujuan untuk mendapatkan sampel data yang
berkualitas.

3.2 Objek Penelitian


Objek penelitian yang diambil yaitu perumahan di daerah Tebet, Jakarta Selatan.
Namun, dataset yang digunakan berasal dari situs Kaggle dengan nama dataset Daftar
Harga Rumah milik Wisnu Anggara.

3.3 Tempat dan Waktu Penelitian


Penelitian ini dilakukan selama 1 bulan mulai dari 21 April 2021 – 20 Mei 2021.
Penelitian dilakukan di rumah peneliti masing-masing sembari berdiskusi melalui chat
maupun video conference.

3.4 Tahapan Penelitian


Tahapan penelitian yang dilakukan adalah sebagai berikut:
1) Studi literatur mengenai konsep dasar analisis clustering dengan metode K-Medoids
atau PAM.
2) Pengambilan dataset Daftar Harga Rumah kemudian mengolah datanya.
3) Studi literatur mengenai aplikasi Microsoft Excel dan bahasa pemrograman Python
dalam mengolah data.
4) Mengonstruksi aplikasi Microsoft Excel untuk pengelompokan data (objek)
menggunakan metode K-Medoids.
5) Melakukan proses clustering menggunakan aplikasi Microsoft Excel yang telah
dikonstruksi.
6) Melakukan uji perbandingan hasil cluster menggunakan Python.
7) Menarik beberapa kesimpulan yang berkesesuaian dengan tujuan penelitian.

3.5 Analisis Data


Analisis data yang digunakan adalah data kuantitatif dimana peneliti membahas
data berupa data perumahan di daerah Tebet, Jakarta Selatan. Masing-masing data
perumahan memiliki detail spesifikasi rumah yang dapat digunakan sebagai variabel
pengelompokan pada penelitian ini.
3.6 Jadwal Kegiatan
No Tahapan Penelitian April 2021 Mei 2021

1 2 3 4 1 2 3 4

1 Studi Literatur

2 Pengumpulan Data

3 Identifikasi Kebutuhan

4 Implementasi

5 Evaluasi

6 Pembuatan Laporan
DAFTAR PUSTAKA

Pramesti, D. F., Furqon, M. T., & Dewi, C. (2017). Implementasi Metode K-Medoids Clustering
Untuk Pengelompokan Data Potensi Kebakaran Hutan/Lahan Berdasarkan Persebaran
Titik Panas (Hotspot). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer,
723-732.
Simamora, D. A., Furqon, M. T., & Priyambadha, B. (2017). Clustering Data Kejadian Tsunami
Yang Disebabkan Oleh Gempa Bumi Dengan Menggunakan Algoritma K-Medoids.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 635-640.
Pramudiono. (2006). Apa itu data mining. Yogyakarta: Penerbit Andi.
Larose, D. T. (2005). Discovering Knowledge in Data : An Introduction to Data Mining. John
Wiley & Sons, Inc.
Handoyo, R., Mangkudjaja, R., & Nasution , S. M. (2014, Oktober). Perbandingan Metode
Clustering Menggunakan Metode Single Linkage dan K - Means pada Pengelompokan
Dokumen. 15(2), 1-10.
Kaur, N. K., Kaur, U., & Singh, D. (2014). K-Medoid Clustering Algorithm- A Review.
International Journal of Computer Application and Technology (IJCAT), 42-45.
Pemerintah Indonesia. (2011). Undang-Undang Nomor 1 Tahun 2011 tentang Perumahan dan
Kawasan Permukiman.

Anda mungkin juga menyukai