PROPOSAL
Disusun Oleh :
1.1 Judul
Implementasi Metode K-Medoids atau Partitioning Around Medoids (PAM) dalam
Pengelompokan Tipe Rumah di Daerah Tebet.
2.2.3 Clustering
Clustering merupakan suatu proses pengelompokan record, observasi, atau
kelas yang memiliki kesamaan objek (Larose, 2005). Perbedaannya dengan
klasifikasi ialah tidak adanya variabel target dalam melakukan pengelompokan saat
proses clustering. Clustering sering dilakukan sebagai langkah awal dalam proses
data mining.
Kualitas hasil clustering sangat bergantung pada metode yang dipakai.
Beberapa metode clustering yang telah digunakan oleh para peneliti diantaranya
seperti K-Means, Improved K-Means, DBSCAN, K-Medoids (PAM), CLARANS,
Fuzzy C-Means, dan Fuzzy Substractive. Setiap metode memiliki kelebihan dan
kelemahan masing-masing, namun tetap memiliki prinsip yang sama, yakni
mengelompokkan data sesuai dengan karakteristik dan jarak kemiripan antar data
dalam satu kelompok atau cluster.
𝑛
𝑑𝑖𝑠𝑡(𝑥, 𝑦) = √∑ (𝑥𝑖 − 𝑦𝑖 )2
𝑖=1
3) Pilih secara acak objek pada masing-masing cluster sebagai kandidat medoid
baru.
4) Hitung jarak setiap objek yang berada pada masing-masing cluster dengan
kandidat medoid baru.
5) Hitung total simpangan (S) dengan menghitung nilai total distance baru
dikurangi dengan total distance lama. Jika S < 0 maka tukar objek dengan data
cluster medoid baru untuk membentuk sekumpulan k objek baru sebagai
medoid.
6) Ulangi langkah 3 sampai 5 hingga tidak terjadi perubahan medoid, sehingga
didapatkan cluster beserta anggota cluster masing-masing.
1
𝑎(𝑖) = ∑ 𝑗 ∈𝐴,𝑗≠i 𝑑(𝑖, 𝑗)
[𝐴] − 1
2) Hitung rata-rata jarak objek dengan semua objek lain pada cluster lain,
kemudian ambil nilai paling minimum (lowest average dissimilarity).
Dinotasikan dengan b(i).
1
𝑏(𝑖) = 𝑑(𝑖, 𝐶) = ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)
[𝐴]
𝑎(𝑖)
1− , 𝑖𝑓 𝑎(𝑖) < 𝑏(𝑖)
𝑏(𝑖)
𝑆(𝑖) 0, 𝑖𝑓 𝑎(𝑖) = 𝑏(𝑖)
𝑏(𝑖)
− 1, 𝑖𝑓 𝑎(𝑖) > 𝑏(𝑖)
{ 𝑎(𝑖)
𝑏(𝑖) − 𝑎(𝑖)
𝑆(𝑖) =
max(𝑎(𝑖), 𝑏(𝑖))
Nilai hasil perhitungan Silhouette Coefficient berada pada rentang nilai -1
hingga 1. Semakin mendekati nilai 1 maka semakin baik pengelompokan data
pada tiap cluster. Sebaliknya, jika mendekati nilai -1 maka semakin buruk
pengelompokan data pada tiap cluster.
Harga LB LT KT KM GRS
3800000000 220 220 3 3 0
4600000000 180 137 4 3 2
3000000000 267 250 4 4 4
430000000 40 25 2 2 0
9000000000 400 355 6 5 3
Berikut 5 data awal dari dataset perumahan daerah Tebet setelah proses normalisasi:
Harga LB LT KT KM GRS
0,05219142 0,16574586 0,14181818 0,125 0,22222222 0
0,06458107 0,12891344 0,08145455 0,25 0,22222222 0,2
0,03980177 0,20902394 0,16363636 0,25 0,33333333 0,4
0 0 0 0 0,11111111 0
0,13272418 0,33149171 0,24 0,5 0,44444444 0,3
2.3.3 Menentukan Jumlah Cluster
Jumlah cluster yang akan digunakan dalam penelitian ini ialah sebanyak 3
cluster. Masing-masing cluster tersebut diasumsikan sebagai rumah tipe A, rumah
tipe B, dan rumah tipe C.
Cost Cluster
0,1946588 2
0,11110675 2
0,12003031 1
0,26796851 3
0,34096431 1
295,77313 Total Distance (keseluruhan data)
Cost Cluster
0,24630099 1
0,15064421 2
0,25507892 3
0,35429937 1
0,31348545 3
292,046305 Total Distance (keseluruhan data)
Karena S < 0 maka tukar medoid lama dengan medoid baru. Ulangi proses
2.3.5 sampai 2.3.6 hingga didapatkan total simpangan (S) > 0, sehingga ditemukan
hasil cluster akhir beserta anggota cluster masing-masing. Berikut 5 data awal hasil
cluster akhir setelah S > 0:
2.3.8 Kesimpulan
Dari penelitian yang telah dilakukan, dapat ditarik kesimpulan bahwa
metode K-Medoids atau Partitioning Around Medoids (PAM) dapat
diimplementasikan untuk mengelompokkan perumahan di daerah Tebet, Jakarta
Selatan. Setelah uji perbandingan jumlah cluster, didapatkan nilai Silhouette
Coefficient terbaik 0.2814077 untuk jumlah cluster 2. Dari 1010 data diperoleh
cluster 1 sebanyak 517 data dan cluster 2 sebanyak 493 data.
Bab III Metodologi Penelitian
1 2 3 4 1 2 3 4
1 Studi Literatur
2 Pengumpulan Data
3 Identifikasi Kebutuhan
4 Implementasi
5 Evaluasi
6 Pembuatan Laporan
DAFTAR PUSTAKA
Pramesti, D. F., Furqon, M. T., & Dewi, C. (2017). Implementasi Metode K-Medoids Clustering
Untuk Pengelompokan Data Potensi Kebakaran Hutan/Lahan Berdasarkan Persebaran
Titik Panas (Hotspot). Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer,
723-732.
Simamora, D. A., Furqon, M. T., & Priyambadha, B. (2017). Clustering Data Kejadian Tsunami
Yang Disebabkan Oleh Gempa Bumi Dengan Menggunakan Algoritma K-Medoids.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, 635-640.
Pramudiono. (2006). Apa itu data mining. Yogyakarta: Penerbit Andi.
Larose, D. T. (2005). Discovering Knowledge in Data : An Introduction to Data Mining. John
Wiley & Sons, Inc.
Handoyo, R., Mangkudjaja, R., & Nasution , S. M. (2014, Oktober). Perbandingan Metode
Clustering Menggunakan Metode Single Linkage dan K - Means pada Pengelompokan
Dokumen. 15(2), 1-10.
Kaur, N. K., Kaur, U., & Singh, D. (2014). K-Medoid Clustering Algorithm- A Review.
International Journal of Computer Application and Technology (IJCAT), 42-45.
Pemerintah Indonesia. (2011). Undang-Undang Nomor 1 Tahun 2011 tentang Perumahan dan
Kawasan Permukiman.