Anda di halaman 1dari 12

METODE MANHATTAN, EUCLIDEAN DAN CHEBYSHEV PADA ALGORITMA

K-MEANS UNTUK PENGELOMPOKAN STATUS DESA


Yoga Religia 1

Program Magister Teknik Informatika, Fakultas Ilmu Komputer 1


Universitas Dian Nuswantoro, Semarang, Indonesia
Jl. Imam Bonjol 207 Semarang 50131
Telp : (+6224) 3517261, Fax : (+6224) 3569684
Email : religia19@gmail.com 1

ABSTRAK
Kementerian Desa, Pembangunan Daerah Tertinggal dan Transmigrasi (Kementerian Desa PDTT)
merupakan kementerian dalam Pemerintahan Indonesia yang membidangi urusan pembangunan
desa dan kawasan perdesaan, pemberdayaan masyarakat desa, percepatan pembangunan daerah
tertinggal, dan transmigrasi. Data Potensi Desa tahun 2014 (Podes 2014) merupakan data yang
dikeluarkan oleh Badan Pusat Statistik yang bekerjasama dengan Kementerian Desa PDTT dalam
bentuk unsupervised dan terdiri dari 74093. Data Podes 2014 dibuat berdasarkan tingkat
perkembangan desa (village specific) di Indonesia dengan menjadikan desa sebagai unit analisis. Data
mining merupakan suatu metode yang dapat digunakan untuk menelompokkan objek dalam sebuah
data kedalam kelas-kelas yang memiliki kriteria yang sama (clustering). Salahsatu algoritma yang dapat
digunakan untuk proses clustering yaitu algoritma k-means. Pengelompokan data menggunakan k-
means dilakukan dengan cara menghitung jarak terdekat dari suatu data ke sebuah titik centroid.
Dalam penelitian ini akan dilakukan perbandingan metode perhitungan jarak pada k-means antara
Manhattan, Euclidean dan Chebychev. Pengujian akan dilakukan menggunakan waktu eksekusi dan
davies bouldin index. Dari pengujian yang sudah dilakukan, metode perhitungan jarak Chebyshev
memiliki akumulasi waktu paling efisien dibandingkan Manhattan dan Euclidean, sedangkan metode
Euclidean memiliki nilai Index Davies paling optimal dibanding metode Manhattan dan Chebyshev.

Kata kunci: Pembangunan Desa, k-means, Manhattan, Euclidean, Chebychev

I. PENDAHULUAN kemerdekaan. Dalam perjalanan ketata-


Negara Indonesia adalah Negara Kesatuan negaraan Republik Indonesia, desa telah
yang berbentuk Republik dan Negara hukum, berkembang dalam berbagai bentuk sehingga
dimana kedaulatannya berada ditangan rakyat perlu dilindungi dan diberdayakan agar
yang dilaksanakan menurut Undang-Undang menjadi kuat, maju, mandiri, dan demokratis.
Dasar. Negara Kesatuan Republik Indonesia Untuk melindungi dan memberdayakan desa
dibagi atas daerah-daerah provinsi, dimana maka dibentuklah otonomi desa [2]. Dengan
daerah provinsi dibagi atas kabupaten dan adanya otonomi desa dan adanya Peraturan
Kota [1]. Setiap daerah kabupaten di Indonesia Presiden Nomor 165 Tahun 2014 tentang
terdiri dari desa-desa yang mempunyai hak Penataan Tugas dan Fungsi Kabinet Kerja,
asal usul, hak tradisional dalam mengatur dan maka dibentuklah Kementerian Desa,
mengurus kepentingan masyarakat setempat Pembangunan Daerah Tertinggal, dan
dan berperan mewujudkan cita-cita Transmigrasi Republik Indonesia.

1 | Karya Ilmiah Data Mining, Agustus 2016


Kementerian Desa, Pembangunan Daerah Berdasarkan Peraturan Kementerian Desa
Tertinggal, dan Transmigrasi (Kementerian PDTT nomor 2 tahun 2016, status desa
Desa PDTT) adalah kementerian dalam dikelompokkan kedalam 5 status yaitu Desa
Pemerintahan Indonesia yang dipimpin oleh Mandiri, Desa Maju, Desa Berkembang, Desa
Menteri dan bertanggung jawab kepada Tertinggal dan Desa Sangat Tertinggal [7].
Presiden. Kementerian Desa PDTT membidangi Belum adanya pengelompokkan data Potensi
urusan pembangunan desa dan kawasan Desa tahun 2014 kedalam 5 status desa di
perdesaan, pemberdayaan masyarakat desa, Indonesia dan pengelompokan kedalam 5
percepatan pembangunan daerah tertinggal, satus desa yang ada saat ini adalah
dan transmigrasi [3]. Rencana Pembangunan menggunakan data Indek Desa Membangun
Jangka Menengah Nasional (RPJMN) yang dikelompokkan perdaerah-daerah di
Kementerian Desa PDTT tahun 2015-2019 Indonesia. Menjadikan pengelompokan status
merupakan dokumen strategis rencana desa di Indonesia menggunakan data Potensi
pembangunan yang harus dilakukan oleh Desa Tahun 2014 menjadi dibutuhkan.
pemerintah lima tahun kedepan. Dokumen Dalam teknologi informasi, data merupakan
RPJMN ini memuat sasaran pembangunan bagian penting yang tidak bisa dipisahkan dari
desa yang harus dicapai yaitu mengurangi pengambilan informasi. Informasi terkait
jumlah Desa Tertinggal sampai 5.000 desa dan dengan status desa seperti tersebut diatas
meningkatkan jumlah Desa Mandiri sedikitnya dapat diperoleh menggunakan proses data
2.000 desa di tahun 2019 [4]. Dalam rangka mining terhadap data Podes 2014. Data mining
pembangunan desa, Pemerintah dan merupakan rangkaian kegiatan yang
Pemerintah Daerah wajib mengembangkan digunakan untuk menemukan pola-pola baru,
sistem informasi desa dan pembangunan tersembunyi atau tidak terduga yang terdapat
kawasan perdesaan [5]. didalam data. Istilah data mining sering
Dalam mengembangkan sistem informasi dianggap sebagai sinonim dari knowledge
desa dibutuhkan tersedianya data tentang discovery from data (KDD) yaitu penemuan
desa. Kementerian Desa PDTT bekerjasama pengetahuan dari data yang berfokus pada
dengan Badan Perencanaan Pembangunan tujuan proses mining [8]. Data mining dapat
Nasional dan Badan Pusat Statistik digunakan untuk melakukan clustering,
mengeluarkan data Potensi Desa tahun 2014 klasifikasi dan asosiasi. Clustering/
(Podes 2014) yang terdiri dari 74093 desa dan pengelompokan yaitu proses mengelompok-
memiliki 42 indikator/attribute dependent kan data yang dilakukan dengan menemukan
tanpa label status desa. Data Podes 2014 kesamaan karakteristik antara data yang sesuai
merupakan cara pengukuran yang disusun dengan kelompok kelas tertentu [9]. Secara
berdasarkan tingkat perkembangan desa di sederhana, clustering dapat digunakan untuk
Indonesia yang menjadikan desa sebagai unit menganalisis sekumpulan data dan
analisis dengan mengacu pada Undang Undang menghasilkan satu set pengelompokan aturan
Nomor 6 Tahun 2014 tentang desa, yang yang dapat digunakan untuk mengelompokkan
dimaksudkan untuk memotret tingkat data masa depan.
perkembangan desa di Indonesia dan dapat Pada dunia nyata terkadang data tidak
digunakan sebagai acuan untuk penyusunan hanya dikelompokkan kedalam status biner
perencanaan kebijakan dan pengawasan (kelas biner), akan tetapi dibutuhkan juga
pembangunan desa [6]. Dengan adanya data untuk dikelompokkan kedalam multi status
Podes 2014 dapat dijadikan sebagai acuan (multi-class). Dalam kasus data-set multi-class,
untuk penyusunan perencanaan kebijakan. pengelompokan akan menjadi lebih sulit

2 | Karya Ilmiah Data Mining, Agustus 2016


dibandingkan kasus kelas biner. Ada beberapa perbandingan 3 metode perhitungan jarak
algoritma yang dapat digunakan untuk pada algoritma k-means yaitu Manhattan,
pengelompokan multi-class. Pernah dilakukan Euclidean dan Minkowski untuk menemukan
suatu penelitian tentang penggunaan metode perhitungan jarak yang paling baik,
algoritma k-means untuk pengelompokan penelitian tersebut dilakukan dengan
multi-class yang menunjukkan bahwa membandingkan hasil dari penelitian
algoritma k-means memberikan hasil yang sebelumnya yang mana disimpulkan bahwa
efektif untuk pengelompokan data-set multi- metode perhitungan jarak Euclidean lebih baik
class [10]. Algoritma k-means merupakan dari pada metode Manhattan dan Minkowski
algoritma pengelompokan iteraktif yang [18]. Pernah dilakukan juga penelitian yang lain
melakukan partisi data-set kedalam jumlah K tentang perbandingan metode perhitungan
cluster yang sudah di tentukan sejak awal. jarak Manhattan, Euclidean dan Chebyshev
Dalam penelitian yang lain pernah pada algoritma k-means untuk
dibandingkan clustering berbasis partisi, mengetahui akurasi dan mean absolute error
clustering berbasis hirarki dan clustering [19]. Dari pengujian yang dilakukan
berbasis density yang mengungkapkan bahwa menggunakan flower data-set diperoleh hasil
algoritma k-means merupakan algoritma bahwa metode perhitungan jarak Chebyshev
berbasis partisi yang memberikan performa lebih baik dari metode Manhattan dan
lebih baik, mampu membagi cluster dengan Euclidean [19]. Dari penelitian-penelitian
baik dan unggul untuk data yang berukuran sebelumnya diketahui bahwa metode
besar/banyak dibandingkan algoritma perhitungan jarak Manhattan, Euclidean dan
clustering berbasis hirarki dan density [11] Chebyshev saling unggul antara satu dengan
[12]. Selain itu beberapa penelitian yang lain yang lain tergantung data-set yang digunakan.
juga menyebutkan bahwa clustering Berdasarkan pertimbangan yang sudah
menggunakan algoritma k-means lebih cepat disebutkan diatas, pada penelitian ini akan
daripada clustering dengan algoritma lain dan dilakukan pengelompokan status desa di
juga menghasilkan cluster yang berkualitas Indonesia menggunakan algoritma k-means
ketika menggunakan data-set berukuran besar kedalam 5 status desa, serta membandingkan
[13] [14] [15] [16]. Dalam melakukan metode perhitungan jarak manakah yang
pengelompokan, algoritma k-means paling efektif untuk pengelompokan data
membutuhkan metode perhitungan jarak Podes 2014.
untuk menghitung jarak terdekat antara suatu
instance data ke sebuah titik centroid. II. TINJAUAN PUSTAKA
Perhitungan jarak pada algoritma k-means Algoritma k-means merupakan algoritma
dapat menggunakan Manhattan, Euclidean pengelompokan iteraktif yang melakukan
dan Chebychev. Pernah dilakukan penelitian partisi data-set kedalam jumlah K cluster yang
tentang perbandingan metode perhitungan sudah di tentukan sejak awal. Dalam penelitian
jarak Manhattan dan Euclidean pada algoritma yang lain pernah dibandingkan clustering
k-means untuk mengetahui jumlah squar error, berbasis partisi, clustering berbasis hirarki dan
data yang digunakan dalam penelitian tersebut clustering berbasis density yang
adalah Bank data-set yang diuji menggunakan mengungkapkan bahwa algoritma k-means
tool WEKA [17]. Dari hasil pengujian merupakan algoritma berbasis partisi yang
menunjukkan bahwa metode perhitungan memberikan performa lebih baik, mampu
jarak Manhattan lebih baik dari pada metode membagi cluster dengan baik dan unggul untuk
Euclidean [17]. Pada penelitian lain dilakukan data yang berukuran besar/banyak

3 | Karya Ilmiah Data Mining, Agustus 2016


dibandingkan algoritma clustering berbasis jarak Manhattan, Euclidean dan Chebyshev
hirarki dan density [11] [12]. Selain itu saling unggul antara satu dengan yang lain
beberapa penelitian yang lain juga tergantung data-set yang digunakan [17] [18]
menyebutkan bahwa clustering menggunakan [19] [20] [21] [22] [23]. Sehingga berdasarkan
algoritma k-means lebih cepat daripada pertimbangan literature review yang ada,
clustering dengan algoritma lain dan juga dalam penelitian ini akan dilakukan
menghasilkan cluster yang berkualitas ketika perbandingan metode perhitungan jarak
menggunakan data-set berukuran besar [13] manakah yang paling efektif untuk
[14] [15] [16]. Dalam melakukan pengelompokan data Podes 2014 untuk
pengelompokan, algoritma k-means memperoleh status desa di Indonesia.
membutuhkan metode perhitungan jarak
untuk menghitung jarak terdekat antara suatu 2.1. Data Mining
instance data ke sebuah titik centroid. Data mining merupakan salah satu bidang
Perhitungan jarak pada algoritma k-means paling penting dalam penelitian yang
dapat menggunakan Manhattan, Euclidean bertujuan untuk memperoleh informasi dari
dan Chebychev. Pernah dilakukan penelitian data set. Data mining mulai ada sejak 1990-an
tentang perbandingan metode perhitungan sebagai cara yang efektif untuk mengambil
jarak Manhattan dan Euclidean pada algoritma pola dan informasi yang sebelumnya tidak
k-means untuk mengetahui jumlah squar error, diketahui dari suatu data set [24]. Teknik data
data yang digunakan dalam penelitian tersebut mining digunakan untuk menemukan
adalah Bank data-set yang diuji menggunakan hubungan antara data untuk melakukan
tool WEKA [17]. Dari hasil pengujian pengklasifikasian yang memprediksikan nilai-
menunjukkan bahwa metode perhitungan nilai dari beberapa variabel (klasifikasi), atau
jarak Manhattan lebih baik dari pada metode untuk membagi data yang diketahui menjadi
Euclidean [17]. Pada penelitian lain dilakukan kelompok-kelompok yang mempunyai
perbandingan 3 metode perhitungan jarak kesamaan karakteristik (clustering).
pada algoritma k-means yaitu Manhattan, Clustering merupakan bagian dari
Euclidean dan Minkowski untuk menemukan pembelajaran unsupervised yang digunakan
metode perhitungan jarak yang paling baik, sebagai alat yang efektif dalam data mining
penelitian tersebut dilakukan dengan [25]. Clustering tidak memiliki atribut yang
membandingkan hasil dari penelitian dapat digunakan untuk memandu proses
sebelumnya yang mana disimpulkan bahwa pembelajaran (tidak memiliki label), sehingga
metode perhitungan jarak Euclidean lebih baik seluruh atribut yang dimiliki diperlakukan
dari pada metode Manhattan dan Minkowski sama. Metode clustering memungkinkan
[18]. Pernah dilakukan juga penelitian yang lain untuk mengungkapkan hubungan dan
tentang perbandingan metode perhitungan struktrur yang sebelumnya tidak jelas dari
jarak Manhattan, Euclidean dan Chebyshev data-set. Tujuan dari clustering adalah untuk
pada algoritma k-means untuk mengetahui mengelompokkan data yang memiliki
akurasi dan mean absolute error [19]. Dari kesamaan karakteristik kedalam kelompok
pengujian yang dilakukanmenggunakan flower yang sama dan data yang berbeda karakteristik
data-set diperoleh hasil bahwa metode kedalam kelompok yang lain.
perhitungan jarak Chebyshev lebih baik dari
metode Manhattan dan Euclidean [19]. 2.2. Algoritma K-Means
Dari penelitian-penelitian sebelumnya yang K-means adalah salah salah satu algoritma
lain diketahui bahwa metode perhitungan clustering yang bertujuan untuk membagi data

4 | Karya Ilmiah Data Mining, Agustus 2016


menjadi beberapa kelompok dari masukan Nilai jarak maksimum atau disebut juga
berupa data tanpa label kelas. K-means Chebychev distance merupakan perhitungan
merupakan metode partisi yang paling populer jarak yang menghitung besarnya hasil absolut
untuk melakukan clustering. Algoritma k- dari perbedaan antara sepasang objek [27].
means pertama kali diperkenalkan oleh Chebychev distance dapat dihitung
MacQueen pada tahun 1967. Pada algoritma k- menggunakan persamaan:
means, setiap cluster diwakili oleh nilai rata- 𝐷(𝑥, 𝑦) = max(|𝑥𝑖 − 𝑦𝑖 |) 2.3
rata dari objek dalam cluster. Algortma k- Metrik dalam chebychev distance,
means terdiri dari 2 tahap yaitu [26]: didefinisikan didalam ruang vektor yang mana
• Tahap Pertama: Memilih nilai centroid k jarak antara dua vektor yang memiliki
secara acak, dimana nilai k sudah perbedaan terbesar disepanjang dimensi
didefinisikan terlebih dahulu. koordinatnya [28].
• Tahap kedua: Setiap objek didalam data-
set diasosiasikan dengan centroid 2.3. Davies Bouldin Index
terdekat. Davies Bouldin Index (DBI) merupakan
Pada pengukuran jarak antara setiap objek cara validasi cluster yang dibuat oleh D.L.
data dan cluster centroid dapat menggunakan Davies. DBI adalah fungsi rasio dari jumlah
perhitungan manhattan distance, euclidean distribusi didalam cluster untuk pemisahan
distance, dan chebyshev distance. antar cluster [29]. Pengukuran menggunakan
Manhattan distance atau dikenal juga DBI bertujuan untuk memaksimalkan jarak
dengan City block distance digunakan untuk inter-cluster. Dalam penelitian ini, DBI
menghitung jarak dengan tujuan untuk digunakan untuk melakukan validasi data pada
mendapatkan jarak dari satu titik data ke titik setiap cluster. DBI dapat dihitung
data yang lain. Manhattan distance menggunakan persamaan:
mencerminkan jarak antar titik di jalan 𝑚𝑎𝑥
𝑅𝑖 =𝑗=1…𝑘,𝑖≠𝑗 𝑅𝑖𝑗 2.4
perkotaan dalam 1 blok [27]. Persamaan
matematik dari manhattan distance yaitu: 𝑁
𝑛 1
𝐷(𝑥, 𝑦) = ∑ |𝑥𝑖 − 𝑦𝑗 | 2.1 𝑣𝑎𝑟(𝑥) = ∑(𝑥𝑖 − 𝑥̅ )2 2.5
𝑁−1
𝑖=1 𝑖=1
Dari persamaan 2.1, x = (x1, x2, x3, …, xn) dan y =
(y1, y2, y3, …, yn). Perhitungan manhattan distance 𝑅𝑖𝑗 𝑣𝑎𝑟(𝐶𝑖 ) + 𝑣𝑎𝑟(𝐶𝑗 )
𝑖≠𝑗
= 2.6
adalah dengan menjumlahkan hasil absolut ‖𝑐𝑖 − 𝑐𝑗 ‖
dari pengurangan antar titik. 𝑘
Dalam matematika, Euclidean distance 1
𝐷𝐵 = ∑ 𝑅𝑖 2.7
digunakan untuk megukur antara dua titik 𝑘
𝑖=1
dalam satu dimensi yang memberikan hasil Keterangan:
seperti rumus Pythagoras [28]. Persamaan • R : jarak antar cluster
Euclidean distance yaitu [27]: • Var : variance dari data
𝑛 2 • x : data ke-i
𝐷(𝑥, 𝑦) = √∑ (𝑥𝑖𝑘 − 𝑦𝑗𝑘 ) 2.2
𝑘=1
• 𝑥̅ : rata-rata dari tiap cluster
Dari persamaan 2.2, x = (xi1, xi2, xi3, …, xin) dan y = • DB : validasi Davies Bouldin
Dengan menggunakan Davies Bouldin
(yj1, yj2, yj3, …, yjn). Euclidean distance diperoleh
Index suatu cluster akan dianggap memiliki
dari jumlah kuadrat antar titik yang diakar
kuadratkan. skema clustering yang optimal jika memiliki
Index Davies Bouldin minimal.

5 | Karya Ilmiah Data Mining, Agustus 2016


2.4. Kerangka Pemikiran dan Hipotesis c) Chebyshev distance memiliki persamaan
Saat ini ada banyak metode perhitungan 𝐷(𝑥, 𝑦) = max(|𝑥𝑖 − 𝑦𝑖 |)
jarak yang dapat digunakan. Dari metode- Karena persamaan dari chebyshev
metode yang ada secara umum dikategorikan distance adalah mengambil 1 nilai
kedamam 2 measure type yaitu nominal tertinggi antar titik saja, dapat diketahui
measures dan numerical measures. Pada bahwa Big O dari chebyshev adalah O(1)
nominal measures dapat menggunakan
perhitungan jarak Nominal distance, Dice Dari Big O pada masing-masing metode,
similarity, Jaccar similarity, Simple maching penulis berhipotesis bahwa metode
similarity, dan lain-lain. Sedangkan pada perhitungan jarak yang paling efektif dalam hal
numerical measures dapat menggunakan waktu eksekusi yang lebih singkat untuk
perhitungan jarak Euclidean distance, diterapkan pada penelitian ini adalah
Manhattan distance, Chebyshev disatance. Chebyshev distance.
Apabila dilihat dari tipe data Podes 2014, data Selain dilihat dari segi waktu, untuk
tersebut adalah data numerical. Sehingga memastikan performance suatu metode dapat
dalam penelitian ini akan dibandingkan menggunakan evaluasi internal dan evaluasi
metode perhitungan jarak Euclidean distance, eksternal. Evaluasi internal atau disebut juga
Manhattan distance, Chebyshev distance pada metrik unsupervised melakukan evaluasi
algoritma k-means yang paling baik untuk dengan menggunakan informasi apa adanya
mengelompokkan data Podes 2014. yang ada didalam data-set. Sedangkan untuk
Dalam penggunaan metode perhitungan evaluasi eksternal atau disebut juga metrik
jarak Manhattan, Euclidean dan Chebyshev supervised, evaluasi dilakukan menggunakan
untuk pengelompokan data Podes 2014, informasi yang tidak disediakan didalam data-
penulis memiliki hipotesis mengenai metode set. Karena dalam penelitian ini data dan
perhitungan jarak yang paling efektif metode yang digunakan adalah dalam bentuk
digunakan. Apabila dilihat dari kemangkusan unsupervised learning, maka evaluasi yang
metode diperoleh Big O dari setiap metode digunakan adalah evaluasi internal.
sebagai berikut: Davies Bouldin Indexs (DBI) adalah salah
a) Manhattan distance memiliki persamaan satu metrik internal yang digunakan untuk
𝑛 melakukan evaluasi cluster untuk pada
𝐷(𝑥, 𝑦) = ∑ |𝑥𝑖 − 𝑦𝑗 |
𝑖=1 pengelompokan yang berbasis partisi. DBI
Karena persamaan dari manhattan digunakan untuk mengukur kohesi dan
distance adalah berupa penjumlahan separasi pada cluster. Kohesi merupakan
antar titik saja, dapat diketahui bahwa Big jumlah dari kedekatan data terhadap centroid
O dari manhattan adalah O(n). yang diikutinya (ditunjukkan pada gambar 2.1),
b) Euclidean distance memiliki persamaan sedangkan Separasi merupakan jarak
𝑛 2 kedekatan antar cluster (ditunjukkan pada
𝐷(𝑥, 𝑦) = √∑ (𝑥𝑖𝑘 − 𝑦𝑗𝑘 ) gambar 2.2).
𝑘=1

Untuk Big O dari akar kuadrat adalah


O(sqrt(n)). Untuk Big O dari kuadrat
adalah O(n2). Untuk Big O dari
penjumlahan adalah O(n). Sehingga dapat
diketahui bahwa Big O dari Euclidean
adalah O(sqrt(n2)). Gambar 2.1. Kohesi

6 | Karya Ilmiah Data Mining, Agustus 2016


Sedangkan apabila jarak antar titik
ditentukan dengan Euclidean distance:
❖ d(p,q) = √(2 − 4)2 + (1 − 5)2 = 4.47

Memang apabila dibandingkan,


Chebyshev memberikan jarak yang paling
dekat. Akan tetapi Chebyshev hanya berfokus
Gambar 2.2. Separasi pada dimensi yang menghasilkan jarak
Dengan mengguakan Davies Bouldin maksimal, sedangkan dalam sebuah data
Indexs penulis memiliki hepotesis bahwa setiap dimensi memiliki keterkaitan dengan
metode perhitungan jarak Euclidean memiliki dimensi yang lain. Sehingga apabila metode
indek bouldin yang paling optimal Chebyshev diterapkan untuk pengelompokan,
dibandingkan Manhattan dan Chebyshev. Hal penulis berhipotesis bahwa Chebyshev akan
itu didasari dengan 2 hal menghasilkan tingkan kohesi dan separasi yang
a) Euclidean dibandingkan Manhattan rendah.
Milsalkan ada titik 2 dimensi yaitu p(2.1)
dan q(4.5). Dari dua titik tersebut hendak
III. METODE PENELITIAN
dicari jarak terdekatnya.
Dalam penelitian ini metode yang
digunakan adalah metode data mining dengan
memakai teknik clustering/pengelompokan
menggunakan algoritma k-means dengan
perhitungan jarak Manhattan, Euclidean dan
Chebyshev. Kemudian dari metode tersebut
akan digunakan untuk mengelompokkan
status desa berdasarkan data Potensi Desa
tahun 2014 (Podes 2014). Dengan
menggunakan algoritma k-means, data Podes
2014 akan dibagi kedalam 5 cluster yaitu
Gambar 2.3. Titik Dua Dimensi
cluster 0, cluster 1, cluster 2, cluster 3 dan
Apabila jarak antar titik ditentukan
cluster 4. Penentuan 5 cluster ini didasarkan
dengan Manhattan distance:
pada Peraturan Menteri Desa, Pembangunan
❖ d(p,q) = |2 - 4| + |1 - 5| = 6
Daerah Tertinggal, dan Transmigrasi Republik
Sedangkan apabila jarak antar titik
Indonesia nomor 2 tahun 2016 tentang Indek
ditentukan dengan Euclidean distance:
Desa Membangun, yang menyebutkan bahwa
❖ d(p,q) = √(2 − 4)2 + (1 − 5)2 = 4.47
status desa dikelompokkan dalam 5 status
Dengan perhitungan dua dimensi dapat
desa. Adapun langkah pengujian yang
dilihat bahwa metode perhitungan jarak digunakan dalam penelitian ini dapat dilihat
Euclidean menghasilkan jarak antar titik
pada gambar 3.1.
lebih dekat dibandingkan Manhattan.
b) Euclidean dibandingkan Chebyshev
Milsalkan ada titik 2 dimensi yaitu p(2.1)
dan q(4.5) seperti yang ditunjukkan pada
gambar 2.4. Apabila jarak antar titik
ditentukan dengan Chebyshev distance:
❖ d(p,q) = max (|2 - 4| ,|1 - 5|) = 4

7 | Karya Ilmiah Data Mining, Agustus 2016


dengan mengitung jumlah dari centroid untuk
setiap cluster, yang ditulis dengan persamaan:
𝑆𝑡𝑎𝑡𝑢𝑠 𝑑𝑒𝑠𝑎 = ∑ 𝐶𝐼1 , 𝐶𝐼2 , …… , 𝐶𝐼42 4.4
Dari persamaan 4.4, CI merupakan
centroid dari setiap indikator dan setiap cluster
memiliki 42 indikator. Penentuan status desa
akan diurutkan berdasarkan nilai penjumlahan
centroid dari setiap indikator pada masing-
masing cluster, yang mana nilai penjumlahan
terendah akan diinisialisasikan sebagai status
Desa Sangat Tertinggal dan nilai penjumlahan
tertinggi akan diinisialisasikan sebagai status
Desa Mandiri. Adapun urutan penamaan
cluster dari yang nilai terendah sampai
tertinggi yaitu Desa Sangat Tertinggal, Desa
Tertinggal, Desa Berkembang, Desa
Gambar 3.1. Langkah Pengujian Berkembang, Desa Maju, Desa Mandiri.
Pada gambar 3.1 menunjukkan bahwa Adapun nilai centroid dan jumlah cluster
langkah pengujian diawali dari input berupa dari pengujian dari metode perhitungan jarak
data Podes 2014 yang belum dikelompokkan Manhattan, Euclidean dan Chebyshev dengan
kedalam status desa. Kemudian dari data input algoritma k-means yang telah dilakukan dapat
akan diproses menggunakan algoritma k- dilihat pada tabel 4.1, 4.2 dan 4.3.
means. Adapun didalam algoritma k-means Tabel 4.1. Status dan Jumlah Desa dengan
akan menggunakan 3 metode perhitungan Menggunakan Manhattan
jarak untuk menentukan centroid dari setiap
cluser. Metode perhitungan jarak yang
digunakan yaitu Manhattan, Euclidean dan
Chebyshev. Dari setiap pengelompokan akan
menghasilkan 5 cluster status desa, kemudian
hasil akan di uji menggunakan Davies Bouldin
Index dan waktu eksekusi untuk mengetahui Tabel 4.2. Status dan Jumlah Desa dengan
metode perhitungan jarak manakah yang Menggunakan Euclidean
paling baik.

IV. ANALISA PENGUJIAN


Dari pengujian yang telah dilakukan
diperoleh nilai centroid dan jumlah cluster
yang berbeda untuk setiap metode
perhitungan jarak yang digunakan. Pada data
Potensi Desa tahun 2014, setiap atribut/
indikator mempunyai nilai 0 s/d 5, yang mana
nilai 0 adalah nilai terendah sedangkan nilai 5
adalah nilai tertinggi. Sehingga pada penelitian
ini untuk menentukan status desa dilakukan

8 | Karya Ilmiah Data Mining, Agustus 2016


Tabel 4.3. Status dan Jumlah Desa dengan eksekusi dari Euclidean distance adalah 68
Menggunakan Chebyshev detik. Kemudian waktu eksekusi dari metode
Chebyshev distance untuk pengujian 1 sampai
pengujian 5 secara berturut-turut yaitu 36
detik, 33 detik, 38 detik, 34 detik dan 33 detik,
sehingga apabila diambil rata-rata waktu
eksekusi dari Chebyshev distance adalah 34.8
detik. Adapun secara lebih mudah dari waktu
eksekusi yang dibutuhkan untuk metode
4.1. Pengujian Waktu Eksekusi Manhattan, Euclidean dan Chebyshev dapat
Akumulasi waktu dilakukan dengan dilihat pada tabel 4.4.
melakukan eksekusi sebanyak 5 kali untuk Tabel 4.4. Lama Waktu Eksekusi
setiap metode perhitungan jarak yang Test Waktu Eksekusi
digunakan. Dari 5 kali eksekusi tersebut (i) Manhattan Euclidean Chebyshev
kemudian akan dirata-rata untuk memperoleh
1 69 detik 69 detik 36 detik
waktu eksekusi paling efisien dari setiap
2 66 detik 68 detik 33 detik
metode perhitungan jarak. Dari pengeujian
3 65 detik 68 detik 38 detik
yang telah dilakukan diperoleh lama waktu
4 66 detik 68 detik 34 detik
eksekusi yang berbeda, adapun lama waktu
5 65 detik 67 detik 33 detik
eksekusi dari pengujian dari metode
Rata-
perhitungan jarak Manhattan, Euclidean dan 66.2 detik 68 detik 34.8 detik
rata
Chebyshev yang telah dilakukan dapat dilihat
pada gambar 4.1.
4.2. Pengujian Davies Bouldin Index
Detik Dalam penelitian ini, Davies Bouldin
6969 6668 6568 6668 6567
Index (DBI) digunakan untuk melakukan
60
36 33 38 34 33 validasi data pada setiap cluster. Pengukuran
40
menggunakan DBI bertujuan untuk
20
memaksimalkan jarak inter-cluster. Dengan
menggunakan DBI suatu cluster akan dianggap
memiliki skema clustering yang optimal jika
Manhattan Euclidean Chebyshev
yang memiliki Index Davies minimal. Adapun
Gambar 4.1. Lama Waktu Eksekusi dari pengujian yang sudah dilakukan diperoleh
Pada gambar 4.1 dapat dilihat bahwa waktu nilai Index Davies dari metode Manhattan,
eksekusi dari metode Manhattan distance Euclidean dan Chebyshev yang ditunjukkan
untuk pengujian 1 sampai pengujian 5 secara pada gambar 4.2.
berturut-turut yaitu 69 detik, 66 detik, 65
detik, 66 detik dan 65 detik, sehingga apabila 6,000 4,156
diambil rata-rata waktu eksekusi dari 2,700 2,604
4,000
Manhattan distance adalah 66.2 detik. 2,000
Sedangkan waktu eksekusi dari metode 0
Euclidean distance untuk pengujian 1 sampai DBI

pengujian 5 secara berturut-turut yaitu 69 Manhattan Euclidean Chebyshev


detik, 68 detik, 68 detik, 68 detik dan 67 detik,
sehingga apabila diambil rata-rata waktu Gambar 4.2. Index Davies dari metode
Manhattan, Euclidean dan Chebyshev

9 | Karya Ilmiah Data Mining, Agustus 2016


Dari gambar 4.3 dapat dilihat bahwa nilai Index memiliki nilai Index Davies paling optimal
Davies dari metode Manhattan yaitu 2.700, dengan dengan nilai 2.604.
nilai Index Davies dari metode Euclidean yaitu
2.604 dan nilai Index Davies dari metode Dari pengujian yang sudah dilakukan
Chebyshev yaitu 4.156. Adapun secara lebih dapat diketahui bahwa pengelompokan data
mudah untuk nilai Index Davies dari metode Potensi Desa Tahun 2014 menggunakan
Manhattan, Euclidean dan Chebyshev dapat algoritma k-means dengan metode
dilihat pada tabel 4.25. perhitungan jarak Chebyshev memiliki
Tabel 4.5. Index Davies dari Manhattan, akumulasi waktu paling efisien dibandingkan
Euclidean dan Chebyshev Manhattan dan Euclidean, Sedangkan metode
Davies Bouldin Index Euclidean memiliki nilai Index Davies paling
Manhattan Euclidean Chebyshev optimal dibanding metode Manhattan dan
2.700 2.604 4.156 Chebyshev.
Dari tabel 4.25 dapat diketahui bahwa
nilai yang paling optimal dari metode V. KESIMPULAN DAN SARAN
Manhattan, Euclidean dan Chebyshev adalah 5.1. Kesimpulan
metode Euclidean distance dengan nilai Index Dari pembahasan dan evaluasi pada
Davies yaitu 2.604. bab-bab sebelumnya, pengelompokan data
Potensi Desa tahun 2014 kedalam 5
4.3. Analisa Hasil Pengujian kelompokkan menggunakan algoritma k-
Dari pengujian metode pengelompokan means dengan metode perhitungan jarak
data Potensi Desa Tahun 2014 menggunakan Manhattan, Euclidean dan Chebyshev
algoritma k-means dengan metode diperoleh kesimpulan yaitu:
perhitungan jarak Manhattan, Euclidean dan 1. Telah dikelompokkannya data Potensi
Chebyshev yang telah dilakukan dihasilkan: Desa tahun 2014 kedalam 5 status desa di
1. Model pengujian yang digunakan dapat Indonesia dengan diperoleh jumlah desa
berjalan dengan baik dan menunjukkan untuk setiap cluster yaitu cluster Desa
hasil berupa nilai centroid untuk setiap Sangat Tertinggal sebanyak 7644 desa,
cluster dari metode Manhattan, Euclidean cluster Desa Tetinggal sebanyak 16780
dan Chebyshev, sehingga status desa desa, cluster Desa Berkembang sebanyak
dapat ditentukan dari jumlah centroid 11864 desa, cluster Desa Maju sebanyak
pada setiap cluster. 17479 desa dan cluster Desa Mandiri
2. Penggunaan metode perhitungan jarak sebanyak 20326 desa.
yang digunakan mempengaruhi jumlah 2. Pengelompokan data Potensi Desa tahun
data pada setiap cluster. 2014 kedalam 5 status desa menggunakan
3. Akumulasi waktu yang diperoleh dari algoritma k-means dengan metode
pengujian yang telah dilakukan perhitungan jarak Chebyshev memiliki
menunjukkan bahwa metode perhitungan akumulasi waktu paling efisien
jarak Chebyshev memiliki waktu eksekusi dibandingkan Manhattan dan Euclidean,
paling efisien dengan akumulasi waktu Sedangkan metode Euclidean memiliki
rata-rata 34.8 detik. nilai Index Davies paling optimal
4. Dengan menggunakan pengujian Davies dibanding metode Manhattan dan
Bouldin Index menunjukkan bahwa Chebyshev.
metode perhitungan jarak Euclidean

10 | Karya Ilmiah Data Mining, Agustus 2016


5.2. Saran International Conference on Green High
Dari penelitian ini di ketahui bahwa Performance Computing, India, 2013.
setiap cluster yang dihasilkan memiliki jarak [10] M. F. Al-Roby and A. M. El-Halees,
“Classifying Muti-Class Imbalance Data,”
dari cluster yang lain, dengan hasil cluster yang Egyptian Computer Science Journal, vol. 37,
diperoleh diharapkan dapat diukur jarak setiap no. 5, pp. 74-81, 2013.
atribut antar cluster agar dapat ditentukan [11] B. Chaudhari and M. Parikh, “A Comparative
atribut mana yang perlu diperhatikan sebagai Study of clustering algorithms Using weka
tools,” International Journal of Application
prioritas pembangunan agar status desa dapat
or Innovation in Engineering & Management
meningkat. , vol. 1, no. 2, pp. 154-158, 2012.
[12] C. Shah and A. Jivani, “Comparison of Data
Mining Clustering Algorithms,” in Nirma
DAFTAR PUSTAKA University International Conference on
Engineering, 2013.
[1] Undang-Undang Dasar Negara Republik
Indonesia Tahun 1945, Negara Republik
[13] N. Claypo and S. Jaiyen, “Opinion Mining for
Thai Restaurant Reviews using K-Means
Indonesia, 1945.
Clustering and MRF Feature Selection,” in
[2] Undang-Undang Dasar Negara Republik Knowledge and Smart Technology (KST),
Indonesia Nomor 6 Tahun 2014, Tentang Chonburi, 2015.
Desa, Presiden Republik Indonesia, 2014.
[14] M. Verma, M. Srivastava, N. Chack, A. K.
[3] Peraturan Presiden Republik Indonesia Diswar and N. Gupta, “A Comparative Study
Nomor 12 Tahun 2015, Tentang of Various Clustering Algorithms in Data
Kementerian Desa, Pembangunan Daerah Mining,” International Journal of
Tertinggal, dan Transmigrasi, Presiden Engineering Research and Applications
Republik Indonesia, 2015. (IJERA), vol. 2, no. 3, pp. 1379-1384, 2012.
[4] Peraturan Presiden Republik Indonesia [15] S. Ghosh and S. K. Dubey, “Comparative
Nomor 2 Tahun 2015, Tentag Rencana Analysis of K-Means and Fuzzy C-Means
Pembangunan Jangka Menengah Nasional Algorithms,” International Journal of
Tahun 2015 - 2019, Presiden Republik Advanced Computer Science and
Indonesia, 2015. Applications, vol. 4, no. 4, pp. 35-39, 2013.
[5] Undang Undang Republik Indonesia Nomor [16] S. Chakraborty, N. K. Nagwani and L. Dey,
6 Tahun 2015 tentang Desa, Presiden “Performance Comparison of Incremental K-
Republik Indonesia, 2015. means and Incremental DBSCAN
[6] H. Barokah, D. R. W. W. Utami, Karmaji, C. S. Algorithms,” International Journal of
M. Sugiarto, U. Suchaini, D. Widyaningsih, E. Computer Applications, vol. 27, no. 11, pp.
H. Nurcahyo, A. P. Rahtama and M. Abduh, 14-18, 2011.
Indeks Pembangunan Desa 2014 "Tentang [17] R. Awasthi, A. K. Tiwari and S. Pathak,
Pemenuhan Standar Pelayanan Minimum “Empirical Evaluation on K Means Clustering
Desa", Jakarta: Nasional, Badan with Effect of Distance Functions for Bank,”
Perencanaan Pembangunan, 2014. International Journal of Innovative
[7] Peraturan Menteri Desa, Pembangunan Technology and Research, vol. 1, no. 3, pp.
Daerah Tertinggal, dan Transmigrasi 233-235, 2013.
Republik Indonesia Nomor 2 Tahun 2016, [18] A. Singh, A. Yadav and A. Rana, “K-means
tentang Indek Desa Membangun, Menteri with Three different Distance Metrics,”
Desa, Pembangunan Daerah Tertinggal, dan International Journal of Computer
Transmigrasi Republik Indonesia, 2016. Applications, vol. 67, no. 19, pp. 13-17, 2013.
[8] L. Xu, C. Jiang, J. Wang, J. Yuan and Y. Ren, [19] K. Kouser and Sunita, “A comparative study
“Information Security in Big Data: Privacy of K Means Algorithm by Different Distance
and Data Mining,” IEEE Access: The Journal Measures,” International Journal of
for Rapid Open Access Publishing, vol. 1, pp. Innovative Research in Computer and
1149-1176, 9 October 2014. Communication Engineering, vol. 1, no. 9,
[9] V. Deepa, “Rapid Development of pp. 2443-2447, 2013.
Applications in Data Mining,” in

11 | Karya Ilmiah Data Mining, Agustus 2016


[20] D. Sinwar and R. Kaushik, “Study of Engineering Trends and Technology (IJETT),
Euclidean and Manhattan Distance Metrics vol. 4, no. 7, pp. 2972-2976, 2013.
using Simple K-Means Clustering,” [27] P. Grabust, “The Choice of Metrics for
International Journal for Research in Applied Clustering Algorithms,” in Proceedings of the
Science and Engineering Technology, vol. 2, 8th International Scientific and Practical
no. 5, pp. 270-274, 2014. Conference, Augstskola, 2011.
[21] D. J. Bora and A. K. Gupta, “Effect of [28] H. K. Sagar and V. Sharma, “Error Evaluation
Different Distance Measures on the on K- Means and Hierarchical Clustering with
Performance of K-Means Algorithm: An Effect of Distance Functions for Iris Dataset,”
Experimental Study in Matlab,” International International Journal of Computer
Journal of Computer Science and Applications, vol. 86, no. 18, pp. 1-5, 2014.
Information Technologies, vol. 5, no. 2, pp.
2501-2506, 2014.
[29] B. K. Mishra, A. Rath, N. R. Nayak and S.
Swain, “Far Efficient K-Means Clustering
[22] M. Anggara, H. Sujiani and H. Nasution, Algorithm,” in International Conference on
“Pemilihan Distance Measure Pada K-Means Advances in Computing, Communications
Clustering Untuk Pengelompokkan Member and Informatics, Chennai, 2012.
Di Alvaro Fitness,” Jurnal Sistem dan
Teknologi Informasi (JUSTIN), vol. 1, no. 1,
pp. 1-6, 2016. PENULIS
[23] H. Prasetyo and A. Purwariati, “Comparison
of Distance Measures for Clustering Data Yoga Religia, M.Kom
with Mix Attribute Types,” in International Lulus Sarjana Teknik
Conference on Information Technology Informatika Tahun 2015
Systems and Innovation, Bandung, 2014. dan Lulus Magister
[24] D. Tomar and S. Agarwal, “A survey on Data Teknik Informatika
Mining approaches for Healthcare,” tahun 2016 di
International Journal of Bio-Science and Bio- Universitas Dian
Technology, vol. 5, no. 5, pp. 241-266, 2013. Nuswantoro Semarang.
[25] S. Ding, F. Wu, Q. Jun, H. Jia and F. Jin, Saat ini bekerja di Kementerian Desa,
“Research on data stream clustering Pembangunan Daerah Tertinggal dan
algorithms,” Artificial Intelligence Review,
Transmigrasi Repubik Indonesia sebagai
vol. 43, no. 4, pp. 593-600, 2013.
asisten tenaga ahli di Direktorat Jenderal
[26] J. Yadav and M. Sharma, “A Review of K- Pembangunan dan Pemberdayaan
mean Algorithm,” International Journal of
masyarakat Desa.

12 | Karya Ilmiah Data Mining, Agustus 2016

Anda mungkin juga menyukai