Anda di halaman 1dari 6

Evolusi: Jurnal Sains dan Manajemen Vol 9 No.

1 Maret 2021
ISSN:2338-8161 E-ISSN: 2657-0793

Penerapan Metode K-Means dan Optimasi Jumlah Cluster dengan Index


Davies Bouldin untuk Clustering Propinsi Berdasarkan Potensi Desa
Elly Muningsih1 , Ina Maryani2 , Vembria Rose Handayani3
1,3
Universitas Bina Sarana Informatika
2
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri

elly.emh@bsi.ac.id1, ina.maryani@nusamandiri.ac.id2 , vembria.vrh@bsi.ac.id3

Abstrak : Metode K-Means merupakan salah satu metode Data Mining yang banyak
digunakan dalam penelitian pengelompokan. Namun metode K-Means memiliki beberapa
kekurangan, salah satunya yaitu dalam penentuan jumlah cluster. Penelitian kali ini akan
mengaplikasikan Indeks Davies Bouldin (DBI) sebagai salah satu cara optimasi jumlah cluster
untuk mengelompokkan propinsi berdasar potensi desa dengan banyaknya jenis industri yang
dimiliki wilayahnya. Data yang digunakan adalah data banyaknya desa atau kelurahan
menurut keberadaan dan jenis industri kecil dan mikro (desa). Pengolahan data menggunakan
aplikasi RapidMiner. Pengujian dilakukan dengan mencari nilai terkecil dari DBI dimana
setelah data di olah diketahui nilai terkecil adalah 0,175 di jumlah cluster 3.

Kata kunci : metode K-Means, pengelompokan, Index Davies Bouldin,

Abstract: The K-Means method is one of the most widely used data mining methods in
clustering research. However, the K-Means method has several shortcomings, one of which is
in determining the number of clusters. This research will apply the Davies Bouldin Index
(DBI) as a way of optimizing the number of clusters to classify provinces based on village
potential and the number of types of industry the region has. The data used is data on the
number of villages or sub-districts according to the existence and type of small and micro
industries (villages). Data processing uses the Rapid Miner application. Testing is done by
finding the smallest value from the DBI where after the data is processed it is known that the
smallest value is 0.175 in the number of clusters 3.

Keywords: K-Means method, grouping, Davies Bouldin Index,

1. Pendahuluan usaha industri. Usaha industri adalah suatu


Potensi Desa atau Podes sejak tahun unit (kesatuan) usaha yang melakukan
1980 sudah dilakukan pendataan oleh kegiatan ekonomi, bertujuan menghasilkan
Badan Pusat Statistik (BPS). Sejak saat itu, barang atau jasa, terletak pada suatu
Podes dilaksanakan secara rutin sebanyak bangunan atau lokasi tertentu, dan
3 kali dalam kurun waktu sepuluh tahun mempunyai catatan administrasi tersendiri
untuk mendukung kegiatan Sensus mengenai produksi dan struktur biaya serta
Penduduk, Sensus Pertanian, ataupun ada seorang atau lebih yang bertanggung
Sensus Ekonomi. Dengan demikian, fakta jawab atas usaha tersebut (www.bps.go.id).
penting terkait ketersediaan infrastruktur Penggolongan perusahaan industri
dan potensi yang dimiliki oleh setiap pengolahan ini semata-mata hanya
wilayah dapat dipantau perkembangannya didasarkan kepada banyaknya tenaga kerja
secara berkala dan terus menerus. Salah yang bekerja, tanpa memperhatikan apakah
satu potensi desa yang dimaksud adalah perusahaan itu menggunakan mesin tenaga

95
Evolusi: Jurnal Sains dan Manajemen Vol 9 No. 1 Maret 2021 ISSN:2338-
8161 E-ISSN: 2657-0793

atau tidak, serta tanpa memperhatikan Abdul Mukid, 2017). Clustering atau
besarnya modal perusahaan itu. pengelompokan merupakan salah satu dari
Klasifikasi industri yang digunakan metode Data Mining yang membagi data
dalam survei industri pengolahan adalah ke dalam beberapa kelompok dimana
klasifikasi yang berdasar kepada objek dengan kemiripan atau karakteristik
International Standard Industrial samaakan menjadi satu kelompok (Irhamni,
Classification of all Economic Activities Damayanti, Khusnul K, & A, 2014).
(ISIC) revisi 4, yang telah disesuaikan Clustering data digunakan untuk membagi
dengan kondisi di Indonesia dengan nama data menjadi beberapa kelompok berdasar
Klasifikasi Baku Lapangan Usaha kemiripan pola yang sama (Irhamni et al.,
Indonesia (KBLI) tahun 2009. Klasifikasi 2014). Metode clustering adalah suatu
industri yang dimaksud antara lain adalah metodeyang digunakan dalam
makanan, minuman, pengolahan tembakau, pengelompokan suatu himpunan data
tekstil, pakaian jadi, kulit, kayu, kertas, menjadi beberapa beberapa kelompok atau
pencetakan dan reproduksi media rekaman, klaster sehingga data dalam satu klaster
Produk dari batu bara dan pengilangan memiliki karakteristik dan kemiripan yang
minyak bumi, bahan kimia dan barang dari sama, sedangkan data dalam klaster yang
bahan kimia, farmasi, produk obat kimia berbeda memiliki karakteristik yang
dan obat tradisional, karet, barang dari berbeda pula(Nanda, Mahanty, & Tiwari,
karet dan plastik, barang galian bukan 2010).
logam, logam dasar, barang logam, bukan Salah satu metode clustering yang
mesin dan peralatannya, komputer, barang digunakan dalam penelitian
elektronik dan dan optic, peralatan listrik, pengelompokan data adalah metode K-
mesin dan perlengkapan, kendaraan Means (Muningsih, 2018. Metode K-
bermotor, trailer dan semi trailer, alat Means adalah metode sederhana untuk
angkutan lainnya, furniture, pengolahan membagi suatu kumpulan atau himpunan
lainnya, jasa reparasi dan pemasangan data dalam suatu angka spesifik dari
mesin dan peralatan. sebuah cluster, yaitu nilai (Larose &
Penelitian ini akan mengelompokkan Larose, 2014). K-Means merupakan suatu
propinsi di Indonesia berdasarkan jumlah metode data clustering non hirarki yang
desa atau kelurahan yang memiliki industri mempartisi data ke dalam bentuk satu atau
sebagai bagian dari Podes dari wilayah lebih cluster atau kelompok, sehingga data
yang bersangkutan. Metode yang yang memiliki karakteristik yang sama
digunakan adalah metode clustering K- dikelompokkan dalam satu cluster yang
Means yang merupakan metode sama dan data yang memiliki karakteristik
pengelompokan yang sering digunakan berbeda dikelompokkan ke dalam
dalam penelitian. Metode K-Means kelompok yang lain (Yudi Agusta, 2007).
merupakan salah satu metode clustering Algoritma metode K-Means untuk
yang ada di Data Mining. Jumlah clustering dapat dilakukan dengan cara
kelompok ditentukan dari evaluasi (Yudi Agusta, 2007), (Muningsih &
dilakukan dengan mencari nilai terkecil Kiswati, 2015) :
dari nilai Indeks Davies Bouldin sebagai 1. Tentukan banyaknya atau jumlah
cara untuk optimasi jumlah cluster. cluster yang akan dibentuk
Analisis cluster merupakan suatu 2. Inisialisasi nilai k sebagai pusat dari
proses pemisahan objek menjadi beberapa cluster (beri nilai random)
kelopok sehingga objek yang masuk dalam 3. Alokasikan data yang diolah sesuai
kelompok yang sama memiliki karkteristik dengan jumlah cluster yang sudah
atau kemiripan yang sama dan akan ditentukan. Kedekatan dari dua obyek
berbeda dengan objek lain pada kelompok ditentukan oleh jarak antar kedua
lainnya (Dewi Kusumah, Warsito, & obyek tersebut. Jarak yang paling
96
Evolusi: Jurnal Sains dan Manajemen Vol 9 No. 1 Maret 2021 ISSN:2338-
8161 E-ISSN: 2657-0793

dekat antara satu data dengan satu


cluster lain akan menentukan suatu
data masuk ke dalam cluster yang
mana.
4. Hitung nilai centroid (pusat cluster)
pada tiap dari cluster. Pusat cluster
merupakan rata-ratasemua data atau
obyek dalam sebuah cluster.
5. Alokasikan lagi setiap obyek
menggunakan pusat cluster yang baru.
Jika nilai pusat cluster sudah tetap, Sumber : (Sastry & Babu, 2013)
tidak berubah lagi maka proses Gambar 1. Tahapan pada CRISP-DM
pengelompokan atau peng-clusteran Pada penelitian ini, tahapan yang
selesai. dilakukan adalah mengumpulkan dataset,
6. Kembali lagi ke langkah 3 sampai memilih atribut yang relevan, membangun
pusat dari cluster tidak berubah lagi model clustering menggunakan metode
clustering K-Means untuk pengelompokan
Evaluasi clustering dilakukan dengan data dan evaluasi model dengan Index
tujuan untuk mengetahui seberapa baik Davies Bouldin.
kualitas dari hasil clustering. Pada
penelitian ini, evaluasi hasil clustering 2.1. Dataset
yang digunakan adalah Davies Bouldin Dataset yang digunakan adalah data
Index untuk mengetahui jumlah cluster Banyaknya Desa/Kelurahan Menurut
yang paling optimal. Davies Bouldin Index Keberadaan dan Jenis Industri Kecil dan
(DBI) diperkenalkan oleh David L. Davies Mikro (Desa) tahun 2018 yang diambil
dan Donald W. Bouldin pada tahun 1979 dari website BPS (www.bps.go.id) dengan
Davies-Bouldin Index merupakan salah jumlah data sebanyak jumlah propinsi di
satu metode yang digunakan untuk Indonesia dan atribut berjumlah 8. Record
mengukur validitas ataujumlah cluster berisi nama-nama propinsi di Indonesia
paling optimal pada suatu metode dan atribut jenis industri sebagai potensi
pengelompokan dimana kohesi desa. Informasi lengkap data banyaknya
didefinisikan sebagai jumlah dari desa dan potensi industrinya yang
kedekatan data terhadap titik pusat cluster digunakan adalah :
dari cluster yang diikuti (Bates & Kalita, 1. Propinsi : Aceh, Sumatera Utara,
2016). Evaluasi dengan menggunakan Sumatera Barat, Riau dan seterusnya.
Davies Bouldin Index ini memiliki skema 2. Data jenis industri : Industri Makanan
evaluasi dari internal cluster, dimana baik dan Minuman, Industri dari
atau tidaknya hasil cluster dilihat dari Kain/Tenun, Industri Gerabah,
kuantitas dan kedekatan antar data hasil Keramik/Batu, Industri Anyaman,
cluster (Bates & Kalita, 2016). Industri Logam Mulia dan Bahan dari
Logam dan lain sebagainya.

2. Metode Penelitian 2.2. Preprocessing Data


Untuk membangun model pada Dari dataset yang ada kemudian
penelitian ini digunakan metode CRISP- dilakukan reprocessing data, salah satunya
DM (Cross-Industry Standard Process for yaitu mengubah nama atribut jenis industry
Data Mining). Metode ini memiliki enam menjadi kode tertentu agar lebih mudah
fase atau tahapan seperti yang ditampilkan untuk diolah yaitu I1 sampai I8. Tipe data
pada gambar 1 : untuk atribut yang digunakan adalah

97
Evolusi: Jurnal Sains dan Manajemen Vol 9 No. 1 Maret 2021 ISSN:2338-
8161 E-ISSN: 2657-0793

integer. Data lengkap yang diolah


ditampilkan pada gambar 2 berikut ini :

Sumber : Penulis (2021)


Gambar 2. Preprocessing Data
Performance untuk menghitung nilai Index
2.3. Modelling dan Evaluasi Davies Bouldin (IDB). Nilai terkecil dari
Pada tahapan ini, dilakukan modelling IDB menunjukkan jumlah cluster paling
menggunakan tools RapidMiner dengan optimal. Gambar 3 menampilkan
metode K-Means. Model yang digunakan Modelling dan Evaluasi menggunakan
menambahkan operator Replace Missing tools RapidMiner.
Values untuk menghapus data-data yang
memiliki nilai miss atau null dan operator

Sumber : Penulis (2021)


Gambar 3. Modelling dan Evaluasi

c. Nilai DBI yang terkecil


Langkah dan tahapan dalam proses menunjukkan hasil yang paling
modelling dan evaluasi adalah : baik dan menunjukkan jumlah
a. Membuat model clustering dengan cluster yang optimal.
metode K-Means dimana jumlah
cluster yang dimodel adalah 2 – 10. 3. Hasil dan Pembahasan
Metode clustering menggunakan Proses pengolahan data yang
metode K-Means dilakukan dengan modeling menggunakan
b. Dari tiap cluster yang dibuat di Metode K-Means, dimana dicari nilai DBI
evaluasi dengan operator Cluster terkecil untuk mengetahui optimasi jumlah
Distance Performance untuk clusternya. Jumlah cluster dan nilai DBI-
mengetahui nilai DBI tiap cluster. nya ditampilkan pada Tabel 1 berikut ini :

98
Evolusi: Jurnal Sains dan Manajemen Vol 9 No. 1 Maret 2021 ISSN:2338-
8161 E-ISSN: 2657-0793

Dari nilai dan tabel diatas diketahui bahwa


Tabel 1. Nilai DBI Tiap Cluster tiap cluster untuk kategori propinsi
berdasarkan potensi daerah yaitu industri
Cluster Nilai DBI yang ada dibedakan menjadi :
2 0,309 1. Cluster 0 : propinsi dengan potensi desa
3 0,175 (industri) sedikit
4 0,423 2. Cluster 1 : propinsi dengan potensi desa
5 0,575 (industri) banyak
6 0,720 3. Cluster 2 : propinsi dengan potensi desa
7 0,419 (industri)sedang
8 0,501
9 0,604 Untuk data propinsi tiap cluster ditampilan
10 0,626 pada Tabel 2 berikut ini :
Dari hasil pengolahan diketahui, untuk Tabel 2. Data Propinsi per cluster
optimasi jumlah cluster adalah 3 dengan Cluster Jumlah Propinsi
nilai DBI 0,175. Maka untuk data ini, Anggota
pengelompokan yang dilakukan dengan 0 31 Aceh, Sumatera Utara,
optimasi jumlah cluster adalah 3. Jumlah Sumatera Barat, Riau,
anggota masing-masing cluster Jambi, Sumatera
ditampilkan pada gambar 4 dibawah ini : Selatan, Bengkulu,
Lampung, Kep,
Bangka Belitung, Kep.
Riau, DKI Jakarta dan
lain sebagainya.
1 2 Jawa Tengah, Jawa
Timur
2 1 Jawa Barat

Sumber : Penulis (2021) Dari data diatas diketahui bahwa, Jawa


Gambar 4. Jumlah Anggota Tiap Cluster Tengah dan Jawa Timur menjadi Ppropinsi
yang memiliki industri sebagai potensi
Dari gambar diatas dapat dijelaskan bahwa desa yang terbesar atau terbanyak. Jawa
untuk cluster 0 memiliki anggota 31 Barat menjadi satu-satunya Propinsi
propinsi, cluster 1 memiliki anggota 2 dengan kategori memiliki jumlah industri
propinsi dan cluster 2 memiliki anggota 1 sedang. Dan ada 31 Propinsi lainnya
propinsi. masuk kategori sedikit untuk jumlah
Dan untuk nilai centroid masing-masing industri sebagai potensi desanya. Dari hasil
cluster ditampilkan pada Gambar 5 seperti clustering kemudian ditampilkan grafik
dibawah ini : penyebaran anggota cluster pada gambar 6
dibawah ini :

Sumber : Penulis (2021)


Gambar 5. Nilai Centroid

99
Evolusi: Jurnal Sains dan Manajemen Vol 9 No. 1 Maret 2021 ISSN:2338-
8161 E-ISSN: 2657-0793

berdasarkan indikator indeks


pembangunan manusia 2015). Jurnal
Gaussian, Vol 6 No 3 Tahun 2017, 6,
429–437.
Irhamni, F., Damayanti, F., Khusnul K, B.,
& A, M. (2014). Optimalisasi
pengelompokan kecamatan
berdasarkan indikator pendidikan
menggunakan metode clustering dan
davies bouldin index. Seminar
Nasional Dan Teknologi UMJ, (11),
Sumber : Penulis (2021) 1–6.
Gambar 6. Penyebaran Anggota Cluster Larose, D. T., & Larose, C. D. (2014).
Discovering Knowledge in Data: An
4. Kesimpulan Introduction to Data Mining: Second
Dari pengolahan data yang sudah Edition. In Discovering Knowledge in
dilakukan, didapatkan hasil dan Data: An Introduction to Data Mining:
kesimpulan bahwa modelling K-Means Second Edition (Vol.
dengan evaluasi nilai DBI menghasilkan 9780470908747).
optimasi jumlah cluster. Hasil clustering https://doi.org/10.1002/97811188740
menghasilkan pengelompokan propinsi 59
berdasarkan jumlah industri sebagai Muningsih, E. (2018). Komparasi Metode
potensi desanya dengan kategori sedikit, Clustering K-Means dan K-Medoids
sedang dan banyak. Karena keterbatasan dengan Model Fuzzy RFM untuk
waktu dan tenaga, Peneliti menyadari Pengelompokan Pelanggan.
bahwa hasil dari penelitian ini masih jauh JurnalEvolusi,6(2)
dari kata sempurna karena hal tersebut Muningsih, E., & Kiswati, S. (2015).
maka untuk penelitian berikutnya bisa Penerapan Metode K-Means Untuk
dilakukan komparasi dengan metode Clustering Produk Online Shop.
clustering yang lain. Jurnal Bianglala Informatika, 3(1).
Nanda, S. R., Mahanty, B., & Tiwari, M. K.
Referensi (2010). Expert Systems with
Applications Clustering Indian stock
Bates, A., & Kalita, J. (2016). Counting market data for portfolio management.
clusters in twitter posts. ACM Expert Systems With Applications,
International Conference Proceeding 37(12), 8793–8798.
Series, 04-05-March-2016. https://doi.org/10.1016/j.eswa.2010.0
https://doi.org/10.1145/2905055.2905 6.026
295 Yudi Agusta. (2007). K-Means –
Dewi Kusumah, R., Warsito, B., & Abdul Penerapan, Permasalahan dan Metode
Mukid, M. (2017). Perbandingan Terkait. Jurnal Sistem Dan
metode k – means dan self organizing Informatika, 3(Februari), 47–60.
map (Studi kasus: pengelompokan
kabupaten/kota di jawa tengah

100

Anda mungkin juga menyukai