Anda di halaman 1dari 6

Pengelompokan Tingkat Kemiskinan Provinsi

di Indonesia Menggunakan Metode Clustering


K-Mean
M Dery Roy A1, M Naufa Dzulfiqar2, Pramanda Arya3, Dwi Novianto Prima P4
1,2,3
Jurusan Sistem Informasi, Fakultas Teknik dan Ilmu Komputer
Universitas Komputer Indonesia
Jl. Dipati Ukur No.112-116, Lebakgede, Kecamatan Coblong, Kota Bandung, Jawa Barat 40132
1
dery.10519088@mahasiswa.unikom.ac.id, 2naufa.10519098@mahasiswa.unikom.ac.id,3
pramanda.10519093@mahasiswa.unikom.ac.id, 4dwi.10519096@mahasiswa.unikom.ac.id

Abstrak

Menurut sumber informasi dari Badan Pusat Statistik (BPS), kita dapat mengetahui angka kemiskinan seluruh provinsi
di Indonesia. Namun dalam data yang disampaikan ke BPS, angka kemiskinan hanya ditampilkan per provinsi, dan
dalam upaya pengentasan kemiskinan saat ini, pemerintah perlu mengetahui daerah mana yang memiliki rata-rata angka
kemiskinan tinggi, sedang, dan rendah, sehingga pemerintah dapat menentukan sasaran pengentasan kemiskinan
prioritas dan upaya penanggulangan kemiskinan. Oleh karena itu, pemilahan tingkat kemiskinan provinsi-provinsi di
Indonesia perlu dilakukan agar pemerintah dapat merumuskan kebijakan atau langkah-langkah penanggulangan
kemiskinan yang tepat secara tepat waktu sesuai dengan tingkat kemiskinan masing-masing provinsi. Pada penelitian
ini, metode clustering dengan algoritma K-Means digunakan untuk mengurutkan provinsi menurut tingkat kemiskinan
menggunakan software. Hasil penelitian menunjukkan bahwa dari provinsi di Indonesia yang diklasifikasikan
berdasarkan tingkat kemiskinan, terdapat 3 kelompok: Kelompok 0 (provinsi dengan tingkat kemiskinan rendah),
Kelompok 1 (provinsi dengan tingkat kemiskinan sedang) dan Kelompok 2 (provinsi dengan tingkat kemiskinan yang
tinggi). Provinsi yang termasuk dalam kelompok provinsi dengan angka kemiskinan tinggi adalah Papua, Papua Barat,
dan Maluku.

Kata kunci: Tingkat Kemiskinan, K-Mean, Pengelompokan

Abstract

Based on information sources from the Central Statistics Agency (BPS), we can find out the poverty rate in all
provinces in Indonesia. However, in the data submitted to BPS, the poverty rate is presented per province only, whereas
in the current poverty alleviation effort, the government needs to know which areas have high, moderate or weak
average poverty rates so that the government can set priorities for the fight against poverty. Therefore, ranking
provinces in Indonesia based on poverty level is necessary so that the government can produce the right anti-poverty
policies or approaches at the right time according to the poverty level of each province. In this study, the clustering
method with the K-Means algorithm was used to sort provinces according to missile level using software. The results
showed that of the provinces in Indonesia which were classified based on poverty levels, there were 3 groups: Group 0
(provinces with low poverty rates), Group 1 (provinces with moderate poverty rates) and Group 2 (provinces with high
poverty rates). Provinces included in the group of provinces with high poverty rates are Papua, West Papua and
Maluku.

Keywords: Poverty Rate, K-Means, Classification

I. PENDAHULUAN menentukan jumlah kasus kemiskina. Dengan adanya


penelitian ini diharapkan pemerintah dapat meningkatkan
Kemiskinan adalah ketidakmampuan untuk membeli lapang pekerjaan dan meningkatkan perekonomian
kebutuhan seperti pangan, sandang, papan, Pendidikan, masyarkat Indonesia.
dan Kesehatan. Kemiskinan disebabkan oleh kurangnya Dalam penelitian ini, penulis akan melakukan
mengakses Pendidikan dan lapang pekerjaan. klasifikasi kemiskinan Indonesia menggunakan metode
Kemiskinan di negara Indonesia bermacam – macam dari K-Mean. Data yang digunakan dalam penelitian ini
tingkat kota ke desa. Dalam penelitian ini, data yang berasal dari Badan Pusat Statistik (BPS). Data yang
digunakan dari Badan Pusat Statistik. Tujuan penelitian diperoleh untuk angka kemiskinan Indonesia dari tahun
ini adalah menggunakan Teknik clustering untuk 2012 sampai dengan tahun 2018, menjelaskan bahwa
kemiskinan di Indonesia semakin meningkat setiap angka yang disajikan dan dideskripsikan oleh peneliti.
tahunnya. Metode yang digunakan dalam analisis kuantitatif
Clustering adalah proses pengelompokan objek data meliputi metode analisis deskriptif dan metode analisis
ke dalam sejumlah kecil kelompok sehingga setiap inferensi yang masing-masing memiliki fungsinya
kelompok memiliki kesamaan. Penulis menjelaskan masing-masing.
bahwa clustering adalah proses pemisahan data yang Dalam melakukan analisis data tentunya terdapat
tidak berlabel menjadi kelompok – kelompok data yang prosedur dan langkah-langkah yang harus dilakukan.
serupa. Penelitian ini bertujuan untuk mengklasifikasikan Langkah pertama, tentu saja, mengumpulkan data yang
provinsi mana di Indonesia yang memiliki tingkat diperlukan untuk penelitian. Pastikan data yang
kemiskinan tinggi, sedang, dan rendah. Hasil digunakan lengkap dan jelas sumbernya. Selanjutnya,
pengelompokan menunjukkan bahwa provinsi mana di identifikasi data dan kelompokkan berdasarkan
Indonesia yang layak mendapat prioritas dan perhatian karakteristiknya. Selain itu juga dilakukan normalisasi
khusus untuk mengatasi kemiskinan, sehingga dapat data agar data dalam format yang sama untuk
memungkinkan mereka ada kemajuan dan peningkatan memudahkan proses analisis. Kemudian analisis data
dalam hal pekerjaan dan ekonomi. menggunakan metode atau teknik yang sesuai. Hasil
analisis data ditampilkan dalam format yang menarik dan
II. TINJAUAN PUSTAKA mudah dipahami.
Termasuk studi sebelumnya dan studi yang
Penelitian sebelumnya melakukan analisis clustering melakukan analisis pengelompokan menggunakan
dengan menggunakan metode K-Means, termasuk metode KMeans. Pada penelitian ini, teknik analisis
penelitiannya. Pada penelitian ini metode analisis clustering menggunakan algoritma K-Means digunakan
clustering dengan algoritma K-Means digunakan untuk untuk mengelompokkan semua desa dalam satu
mengurutkan provinsi di Indonesia berdasarkan kriteria kecamatan. Akurasi klasifikasi kemudian diperiksa
kemiskinan. menggunakan kriteria kemiskinan dengan menggunakan
Penelitian lainnya adalah penelitian dengan metode analisis diskriminan. Kajian lain menggunakan
menggunakan analisis K-means clustering untuk analisis K-means clustering untuk mengklasifikasikan
mengklasifikasikan provinsi-provinsi di Indonesia kabupaten dan kota di Jawa Barat berdasarkan informasi
berdasarkan data kemiskinan. data kemiskinan. Penelitian ini menggunakan algoritma
KMeans untuk memeringkat mahasiswa berdasarkan
A. ANALISIS DATA kinerjanya dalam perkuliahan menggunakan bahasa
Analisis data adalah proses pengolahan data dengan pemrograman Python.
tujuan untuk menemukan informasi yang berguna yang
dapat digunakan sebagai dasar pengambilan keputusan B. ANALISIS CLUSTRING
untuk memecahkan suatu masalah. Proses analisis ini Clustering adalah proses membagi objek dari
meliputi kegiatan pengelompokan data berdasarkan kumpulan data menjadi banyak cluster homogen. Tujuan
karakteristiknya, melakukan pembersihan data, utama dari clustering adalah untuk mengelompokkan
transformasi data, dan pembuatan model data untuk beberapa data/objek ke dalam cluster (kelompok)
menemukan informasi kunci dari data. Ingatlah bahwa sehingga setiap cluster memuat data yang semirip
data yang telah melalui proses ini harus disajikan dalam mungkin. Clustering berupaya menempatkan objek yang
format yang menarik dan mudah dipahami, biasanya mirip atau berdekatan dalam suatu cluster dan membuat
berupa grafik atau bagan. Penggunaan teknologi jarak antar cluster sejauh mungkin. Artinya, objek-objek
sekarang memengaruhi hampir semua hal yang kita dalam satu cluster sangat mirip dan berbeda dengan
lakukan. Teknologi ini tentunya terkait dengan jumlah objek-objek di cluster lain.
data yang terus meningkat. Jika Anda membiarkan data Secara umum, teknik clustering dapat dikelompokkan
menumpuk, itu hanya akan sia-sia. Meskipun dapat menjadi empat kategori : (i) metode partisi, (ii) metode
digunakan untuk mengolah data dan memperoleh hirarkis, (iii) metode density based, dan (iv) cluster grid
informasi yang bermanfaat. Oleh karena itu, analisis data based. Metode partisi melakukan pengelompokan dengan
merupakan langkah yang sangat penting dalam langsung mencari kelompok yang berbeda dan
pengolahan data. Ada berbagai pendekatan atau teknik merelokasi titik data untuk meningkatkan kualitas
analisis data yang dapat digunakan. Ada berbagai jenis pengelompokan dari solusi asli. Pendekatan hierarki
analisis data saat melakukan kegiatan penelitian: analisis membangun cluster secara bertahap, termasuk
kualitatif dan analisis kuantitatif. Analisis kualitatif menggabungkan cluster kecil menjadi cluster yang lebih
adalah analisis sistematis yang tidak menggunakan model besar atau memisahkan cluster yang lebih besar menjadi
matematis atau statistik. Dengan kata lain, analisis ini cluster yang lebih kecil.
dilakukan dengan membaca tabel, grafik atau data lain Untuk metode density based, metode ini
yang tersedia yang diperoleh dari berbagai sumber mengidentifikasi cluster dengan menghubungkan daerah
dengan menggunakan teknik pengumpulan data tertentu. dengan beberapa titik data. Sedangkan pada metode grid
Tujuan analisis kualitatif adalah untuk menemukan based, untuk meningkatkan efisiensi clustering, metode
makna dalam data. Analisis kuantitatif adalah analisis ini membagi ruang data menjadi beberapa sel
yang menggunakan model matematis atau statistik untuk membentuk struktur grid padat untuk membentuk cluster.
mengolah data. Hasil analisis biasanya berupa angka-
C. ALGORITMA K-MEANS III. METODOLOGI PENELITIAN
Pada algoritma K-Mean, objek atau data yang ada Metode yang peneliti gunakan adalah Algoritma K-
dikelompokkan menjadi k grup atau cluster. Untuk Means clusterring yang merupakan salah satu algoritma
melakukan clustering ini, nilai k harus ditentukan terlebih Clustering atau pengelompokkan. K-means Clustering
dahulu. Biasanya, pengguna atau user sudah memiliki adalah salah satu algoritma yang paling banyak
beberapa informasi awal tentang subjek yang dipelajari, digunakan yang membentuk kelompok data berdasarkan
termasuk jumlah cluster yang paling cocok. Dalam kesamaan antara instance data. Agar algoritma khusus ini
algoritma K-Mean, ukuran perbedaan digunakan untuk berfungsi, jumlah cluster harus ditentukan agar bisa
mengelompokkan objek. Perbedaan ini diterjemahkan ke sesuai dan berfungsi dengan semestinya. K adalah K-
dalam konsep jarak. Jika dua objek cukup dekat, maka means yang mengacu kepada banyaknya cluster. K-
kedua objek tersebut serupa. Artinya, semakin dekat, means termasuk dalam kategori pengelompokkan data
semakin besar kesamaannya. Semakin tinggi nilai jarak, berbasis centroid. Centroid tidak bisa dipastikan menjadi
semakin tinggi ketidaksamaan. anggota dataset. Clustering berbasis-centroid adalah
Pengelompokan data menggunakan algoritma K- suatu algoritma iterative di mana gagasan kesamaan
Means biasanya dilakukan dengan menggunakan diturunkan dengan beberapa dekat suatu titik data dengan
algoritma berikut: centroid dari cluster.
1. Tentukan jumlah kelompok. Software yang digunakan dalam penelitian ini adalah
2. Alokasikan data ke kelompok acak menggunakan sofware Python. Software ini digunakan
Inisialisasi k cluster (centroid). Ini dapat untuk membandingkan hasil perhitungan secara grafik
dilakukan dengan berbagai cara. Metode dengan hasil yang didapatkan dengan proses di software
yang paling sering digunakan adalah Python. Python adalah sebuah Bahasa pemrograman
pengacakan, yaitu pusat klaster diberi nilai yang digunakan untuk membuat aplikasi, melakukan
awal dengan bilangan acak. analisis data, dan perintah komputer. Python bisa
3. Hitung pusat kelompok (centroid) dari data digunakan untuk membuat program dan menyelesaikan
masing-masing kelompok. berbagai permasalahan pada suatu program.
4. Tetapkan setiap data ke centroid cluster Library Python yang kami gunakan adalah Pandas
terdekat. Kedekatan dua objek ditentukan adalah pustaka sumber terbuka berlisensi BSD yang
berdasarkan jarak antara kedua objek menyediakan struktur data dan analisis data yang mudah
tersebut. Begitu pula jarak data ke cluster digunakan dan kuat untuk bahasa pemrograman Python.
tertentu ditentukan berdasarkan jarak antara Dengan kata lain, panda adalah pustaka analisis data,
data dengan pusat cluster. Data tersebut akan dengan struktur data yang diperlukan untuk mengubah
diimpor ke dalam klaster sehingga jarak data mentah menjadi format yang sesuai untuk analisis
antara data dengan pusat klaster paling dekat. (seperti tabel). Panda melakukan tugas-tugas penting
Untuk menghitung jarak antara data dan seperti: Misalnya, mencocokkan data untuk
pusat cluster, jarak Euclidean sering membandingkan dan menggabungkan kumpulan data,
digunakan, meskipun jarak Manhattan atau menangani data yang hilang, dll. Ini telah menjadi
Minkowsky juga dapat digunakan. Untuk pustaka de facto untuk manipulasi data tingkat tinggi
menghitung jarak seluruh data ke setiap titik (seperti statistik) dengan Python. Panda pada awalnya
pusat cluster menggunakan teori jarak dikembangkan untuk memproses data keuangan, dan
Euclidean digunakan rumus sebagai berikut: alternatif umum adalah menggunakan spreadsheet
(seperti Microsoft Excel). NumPy (Numerical Python)
adalah pustaka Python yang berfokus pada komputasi
ilmiah. NumPy dapat membuat objek array N-dimensi
A (ib) = ……… (1) yang mirip dengan daftar Python. Keuntungan array
Di mana : NumPy dibandingkan daftar Python adalah konsumsi
A(ib) = jarak data ke (i) ke pusat klaster (j) memori yang lebih rendah dan runtime yang lebih cepat.
Xki = data ke (i) pada atribut data ke (k) NumPy juga memfasilitasi aljabar linier, terutama
Xkj = titik pusat (j) pada atribut (k) bekerja dengan vektor (array satu dimensi) dan matriks
(array dua dimensi). Matplotlib adalah pustaka Python
5. Hitung ulang pusat klaster dengan yang berfokus pada visualisasi data seperti
keanggotaan klaster saat ini. Pusat cluster merencanakan bagan. Matplotlib awalnya ditulis oleh
adalah rata-rata dari semua data/objek di John D. Hunter dan sekarang dikelola oleh tim
setiap cluster. pengembang yang besar. Awalnya, matplotlib
6. Ulangi langkah (2) dan (3) dengan pusat dikembangkan untuk membuat plot yang cocok untuk
cluster baru. Jika pusat cluster tidak lagi publikasi di jurnal dan artikel ilmiah. Matplotlib
berubah, maka clustering selesai atau umumnya digunakan dalam skrip Python, shell Python
dikatakan konvergen. dan IPython, server aplikasi web, dan beberapa toolkit
antarmuka pengguna grafis (GUI) lainnya.
IV. HASIL DAN PEMBAHASAN
A. Dataset
Dataset yang digunakan dalam penelitian ini
adalah kumpulan data Badan Pusat Statistik C. Clustering dengan model Guassian Mixture
(BPS) yang kita temukan untuk di teliti.
Terdapat 503 data yang tersedia dalam
dataset ini. Dataset ini terdiri dari tujuh
atribut yang terdiri dari id, kode provinsi,
nama provinsi, semester, penduduk miskin,
satuan, tahun.

TABEL I. Atribut Dataset


i kode nama_pr seme pendu satua tah
d _ ovinsi ster duk_ n un
prov miskin
insi
1 1100 ACEH 1/1/0 19,46 PERS 201
1 EN 2

2 1100 ACEH 2/1/0 18,58 PERS 201


1 EN 2 Gambar 2. K-means Clustering model
Guassian Mixture
3 1200 SUMATE 1/1/0 10,67 PERS 201
RA 1 EN 2 Berdasarkan gambar 2, kita bisa mengetahui
UTARA bahwa id provinsi ke 100 sampai 200 ada
4 1200 SUMATE 2/1/0 10,41 PERS 201 pada tingkat kemiskinan yang tinggi hingga
RA 1 EN 2 mencapai 30 dan juga tingkat kemiskinan
UTARA yang rendah hingga mencapai 0.
5 1300 SUMATE 1/1/0 8,19 PERS 201
RA 1 EN 2 D. K-means Elbow
BARAT

B. K-means Clustering

Gambar 3. Grafik K-means Elbow

berdasarkan gambar diatas, grafik ini


berfungsi menentukan perbandingan antar
Gambar 1. Grafik K-means Clustering hasil jumlah cluster yang akan membentuk
suatu titik terakhir, dimana dalam grafik ini
Berdasarkan gambar 1, diperlihatkan grafik menunjukkan titik-titik tertinggi dari
tingkat penduduk kemiskinan yang ada pada Distortion menuju titik K-means dan menuju
tiap provinsi di Indonesia dengan titik paling optimal K-means yaitu 3 cluster.
menggunakan K-means Clustering, bisa di
lihat dari grafik di atas ini daerah Papua lebih E. Grafik Scatter
tinggi tingkat kemiskinan hingga 30 dan
provinsi Kalimanta Utara dengan tingkat
kemiskinan yang paling rendah dari provinsi
lainnya.
Gambar 4. Scatter Gambar 5. Clustering Spectral

Pada grafik scatter ini kita bisa mengetahui Berdasarkan gambar diatas, terdapat 0 hingga
bahwa tingkat penduduk miskin yang berada 500 id provinsi yang terclusterisasi adalah 5
pada beberapa provinsi di Indonesia cluster cluster 0 adalah cluster provinsi dari
mengalami kenaikan dan penurunan, bisa id 0 sampai id di bawah serratus dalam
dilihat dari grafik diatas ini ada beberapa cluster ini tingkat kemiskinan lebih dari 30%
provinsi yang mengalami kenaikan sampai ke sedangkat cluster dengan tingkat kemiskinan
30 dan ada yang mengalami penurunan terendah adalah berada di cluster 0 dan 1
hingga mencapai 0. dengan tingkat kemiskinan hamper
menyentuh angka 0.

V. KESIMPULAN DAN SARAN


Dari penelitian yang telah dilakukan pada kumpulan
data Badan Pusat Statistik (BPS) dengan subjek data
penduduk miskin berdasarkan provinsi yang berada pada
negara indonesia (2012-2018) yang terdapat 503 data.
Pada data tersebut terdapat tujuh atribut, dan
menggunakan algoritma K-means dan analisis
Clustering. Dapat disumpulkan bahwa penerapan data
mining dengan metode algoritma Clustering K-Means
dapat diterapkan. Jumlah record yang digunakan
sebanyak 34 provinsi dengan menghasilkan 4 cluster
yakni cluster tinggi pada id provinsi 200 sampai 350 dan
Ini adalah contoh lebih jelas dari grafik
cluster rendah terhadap id provinsi 0 sampai 100.
scatter dimana penduduk sumatera
Berdasarkan hasil pengujian K-means untuk kasus
mengalami penurunan dan penduduk Aceh
persentase data penduduk miskin menggunakan softwere
mengalami peningkatan pada tingkat
Python diperoleh hasil dengan analisis perhitungan
kemiskinan.
algoritma dimana diperoleh provinsi Kalimantan Utara
dan sekitarnya mengalami penurunan dalam tingkat
F. Clustering model spectral
kemiskinan dan provinsi Papua dan sekitarnya
mengalami peningkatan dalam tingkat kemiskinan yang
menjadi perhatian bagi pemerintah dalam melakukan
pemetaan dan sosialisasi dalam pemberian bantuan pada
provinsi tersebut.
Dalam penelitian ini diharapkan menjadi dasar bagi
pemerintah dalam memberikan bantuan atau kebijakan
untuk mengatasi kemiskinan yang terjadi dengan
mengetahui karakteristik di setiap provinsi terutama
provinsi dengan tingkat kemiskinan yang tinggi. Untuk
penelitian berikutnya akan lebih baik apabila
ditambahkan dengan metode yang lain untuk
meningkatkan dan menghitung kevalidan dari hasil
analisis cluster.
DAFTAR PUSTAKA
Hidayat, A. (2022, january 3). Penjelasan Lengkap Tentang Analisis Cluster. Retrieved from www.statistikian.com:
https://www.statistikian.com/2014/03/analisis-cluster.html
Mahyudin, D. (2022, july 26). MENGENAL ANALISIS CLUSTER: DEFINISI, METODE DAN CARA PENGGUNAAN.
Retrieved from lp2m.uma.ac.id: https://lp2m.uma.ac.id/2022/07/26/mengenal-analisis-cluster-definisi-metode-
dan-cara-penggunaan/#:~:text=Analisis%20klaster%20adalah%20metode%20statistik,kluster%2Dkluster
%20lain%20yang%20berbeda
Nasution, I. (2020). Penerapan Algoritma K-MeansDalam Pengelompokan Data Penduduk Miskin Menurut Provinsi.
Building of Informatics, Technology and Science (BITS), 76-83.
Sunia, D. (2019). PENERAPAN DATA MINING UNTUK CLUSTERING DATA PENDUDUK MISKIN
MENGGUNAKAN ALGORITMA K-MEANS. STIKOM Dinamika Bangsa, 121.
Syafnidawaty. (2020, April 19). K-MEANS CLUSTERING. Retrieved from raharja.ac.id:
https://raharja.ac.id/2020/04/19/k-means-clustering/
Talakua, M. W. (2017). ANALISIS CLUSTER DENGAN MENGGUNAKAN METODE K-MEANS UNTUK
PENGELOMPOKKAN KABUPATEN/KOTA DI PROVINSI MALUKU BERDASARKAN INDIKATOR
INDEKS PEMBANGUNAN MANUSIA TAHUN 2014. Jurnal Ilmu Matematika dan Terapan , 119 – 128.
Trivusi. (2022 , juli 27). K-Means Clustering: Pengertian, Cara Kerja, Kelebihan, dan Kekurangannya. Retrieved from
https://www.trivusi.web.id/: https://www.trivusi.web.id/2022/06/algoritma-kmeans-clustering.html

Anda mungkin juga menyukai