Anda di halaman 1dari 21

Analisis Clustering Pada Data Informasi Kemiskinan Di Papua Tahun

2020 Menggunakan K-Medoids dan Agglomerative Hierarchical


Clustering

Disusun untuk memenuhi tugas mata kuliah


Data Mining

Dosen Pengampu
Wa Ode Zuhayeni Madjida S.S.T., M.Si.

Disusun Oleh Kelompok 6:


1. Herika Sofita Putri (211810329)
2. Khoiron Filsafat (211810375)
3. Lely Indah Guritno (211810388)
4. Taupiq H.Nasution (211810623)

POLITEKNIK STATISTIKA STIS


JAKARTA
2021
ABSTRAK

Kemiskinan merupakan masalah multidimensi, yang mana determinan dari masalah


ini sangatlah kompleks dan tidak bisa dipandang dari satu sisi. Masalah kemiskinan juga
semakin parah di beberapa daerah disebabkan pandemi Covid-19, salah satunya di Provinsi
Papua dimana presentase peduduk miskin di Papua merupakan yang tertinggi di Indonesia.
Usaha pemerintah untuk terus mengurangi kemiskinan tidak terlepas dari berbagai kebijakan.
Berbagai kebijakan yang dilakukan pemerintah, tentu membutuhkan data yang akurat
sehingga kebijakan lebih strategis dan tepat sasaran. Berdasarkan hal tersebut, pada penelitian
ini dilakukan penerapan algoritma unsupervised machine learning yaitu clustering untuk
pengelompokan kemiskinan pada seluruh kabupaten/kota di Provinsi Papua. Metode
clustering yang digunakan merupakan k-medoids clustering dengan jumlah cluster (k) sama
dengan 2 dan 3 serta hierarchical clustering dengan jumlah cluster (k) sama dengan 6. Dari
semua hasil pengklasteran yang telah diperoleh, kemudian dilakukan perhitungan
performance clustering dengan menggunakan metode dunn index. Dihasilkan metode terbaik
untuk klasterisasi data informasi kemiskinan di Provinsi Papua adalah menggunakan metode
k-medoids dengan jumlah cluster 3.

Kata Kunci- Kemiskinan, Provinsi Papua, unsupervised machine learning, k-medoids


clustering, hierarchical clustering.

PENDAHULUAN

Latar Belakang

Kemiskinan seringkali menjadi masalah utama hampir diseluruh negara, khususnya


negara berkembang. Kemiskinan merupakan masalah multidimensi, yang mana determinan
dari masalah ini sangatlah kompleks dan tidak bisa dipandang dari satu sisi. Menurut World
Bank, salah satu penyebab kemiskinan adalah kurangnya pendapatan dan aset untuk
memenuhi kebutuhan dasar, dimana World Bank menetapkan standar kemiskinan
berdasarkan pendapatan minimal sebesar USD $2 per hari. Badan Pusat Statistik menetapkan
ukuran kemiskinan melalui pendekatan kemampuan seseorang untuk memenuhi kebutuhan
dasar baik berupa makanan maupun bukan makanan. Berdasarkan hal tersebut, BPS
memandang kemiskinan sebagai ketidakmampuan seseorang untuk memenuhi kebutuhan
dasarnya.
Kemiskinan di Indonesia mangalami peningkatan pada tahun 2020. Hal ini salah
satunya disebabkan oleh adanya Pandemi Covid-19. Masalah kemiskinan juga semakin parah
di beberapa daerah, salah satunya di Provinsi Papua. Presentase peduduk miskin di Papua
merupakan yang tertinggi di Indonesia pada tahun 2020. Bukan hanya presentase penduduk
miskin, data dari Badan Pusat Statistik menunjukkan indeks kedalaman kemiskinan serta
indeks keparahan kemiskinan juga merupakan yang tertinggi di Indonesia. Hal tersebut dapat
dilihat pada tabel 1 berikut.

Tabel 1. Presentase Penduduk Miskin dan Jumlah Penduduk Miskin di Indonesia tahun 2018-2019
Tahun 2020
Ukuran Kemiskinan
Semester 1 Semester 2
(1) (2) (3)
Presentase Penduduk Miskin (P0) (%) 26.64 26.80
Indeks Kedalaman Kemiskinan 6.16 6.90
Indeks Keparahan Kemiskinan 2.08 2.35
Sumber : Badan Pusat Statistik, diolah

Usaha pemerintah untuk terus mengurangi kemiskinan tidak terlepas dari berbagai
kebijakan baik yang terkait ekonomi makro maupun ekonomi mikro. Pada tataran ekonomi
makro, pemerintah terus mendorong pertumbuhan ekonomi, menjaga stabilisasi harga dan
membuka lapangan kerja (Sigit, 2020). Pemerintah juga terus mengembangkan infrastruktur
daerah tertinggal sehingga kegiatan ekonomi di daerah tersebut dapat lebih bergerak maju.
Terkait dengan ekonomi mikro, pemerintah memberikan bantuan langsung baik terkait
pangan, subsidi tunai maupun bantuan iuran asuransi kesehatan bagi masyarakat miskin.
Pengentasan kemiskinan merupakan tujuan pemerintah dalam rangka mewujudkan
kesejahteraan rakyat. Hal ini karena kesejahteraan rakyat merupakan cita-cita bangsa
Indonesia sebagaimana diamanatkan dalam Pembukaan UUD 1945. Selain kemiskinan, salah
satu indikator lain dari kesejahteraan adalah pendidikan. Pendidikan merupakan hak warga
negara yang diatur dalam UUD 1945. Dalam hal ini, pemerintah bertanggung jawab untuk
memastikan hak pendidikan diperoleh oleh seluruh rakyat. Banyak ukuran yang bisa
dijadikan proksi dalam tinjauan masalah pendidikan, salah satunya adalah rata-rata lama
sekolah. Data Badan Pusat Statistik menunjukkan rata-rata lama sekolah penduduk berusia
kurang dari 15 tahun di Provinsi Papua hanya 6,96 tahun, yang artinya rata rata penduduk
hanya menamatkan sekolah SD sederajat. Hal tersebut tentunya belum memenuhi program
wajib belajar 12 tahun yang dicanangkan pemerintah. Oleh karena itu, penting bagi
pemerintah, baik pusat maupun daerah, untuk segera berfokus mengatasi masalah
kesejahteraan yang terjadi di Provinsi Papua.
Berbagai kebijakan yang dilakukan pemerintah, tentu membutuhkan data yang akurat
sehingga kebijakan lebih strategis dan tepat sasaran. Data yang digunakan sebagai acuan
harus bisa menggambarkan karakteristik wilayah sesuai kondisi sebenarnya. Pada masalah
pengentasan kemiskinan, seringkali pemerintah bermasalah dengan target penerima bantuan.
Seringkali bantuan tidak tepat sasaran yang menyebabkan kerugian serta ketidakefektivan
strategi kebijakan. Hal ini dapat ditanggulangi salah satunya dengan cara mengelompokkan
wilayah secara akurat berdasarkan karakteristik kemiskinannya. Salah satu alat analisis yang
bisa digunakan adalah algoritma machine learning seperti clustering methods. Metode
clustering merupakan algoritma unsupervised machine learning yang digunakan untuk
melakukan pengelompokan objek yang didasarkan pada persamaan karakteristik yang
dimiliki (Saputra, 2020). Dengan menerapkan metode clustering, diharapkan dapat
membantu para pengambil kebijakan untuk mengetahui karakteristik dari wilayah
berdasarkan visualisasi hasil pengelompokan sehingga kebijakan yang dibuat lebih efektif
dan tepat sasaran.

Tujuan Penelitian
Berdasarkan latar belakang yang telah dipaparkan, tujuan dari penelitian ini dapat
dituliskan sebagai berikut.
1. Melakukan pengelompokkan wilayah kabupaten/kota dengan menerapkan algoritma
machine learning (k-medoids clustering dan hierarchical clustering) berdasarkan
tingkat kemiskinan dan rata-rata lama sekolah.
2. Mendapatkan algoritma machine learning terbaik yang mampu mengidentifikasi
kelompok-kelompok wilayah kabupaten/kota berdasarkan tingkat kemiskinan dan
rata-rata lama sekolah dengan tepat.

TINJAUAN PUSTAKA
Landasan Teori
Persentase Penduduk Miskin

Salah satu indikator yang digunakan untuk mengevaluasi kemiskinan di suatu wilayah
adalah persentase penduduk miskin. Indikator ini menunjukkan persentase penduduk yang
ada di bawah garis kemiskinan. Menurut BPS, garis kemiskinan adalah nilai minimal
pengeluaran yang dibutuhkan seseorang untuk dapat memenuhi kebutuhan pokok makanan
dan nonmakanan untuk hidup selama sebulan. Penduduk yang rata-rata pengeluaran per
kapita di tiap bulannya berada di bawah garis kemiskinan dikategorikan sebagai penduduk
miskin. Persentase penduduk miskin dihitung menggunakan rumus di bawah ini.
𝑞
1 𝑧 − 𝑦𝑖 𝛼
𝑃𝛼 = ∑ [ ]
𝑛 𝑧
𝑖=1

Keterangan:

𝛼: bilangan bernilai nol

𝑧: garis kemiskinan

𝑦𝑖 : rata-rata pengeluaran per kapita sebulan penduduk yang berada di bawah garis kemiskinan

𝑞: banyak penduduk yang berada di bawah garis kemiskinan

𝑛: jumlah penduduk

Rata-rata Lama Sekolah

Dalam mengukur pendidikan, dapat digunakan berbagai indikator. Satu di antaranya


adalah rata-rata lama sekolah (RLS). Menurut BPS, rata-rata lama sekolah diartikan sebagai
rata-rata jumlah tahun yang dihabiskan suatu penduduk usia 25 tahun ke atas untuk menjalani
pendidikan formal. Rata-rata lama sekolah dihitung menggunakan rumus di bawah ini.
𝑛
1
𝑅𝐿𝑆 = ∑ 𝑥𝑖
𝑛
𝑖=1

Keterangan:

𝑥𝑖 : lama sekolah penduduk usia 25 tahun ke atas ke-i

𝑛: jumlah penduduk usia 25 tahun ke atas

Clustering

Salah satu cara untuk mengelompokkan data adalah clustering. Berbeda dengan
klasifikasi yang mengelompokkan data di saat banyak dan jenis kelompoknya telah diketahui
sebelum analisis dilakukan, clustering mengelompokkan data tanpa ada asumsi mengenai
banyak dan jenis kelompok di awal analisis (Johnson & Wichern, 2002). Pengelompokan ini
dilakukan berdasarkan kemiripan atau ketidak miripan yang dinilai dari jarak. Pengukuran
jarak dapat dilakukan dengan berbagai metode seperti euclidian, manhattan, dan lain-lainnya.
Hierarchical Clustering

Analisis clustering memiliki beberapa jenis berdasarkan tahapannya, satu di antaranya


adalah hierarchical clustering, yaitu teknik clustering yang dilakukan dengan penggabungan
berturut-turut atau pembagian yang berturut-turut. Hierarchical clustering yang melakukan
penggabungan berturut-turut diawali dengan data-data tunggal dinamakan dengan
agglomerative hierarchical clustering. Untuk sebaliknya, Hierarchical clustering yang
melakukan pembagian berturut-turut diawali dengan satu kelompok besar data-data disebut
dengan divisive hierarchical clustering. Agglomerative hierarchical clustering diawali dengan
banyak klaster sebanyak data dan diakhiri dengan satu klaster yang memuat semua data,
sedangkan divisive hierarchical clustering berlaku sebaliknya.

Nonhierarchical Clustering

Jenis lain dari analisis clustering adalah nonhierarchical clustering. Metode clustering
ini mengelompokkan data ke dalam kelompok sebanyak K yang ditentukan di awal atau
dengan prosedur tertentu. Pengelompokan yang optimal adalah di saat jarak antarkelompok
yang terbentuk sangat besar atau setiap kelompok benar-benar berbeda di antara satu sama
lain. Beberapa contoh algoritma nonhierarchical clustering adalah K-means dan K-medoids.

Penelitian Terdahulu

Gifthera Dwilestari, Mulyawan, Martanto, dan Irfan Ali melakukan analisis clustering
pada persentase penduduk miskin provinsi-provinsi Indonesia pada tahun 2007-2019
menggunakan metode K-medoids. Banyaknya klaster atau K dicoba sebanyak 2 hingga 20,
setiap besar K yang dipilih didasarkan pada nilai Davies Bouldin Index. K sebesar tiga
digunakan sehingga provinsi-provinsi di Indonesia dikelompokkan ke dalam tiga klaster.
Klaster 1 memiliki kemiskinan tingkat rendah ada sebanyak 19 provinsi, klaster 2 memiliki
kemiskinan tingkat sedang terdiri dari 12 provinsi, dan klaster 3 memiliki kemiskinan tingkat
tinggi terdiri dari 3 provinsi.

Danu Abdi Saputra melakukan riset mengenai pengelompokan kabupaten/kota di


wilayah Kawasan Timur Indonesia (KTI) pada tahun 2019 berdasarkan enam variabel
kesejahteraan sosial. Keenam variabel tersebut adalah persentase penduduk miskin,
persentase penduduk yang mempunyai keluhan kesehatan selama sebulan terakhir, rata-rata
lama sekolah, persentase rumah tangga yang tinggal di bangunan tempat tinggal milik sendiri,
pengeluaran per kapita yang disesuaikan, dan tingkat pengangguran terbuka. Metode
clustering yang digunakan adalah K-means dan fuzzy c-means dengan klaster sebanyak 3 dan
4. Pemilihan hasil clustering terbaik dilakukan berdasarkan evaluasi davies-bouldin index dan
dunn index. Nilai davies bouldin index terendah dan dunn index tertinggi terdapat pada
metode K-means dengan 3 klaster sehingga hasil clustering tersebut yang dipilih sebagai
clustering terbaik.

Safa’at Yulianto dan Kishera Hilya Hidayatullah meneliti tentang kesejahteraan


rakyat di kabupaten/provinsi di Provinsi Jawa Tengah pada tahun 2010. Metode analisis yang
digunakan adalah agglomerative hierarchical clustering dengan average linkage dan jarak
euclidian. Variabel-variabel yang digunakan adalah PDRB perkapita, kepadatan penduduk,
penduduk miskin, jumlah angkatan kerja, pengeluaran riil perkapita yang disesuaikan, angka
harapan hidup dan rata-rata lama sekolah. Hasil penelitiannya mengelompokkan
kabupaten/provinsi di Provinsi Jawa Tengah menjadi tiga klaster atau kelompok, yaitu
kelompok A dengan 28 kabupaten/kota, kelompok B dengan 2 kabupaten/kota, dan kelompok
C dengan 5 kabupaten/kota.

METODOLOGI
Sumber Data

Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh
dari Badan Pusat Statistik tahun 2020 yaitu data informasi kemiskinan yaitu Persentase
Penduduk Miskin (P0) dan Rata-rata Lama Sekolah (RLS) dari 29 Kabupaten/Kota yang
berada di Provinsi Papua. Dalam penelitian ini akan dilakukan pengelompokan
kabupaten/kota di Indonesia berdasarkan persentase penduduk miskin dan rata-rata lama
sekolah dengan menerapkan 2 metode clustering menggunakan algoritma machine learning
metode k-medoids clustering dan algomerative hierarchical clustering.

Langkah-langkah Analisis Data

Adapun langkah-langkah proses data mining yang dilakukan dalam penelitian ini adalah
sebagai berikut:
a. Langkah 1: Data Prepocessing
Pada peroses ini dilakukan pengecekan apakah terdapat missing value kemudian
pengecekan terhadap outlier menggunakan boxplot.
b. Langkah 2: Clustering
K-medoids (K-Med) Clustering
K-medoids merupakan suatu metode algoritma Clustering yang cukup efisien
digunakan untuk data set berukuran kecil. Metode K-medoids diawali dengan mencari
titik yang paling representatif (medoids) dalam data set dengan menghitung jarak dalam
kelompok dari semua kemungkinan kombinasi dari medoids sehingga dihasilkan jarak
antar titik dalam suatu Cluster kecil sedangkan untuk jarak antar Cluster besar. K-
medoids atau Partitioning Around Medoids (PAM) merupakan algoritma Clustering
yang mirip dengan K-Means. Dimana algoritma metode ini memiliki kelebihan dapat
mengatasi kelemahan dari K-means yang sensitive terhadap noise dan outlier. Kelebihan
lainnya yaitu hasil proses Clustering tidak bergantung pada urutan masuk dari dataset.
Metode K-medoids akan meminimalkan jumlah perbedaan antar titik data dalam Cluster
dan menetapkan satu titik data di setiap Cluster sebagai pusat medoids.
Adapun langkah-langkah yang digunakan dalam melakukan pengelompokan
menggunakan K-medoids sebagai berikut:
1. Menginisialisasi nilai k untuk menentukan banyaknya pusat Cluster. Penelitian
ini penulis menggunakan pengecekan nilai k optimum dengan melihat grafik
metode sillhoutte
2. Mengalokasikan setiap objek data ke dalam Cluster terdekat menggunakan
persamaan jarak Euclidian Distance dengan persamaan :
𝑛
𝑑(𝑥, 𝑦) = √∑ (𝑥𝑖 − 𝑦𝑖 )2
𝑖=1

3. Memilih secara acak objek yang berada pada masing-masing Cluster sebagai
kandidat medoid baru
4. Menghitung jarak setiap objek yang berada pada masing-masing Cluster dengan
kandidat medoid baru.
5. Menghitung total simpangan (S) dengan menghitung nilai total distance baru total
distance lama. Jika S < 0, maka tukar objek dengan data Cluster untuk
membentuk sekumpulan k objek baru sebagai medoid.
6. Mengulangi langkah 2 sampai 5 hingga tidak terjadi perubahan medoid, sehingga
didapatkan Cluster beserta anggota Cluster masing-masing.
Algglomerative Hierarchical Clustering
Analisis Clustering memiliki beberapa jenis berdasarkan tahapannya, satu di
antaranya adalah hierarchical Clustering, yaitu teknik Clustering yang dilakukan dengan
penggabungan berturut-turut atau pembagian yang berturut-turut. Hierarchical Clustering
yang melakukan penggabungan berturut-turut diawali dengan data-data tunggal
dinamakan dengan agglomerative hierarchical clustering. Untuk sebaliknya,
hierarchical clustering yang melakukan pembagian berturut-turut diawali dengan satu
kelompok besar data-data disebut dengan divisive hierarchical clustering. Agglomerative
hierarchical clustering diawali dengan banyak cluster sebanyak data dan diakhiri dengan
satu cluster yang memuat semua data, sedangkan divisive hierarchical clustering berlaku
sebaliknya.
Agglomerative memiliki beberapa metode yang sering dipakai diantaranya single
linkage, average linkage, colmpleate linkage. Pada proses tahapan agglomerative dibagi
menjadi beberapa tahapan, yaitu:
1. Hitung matriks jarak
Terdapat banyak jenis jarak, tapi jarak yang umum digunakan adalah
Euclidean.

𝑝
2
𝑑𝑖𝑗 = √∑(𝑥𝑖𝑘 − 𝑥𝑗𝑘 )
𝑘=1

Keterangan:

dij = jarak antara objek i dengan j

xij = nilai objek i pada variabel ke-k

xjk = nilai objek j pada variabel ke-k

p = banyanya variabel yang diobservasi

2. Gabung dua cluster yang berjarak terdekat

Jika jarak objek 1 dengan 2 memiliki nilai jarak minimal dibandingkan jarak antar
objek lainnya dalam matriks jarak Euclidean, maka gabungan dua cluster pada
tahap pertama adalah d12.

3. Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative


method
Jika setelah diperoleh jarak terdekat d12 dari matriks jarak Euclidean,
pembaruan matriks jarak dapat dilakukan dengan rumus beberapa metode
agglomerative berikut
- Single linkage
𝑑(12)3 = min⁡{𝑑1,3 ; 𝑑2,3 }
- Average linkage
𝑑(12)3 = average{𝑑1,3 ; 𝑑2,3 }
- Complete linkage
𝑑(12)3 = max⁡{𝑑1,3 ; 𝑑2,3 }
4. Ulangi langkah 2 dan 3 hingga tesisa 1 cluster
5. Buat dendogram
Dendogram berfungsi sebagai penjelasan bagaimana proses pembentukan
cluster yang ditunjukkan dengan gambar.

Gambar 1. Proses tahapan agglomerative

c. Langkah 3: Clustering Performance Calculation


Indeks Dunn
Indeks validitas Dunn (DN) menghitung nilai minimum dari perbandingan antara nilai
fungsi dissimilaritas antara dua klaster sebagai separation dan nilai maksimum dari
diameter klaster sebagai compactness. Jumlah klaster terbaik ditunjukkan dengan
semakin besar nilai DN. (Dunn, J.C., 1973)

HASIL DAN PEMBAHASAN

Preprocessing Data
Data yang digunakan dalam penelitian ini merupakan data kuantitatif terkait tingkat
kemiskinan serta rata-rata lama sekolah di kabupaten/kota di Provinsi Papua. Jumlah
kabupaten/kota yang ada adalah 29. Sebelum data dianalisis lebih lanjut, data terlebih dahulu
melalui tahap preprocessing. Pertama, variabel yang tidak diperlukan dalam analisis akan
dihilangkan. Dalam hal ini, variabel yang berisi nama kabupaten/kota yang bertipe fektor,
terlebih dahulu dihilangkan dari proses analisis. Selanjutnya, karena dua variabel yang
digunakan untuk clustering memiliki standard pengukuran yang berbeda maka sebelum
analisis lebih lanjut data perlu distandardisasi terlebih dahulu. Kemudian, data diperiksa
untuk melihat ada atau tidaknya missing value maupun outlier. Berdasarkan pengamatan
langsung, tidak terdapat missing value pada data yang akan dianalisis. Kemudian
pemeriksaan outlier menggunakan box plot juga menunjukkan data sudah terbebas dari
outlier. Gambar 2 menunjukkan box plot dari kedua variabel yang dianalisis. Pada dasanya,
meskipun terdapat outlier, metode clusterring yang akan digunakan pada penelitian ini sudah
dapat menangani adanya outlier.

Gambar 2. Box plot Variabel Tingkat Kemiskinan dan Rata-rata Lama Sekolah
K-medoids Clustering

Langkah pertama dalam analisis klaster menggunakan metode k-medoids adalah


menentukan jumlah klaster yang optimal. Dalam menentukan jumlah klaster yang optimal,
ada beberapa cara yang bisa digunakan antara lain metode silhouette dan metode elbow.
Penelitian Dewa (2019) menyatakan bahwa k-medoids clustering menggunakan koefisien
silhouette memberikan kualitas lebih baik daripada koefisien elbow. Merujuk pada penelitian
tersebut, penelitian ini juga menggunakan koefisien silhouette sebagai metode untuk
menentukan jumlah klaster yang optimal. Hasil grafik koefisien silhouette ditampilkan pada
gambar 2 berikut.

Gambar 3. Grafik koefisien Silhouette

Berdasarkan gambar 3, nilai klaster optimal yang diperoleh adalah 3. Sehingga dalam
analisis ini besar nilai k yang akan dibentuk adalah 2 dan 3 klaster yang diharapkan mampu
menghasilkan klaster sesuai karakteristik yang diberikan. Selanjutnya dilakukan proses
klastering menggunakan bantuan software Rstudio untuk masing-masing nilai k sehingga
diperoleh hasil klasterisasi seperti pada tabel 2 untuk k=2 dan tabel 3 untuk k=3.

Tabel 2. Hasil Klastering menggunakan metode K-medoids Clustering dengan nilai k=2
Nomor di
Kabupaten/Kota di Rata-rata Rata-rata
Klaster RLS P0 Plot
Papua RLS P0
Klaster
(1) (2) (3) (4) (5) (6) (7)
1 Asmat 6,31 25,49 12 8,63 25,18
1 Biak Numfor 9,46 24,57 6
1 Boven Digoel 10,17 19,41 10
1 Jayapura 5,51 12,44 3
1 Jayawijaya 8,72 37,22 2
1 Keerom 8,82 16,32 17
1 Kepulauan Yapen 10 26,3 5
1 Mamberamo Raya 8,81 28,38 20
1 Mappi 8,78 25,04 11
1 Merauke 6,69 10,03 1
1 Nabire 10,04 24,15 4
1 Paniai 10,33 36,71 7
1 Supiori 9,2 36,91 19
1 Waropen 8,01 29,54 18
2 Deiyai 2,84 41,76 28 3,51 31,05
2 Dogiyai 2,15 28,62 26
2 Intan Jaya 4,93 40,71 27
2 Kota Jayapura 3,01 11,16 29
2 Lanny Jaya 1,13 38,13 22
2 Mamberamo Tengah 3,2 36,41 23
2 Mimika 3,62 14,26 9
2 Nduga 5,66 36,72 21
2 Pegunungan Bintang 4,26 30,15 14
2 Puncak 2,79 36,96 25
2 Puncak Jaya 4,57 34,74 8
2 Sarmi 3,64 13,87 16
2 Tolikara 2,81 32,04 15
2 Yahukimo 4,94 37,34 13
2 Yalimo 3,15 32,82 24

Berdasarkan tabel 2, dapat diketahui bahwa klaster 1 merupakan klaster dengan rata-
rata lama sekolah rendah dengan presentase penduduk miskin rendah. Sedangkan klaster 2
berisi kabupaten/kota dengan rata-rata lama sekolah lebih tinggi dari klaster 1 dan presentase
penduduk miskin yang juga lebih tinggi. Terlihat bahwa klaster 1 terdiri dari 14
kabupaten/kota, sedangkan klaster 2 terdiri dari 15 kabupaten/kota. Selanjutnya, akan
ditampilkan visualisasi hasil aglomerative k-medoids clustering untuk k=2 seperti pada
gambar 4 berikut. Berdasarkan gambar 4, terlihat bahwa setiap klaster memiliki jarak yang
cukup jauh di antara satu sama lain. Hal ini mengindikasikan bahwa setiap klaster dapat
dibedakan secara jelas.
Gambar 4. Plot K-medoids Clustering dengan k=2

Tabel 3. Hasil Klastering menggunakan metode K-medoids Clustering dengan nilai k=3
Nomor di
Kabupaten/Kota di Rata-rata Rata-rata
Klaster RLS P0 Plot
Papua RLS P0
Klaster
(1) (2) (3) (4) (5) (6) (7)
1 Jayapura 5,51 12,44 3 4,49 12,35
1 Kota Jayapura 3,01 11,16 29
1 Merauke 6,69 10,03 1
1 Mimika 3,62 14,26 9
1 Sarmi 3,64 13,87 16
2 Asmat 6,31 25,49 12 9,05 27,50
2 Biak Numfor 9,46 24,57 6
2 Boven Digoel 10,17 19,41 10
2 Jayawijaya 8,72 37,22 2
2 Keerom 8,82 16,32 17
2 Kepulauan Yapen 10 26,3 5
2 Mamberamo Raya 8,81 28,38 20
2 Mappi 8,78 25,04 11
2 Nabire 10,04 24,15 4
2 Paniai 10,33 36,71 7
2 Supiori 9,2 36,91 19
2 Waropen 8,01 29,54 18
3 Deiyai 2,84 41,76 28 3,54 35,53
3 Dogiyai 2,15 28,62 26
3 Intan Jaya 4,93 40,71 27
3 Lanny Jaya 1,13 38,13 22
3 Mamberamo Tengah 3,2 36,41 23
3 Nduga 5,66 36,72 21
3 Pegunungan Bintang 4,26 30,15 14
3 Puncak 2,79 36,96 25
3 Puncak Jaya 4,57 34,74 8
3 Tolikara 2,81 32,04 15
3 Yahukimo 4,94 37,34 13
3 Yalimo 3,15 32,82 24
Berdasarkan tabel 3, dapat diketahui bahwa klaster 1 merupakan klaster dengan rata-
rata lama sekolah medium dengan presentase penduduk miskin rendah dibanding klaster
lainnya. Sedangkan klaster 2 berisi kabupaten/kota dengan rata-rata lama sekolah paling
tinggi dan presentase penduduk miskin yang medium dibanding klaster lainnya. Kemudian
klaster 3 merupakan klaster dengan rata-rata lama sekolah terendah dengan presentase
penduduk miskin tertinggi dibanding klaster lainnya. Terlihat bahwa klaster 1 terdiri dari 5
kabupaten/kota, klaster 2 terdiri dari 12 kabupaten/kota dan klaster 3 terdiri dari 12
kabupaten/kota. Selanjutnya, akan ditampilkan visualisasi hasil aglomerative k-medoids
clustering untuk k=3 seperti pada gambar 5 berikut. Berdasarkan gambar 4terlihat bahwa
setiap klaster memiliki jarak yang cukup jauh di antara satu sama lain. Hal ini
mengindikasikan bahwa setiap klaster dapat dibedakan secara jelas.
Gambar 5. Plot Agglomerative K-medoids Clustering dengan k=3

Agglomerative Hierarchical Clustering

Untuk mengetahui metode terbaik yang digunakan untuk agglomerative hierarchical


clustering, dilakukan perbandingan koefisien aglomerasi di antara metode average linkage,
single linkage, complete linkage, dan ward. Hasilnya disajikan pada Tabel 4 di bawah. Nilai
koefisien aglomerasi yang paling mendekati 1 adalah yang terbaik, nilai ini diraih oleh
metode ward. Oleh karena itu, agglomerative hierarchical clustering menggunakan metode
ward.

Tabel 4. Koefisien Aglomeratif


Metode
Average Single Complete Ward
Koefisien
0.9105517 0.6902794 0.9423298 0.9710868
Aglomerasi

Jumlah klaster yang optimal ditentukan dengan metode within sum of square (wss).
Banyak klaster yang dipilih didasarkan pada nilai total within sum of square terkecil yang
apabila jumlah klaster diperbanyak maka total within sum of square-nya tidak berubah lagi
secara signifikan. Evaluasi ini dilakukan berdasarkan Gambar 6 di bawah ini. Terlihat bahwa
setelah banyak klaster lebih dari 6, total within sum of square tidak menurun lagi secara
signifikan sehingga banyak klaster yang akan dibentuk adalah 6.

Gambar 6. Grafik Total Within Sum of Square


Setelah menetukan metode dan banyak klaster, dibentuk dendogram yang diperoleh.
Hasilnya terdapat pada Gambar 7 di bawah ini dan daftar kabupaten/kota tiap klaster terdapat
di Tabel 5. Berdasarkan hasil yang didapat, terdapat lima kabupaten/kota pada klaster 1, tiga
kabupaten/kota pada klaster 2, tujuh kabupaten/kota pada klaster 3, delapan kabupaten/kota
pada klaster 4, dua kabupaten/kota pada klaster 5, dan empat kabupaten/kota pada klaster 6.
Gambar 7. Dendogram
Berdasarkan Tabel 5, dapat dilihat beberapa karakteristik setiap klaster. Sebagai
contoh, rata-rata lama sekolah terkecil dimiliki oleh klaster 6, sedangkan yang terbesar
dimiliki oleh klaster 5. Persentase penduduk miskin atau P0 terkecil dimiliki oleh klaster 1
dan yang terbesar dimiliki oleh klaster 4.

Tabel 5. Hasil Agglomerative Hierarchical Clustering


Nomor di
Kabupaten/Kota di Rata-rata Rata-rata
Klaster RLS P0 Plot
Papua RLS P0
Klaster
(1) (2) (3) (4) (5) (6) (7)
1 Merauke 6,69 10,03 1
1 Jayapura 5,51 12,44 3
1 Mimika 3,62 14,26 9 4,49 12,35
1 Sarmi 3,64 13,87 16
1 Kota Jayapura 3,01 11,16 29
2 Jayawijaya 8,72 37,22 2
2 Paniai 10,33 36,71 7 9,42 36,95
2 Supiori 9,2 36,91 19
3 Nabire 10,04 24,15 4
3 Kepulauan Yapen 10 26,3 5
3 Biak Numfor 9,46 24,57 6
3 Mappi 8,78 25,04 11 8,77 26,21
3 Asmat 6,31 25,49 12
3 Waropen 8,01 29,54 18
3 Mamberamo Raya 8,81 28,38 20
4 Puncak Jaya 4,57 34,74 8 3,76 37,85
4 Yahukimo 4,94 37,34 13
4 Nduga 5,66 36,72 21
4 Lanny Jaya 1,13 38,13 22
4 Mamberamo Tengah 3,2 36,41 23
4 Puncak 2,79 36,96 25
4 Intan Jaya 4,93 40,71 27
4 Deiyai 2,84 41,76 28
5 Boven Digoel 10,17 19,41 10
9,50 17,87
5 Keerom 8,82 16,32 17
6 Pegunungan Bintang 4,26 30,15 14
6 Tolikara 2,81 32,04 15
3,09 30,91
6 Yalimo 3,15 32,82 24
6 Dogiyai 2,15 28,62 26

Visualisasi dari hasil agglomerative hierarchical clustering disajikan pada Gambar 8


di bawah ini. Terlihat bahwa setiap klaster memiliki jarak yang cukup jauh di antara satu
sama lain. Hal ini mengindikasikan bahwa setiap klaster dapat dibedakan secara jelas.

Gambar 8. Plot Agglomerative Hierarchical Clustering

Perbandingan K-medoids Clustering dan Hierarchical Clustering

Untuk mengetahui metode mana yang dapat memberikasn hasil klastering yang lebih
baik, maka digunakan ukuran indeks Dunn. Metode klastering yang dinilai lebih baik, akan
memiliki nilai indeks Dunn yang lebih besar. Hasil perhitungan indeks Dunn dari kedua
metode yang digunakan pada penelitian ini sebagai berikut.

Tabel 6. Hasil Perhitungan Indeks Dunn


Indeks Dunn
K-medoids Clustering Hierarchical Clustering
k=2 k=3 k=6
(1) (2) (3)
0.2064979 0.3907681 0.3302966

Berdasarkan tabel 6, diketahui bahwa indeks Dunn hierarchical clustering dengan


metode k-medoids k=3 memiliki nilai yang paling tinggi. Sehingga berdasarkan perhitungan
clustering performance menggunakan Indeks Dunn clustering terbaik menggunakan metode
k-medoids dengan jumlah kluster 3.

KESIMPULAN

Penelitian ini sukses menerapkan algoritma machine learning dalam pengelompokan


kemiskinan di kabupaten/kota Provinsi Paupua tahun 2020 dengan metode k-medoids
clustering dengan jumlah cluster (k) sama dengan 2 dan 3 serta hierarchical clustering
dengan jumlah cluster (k) sama dengan 6. Kemudian hasil dari proses clustering, dilakukan
perbandingan kualitas hasil clustering yang diperoleh, didapatkan bahwa bahwa algoritma
machine learning terbaik dalam penelitian ini adalah k-medoids clustering dengan jumlah
cluster (k) sama dengan 3.

Dari hasil penelitian ini, diharapkan dapat menjadi referensi bagi para pengambil
kebijakan dalam pelaksanaan program serta kebijakan kemiskinan yang efektif dan tepat
sasaran di kabupaten/kota Provinsi Papua. Untuk penelitian selanjutnya, diharapkan dapat
mengembangkan penelitian ini dengan menambah variabel-variabel dari dimensi kemiskinan
lainnya seperti persentase pengeluaran per kapita untuk makanan, angka partisipasi sekolah
penduduk miskin, dan penduduk miskin usia 15 tahun ke atas tidak bekerja, serta dapat
menerapkan pengelompokan dengan metode clustering yang lain.
DAFTAR PUSTAKA

Analisis Cluster untuk Pengelompokan Kabupaten Kota di Provinsi Jawa Tengah


berdasarkan Indikator Kesejahteraan Rakyat. (2014). Statistika, 56-63.
Dwilestari, G., Mulyawan, & Martanto: Ali, I. (2021). Analisis Clustering menggunakan K-
medoids pada Data Penduduk Miskin. Jurisma, 282-290.
Dunn, J. C. (1973-09-01). Well-Separated Clusters and Optimal Fuzzy Partitions. Journal of
Cybernetics (published 1974). 4 (1): 95–104
Johnson, R. A., & Wichern, D. W. (2002). Applied Multivariate Statistical Analysis. New
Jersey: Prentice Hall.
Saputra, D. A. (2020). Penerapan Algoritma Machine Learning untuk Pengelompokan
Kesejahteraan Sosial (Studi Kasus : Kawasan Timur Indonesia Tahun 2019).
Sigit, T. A. (2020). Pengaruh dana desa terhadap kemiskinan: studi tingkat kabupaten/kota di
Indonesia. ndonesian Treasury Review: Jurnal Perbendaharaan, Keuangan Negara
dan Kebijakan Publik, 5, 105-119.

Anda mungkin juga menyukai