Artikel Tugas Akhir Analitika Data I++ - Kelompok 11

BJAS Vol. 01, No.
1, December 2021: 001-009
PENERAPAN ALGORITMA K-MEANS CLUSTERING UNTUK

MENENTUKAN PERSEBARAN TINGKAT PENGANGGURAN DARI
SETIAP PROVINSI DI INDONESIA PADA TAHUN 2020
Muhammad Rafael1*, Sheren Wijaya2, Salma Mawarni3, Izdhihar Willa4
1
Program studi Ilmu Aktuaria, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Brawijaya
2
3
4
Abstract Kata Kunci:

This study aims to determine the distribution of the unemployment K-Means; Clustering; Tingkat
rate in the provincial level of Indonesia in 2020 based on K-Means pengangguran.
clustering algorithm. The indicators used in this study are human
Penulis Koresponden :
development index growth rate (IPM), unemployment rate (TPT), Muhammad Rafael
and regional minimum wage (UMR). The result of this study using Program studi Ilmu Aktuaria,
K-Means clustering analysis showed that of 34 provinces in Universitas Brawijaya, Indonesia
Indonesia are divided into 3 clusters, namely high, medium, and Email:
low unemployment rate. Research with IPM, UMR, and TPT rafaelandkp@student.ub.ac.id
indicators resulted in cluster 1 with 9 members, cluster 2 with 5
members, and cluster 3 with 20 members. Research with UMR and
TPT indicators resulted in cluster 1 with 24 members, cluster 2 with
5 members, and cluster 3 with 5 members. Research with IPM and
UMR indicators resulted in cluster 1 with 14 members, cluster 2
with 16 members, and cluster 3 with 4 members. Research with
IPM and TPT indicators resulted in cluster 1 with 9 members,
cluster 2 with 20 members, and cluster 3 with 5 members.
This is an open access article under the CC BY-NC license
PENDAHULUAN mencukupi dan kesenjangan tenaga kerja. oleh

Pengangguran merupakan suatu hal yang tidak karena itu, dengan tingginya suatu
asing terdengar oleh masyarakat khususnya di pengangguran di suatu negara akan berdampak
Indonesia. Menurut Sadono Sukirno (1994), pada tingkat kemiskinan yang terjadi, maka perlu
pengangguran adalah suatu keadaan dimana dilakukan penelitian secara mendalam pada tiap
seseorang yang tergolong dalam angkatan kerja indikatornya yang mempengaruhi tingkat
ingin mendapatkan pekerjaan tetapi belum dapat pengangguran. dalam melakukan penelitian ini
memperolehnya. Indonesia merupakan negara bisa menggunakan salah satu metode yaitu
berkembang yang tercatat menurut Badan Pusat pengelompokkan.
Statistik (BPS) pada Agustus 2021 sebesar 6,49 Metode pengelompokkan yang digunakan pada
persen masuk pada Tingkat Pengangguran penelitian ini yaitu Clustering Analysis. Clustering
Terbuka (TPT). meskipun pada tahun 2015 Analysis merupakan salah satu metode
hingga 2019 mengalami penurunan, namun multivariat yang mempunyai tujuan untuk
tingkat pengangguran di Indonesia termasuk mengelompokkan tingkat pengangguran yang
pada kategori tinggi. Hal tersebut terjadi kian tersebar dari setiap provinsi di Indonesia pada
tahun semakin tinggi karena munculnya banyak tahun 2020. Lalu diimplementasikan algoritma
faktor yang mendukung, seperti tidak imbangnya Clustering K-Means yang merupakan salah satu
angkatan kerja dan kesempatan kerja terbatas algoritma dengan tingkat ketelitian yang cukup
yang dipengaruhi oleh perekonomian yang tidak tinggi terhadap ukuran objek sehingga lebih
M. Rafael, dkk. 1
BJAS Vol. 01, No. 1, December 2021: 001 - 009
terukur dan efisien jika mengukur suatu objek 3. Menghitung jarak setiap data input
dalam jumlah yang besar. Metode Clustering K- terhadap masing–masing centroid dengan
Means merupakan salah satu metode data menggunakan rumus jarak Euclidean.
clustering non hirarki yang memiliki karakteristik
yang sama dan data yang mempunyai
karakteristik yang berbeda.
Mengacu pada uraian di atas, maka penelitian ini
menggunakan Tingkat Pengangguran Terbuka Keterangan:
(TPT), Upah Minimum Regional (UMR), dan K = Jumlah cluster
Indeks Pembangunan Manusia (IPM) sebagai X ij = Variabel ke-i dan dimensi ke-j
indikator utama dalam pengelompokkan C ij = Centroid ke-i dan dimensi ke-j
berdasarkan umur panjang dan sehat, i = Indeks jumlah data
pengetahuan, dan kehidupan yang layak, dan j = Indeks jumlah variabel
jumlah tenaga kerja. Hasil analisis yang diperoleh l = Indeks jumlah centroid
dapat dijadikan gambaran dalam menangani 4. Mengelompokkan setiap data
masalah pengangguran yang ada pada setiap berdasarkan kedekatannya dengan centroid atau
provinsi di Indonesia tahun 2020. mencari jarak terkecil.
5. Menghitung nilai centroid baru dari
METODOLOGI masing-masing cluster.
Pengumpulan Data
Penelitian ini menggunakan tiga macam data
yakni laju pertumbuhan indeks pembangunan
manusia (IPM), upah minimum regional (UMR),
dan tingkat pengangguran terbuka (TPT) pada Keterangan:
tahun 2020 dari 34 provinsi di Indonesia. nlj = Jumlah data dalam cluster l.
Datanya bersumber dari website resmi Badan 6. Ulangi langkah ke 3 sampai 5 hingga
Pusat Statistik Indonesia yakni www.bps.go.id. anggota tiap cluster tidak ada yang berubah.
Provinsi akan dikelompokkan berdasarkan ketiga Jumlah cluster dalam penelitian ini adalah 3
indikator tersebut. cluster. cluster pertama berupa tingkat
pengangguran rendah, cluster kedua berupa
Clustering tingkat pengangguran sedang, dan cluster ketiga
Penelitian ini menggunakan algoritma K-Means berupa tingkat pengangguran tinggi. Berikut
untuk clustering. K-Means adalah salah satu diagram alir penelitian ini.
metode dalam data mining yang dapat
mengelompokkan data kedalam bentuk cluster
sehingga data yang memiliki karakteristik yang
sama dikelompokkan ke dalam satu cluster yang
sama dan data dengan karakteristik yang
berbeda dikelompokkan ke dalam kelompok
berbeda lainnya. Algoritma K-Means merupakan
algoritma pengelompokan iteratif yang
melakukan partisi set data ke dalam sejumlah K
cluster yang sudah ditetapkan di awal [1] [2].
Berikut beberapa langkah-langkah dalam
pengelompokkan dengan metode algoritma K-
Means:
1. Menginput data-data yang diperlukan
(IPM, UMR, TPT)
2. Melakukan inisialisasi dengan
menentukan jumlah cluster (metode elbow) dan
centroid. Metode Elbow merupakan suatu
metode yang digunakan untuk menentukan
jumlah cluster terbaik dengan cara melihat
persentase hasil perbandingan antara jumlah
cluster yang akan membentuk siku pada suatu
titik [3].
2 M. Rafael, dkk.
tingkat IPM sebesar 80.77%. Di lain sisi, Provinsi
Papua menduduki peringkat terendah dengan
tingkat IPM sebesar 60.44%. IPM ditentukan
berdasarkan pendekatan dari tiga dimensi dasar,
yaitu umur panjang dan sehat, pengetahuan, dan
kehidupan yang layak. Semakin tinggi tingkat
IPM suatu daerah, menunjukkan bahwa
pencapaian pembangunan manusia daerah
tersebut semakin baik.
Gambar 3 UMR Tingkat Provinsi di Indonesia

Tahun 2020 (Juta Rupiah)
Berdasarkan gambar di atas, didapatkan bahwa

Provinsi DKI Jakarta merupakan provinsi dengan
Upah Minimum Regional (UMR) tertinggi
dibandingkan dengan provinsi lainnya, dengan
tingkat UMR sebesar 4.28%. Di lain sisi, Daerah
Gambar 1 Diagram alir algoritma K-Means Istimewa Yogyakarta menduduki peringkat
clustering terendah dengan tingkat UMR sebesar 1.70%.
HASIL DAN PEMBAHASAN
Gambar 4 TPT Tingkat Provinsi di Indonesia

Tahun 2020 (%)
Berdasarkan gambar di atas, didapatkan bahwa

Gambar 2 IPM Tingkat Provinsi di Indonesia Provinsi DKI Jakarta merupakan provinsi dengan
Tahun 2020 (%) Tingkat Pengangguran Terbuka (TPT) tertinggi
Berdasarkan gambar 2, didapatkan bahwa TPT sebesar 10.95%. Di lain sisi, Provinsi
Provinsi DKI Jakarta merupakan provinsi dengan Sulawesi Barat menduduki peringkat terendah
Indeks Pembangunan Manusia (IPM) tertinggi dengan TPT sebesar 3.32%. Tingginya nilai TPT
M. Rafael, dkk. 3
disebabkan oleh banyaknya jumlah tenaga kerja Jambi 3

yang tidak mampu mendapatkan pekerjaan
dikarenakan rendahnya lapangan pekerjaan. Sumatera Selatan 3
Bengkulu 3
IPM vs UMR vs TPT Lampung 3
Berdasarkan dataset, akan diteliti ketiga macam
data yakni IPM, UMR, TPT. Data divisualisasikan Kep. Bangka Belitung 3
melalui scatter plot seperti yang ditunjukkan pada Kep. Riau 2
Gambar 5. DKI Jakarta 2
Jawa Barat 3
Jawa Tengah 3
DI Yogyakarta 2
Jawa Timur 3
Banten 3
Bali 2
Nusa Tenggara Barat 1
Nusa Tenggara Timur 1
Kalimantan Barat 1
Kalimantan Tengah 3
Gambar 5 Scatter plot IPM vs UMR Kalimantan Selatan 3
Selanjutnya, menentukan nilai k atau jumlah
cluster yang dilakukan dengan metode Elbow Kalimantan Timur 2
seperti Gambar 6. Kalimantan Utara 3
Sulawesi Utara 3
Sulawesi Tengah 1
Sulawesi Selatan 3
Sulawesi Tenggara 3
Gorontalo 1
Sulawesi Barat 1
Maluku 3
Maluku Utara 1
Papua Barat 1
Papua 1
Gambar 6 Penentuan nilai k dengan metode Tabel 1 Hasil Pengelompokkan K-means
Elbow Clustering
Dari hasil grafik metode Elbow, dapat Berikut hasil visualisasinya menggunakan scatter
disimpulkan bahwa nilai k yang efektif adalah 3. plot.
Berikut hasil clustering yang diperoleh dengan
metode K-Means.
Provinsi Cluster
Aceh 3
Sumatera Utara 3
Sumatera Barat 3
Riau 3
4 M. Rafael, dkk.
Gambar 7 Scatter Plot cluster Persebaran Gambar 9 Penentuan nilai k dengan metode
Tingkat Pengangguran IPM vs UMR Elbow
Dari tabel 1 dan gambar 7 dihasilkan persebaran Dari hasil grafik metode Elbow, dapat
tingkat pengangguran dalam tiga cluster. cluster disimpulkan bahwa nilai k yang efektif adalah 3.
1 memiliki 9 anggota, yaitu Nusa Tenggara Barat, Berikut hasil clustering yang diperoleh dengan
Nusa Tenggara Timur, Kalimantan Barat, metode K-Means.
Sulawesi Tengah, Gorontalo, Sulawesi Barat,
Maluku Utara, Papua Barat, dan Papua yang
merupakan anggota dari kelompok daerah
dengan tingkat pengangguran rendah. cluster 2 Provinsi Cluster
merupakan kelompok daerah dengan tingkat
pengangguran sedang yang terdiri atas 5 Aceh 1
anggota, yaitu Kep. Riau, DKI Jakarta, DI
Yogyakarta, Bali, dan Kalimantan Timur. cluster Sumatera Utara 1
terakhir, yaitu cluster 3, terdiri atas 20 anggota Sumatera Barat 1
yang termasuk ke dalam kelompok daerah Riau 1
dengan tingkat pengangguran tinggi.
Jambi 1
IPM vs UMR Sumatera Selatan 1
Berdasarkan dataset, akan diteliti 2 macam data Bengkulu 1
yakni IPM dan UMR. Data divisualisasikan
melalui scatter plot seperti yang ditunjukkan pada Lampung 1
Gambar 8. Kep. Bangka Belitung 1
Kep. Riau 2
DKI Jakarta 2
Jawa Barat 1
Jawa Tengah 1
DI Yogyakarta 2
Jawa Timur 1
Banten 1
Bali 2
Nusa Tenggara Barat 1
Nusa Tenggara Timur 3
Gambar 8 Scatter plot IPM vs UMR Kalimantan Barat 3
Kalimantan Tengah 1
cluster yang dilakukan dengan metode Elbow Kalimantan Selatan 1
seperti Gambar 9. Kalimantan Timur 2
Kalimantan Utara 1
M. Rafael, dkk. 5
Sulawesi Utara 1
Sulawesi Tengah 1
Sulawesi Selatan 1
Sulawesi Tenggara 1
Gorontalo 1
Sulawesi Barat 3
Maluku 1
Maluku Utara 1
Papua Barat 3
Papua 3
Tabel 2 Hasil Pengelompokkan K-means
Gambar 11 Scatter plot UMR vs TPT
Clustering
Berikut hasil visualisasinya menggunakan scatter
cluster yang dilakukan dengan metode Elbow
plot.
seperti Gambar 12.
Gambar 10 Scatter Plot cluster Persebaran Gambar 12 Penentuan nilai k dengan metode
Tingkat Pengangguran IPM vs UMR Elbow
Dari hasil grafik metode Elbow, dapat
Dari tabel 2 dan gambar 10 dihasilkan disimpulkan bahwa nilai k yang efektif adalah 3.
persebaran tingkat pengangguran dalam tiga Berikut hasil clustering yang diperoleh dengan
cluster. cluster 1 memiliki 24 anggota yang metode K-Means.
termasuk sebagai kelompok daerah dengan
tingkat pengangguran rendah. cluster 2
pengangguran sedang yang terdiri atas 5 Provinsi Cluster
anggota, yaitu Kep. Riau, DKI Jakarta, DI
Yogyakarta, Bali, dan Kalimantan Timur. cluster
terakhir, yaitu cluster 3, merupakan kelompok Aceh 1
daerah dengan tingkat pengangguran tinggi yang Sumatera Utara 1
terdiri atas 5 anggota, yaitu Nusa Tenggara Sumatera Barat 1
Timur, Kalimantan Barat, Sulawesi Barat, Papua
Barat, dan Papua Riau 1
Jambi 2
UMR vs TPT
Sumatera Selatan 1
Berdasarkan dataset, selanjutnya akan diteliti 2
macam data yakni UMR dan TPT. Data Bengkulu 2
divisualisasikan melalui scatter plot seperti yang Lampung 2
ditunjukkan pada Gambar 11.
Kep. Bangka Belitung 2
Kep. Riau 3
6 M. Rafael, dkk.
DKI Jakarta 3 tingkat pengangguran rendah. cluster 2
Jawa Barat 3 pengangguran sedang yang terdiri atas 16
Jawa Tengah 1 anggota. cluster terakhir, yaitu cluster 3,
DI Yogyakarta 2 merupakan kelompok daerah dengan tingkat
pengangguran tinggi yang terdiri atas 4 anggota,
Jawa Timur 1 yaitu Kep. Riau, DKI Jakarta, Jawa Barat, dan
Banten 3 Banten.
Bali 1
IPM vs TPT
Nusa Tenggara Barat 2 Berdasarkan dataset, akan diteliti 2 macam data
Nusa Tenggara Timur 2 yakni IPM dan TPT. Data divisualisasikan melalui
Kalimantan Barat 1 scatter plot seperti yang ditunjukkan pada
Gambar 14.
Kalimantan Tengah 2
Kalimantan Selatan 2
Kalimantan Timur 1
Kalimantan Utara 2
Sulawesi Utara 1
Sulawesi Tengah 2
Sulawesi Selatan 1
Sulawesi Tenggara 2
Gorontalo 2
Sulawesi Barat 2
Maluku 1
Gambar 14 Scatter plot UMR vs TPT
Maluku Utara 2
Papua Barat 1 Selanjutnya, menentukan nilai k atau jumlah
Papua 2 cluster yang dilakukan dengan metode Elbow
Tabel 3 Hasil Pengelompokkan K-means seperti Gambar 15.
Clustering
Berikut hasil visualisasinya menggunakan scatter

plot.
Gambar 15 Penentuan nilai k dengan metode

Elbow
Dari hasil grafik metode Elbow, dapat

disimpulkan bahwa nilai k yang efektif adalah 3.
Gambar 13 Scatter Plot cluster Persebaran
Berikut hasil clustering yang diperoleh dengan
Tingkat Pengangguran UMR vs TPT
metode K-Means.
Dari tabel 3 dan gambar 13 dihasilkan
persebaran tingkat pengangguran dalam tiga
cluster. cluster 1 memiliki 14 anggota yang
M. Rafael, dkk. 7
Provinsi Cluster
Aceh 2
Sumatera Utara 2
Sumatera Barat 2
Riau 2
Jambi 2
Sumatera Selatan 2
Bengkulu 2
Lampung 2
Kep. Bangka Belitung 2
Kep. Riau 3 Gambar 16 Scatter Plot cluster Persebaran
DKI Jakarta 3 Tingkat Pengangguran IPM vs TPT
Jawa Barat 2 Dari tabel 4 dan gambar 16 dihasilkan
Jawa Tengah 2 persebaran tingkat pengangguran dalam tiga
DI Yogyakarta 3 cluster. cluster 1 memiliki 9 anggota yang
Jawa Timur 2 tingkat pengangguran rendah, yaitu Nusa
Banten 2 Tenggara Barat, Nusa Tenggara Timur,
Bali 3 Kalimantan Barat, Sulawesi Tengah, Gorontalo,
Sulawesi Barat, Maluku Utara, Papua Barat, dan
Nusa Tenggara Barat 1 Papua. cluster 2 merupakan kelompok daerah
Nusa Tenggara Timur 1 dengan tingkat pengangguran sedang yang
Kalimantan Barat 1 terdiri atas 20 anggota. cluster terakhir, yaitu
cluster 3, merupakan kelompok daerah dengan
Kalimantan Tengah 2 tingkat pengangguran tinggi yang terdiri atas 5
Kalimantan Selatan 2 anggota, yaitu Kep. Riau, DKI Jakarta, DI
Kalimantan Timur 3 Yogyakarta, Bali, dan Kalimantan Timur.
Kalimantan Utara 2 KESIMPULAN
Sulawesi Utara 2 Berdasarkan hasil penelitian dan pembahasan
Sulawesi Tengah 1 yang telah dijelaskan pada bab sebelumnya,
dengan empat jenis penelitian yang
Sulawesi Selatan 2 menggunakan indikator berbeda, persebaran
Sulawesi Tenggara 2 tingkat pengangguran di 34 provinsi Indonesia
Gorontalo 1 dapat dikelompokkan menjadi tiga jenis cluster.
cluster 1 terdiri atas provinsi dengan tingkat
Sulawesi Barat 1 pengangguran rendah, cluster 2 dengan tingkat
Maluku 2 pengangguran sedang, dan cluster 3 dengan
Maluku Utara 1 tingkat pengangguran tinggi.
Penelitian dengan indikator IPM, UMR, dan TPT
Papua Barat 1 menghasilkan tiga kelompok, yaitu cluster 1
Papua 1 dengan 9 anggota, cluster 2 dengan 5 anggota,
Tabel 4 Hasil Pengelompokkan K-means dan cluster 3 dengan 20 anggota. Penelitian
Clustering dengan indikator UMR dan TPT menghasilkan
cluster 1 dengan 24 anggota, cluster 2 dengan 5
Berikut hasil visualisasinya menggunakan scatter anggota, dan cluster 3 dengan 5 anggota.
plot. Penelitian dengan indikator IPM dan UMR
menghasilkan cluster 1 dengan 14 anggota,
cluster 2 dengan 16 anggota, dan cluster 3
dengan 4 anggota. Dan penelitian terakhir, yaitu
penelitian dengan indikator IPM dan TPT
menghasilkan cluster 1 dengan 9 anggota,
cluster 2 dengan 20 anggota, dan cluster 3
8 M. Rafael, dkk.
dengan 5 anggota. Dengan empat jenis
penelitian ini, didapatkan hasil yang berbeda-
beda untuk masing-masing anggota cluster. Hal
ini disebabkan oleh perbedaan indikator penentu
dalam menentukan cluster tersebut.
UCAPAN TERIMAKASIH
Kami mengucapkan banyak terimakasih kepada
Bapak Syaiful Anam, S.Si., M.T., Ph.D. selaku
dosen pengampu mata kuliah Analitika Data I++
yang telah membimbing kami dalam proyek ini.
Kami mengucapkan terimakasih kepada teman-
teman kelompok 11 yang telah bersedia
menyelesaikan proyek ini secara aktif. Tak lupa
pula, kami ucapkan terimakasih kepada
mahasiswa Program studi Ilmu Aktuaria,
Universitas Brawijaya yang telah turut serta
dalam memberikan dukungan dalam pengerjaan
proyek ini.
DAFTAR PUSTAKA
[1] M. Kantardzic, J. Wiley and Sons, Data
Mining: Concepts, Models, Methods, and
Algorithms, 2003.
[2] B. M. Metisen and H. L. Sari, “Analisis
Clustering Menggunakan Metode K-Means
Dalam Pengelompokkan Penjualan Produk Pada
Swalayan Fadhila,” vol. 11, no. 2, pp. 110–118,
2015.
[3] N. P. E. Merliana, Ernawati dan A. J.
Santoso, “Analisa Penentuan Jumlah Cluster
Terbaik pada Metode K-Means,” UNISBANK ,
2015.
M. Rafael, dkk. 9

Artikel Tugas Akhir Analitika Data I++ - Kelompok 11

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Artikel Tugas Akhir Analitika Data I++ - Kelompok 11

Diunggah oleh

Hak Cipta:

Format Tersedia

BJAS Vol. 01, No.

1, December 2021: 001-009

PENERAPAN ALGORITMA K-MEANS CLUSTERING UNTUK

Abstract Kata Kunci:

This is an open access article under the CC BY-NC license

PENDAHULUAN mencukupi dan kesenjangan tenaga kerja. oleh

Gambar 3 UMR Tingkat Provinsi di Indonesia

Berdasarkan gambar di atas, didapatkan bahwa

HASIL DAN PEMBAHASAN

Gambar 4 TPT Tingkat Provinsi di Indonesia

Berdasarkan gambar di atas, didapatkan bahwa

disebabkan oleh banyaknya jumlah tenaga kerja Jambi 3

Berikut hasil visualisasinya menggunakan scatter

Gambar 15 Penentuan nilai k dengan metode

Dari hasil grafik metode Elbow, dapat

Anda mungkin juga menyukai