Indri Wahyuningsih (22sa21a218)

Original Research
SAGE Open
January-March 2023: 1–15
KLASTERISASI PENDIDIKAN MASYARAKAT UNTUK © The Author(s) 2023
DOI: 10.1177/21582440231160439
MENGETAHUI PROVINSI DENGAN PENDIDIKAN journals.sagepub.com/home/sgo
TERENDAH MENGGUNAKAN ALGORITMA K-MEANS
Indri Wahyuningsih
Abstrak
Pendidikan adalah kebutuhan mendasar bagi tiap manusia yang berperan penting pada masa depan bangsa, karena
bangsa yang dikatakan maju dapat dilihat dari sistem pembelajarannya yang baik. Pendidikan yang berhasil diukur
dari ratanya jumlah lulusan berbagai jenjang pendidikan pada berbagai wilayah. Namun tidak semua Negara baik
dalam kualitas pendidikannya. Salah satunya yaitu Provinsi yang ada di indonesia. Diketahui bahwa pada tahun-
tahun sebelumnya Negara ini kurang dalam peningkatan pendidikannya, sehingga menyebabkan beberapa wilayah
yang masyarakatnya tidak sekolah atau putus sekolah. Permasalahannya banyak disebabkan karena faktor ekonomi,
rasa malas, kurangnya motivasi tentang pentingnya pendidikan, dan lain sebagainya.Pandemi covid-19 sebelumnya
juga menjadi alasan peningkatan jumlah anak putus sekolah yang dikarenakan perekonomian keluarga menurun.
Banyaknya Provinsi yang ada di Indonesia diperlukan pengelompokan jumlah provinsi yang ada. Pengelompokkan
bertujuan memudahkan pemerintah dalam memberikan perhatian khusus terhadap provinsi yang pendidikannya
dinilai kurang dan tujuan lainnya untuk mengetahui provinsi mana saja yang tingkat pendidikannya rendah. Dalam
pengelompokan, sistem yang diterapkan adalah data mining menggunakan metode Clustering algoritma K-Means
yang diperoses menggunakan software rapidminer. Adapun pengelompokkan yang terbentuk pada data tingkat
pendidikan sebanyak 38 record adalah 3 klaster yang dinyatakan provinsi dengan pendidikannya terendah terdapat
pada Cluster_1 dengan jumlah 3 Provinsi yaitu Jawa Barat, Jawa Tengah, dan Jawa Timur.
Kata Kunci : Clustering, Data Mining, K-Means, Pendidikan
Abstract
Education is a basic need for every human being which plays an important role in the future of the nation, because
a nation that is said to be advanced can be seen from its good learning system. Successful education is measured by
the average number of diplomas at various levels of education in various regions. However, not all countries are
good in terms of the quality of their education. One of them is the Province in Indonesia. It is known that in
previous years this country experienced a decline in education, resulting in several areas of society not attending
school or dropping out of school. Many of the problems are caused by economic factors, laziness, lack of
motivation about the importance of education, and so on. The previous Covid-19 pandemic was also the reason for
the increase in the number of children dropping out of school due to the decline in the family economy. The large
number of provinces in Indonesia requires grouping the number of existing provinces. The grouping aims to make
it easier for the government to pay special attention to provinces where education is considered lacking and another
aim is to find out which provinces have low levels of education. In grouping, the system applied is data mining
using the K-Means Clustering algorithm method which is carried out using Rapidminer software. The groupings
formed from the education level data of 38 records are 3 clusters which are stated to have the lowest educational
villages in Cluster_1 with a total of 3 provinces.
Keywords : Clusterization, Data Mining, K-Means, Education

Pendahuluan yang jumlah tingkat
Pertumbuhan Jumlah penduduk yang semakin
meningkat di suatu provinsi, terutama di Indonesia ,
tentu harus menjadi pusat perhatian tertinggi oleh
pemerintah. Karena di negara ini memiliki jumlah
penduduk paling tinggi diantara negara lainnya. Salah
satunya yang harus menjadi perhatian khusus adalah
masalah pendidikan.Pendidikan ini merupakan suatu
kebutuhan yang mendasar bagi tiap manusia dalam
kehidupan, dan yang terpenting pendidikan sangat
berperan terhadap masa depan bangsa atau negara
serta dalam sistem pendidikan yang dijalankan juga
dapatmengukur kemajuan negara itu
sendiri(Amirullah, 2019). Pendidikan yang dikatakan
berhasil dapat dilihat dari jumlah tingkat kelulusan
pendidikan yang dimulai dari SD sampai dengan
perguruan tinggi. Kualitas pendidikan di seluruh
wilayah tidak dapat disamaratakan, maka dari itu perlu
adanya perhatian di beberapa wilayah yang mungkin
pendidikannya masih tergolong rendah. Banyaknya
jumlah penduduk saat ini tentu menyulitkan
pemerintah dalam mempertimbangkan wilayah mana
saja yang menjadi fokus utama dalam pengembangan
pendidikan. Dengan mengelompokan suatu wilayah
berdasarkan tingkat pendidikan akan mempermudah
pemerintah untuk melihat daerah mana saja yang
harus benar-benar diperhatikan dalam penanganan
pendidikannya. Karena diketahui kondisi pendidikan
beberapa tahun terakhir di kabupaten kapuas kurang
dalam kemajuan dan peningkatannya. Dari
permasalahan yang ada, begitu sangat diperlukannya
proses pengelompokan untuk mempertimbangkan
provinsi mana saja yang menjadi titik fokus agar dapat
disalurkannya bantuan atau biaya
pendidikan.Pemerintah juga dapat mensosialisasikan
ke wilayah yang tingkat pendidikannya rendah untuk
memotivasi seluruh masyarakat dalam pentingnya
menempuh dunia Pendidikan. Oleh karena itu, penulis
mencoba menerapkan metode klasterisasi atau
mengelompokan jumlah data berdasarkan tingkat
pendidikan dari tingkat belum sekolah sampai
perguruan tinggi dengan menggunakan algoritmas K-
Means. Alasan peneliti menggunakan k-means karena
algoritma ini cukup mudah diimplementasikan dan
memiliki ketelitian yang cukup tinggi pada ukuran
objeknya, sehingga algoritma ini relatif lebih terukur
(Nurahman & Dwi Aulia, 2021). Dalam penelitian ini,
penulis melakukan pengelompokan pada seluruh
provinsi yang ada di Indonesia. Metode ini akan
mempermudah dalam proses pengelompokan data
pada tingkat pendidikan di setiap wilayah atau
provinsi untuk menganalisis provinsi mana saja yang
menjadi pertimbangan untuk mendapatkan bantuan
pendidikan. Pengolahan data pada penelitian ini
dikelompokan berdasarkan tingkat pendidikan, yaitu :
Tidak/belum sekolah, Belum tamat SD, Tamat SD,
SLTP, SLTA, D1 dan D2, D3, S1, S2, dan S3 data
yang diperoleh dari jumlah penduduk per desa di
kabupaten kapuas pada 30 Juni tahun 2022. Melalui
data ini peneliti akan mengelompokkan provinsi
pendidikannya tertinggi sampai paling rendah.
Penelitian oleh (Oktarian et al., 2020) Dengan judul
Klasterisasi Penentuan Minat Siswa dalam Pemilihan
Sekolah Menggunakan Metode Algoritma K-Means
Clustering. Dalam penelitian ini, pengelompokan
sekolah dilakukan menggunakan atribut jumlah
Rombel, Jumlah dari Peserta Didik, serta Jumlah
tenaga pendidik. Tujuan dari pengelompokannya
adalah untuk melihat minat tertinggi siswa dalam
menentukan sekolah. adapun hasil dari penelitian
yang terbentuk adalah 3 klaster. Penelitian yang
dilakukan sebelumnya mengenai k-means oleh (Sari
dkk., 2020) yang berjudul Penerapan algoritma K-
Means untuk Clustering data kemiskinan provinsi
Banten menggunakan rapidminer. Dalam penelitian
ini atribut yang digunakan untuk dikelompokkan
adalah Rata-rata lamanya sekolah, Rata-rata
pengeluaran per-kapita, dan Rata-rata penduduk yang
miskin dari kabupaten/kota di provinsi Banten.
Tujuan dari penelitian yang dilakukan adalah untuk
melihat tingkat kemiskinan terendah sampai
tertinggi. Adapun hasilnya yaitu : tingkat terendah
masuk pada Cluster(2), tingkat sedang masuk
Cluster(0), dan tingkat kemiskinan tertinggi masuk
pada Cluster(1). Penelitian sebelumnya mengenai
algoritma K-means juga dilakukan oleh Ragil
Kurniawan, M.Mukarobin, dan Mahradianur dengan
penelitiannya yang berjudul Klasterisasi tingkat
pendidikan di DKI Jakarta pada tingkat kecamatan
menggunakan algoritma K-Means. penelitian oleh
(Kurniawan dkk., 2021) menggunakan atribut
Kecamatan, SD, SMP, SMA, sampai Perguruan
Tinggi. Dalam penelitian ini bertujuan menghasilkan
data kelompok tertinggi dan terendah. Adapun
kelompok yang paling rendah masuk pada Cluster_1
dan pendidikan tertinggi masuk pada Cluster_2.
Beberapa penelitian terdahulu diatas terdapat
perbedaan dengan penelitian yang telah dilakukan
sekarang. Pada penelitian ini melakukan klasterisasi
berdasarkan tingkat pendidikan dengan atribut yang
digunakan antara lain desa/kelurahan, kemudian
jenjang pendidikan mulai dari tidak/belum sekolah,
SD, SMP, SMK dan perguruan tinggi lainnya.
Tinjauan Pustaka
2.1 Data Mining
Data mining adalah suatu alat bantu sebagai proses
penggalian data pada basis data yang berukuran besar
dalam spesifikasi tingkat kerumitannya. Pengertian
data mining juga suatu proses dengan Teknik statik,
(kecerdasan buatan) / AI, mathematics, dan juga
Machine learning untuk memproses maupun
identifikasi informasi data yang digunakan untuk
pengetahuan dari big data (Putra et al., 2022) .
2.2 Clustering
Clustering merupakan proses yang digunakan untuk
mengelompokkan data ke beberapa kelompok atau
klaster sehingga data yang ada dalam satu kelompok
memiliki kemiripan maksimal dan data antar klaster
memiliki kemiripan yang minimum. Analisis
clustering juga merupakan cara untuk
mengidentifikasi kelompok objek yang saling mirip
yang akan membantu dalam menemukan pola
penyebaran atau pola hubungan terhadap sekumpulan
data yang terbilang besar (Wanto dkk., 2021)
2.3 Algoritma K-Means

Algoritma K-Means merupakan salah satu metode
klaster non hirarki bertujuan membantu
mengelompokkan variabel untuk dimasukkan dalam
kelas-kelas yang letaknya dihasil akhir perhitungan.
K- means juga salah satu metode klastering yang
berusaha mempartisi data yang tersedia kedalam satu
bentuk atau lebih kelompok, sehingga data yang
karakteristik nya sama menjadi satu kelompok dalam
satu cluster yang sama. Kmeans yaitu algoritma
kalsifikasi dari algoritma clustering partisional yang
paling banyak digunakan dan paling sederhana. Gambar 1. Kerangka kerja
Algoritma ini mulai dari memisahkan ruang data
secara acak dan menunjukan sampel data yang ada ke 3.2 Isi Kerangka Kerja
dalam beberapa cluster berdasarkan kemiripannya 1. Identifikasi Masalah
sampel dan klaster, sampai sebuah data yang diuji Masalah yang diidentifikasi dalam penelitian ini
menjadi data konvergen. Syarat dari criterion yang adalah karena faktor ekonomi, rasa malas,
telah ditemukan yaitu saat tidak ada pemindahan kurangnya motivasi tentang pentingnya
sampel lagi dari satu klaster ke klaster lainnya yang pendidikan, dan lain sebagainya. Pandemi covid-
menyebabkan berkurangnya jumlah error yang 19 sebelumnya juga menjadi alasan peningkatan
dikuadratkan. Algoritma k-means populer digunakan jumlah anak putus sekolah yang dikarenakan
dikarenakan mudah mengimplementasikannya, dan perekonomian keluarga menurun. Dengan ini akan
memiliki kecepatan proses yang cukup baik (Wahyudi memudahkan pemerintah dalam memberikan
dkk., 2020). perhatian khusus terhadap provinsi yang
pendidikannya dinilai kurang dan tujuan lainnya
Metodologi Penelitian untuk mengetahui provinsi mana saja yang tingkat
3.1 Tahapan dalam penelitian Dalam memudahkan pendidikannya rendah.
penelitian tentu diperlukannya penentuan metodologi, 2. Pengumpulan Data
karena metodologi dapat memecahkan sebuah Data yang digunakan penulis dalam penelitian ini
masalah dan membantu mencapai tujuan yang adalah data yang isinya jumlah tingkat
diinginkan. Metodologi penelitian juga pendidikansetiap provinsi di Indonesia. Dataset
menggambarkan alur kerja dalam penelitian dari awal diperoleh dari website “Visualisasi Data
sampai selesai. Langkah penelitian yang dilakukan Kependudukan - GIS
mulai dari mengumpulkan data, penyeleksian data, DukcapilKemendagri”(https://gis.dukcapil.kemen
pengolahan atau memproses data, mengolah data dagri.go.id/arcgis/apps/sites/#/landing-page)
dengan Algoritma, dan terakhir pengujian hasil dengan jumlah data sebanyak 38 data berdasarkan
(Nurdiawan dan Pratama, 2019). Agar permasalahan Provinsi di Indonesia.
dapat diketahui dengan jelas, maka data harus 3. AnalisiS Data
dikumpulkan dan dianalisis terlebih dahulu hingga Tahap analisis data perlu dilakukan sebelum
mencari referensi terkait. Adapun gambar kerangka mengolah data yang diproses. Data yang telah di
kerja dalam penelitian yang dilakukan yaitu seperti peroleh di seleksi mengguanakan metode manual
pada Gambar 1. di ms. Excel, data yang diseleksi berupa data
atribut yang dipilih berdasarkan kepentingan pada
penelitian. Data yang pada awal nya memiliki
atribut sebanyak 11 atribut yaitu Provinsi,
Tidak/belum sekolah, Belum tamat SD, Tamat
SD, SLTP, SLTA, D1 dan D2, D3, S1, S2 dan
S3
menjadi hanya 10 atribut dengan pengurangan
pada atribut Provinsi.
4. Proses Implementasi dengan Rapid Miner. pemodelan yang dibentuk menjadi 8 cluster. Hasil
Data yang telah diseleksi sesuai dengan keperluan yang didapat dari pengelompokan data 3 cluster
penelitian kemudian diproses menggunakan metode adalah cluster 0, cluster1, cluster2, Hasil masing
cluster algoritma kmeans pada Rapid Miner. Adapun masing kelompok yang didapat dengan
nilai K yang digunakan adalah sebanyak 3 menggunakan software Rapidminer yaitu dilihat
klaster.Data diproses dengan menggunakan aplikasi pada gambar 3.
data mining rapid miner.
5. Pengambilan Kesimpulan
Penarikan kesimpulan dari hasil pengolahan data yang
dihitung dengan menggunakan aplikasi Rapid Miner.
Hasil dan Pembahasan

4.1 Hasil Seleksi atau Preprocessing Data
Tahap preprocessing atau seleksi dilakukan sebelum
dataset diproses menggunakan metode clustering.
Adapun data valid yang diproses memiliki 38 data
dengan 10 atribut. Data awal adalah 230 record
dengan 11 atribut. Dimana pada atribut kecamatan Gambar 3. Model Klasterisasi
dihilangkan dan penghapusan salah satu desa yang
diketahui merupakan data missing. Tabel 1 merupakan Gambar 4. merupakan tampilan dari seluruh data
dataset yang telah melalui tahap Pre-processing. Tingkat pendidikan yang sudah dilakukan tahap
proses klasterisasi menggunakan K-Means dengan
Nilai K=3 . Pada gambar dibawah juga dapat
dilihat jumlah Tidak/Belum Sekolah dan Belum
Tamat SD. Dimana cluster_2 pada kolom
Tidak/Belum Sekolah dan Belum Tamat SD
memiliki angka tertinggi dari cluster lainnya.
Tabel 1. Data Preprocess
4.1 Hasil Clustering

Pengolahan dan pengujian data diproses menggunakan
software Rapidminer. Data yang ada dikelompokan
dengan algoritma K-means. Pada perhitungan awal
algoritma K-means nilai K yang diberikan adalah 3
sehingga menghasilkan 3 Klaster pada proses
pembagian partisinya. Gambar 2. merupakan desain
alur proses perhitungan Dataset tingkat pendidikan
setiap Provinsi. Pada proses pengelompoka data
dengan menerapkan Rapidminer maka hasil data yang
diperoleh sebagai berikut :
Gambar 2. dibawah merupakan desain pemodelan
dataset dari jenjang tingkat pendidikan di setiap
provinsi dengan penerapan algoritma K-means.
Gambar 4. Hasil klasterisasi data
Gambar 4. Hasil klasterisasi data menggunakan

software Rapidminer pada nilai K=3. Pada gambar
5. menampilkan visualisasi dengan plot type =
Bar(Colum)yang bertujuan melihat daerah mana
saja yang masuk ke 3 kelompok masing-masing.
Gambar 2. Dessain Procecing Data Dengan peringkat pendidikan terendah sampai
tertinggi. Diketahui pada gambar 6 bahwa warna
Desain Processing Data Selanjutnya pada desain biru merupakan tingkat pendidikan tertinggi yang
terletak di cluster_2, sedangkan pendidikan terendah yang terdapat di cluster_2 yaitu Kabupaten Jawa
dengan tanda warna orange yang merupakan dari Barat, Jawa Tengah, dan Jawa Timur.
cluster_0.
Daftar Pustaka
Amirullah, I. (2019). Pemetaan Kelompok
Kerja Siswa Denan Metode CLlustering K- Means
Dan Algoritma Greedy. Jurnal Informatika Dan
Rekayasa Perangkat Lunak, 1(2), 94–98.
Butsianto, S., & Saepudin, N. (2020).
Penerapan Data Mining Terhadap Minat Siswa
Dalam Mata Pelajaran Matematika Dengan
Metode K-Means. Jurnal Nasional Komputasi Dan
Teknologi Informasi (JNKTI),3(1).
https://doi.org/10.32672/jnkti.v3i1.2008
Kurniawan, R., M. Mukarrobin, M. M., &
Mahradianur, M. (2021). Klasterisasi Tingkat
Gambar.5 Visualisasi Data Pendidikan Di Dki Jakarta Pada Tingkat
Kecamatan Menggunakan Algoritma K-Means.
Berikutnya adalah tampilan setiap provinsi yang Technologia: Jurnal Ilmiah, 12(4), 234.
terdiri 38 provinsi dengan tingkat pendidikan rendah. https://doi.org/10.31602/tji.v12i4.5633
Dapat dilihat bahwa daerah tersebut memiliki jumlah Nurahman, N., & Dwi Aulia, D. (2021).
anak terbanyak yang Tidak/Belum sekolah dan belum Algoritma K-Means Untuk Melihat Penularan
tamat SD. Hasil dapat dilihat pada Gambar 6. Tertinggi Virus Covid-19 Diseluruh Provinsi
Indonesia. Jurnal Ilmiah Betrik, 12(2), 162–168.
https://doi.org/10.36050/betrik.v12i2.331
Nurdiawan, O., & Pratama, F. A. (2019).
Implementasi Algoritma K-Means Dalam
Penentuan Prioritas Rehabilitasi Daerah Aliran
Sungai Cipunagara. InfoTekJar (Jurnal Nasional
Informatika Dan Teknologi Jaringan), 4(1).
https://doi.org/10.30743/infotekjar.v4i1.1633
Oktarian, S., Defit, S., & Sumijan. (2020).
Klasterisasi Penentuan Minat Siswa dalam
Pemilihan Sekolah Menggunakan Metode
Gambar 6. Cluster dengan Pendidikan Terendah
Algoritma K-Means Clustering. Jurnal Informasi
Dan Teknologi, 2.
Kesimpulan Putra, J. W. P., Suganda, E. A., & Intan
Berdasarkan dari hasil penelitian dan analisis Purnamasari3. (2022). Penerapan RapidMiner
perhitungan yang dilakukan pada pembahasan dengan Metode K-Means dalam Penentuan
sebelumnya dengan menerapkan data mining Kluster Ganguan Jaringan WIFI Provider PT .
menggunakan metode klasterisasi Algoritma K-Means XYZ diDaerah Karawang. Jurnal Informatika Dan
terhadap tingkat pendidikan di setiap Provinsi di Rekayasa Perangkat Lunak, 4(1), 31–35.
Indonesia, maka dapat diambil kesimpulan bahwa Sari, Y. R., Sudewa, A., Lestari, D. A., &
dengan menggunakan metode klasterisasi dalam Jaya,T. I. (2020). Penerapan Algoritma KMeans
menerapkan algoritma K-Means, maka tingkat Untuk Clustering Data Kemiskinan Provinsi
pendidikan diseluruh Provinsi dikelompokkan menjadi Banten Menggunakan Rapidminer. CESS (Journal
3 klaster. Dari 3= kelompok diketahui klaster yang of Computer Engineering, System and Science),
memiliki pendidikan tertinggi dan rendah, yaitu pada 5(2), 192.
Cluster_1 = 3 dengan Kategori Pendidikan terendah, https://doi.org/10.24114/cess.v5i2.18519
sedangkan Cluster_2 = 26 provinsi merupakan Wahyudi, M., Masitha, Saragih, R., &
kategori pendidikan tertinggi. Setelah melalui Proses Solikhun. (2020). Data Mining: Penerapan
pengelompokan, maka dapat dilihat daerah mana saja Algoritma K-Means Clustering dan K-Medoids
yang harus menjadi perhatian pemerintah. Daerah Clustering Oleh Mochamad Wahyudi, Masi.
yang harus jadi perhatian lebih terdapat pada cluster Wanto, A., Hasan Siregar, M. N., & Dkk.
yang ada dalam kategori pendidikan terendah yaitu (2021). Data Mining : Algoritma dan
provinsi Implementasi
- Google Books. In Yayasan
Kita Menulis (pp. 37-42 (2022)).
https://www.google.co.id/books/edition/D
ata_Mining_Algoritma_dan_Implementasi/gAnfD
wAAQBAJ?hl=id&gbpv=1&dq=Data+Mining+:+
Algoritma+dan+Implementasi&printsec=frontcov e

Indri Wahyuningsih (22sa21a218)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Indri Wahyuningsih (22sa21a218)

Diunggah oleh

Hak Cipta:

Format Tersedia

Original Research

TERENDAH MENGGUNAKAN ALGORITMA K-MEANS

Kata Kunci : Clustering, Data Mining, K-Means, Pendidikan

Keywords : Clusterization, Data Mining, K-Means, Education

2.3 Algoritma K-Means

Hasil dan Pembahasan

Tabel 1. Data Preprocess

4.1 Hasil Clustering

Gambar 4. Hasil klasterisasi data

Gambar 4. Hasil klasterisasi data menggunakan

Anda mungkin juga menyukai