Abstract— Buta huruf merupakan keadaan dimana seseorang tidak mampu untuk membaca dan menulis baik itu untuk komunikasi
dan menyampaikan pendapat dalam kehidupan bermasyarakat. Buta huruf menjadi masalah yang hampir ada di seluruh negara , di
Indonesia juga masih terdapat daerah yang memiliki penduduk buta huruf tercatat oleh Badan Pusat Statistik Indonesia masih
terdapat 3.7 juta penduduk yang mengalami buta huruf pada tahun 2017. Salah satu cara mengatasi buta huruf adalah dengan
memetakan penduduk berdasarkan tingkat buta huruf sehingga dapat di prioritaskan daerah dengan tingkat buta huruf tinggi. Karena
data penduduk buta huruf masih belum memiliki kelas maka diperlukan pengelompokkan kelas terlebih dahulu sehingga dibutuhkan
metode clustering sehingga tiap daerah dapat dilabelkan berdasarkan kelas buta hurufnya. Pada penelitian ini bertujuan untuk
mencari jumlah kelas optimal pada proses clustering tingkat buta huruf , dimana digunakan algoritma k-means clustering untuk
pengelompokkan kelasnya dan diterapkan sebanyak 4 skenario berbeda dengan k=2,k=3,k=5 dan k=7. Sebelum dilakukan clustering
maka akan dilakukan preprocessing meliputi pengumpulan data, selection atribut, integrasi data, uji multikolinieritas, normalisasi
data, dan deteksi outlier. Setelah preprocessing maka data akan langsung diolah menggunakan algoritma k-means clustering dan
kemudian akan divalidasi menggunakan silhouette coefficient(sc) .Sehingga menghasilkan nilai sc pada tiap-tiap nilai k sebagai berikut
, k=2 menghasilkan sc 0.24, k=3 0.29, k=5 0.25 dan k=7 0.24 sehingga dapat disimpulkan jumlah kelas paling optimal adalah k=3.
B. Pre-processing
Pre-processingi data pada penelitian ini meliputi
Finish
pengumpulan data, data selection, data integration, uji
multikolinieritas ,dan deteksi outlier. Gambar. 2 Sequences line of research
1) Pengumpulan data: Pengumpulan data dilakukan untuk Pada Gambar 2 dijelaskan tahapan-tahapan proses
menemukan data yang memiliki hubungan dengan faktor dan clustering menggunakan metode K-means dimana pada
pengaruh terhadap objek penelitian yaitu buta huruf . Untuk langkah pertama adalah menyiapkan dataset yang digunakan.
Kemudian menentukan nilai k yang akan dimasukkan dimana Persentase penduduk miskin sebagai F3 , Jumlah penduduk
menjadi acuan berapa jumlah kel;as yang dibuat. Setelah itu tidak lulus SD sebagai F4 , Angka melek huruf sebagai F5,
hasilnya akan disimpan untuk proses validasi , langkah Lama sekolah sebagai F6 , Penduduk tidak bisa baca tulis
tersebut diulangi sampai 3 kali sehingga menghasilkan cluster sebagai F7 . Hasil dari seleksi atribut dan integrasi data sertya
k=2 ,kemudian k=3 dan k=5 . uji multikolinieritas data dapat dilihat pada Tabel 2.
D. Validasi Hasil Evaluasi TABEL II
Ada beberapa langkah yang memerlukan validasi untuk 5 DARI 462 SAMPEL DATA BUTA HURUF
memastikan proses berjalan dengan baik ,Untuk proses yang Karakteristik Data
pertama adalah memvalidasi hasil clustering dengan Kab/kota
F1 F2 F3 F4 F5 F6 F7
menggunakan metode Silhouette Cosefisien. Metode Kab. 62 618 23 120 98.6 8.52 5195
Silhouette Coefisien adalah metode validasi internal didalam Simelue
proses clustering dimana akan dilihat kedekatan antar objek Kab. Nias 69 607 19 620 90.4 6.4 3676
dalam satu buah cluster [12]. Tahapan-tahapan untuk 71 644 6 630 98.5 9 1809
memperoleh nilai Silhouette Coefisien adalah sebagai berikut Kab. Siak
[13]. (1) Hitung rata-rata jarak menggunakan persamaan Kab. 70 589 33 409 97.4 9.2 3792
euclidean distance dari objek ke-i dengan seluruh objek yang Fakfak
berada pada cluster yang sama. Kemudian, nilai rata-rata jarak Kab. 62 597 14 629 97.9 9.3 1602
tersebut digunakan sebagai nilai ai.(2) Hitung rata-rata jarak Merauke
menggunakan persamaan euclidean distance dari objek ke-i
Tahapan transformasi data dilakukan pada Tabel 2
dengan seluruh objek yang berada pada cluster lainnya. dari
dikarenakan rentang nilai yang tidak sama sehingga akan
semua jarak rata-rata tersebut ambil nilai yang paling kecil.
menyulitkan jika dilakukan perhitungan jarak antar variabel.
Kemudian, nilai rata-rata jarak paling terkecil tersebut
Data yang akan ditransformasi adalah data pada kolom angka
digunakan sebagai nilai bi.(3) Hitung nilai Silhouette
harapan hidup,pengeluaran perkapita,persentase penduduk
Coefisien (SC) untuk objek ke-i menggunakan persamaan
miskin, jumlah penduduk tidak tamat SD, angka melek huruf,
sebagai berikut.
lama sekolah dan tidak baca tulis(jumlah penduduk tidak bisa
𝑏𝑖 − 𝑎𝑖 baca tulis), karena data tersebut yang akan menjadi data
𝑆𝐶𝑖 = (1) predictor untuk menentukan cluster pada tahap selanjutnya.
𝑀𝑎𝑥(𝑎𝑖 ,𝑏𝑖 )
Untuk dapat menilai sebuah cluster sudah baik atau belum Teknik transformation data yang digunakan adalah z-score
adalah dengan melihat kedekatan antar objek dalam sebuah normalization . Dengan metode z-score normalization maka
cluster dimana hasilnya jika mendekati satu maka cluster data yang ada akan di normalisasi berdasarkan nilai mean dan
tersebut bagus , untuk lebih lengkapnya tingkat kekuatan standar deviasi tiap atributnya [14]. Untuk melakukan
cluster seperti pada Tabel 1 . normaliasai dengan z-score menggunakan persamaan
berikut :
TABEL I
ACUAN NILAI SILHOUETTE COEFFICIENT 𝑣− 𝐴̅
𝑣′ = (2)
𝜎𝐴
Nilai Silhouette Coefisien Tingkat Kekuatan Cluster
(SC)
Berdasarkan Persamaan 2, nilai z-score normalization (𝑣`)
0,7 < SC ≤ 1 Sangat Kuat diperoleh dari nilai atribut A (𝑣) dikurangi dengan mean
0,5 < SC ≤ 0,7 Kuat atribut A (𝐴̅), kemudain dibagi dengan standar deviasi
atribut A (𝜎𝐴 ). Untuk hasil transformasi data menggunakan
0,25 < SC ≤ 0,5 Sedang z-score dapat dilihat pada Tabel 3
SC ≤ 0,25 Buruk TABEL III
3 DARI 462 SAMPEL TRANSFORMASI DATA
RUJUKAN