Rito Goejantoro@fmipa Unmul Ac Id
Rito Goejantoro@fmipa Unmul Ac Id
ABSTRACT
Data mining is a technique or process to obtain useful information from a large database. Based on
its functionality, one of the tasks of data mining is to group data. Cluster analysis is an analysis that aims to
group objects based on the information found in the data. One of the cluster analysis methods is the K-
Means cluster method, which is a non-hierarchical grouping method by dividing the data set into a number
of groups that do not overlap between one group and another. This study aims to classify districts/cities on
the island of Kalimantan based on indicators of the human development index and obtain the sillhoutte
coefficient value from the optimal cluster analysis using the K-Means algorithm on principle component
analysis. The data used is the 2020 human development index data in districts / cities on the island of
Kalimantan and used 8 variables from the human development index indicator. The results of the optimal
cluster formed in the grouping of regencies/cities on the island of Kalimantan using the K-Means cluster
method on the principle component analysis are 4 clusters. Cluster 1 has 20 regencies/cities, cluster 2 has 3
regencies/cities, cluster 3 has 26 regencies/cities and cluster 4 has 7 regencies/cities. The sillhoutte
coefficient value for data validation from district/city clustering on the island of Kalimantan using the K-
Means cluster method on principle component analysis produces 4 clusters of 0.540 which states that the
cluster structure formed in this grouping is a medium structure.
Keywords: Human Development Index Indicator, K-Means Cluster, Principle Component Analysis,
Silhoutte Coefficient,
dengan melakukan reduksi dimensi (Wahono, Tujuan dari penelitian ini adalah untuk
2015). memperoleh nilai silhouette coefficient hasil
Reduksi dimensi digunakan untuk analisis cluster terbaik dan mengetahui hasil
menghilangkan fitur yang tidak relevan, pengelompokan optimal pada kabupaten/kota di
mengurangi noise, dan mengurangi curse of Pulau Kalimantan pada indikator IPM Tahun
dimensionality. Banyak metode yang bisa 2020 dengan menggunakan algoritma K-Means
digunakan dalam reduksi dimensi. Salah satunya Cluster dengan Principle Component Analysis.
yaitu metode Principal Component Analysis
(PCA). PCA merupakan teknik yang digunakan Analisis Multivariat
untuk menyederhanakan suatu data dengan cara Analisis multivariat merupakan analisis yang
mentransformasi linier sehingga terbentuk suatu berhubungan dengan semua teknik statistik yang
sistem koordinat baru dengan varians minimum. secara simultan menganalisis sejumlah
PCA digunakan untuk mengetahui kemiripan atau pengukuran objek (Windarjono, 2015).
perbedaan dengan data lain. PCA dapat mereduksi Menurut Johnson & Wichern (2007), analisis
dimensi data yang lebih rendah dengan resiko multivariat dikelompokkan menjadi dua
kehilangan informasi yang sangat kecil. (Smith & kelompok besar yaitu:
Lindsay, 2002). 1. Metode dependensi
Silhouette Coefficient merupakan sebuah 2. Metode interpendensi
metode evaluasi untuk menguji optimal atau
ketepatan dari sebuah cluster yang telah terbentuk Principal Component Analysis (PCA)
dari proses clustering (Furqon & Muflikhah, Principal Component Analysis (PCA)
2016). merupakan teknik analisis yang digunakan untuk
Muningsih dkk (2020), melakukan penelitian menyederhanakan suatu data, dengan cara
tentang penerapan metode PCA untuk clustering mentransformasi data secara linier sehingga
data kunjungan wisatawan mancanegara ke terbentuk sistem koordinat baru dengan varians
Indonesia diketahui pengolahan data yang maksimum. Tujuan utama PCA adalah untuk
dilakukan menggunakan metode K-Means mengurangi dimensi peubah yang saling
clustering dan metode reduksi PCA mendapatkan berhubungan dan cukup banyak variabel,
hasil model K-Means dan PCA menghasilkan nilai sehingga lebih mudah untuk menginterpretasikan
validasi yang lebih baik dibanding model K- data-data tersebut. Metode yang digunakan yaitu
Menas tanpa PCA. Alwi dan Hasrul (2018), menentukan komponen utama dengan kombinasi
melakukan penelitian tentang analisis cluster linier (Johnson & Witchern, 2007).
untuk pengelompokan kabupaten/kota di Provinsi
Sulawesi Selatan berdasarkan indikator Data Mining
kesejahteraan rakyat mendapatkan hasil analisis Data mining merupakan Proses untuk
cluster menggunakan penerapan PCA menemukan informasi yang menarik dan
memberikan hasil lebih optimal dibandingkan tersembunyi dari suatu kumpulan data yang
dengan analisis cluster tanpa PCA. Talakua dkk berukuran besar yang tersimpan dalam suatu basis
(2017), melakukan penelitian tentang analisis data, data warehouse atau tempat penyimpanan
cluster dengan menggunakan metode K-Means data lainnya (Tan dkk, 2006). Menurut Prasetyo
untuk pengelompokan kabupaten/kota di Provinsi (2012), terdapat tiga langkah utama dalam data
Maluku berdasarkan indikator indeks mining yaitu eksplorasi atau pemrosesan awal
pembangunan manusia tahun 2014 mendapatkan data, membangun model dan melakukan validasi,
hasil bahwa analisis cluster pada K-Means baik dan penerapan.
digunakan dalam pengelompokan indikator indeks
pembangunan manusia. Analisis Cluster
IPM merupakan salah satu cara untuk Teknik data mining yang digunakan untuk
mengukur keberhasilan kinerja suatu Negara atau mengelompokkan himpunan objek (dataset) ke
Wilayah dalam suatu bidang pembangunan dalam beberapa grup/cluster di mana hanya
manusia. IPM dapat mengukur capaian berdasarkan pada kemiripan karakteristik dari
pembangunan manusia berbasis sejumlah atribut yang dimiliki sehingga data objek yang
komponen dasar kualitas hidup yaitu umur panjang berada di dalam cluster yang sama memiliki
dan hidup sehat, pengetahuan, dan standar hidup kemiripan satu sama lain tetapi mereka tidak
layak. IPM memberikan gambaran mengenai mirip dengan data objek yang berada dalam
tingkat pencapaian pembangunan manusia sebagai cluster yang berbeda disebut dengan analisis
dampak dari kegiatan pembangunan manusia yang cluster (Han dkk, 2012).
dilakukan oleh suatu Negara atau daerah (Badan Menurut Xu dan Donald (2009), algoritma
Pusat Statistika, 2020). clustering bekerja dengan mengelompokkan
objek-objek data (pola, entitas, kejadian, unit dan
clustering di mana K-Means mencari partisi yang c. Menghitung matriks kovarian berdasarkan
optimal dari suatu data dengan cara matriks korelasi
meminimalkan kriteria jumlah kesalahan kuadrat d. Menghitung nilai eigen menggunakan
dengan prosedur iterasi yang optimal (Muningsih persamaan:
& Kiswati, 2015). |𝜆𝑰 − 𝑹| = 0⃗ (3)
dan vektor eigen pada persamaan:
Silhouette Coefficient (SC) (𝑹𝑣⃗ = 𝜆𝑣⃗) (4)
Silhouette Coefficient merupakan sebuah e. Menentukan jumlah komponen utama yang
metode evaluasi untuk menguji optimal atau mungkin terbentuk dengan melihat kriteria
ketepatan dari sebuah cluster yang telah terbentuk nilai eigen yang lebih besar atau sama
dari proses clustering (Furqon & Muflikhah, dengan 1.
2016). Silhouette Coefficient memberikan hasil f. Membentuk komponen matriks korelasi
kualitas visual dalam setiap cluster, memberikan yang menunjukkan besarnya korelasi
informasi sesuai dengan jumlah cluster pada variabel terhadap skor komponen yang
dataset. SC adalah salah satu metode yang dapat terbentuk menggunakan persamaan:
digunakan untuk melihat kualitas dan kekuatan 𝑟 , = 𝑣 ⃗ 𝜆𝒕 (5)
cluster, di mana metode ini merupakan metode
validasi cluster yang menggabungkan metode g. Menghitung transformasi dataset baru hasil
cohesion dan separation (Kaufman & Rousseeuw, reduksi dengan PCA menggunakan
1990). persamaan:
𝑃𝐶 = 𝑣⃗ 𝑍 + 𝑣⃗ 𝑍 + ⋯ + 𝑣⃗ 𝑍 (6)
Metodologi Penelitian
Sumber Data dan Variabel Penelitian 3. Melakukan pengelompokan data dengan
Penelitian ini menggunakan data sekunder metode K-Means dengan tahapan adalah
yang diperoleh dari Badan Pusat Statistik. sebagai berikut:
Variabel yang digunakan dalam penelitian ini a. Menentukan banyaknya jumlah cluster (k)
adalah sebagai berikut: yang akan digunakan.
X1 : Usia Harapan Hidup (Tahun) b. Memilih pusat cluster awal secara trial dan
X2 : Harapan Lama Sekolah (Tahun) error dari data penelitian.
X3 : Rata-rata Lama Sekolah (Tahun) c. Menghitung jarak Euclid data dengan pusat
X4 : Pengeluaran Perkapita (Ribu Rupiah/Kapita) cluster dengan persamaan:
X5 : Laju Pertumbuhan Ekonomi (%) 𝑑 𝒙 = ∑ 𝑥 −𝑐 (7)
,𝑪
X6 : Persentase Penduduk Miskin (%)
X7 : Tingkat Pengangguran Terbuka (%) 𝑎 = 1,2,3, … , 𝑛 dan 𝑖 = 1,2,3, … , 𝑘
X8 : Jumlah Tenaga Kesehatan (Orang) d. Mengalokasikan data penelitian ke pusat
cluster terdekat berdasarkan jarak Euclid
Metode Penelitian yang terkecil.
1. Melakukan analisis statistika deskriptif e. Menghitung pusat cluster baru berdasarkan
digunakan untuk melihat gambaran umum keanggotaan dengan persamaan:
data penelitian. 𝑐̅ = ∑ 𝑥 (8)
2. Melakukan reduksi data penelitian 𝑖 = 1,2,3, . . . , 𝑘 dan 𝑝 = 1,2,3, … , 𝑛
menggunakan metode principal component dengan:
analysis dengan tahapan adalah sebagai 𝑪 : centroid pada cluster ke-i iterasi ke-a
berikut:
𝑐̅ : rata-rata cluster ke-i variabel ke-p
a. Melakukan penormalisasian data
𝑛 : jumlah objek anggota cluster ke-i
menggunakan persamaan:
̅ 𝑥 : objek pengamatan ke-a variabel ke-p
𝒁 = (1) f. Kembali ke langkah c,d dan e apabila masih
di mana: ada data yang berpindah cluster.
𝒁 : hasil normalisasi data g. Mengulangi langkah c, d, e dan f untuk
𝑥 : data ke-a pada variabel ke-p banyak cluster (k) yang berbeda.
4. Menghitung nilai Silhouette Coefficient untuk 0,65%. Dan rata-rata -0,004%. Persentase
mengetahui kualitas dari hasil suatu penduduk miskin (X6) memiliki nilai minimum
pengelompokan dengan tahapan adalah 2,55%, nilai maksimum 12,04% dan rata-rata
sebagai berikut: 5,97%. Tingkat pengangguran (X7) memiliki
a. Menghitung rata-rata jarak data ke-i dengan nilai minimum 2,24%, nilai maksimum 12,36%
semua data pada cluster yang sama dan rata-rata 5,97%. Jumlah tenaga kesehatan
𝑎 = ∑ 𝑑 , ,𝑟 ≠ 𝑖 (9) (X8) terbuka memiliki nilai minimum 167
orang, nilai maksimum 4.587 orang dan rata-rata
b. Menghitung rata-rata jarak data ke-i dengan 1.186 orang.
semua data pada cluster yang berbeda 2. Principal Component Analysis (PCA)
𝑏 = 𝑚𝑖𝑛{𝑑 (𝑝)}, 𝑟 ≠ 𝑖 (10) Adapun tahapan-tahapan pada PCA adalah
c. Menghitung nilai 𝑆𝐶 (𝑖) sebagai berikut:
𝑏 −𝑎 a. Normalisasi Data
𝑆𝐶 (𝑖) = , 𝑖 = 1,2,3, … , 𝑛 (11)
𝑚𝑎𝑥{𝑏 − 𝑎 } Normalisasi dilakukan agar data memiliki
d. Menghitung rata-rata nilai 𝑆𝐶 (𝑝) rentang nilai yang tidak jauh berbeda, agar
𝑆𝐶 (𝑝) = ∑ ∈ 𝑆𝐶 (𝑖) (12) data yang lebih besar tidak akan
mendominasi data yang lebih kecil, sehingga
e. Menghitung nilai SC global hasil perhitungan yang diperoleh akan
∑ × ( )
𝑆𝐶 = semakin akurat.
∑ (13)
f. Menentukan nilai k optimal berdasarkan Tabel 2. Normalisasi Data Indikator Indeks
nilai silhouette coefficient terbesar Pembangunan Manusia di Kabupaten/Kota
5. Menginterpretasikan hasil cluster berdasarkan di Pulau Kalimantan Tahun 2020
nilai indeks validitas Silhouette Coefficient. Data X1 X2 … X8
× ( ) × ( )
= ∑ 𝑑 , 𝑆𝐶 = ( )
= [𝑑(1,2) + 𝑑(1,3) + ⋯ + 𝑑(1,56)] =
{( × , ) ( × , )}
( )
= 1,479
= 0,359
Dengan cara yang sama dihitung semua
Hasil validasi untuk 2 cluster berdasarkan
nilai ai untuk anggota dalam cluster 1
nilai SC global adalah sebesar 0,359
sampai dengan terakhir yaitu a56.
artinya pengelompokan secara keseluruhan
Begitupun pada cluster 2.
dapat dikatakan weak structure (struktur
b. Menghitung rata-rata jarak data ke-i
cluster yang lemah/buruk), artinya sedikit
dengan semua data yang berada pada
sekali kumpulan objek i yang berada dalam
cluster yang berbeda dengan menggunakan
cluster yang tepat dan sisanya bergabung
persamaan:
pada cluster yang tidak semestinya.
1 Dilakukan perhitungan SC seperti
𝑑 (2) = 𝑑 , langkah 1 sampai dengan langkah 5 untuk
𝑁
clustering dengan metode K-Means pada
= [𝑑(1,12) + 𝑑(1,13) + ⋯ + pembentukan 3 cluster, 4 cluster dan 5
𝑑(1,52)] cluster.
1 f. Menentukan nilai k optimal berdasarkan
= [1,661 + 6,384 + ⋯ + 1,769] nilai silhouette coefficient terbesar.
34
1 Peneliti membandingkan nilai SC Global
= [86,387]
34 dari hasil pembentukan 2, 3, 4 dan 5
= 2,541 cluster yang dapat dilihat pada Tabel
Selanjutnya dengan cara yang sama berikut ini:
dihitung semua nilai di untuk anggota
Tabel 12. Nilai SC Global
dalam cluster 1 sampai dengan terakhir
yaitu d56. Begitupun pada cluster 2. Jumlah Cluster SC
c. Menghitung nilai 𝑆𝐶 data ke-i dengan 2 0,359
menggunakan persamaan: 3 0,467
𝑏 −𝑎 4 0,540
𝑆𝐶 (1) = 5 0,445
𝑚𝑎𝑥{𝑏 , 𝑎 }
2,541 − 1,479
= Berdasarkan Tabel 12, dapat diketahui bahwa
𝑚𝑎𝑥{(2,451), (1,479)} nilai SC untuk evaluasi hasil pengelompokan data
= 0,418 indeks pembangunan manusia berdasarkan
Demikian seterusnya dengan cara yang variabel yang diduga sebagai penentu rendahnya
sama dihitung SC1(i) untuk i = 1, 2,…, 56. indeks pembangunan manusia di kabupaten/kota
d. Menghitung rata-rata nilai 𝑆𝐶 pada cluster di Pulau Kalimantan dengan metode K-Means
ke-p. Perhitungan nilai SC1 untuk cluster 1 Cluster dengan Principle Component Analyisis
adalah sebagai berikut: memiliki nilai SC yang berbeda-beda. Nilai SC
𝑆𝐶 (1) = ∑ ∈ 𝑆𝐶 (𝑖) yang terbesar adalah pengelompokan pada 4
cluster yaitu 0,540. Oleh karena itu, dapat
= 𝑆𝐶 (1) + 𝑆𝐶 (2) + ⋯ +
diputuskan bahwa pengelompokan yang paling
𝑆𝐶 (56) optimal pada pengelompokan kabupaten/kota di
= (0,418 + 0,446 + ⋯ + Pulau Kalimantan dengan metode K-Means
0,270) Cluster dengan Principle Component Analyisis
= 0,435 adalah 4 cluster. Oleh karena itu, dapat
Perhitungan nilai SC2 untuk cluster 2 diputuskan bahwa pengelompokan yang paling
adalah sebagai berikut: optimal pada pengelompokan kabupaten/kota di
Pulau Kalimantan dengan metode K-Means
𝑆𝐶 (1) = ∑ ∈ 𝑆𝐶 (𝑖) Cluster dengan Principle Component Analyisis
= 𝑆𝐶 (12) + 𝑆𝐶 (13) + ⋯ + adalah 4 cluster. Cluster 1 beranggotakan 26
kabupaten/kota yang terdiri dari kabupaten/kota
𝑆𝐶 (52)
Sekadau, Kubu Raya, Kotawaringin Barat,
= 0,253 + 0,318 + ⋯ + Kotawaringin Utara, Kapuas, Barito Selatan,
(−0,208) Barito Utara, Sukamara, Lamandau, Seruyun,
= 0,310 Katingan, Pulang Pisau, Gunung Mas, Barito
e. Menghitung nilai SC Global dengan Timur, Murung Raya, Tanah Laut, Kota Baru,
menggunakan persamaan: Banjar, Barito Kuala, Tapin, Hulu Sungai Selatan,
Hulu Sungai Tengah, Hulu Sungai Utara,
Tabalong, Tanah Bumbu dan Balangan. Cluster 2 pengangguran terbuka dan jumlah tenaga
beranggotakan 3 kabupaten/kota yang terdiri dari kesehatan kabupaten/kota yang rendah jika
kabupaten/kota Pontianak, Kota Balikpapan dan dibandingkan dengan cluster 1, 2 dan 4. Cluster 4
Kota Samarinda . Cluster 3 beranggotakan 20 merupakan cluster di mana variabel tingkat
kabupaten/kota yang terdiri dari kabupaten/kota pengangguran terbuka lebih tinggi jika
Sambas, Bengkayang, Landak, Mempawah, dibandingkan dengan cluster 1, 2 dan 3. Hal ini
Sanggau, Ketapang, Sintang, Kapuas Hulu, berarti kabupaten/kota pada cluster 4 cenderung
Melawi, Kayong Utara, Paser, Kutai Barat, Kutai memiliki usia harapan hidup, harapan lama
Timur, Penajam Paser Utara, Mahakam Ulu, sekolah, rata-rata lama sekolah, pengeluaran
Malinau, Bulungan, Tana Tidung, Nunukan dan perkapita, laju pertumbuhan ekonomi, persentase
Kota Tarakan. Sedangkan Cluster 4 penduduk miskin, dan jumlah tenaga kesehatan
beranggotakan 7 kabupaten/kota yang terdiri dari kabupaten/kota yang rendah jika dibandingkan
kabupaten/kota Singkawang, Kota Palangka Raya, dengan cluster 1, 2 dan 3.
Kota Banjarmasin, Kota Banjar Baru, Kutai
Kartanegara, Berau dan Kota Bontang. Kesimpulan
1. Nilai Silhouette Coefficient untuk
Karakteristik Hasil Analisis Cluster pengelompokan kabupaten/kota di Pulau
Berdasarkan hasil pengelompokan 4 cluster, Kalimantan berdasarkan indikator indeks
dilakukan perhitungan nilai rata-rata variabel pembangunan manusia dengan
untuk melihat karakteristik dari masing-masing menggunakan algoritma K-Means Cluster
cluster. dengan Principle Component Analysis
menghasilkan 4 cluster dengan nilai sebesar
Tabel 13. Nilai rata-rata pada setiap cluster
0,540 yang menyatakan bahwa structure
Cluster ke-i
Variabel
1 2 3 4
cluster yang terbentuk pada pengelompokan
X1 68,80 73,91 71,88 72,44 ini adalah medium structure.
X2 12,42 14,68 12,45 13,79 2. Cluster optimal yang terbentuk pada
X3 8,00 10,44 7,84 9,98 pengelompokan kabupaten/kota di Pulau
X4 10.834 13.384 8.380 13.243 Kalimantan berdasarkan indikator indeks
X5 0,19 -0,04 -0,23 -0,07 pembangunan manusia dengan
X6 4,77 4,01 8,25 4,75 menggunakan algoritma K-Means Cluster
X7 4,05 6,98 4,67 9,87 dengan Principle Component Analysis
X8 794 3.762 1.160 1.620 adalah sebanyak 4 cluster yaitu cluster 1,
Berdasarkan Tabel 13, dapat diketahui bahwa cluster 2, cluster 3 dan cluster 4. Cluster 1
Cluster 1 merupakan cluster di mana variabel laju beranggotakan 24 kabupaten/kota, cluster 2
pertumbuhan ekonomi lebih tinggi jika beranggotakan 3 kabupaten/kota, cluster 3
dibandingkan dengan cluster 2, 3 dan 4. Hal ini beranggotakan 20 kabupaten/kota dan
berarti kabupaten/kota pada cluster 1 cenderung cluster 4 beranggotakan 7 kabupaten/kota.
memiliki usia harapan hidup, harapan lama
sekolah, rata-rata lama sekolah, pengeluaran Daftar Pustaka
perkapita, persentase penduduk miskin, tingkat Alwi, W. & Hasrul, M. (2018). Analisis Cluster
pengangguran terbuka dan jumlah tenaga untuk Pengelompokan Kabupaten/Kota
kesehatan kabupaten/kota yang rendah jika di Provinsi Sulawesi Selatan Berdasarkan
dibandingkan dengan cluster 2, 3 dan 4.Cluster 2 Indikator Kesejahteraan Rakyat. Jurnal
merupakan cluster di mana variabel usia harapan MSA 35-41.
hidup, harapan lama sekolah, rata-rata lama Badan Pusat Statistik. (2020). Indeks
sekolah, pengeluaran perkapita dan jumlah tenaga Pembangunan Manusia 2020. Indonesia:
kesehatan kabupaten/kota yang lebih tinggi Badan Pusat Statistika Republik
dibandingkan dengan cluster 1, 3 dan 4. Hal ini Indonesia.
berarti kabupaten/kota pada cluster 2 cenderung Ediyanto, M.N. (2013). Pengklasifikasian
memiliki laju pertumbuhan ekonomi, persentase Karakteristik dengan Metode K-Means
penduduk miskin dan tingkat pengangguran Cluster Analysis. Buletin Ilmiah Mat,
terbuka yang rendah jika dibandingkan dengan Stat, dan terapannya, 133-136.
cluster 1, 3 dan 4. Cluster 3 merupakan cluster di Furqon, M.T., & Muflikhah, L. (2016). Clustering
mana variabel persentase penduduk miskin lebih the Potential Risk of Tsunami Using
tinggi jika dibandingkan dengan cluster 1, 2 dan Density-Based Spatial Clustering of
4. Hal ini berarti kabupaten/kota pada cluster 3 Application With Noise (Dbscan). Jurnal
cenderung memiliki usia harapan hidup, harapan of Enviromental Engineering and
lama sekolah, rata-rata lama sekolah, pengeluaran Sustainable Technology 1-8.
perkapita, laju pertumbuhan ekonomi, tingkat