Anda di halaman 1dari 10

p-ISSN 2085-7829

Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

Pengelompokan Kabupaten/Kota Di Pulau Kalimantan Berdasarkan Indikator Indeks


Pembangunan Manusia Tahun 2020 Menggunakan Optimasi K-Means Cluster
Dengan Principle Component Analysis (PCA)

Grouping Of Regencies/Cities in Kalimantan Island Based On Human Development Index


Indicators In 2020 Using K-Means Cluster Optimization Using Principle Component Analysis
(PCA)

Khoiril Anwar1, Rito Goejantoro2, Surya Prangga3


1
Laboratorium Statistika Komputasi Program Studi Statistka, FMIPA, Universitas Mulawarman
2
Program Studi Statistika, Jurusan Matematika, FMIPA, Universitas Mulawarman
E-mail: 1anwarkhoiril627@gmail.com, 2rito.goejantoro@fmipa.unmul.ac.id, 3suryaprangge@gmail.com

ABSTRACT
Data mining is a technique or process to obtain useful information from a large database. Based on
its functionality, one of the tasks of data mining is to group data. Cluster analysis is an analysis that aims to
group objects based on the information found in the data. One of the cluster analysis methods is the K-
Means cluster method, which is a non-hierarchical grouping method by dividing the data set into a number
of groups that do not overlap between one group and another. This study aims to classify districts/cities on
the island of Kalimantan based on indicators of the human development index and obtain the sillhoutte
coefficient value from the optimal cluster analysis using the K-Means algorithm on principle component
analysis. The data used is the 2020 human development index data in districts / cities on the island of
Kalimantan and used 8 variables from the human development index indicator. The results of the optimal
cluster formed in the grouping of regencies/cities on the island of Kalimantan using the K-Means cluster
method on the principle component analysis are 4 clusters. Cluster 1 has 20 regencies/cities, cluster 2 has 3
regencies/cities, cluster 3 has 26 regencies/cities and cluster 4 has 7 regencies/cities. The sillhoutte
coefficient value for data validation from district/city clustering on the island of Kalimantan using the K-
Means cluster method on principle component analysis produces 4 clusters of 0.540 which states that the
cluster structure formed in this grouping is a medium structure.

Keywords: Human Development Index Indicator, K-Means Cluster, Principle Component Analysis,
Silhoutte Coefficient,

Pendahuluan K-Means clustering adalah salah satu metode


Analisis Multivariat berasal dari kata multy cluster analysis yang berusaha untuk mempartisi
dan variate yang berarti alat analisis lebih dari objek yang ada ke dalam satu atau lebih cluster
dua variabel. Analisis multivariat sering atau kelompok objek berdasarkan
digunakan untuk memecahkan permasalahan karakteristiknya, sehingga objek yang mempunyai
dalam penelitian yang sifatnya sangat kompleks. karakteristik yang sama dikelompokkan dalam
Secara umum analisis multivariat dibagi satu cluster yang sama begitupun sebaliknya
menjadi dua metode yaitu metode dependensi dan dengan objek yang mempunyai karakteristik yang
metode interpendensi. Metode dependensi berbeda akan dikelompokkan ke dalam cluster
merupakan analisis ketergantungan yang yang berbeda (Ediyanto, 2013). Selain memiliki
digunakan untuk menjelaskan suatu nilai variabel kelebihan K-Means juga memiliki kelemahan
terikat berdasarkan lebih dari satu variabel bebas yang diakibatkan oleh penentuan pusat awal
yang mempengaruhinya. Sedangkan untuk metode cluster. Hasil cluster yang terbentuk dari metode
interpendensi merupakan analisis yang digunakan K-Means tergantung pada inisiasi nilai pusat awal
untuk menjelaskan seperangkat variabel dalam cluster yang diberikan. Sehingga hal ini
pengelompokan berdasarkan variabel-variabel menyebabkan hasil cluster berupa solusi di mana
tertentu. memiliki sifat local optimal. Selain itu algoritma
Analisis cluster merupakan analisis yang K-Means dihadapkan pada persoalan curse of
digunakan dalam pengelompokan beberapa objek dimensionality saat dihadapkan pada persoalan
menjadi beberapa kelompok di mana setiap data dengan fitur besar. Algoritma klasifikasi dan
kelompok yang terbentuk terdiri dari objek yang clustering menjadi bermasalah pada data dengan
memiliki kemiripan di dalam kelompok dimensi tinggi yaitu dengan menurunnya akurasi
(Supranto, 2010). Menurut Hair dkk (2014), klasifikasi dan kualitas cluster yang rendah dan
metode dalam analisis cluster dibagi menjadi dua juga berpengaruh pada waktu komputasi yang
yaitu, metode hierarki dan non-hierarki. lama. Akan tetapi permasalahan ini dapat diatasi

Jurusan Matematika FMIPA Universitas Mulawarman 131


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

dengan melakukan reduksi dimensi (Wahono, Tujuan dari penelitian ini adalah untuk
2015). memperoleh nilai silhouette coefficient hasil
Reduksi dimensi digunakan untuk analisis cluster terbaik dan mengetahui hasil
menghilangkan fitur yang tidak relevan, pengelompokan optimal pada kabupaten/kota di
mengurangi noise, dan mengurangi curse of Pulau Kalimantan pada indikator IPM Tahun
dimensionality. Banyak metode yang bisa 2020 dengan menggunakan algoritma K-Means
digunakan dalam reduksi dimensi. Salah satunya Cluster dengan Principle Component Analysis.
yaitu metode Principal Component Analysis
(PCA). PCA merupakan teknik yang digunakan Analisis Multivariat
untuk menyederhanakan suatu data dengan cara Analisis multivariat merupakan analisis yang
mentransformasi linier sehingga terbentuk suatu berhubungan dengan semua teknik statistik yang
sistem koordinat baru dengan varians minimum. secara simultan menganalisis sejumlah
PCA digunakan untuk mengetahui kemiripan atau pengukuran objek (Windarjono, 2015).
perbedaan dengan data lain. PCA dapat mereduksi Menurut Johnson & Wichern (2007), analisis
dimensi data yang lebih rendah dengan resiko multivariat dikelompokkan menjadi dua
kehilangan informasi yang sangat kecil. (Smith & kelompok besar yaitu:
Lindsay, 2002). 1. Metode dependensi
Silhouette Coefficient merupakan sebuah 2. Metode interpendensi
metode evaluasi untuk menguji optimal atau
ketepatan dari sebuah cluster yang telah terbentuk Principal Component Analysis (PCA)
dari proses clustering (Furqon & Muflikhah, Principal Component Analysis (PCA)
2016). merupakan teknik analisis yang digunakan untuk
Muningsih dkk (2020), melakukan penelitian menyederhanakan suatu data, dengan cara
tentang penerapan metode PCA untuk clustering mentransformasi data secara linier sehingga
data kunjungan wisatawan mancanegara ke terbentuk sistem koordinat baru dengan varians
Indonesia diketahui pengolahan data yang maksimum. Tujuan utama PCA adalah untuk
dilakukan menggunakan metode K-Means mengurangi dimensi peubah yang saling
clustering dan metode reduksi PCA mendapatkan berhubungan dan cukup banyak variabel,
hasil model K-Means dan PCA menghasilkan nilai sehingga lebih mudah untuk menginterpretasikan
validasi yang lebih baik dibanding model K- data-data tersebut. Metode yang digunakan yaitu
Menas tanpa PCA. Alwi dan Hasrul (2018), menentukan komponen utama dengan kombinasi
melakukan penelitian tentang analisis cluster linier (Johnson & Witchern, 2007).
untuk pengelompokan kabupaten/kota di Provinsi
Sulawesi Selatan berdasarkan indikator Data Mining
kesejahteraan rakyat mendapatkan hasil analisis Data mining merupakan Proses untuk
cluster menggunakan penerapan PCA menemukan informasi yang menarik dan
memberikan hasil lebih optimal dibandingkan tersembunyi dari suatu kumpulan data yang
dengan analisis cluster tanpa PCA. Talakua dkk berukuran besar yang tersimpan dalam suatu basis
(2017), melakukan penelitian tentang analisis data, data warehouse atau tempat penyimpanan
cluster dengan menggunakan metode K-Means data lainnya (Tan dkk, 2006). Menurut Prasetyo
untuk pengelompokan kabupaten/kota di Provinsi (2012), terdapat tiga langkah utama dalam data
Maluku berdasarkan indikator indeks mining yaitu eksplorasi atau pemrosesan awal
pembangunan manusia tahun 2014 mendapatkan data, membangun model dan melakukan validasi,
hasil bahwa analisis cluster pada K-Means baik dan penerapan.
digunakan dalam pengelompokan indikator indeks
pembangunan manusia. Analisis Cluster
IPM merupakan salah satu cara untuk Teknik data mining yang digunakan untuk
mengukur keberhasilan kinerja suatu Negara atau mengelompokkan himpunan objek (dataset) ke
Wilayah dalam suatu bidang pembangunan dalam beberapa grup/cluster di mana hanya
manusia. IPM dapat mengukur capaian berdasarkan pada kemiripan karakteristik dari
pembangunan manusia berbasis sejumlah atribut yang dimiliki sehingga data objek yang
komponen dasar kualitas hidup yaitu umur panjang berada di dalam cluster yang sama memiliki
dan hidup sehat, pengetahuan, dan standar hidup kemiripan satu sama lain tetapi mereka tidak
layak. IPM memberikan gambaran mengenai mirip dengan data objek yang berada dalam
tingkat pencapaian pembangunan manusia sebagai cluster yang berbeda disebut dengan analisis
dampak dari kegiatan pembangunan manusia yang cluster (Han dkk, 2012).
dilakukan oleh suatu Negara atau daerah (Badan Menurut Xu dan Donald (2009), algoritma
Pusat Statistika, 2020). clustering bekerja dengan mengelompokkan
objek-objek data (pola, entitas, kejadian, unit dan

132 Jurusan Matematika FMIPA Universitas Mulawarman


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

hasil observasi) ke dalam sejumlah cluster 𝑥̅ : rata-rata variabel ke-p


tertentu. Algoritma cluster melakukan pemisahan, 𝑠 : deviasi standar variabel ke-p
pemecahan atau segmentasi ke dalam sejumlah
kelompok (cluster) menurut karakteristik tertentu. b. Menghitung koefisien korelasi untuk melihat
keeratan hubungan antar variabel
K-Means Clustering menggunakan persamaan:
K-Means clustering merupakan salah satu 𝑟 , =
∑ ∑ . ∑
(2)
metode terbaik dan populer dalam algoritma ∑ ∑ . ∑ ∑

clustering di mana K-Means mencari partisi yang c. Menghitung matriks kovarian berdasarkan
optimal dari suatu data dengan cara matriks korelasi
meminimalkan kriteria jumlah kesalahan kuadrat d. Menghitung nilai eigen menggunakan
dengan prosedur iterasi yang optimal (Muningsih persamaan:
& Kiswati, 2015). |𝜆𝑰 − 𝑹| = 0⃗ (3)
dan vektor eigen pada persamaan:
Silhouette Coefficient (SC) (𝑹𝑣⃗ = 𝜆𝑣⃗) (4)
Silhouette Coefficient merupakan sebuah e. Menentukan jumlah komponen utama yang
metode evaluasi untuk menguji optimal atau mungkin terbentuk dengan melihat kriteria
ketepatan dari sebuah cluster yang telah terbentuk nilai eigen yang lebih besar atau sama
dari proses clustering (Furqon & Muflikhah, dengan 1.
2016). Silhouette Coefficient memberikan hasil f. Membentuk komponen matriks korelasi
kualitas visual dalam setiap cluster, memberikan yang menunjukkan besarnya korelasi
informasi sesuai dengan jumlah cluster pada variabel terhadap skor komponen yang
dataset. SC adalah salah satu metode yang dapat terbentuk menggunakan persamaan:
digunakan untuk melihat kualitas dan kekuatan 𝑟 , = 𝑣 ⃗ 𝜆𝒕 (5)
cluster, di mana metode ini merupakan metode
validasi cluster yang menggabungkan metode g. Menghitung transformasi dataset baru hasil
cohesion dan separation (Kaufman & Rousseeuw, reduksi dengan PCA menggunakan
1990). persamaan:
𝑃𝐶 = 𝑣⃗ 𝑍 + 𝑣⃗ 𝑍 + ⋯ + 𝑣⃗ 𝑍 (6)
Metodologi Penelitian
Sumber Data dan Variabel Penelitian 3. Melakukan pengelompokan data dengan
Penelitian ini menggunakan data sekunder metode K-Means dengan tahapan adalah
yang diperoleh dari Badan Pusat Statistik. sebagai berikut:
Variabel yang digunakan dalam penelitian ini a. Menentukan banyaknya jumlah cluster (k)
adalah sebagai berikut: yang akan digunakan.
X1 : Usia Harapan Hidup (Tahun) b. Memilih pusat cluster awal secara trial dan
X2 : Harapan Lama Sekolah (Tahun) error dari data penelitian.
X3 : Rata-rata Lama Sekolah (Tahun) c. Menghitung jarak Euclid data dengan pusat
X4 : Pengeluaran Perkapita (Ribu Rupiah/Kapita) cluster dengan persamaan:
X5 : Laju Pertumbuhan Ekonomi (%) 𝑑 𝒙 = ∑ 𝑥 −𝑐 (7)
,𝑪
X6 : Persentase Penduduk Miskin (%)
X7 : Tingkat Pengangguran Terbuka (%) 𝑎 = 1,2,3, … , 𝑛 dan 𝑖 = 1,2,3, … , 𝑘
X8 : Jumlah Tenaga Kesehatan (Orang) d. Mengalokasikan data penelitian ke pusat
cluster terdekat berdasarkan jarak Euclid
Metode Penelitian yang terkecil.
1. Melakukan analisis statistika deskriptif e. Menghitung pusat cluster baru berdasarkan
digunakan untuk melihat gambaran umum keanggotaan dengan persamaan:
data penelitian. 𝑐̅ = ∑ 𝑥 (8)
2. Melakukan reduksi data penelitian 𝑖 = 1,2,3, . . . , 𝑘 dan 𝑝 = 1,2,3, … , 𝑛
menggunakan metode principal component dengan:
analysis dengan tahapan adalah sebagai 𝑪 : centroid pada cluster ke-i iterasi ke-a
berikut:
𝑐̅ : rata-rata cluster ke-i variabel ke-p
a. Melakukan penormalisasian data
𝑛 : jumlah objek anggota cluster ke-i
menggunakan persamaan:
̅ 𝑥 : objek pengamatan ke-a variabel ke-p
𝒁 = (1) f. Kembali ke langkah c,d dan e apabila masih
di mana: ada data yang berpindah cluster.
𝒁 : hasil normalisasi data g. Mengulangi langkah c, d, e dan f untuk
𝑥 : data ke-a pada variabel ke-p banyak cluster (k) yang berbeda.

Jurusan Matematika FMIPA Universitas Mulawarman 133


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

4. Menghitung nilai Silhouette Coefficient untuk 0,65%. Dan rata-rata -0,004%. Persentase
mengetahui kualitas dari hasil suatu penduduk miskin (X6) memiliki nilai minimum
pengelompokan dengan tahapan adalah 2,55%, nilai maksimum 12,04% dan rata-rata
sebagai berikut: 5,97%. Tingkat pengangguran (X7) memiliki
a. Menghitung rata-rata jarak data ke-i dengan nilai minimum 2,24%, nilai maksimum 12,36%
semua data pada cluster yang sama dan rata-rata 5,97%. Jumlah tenaga kesehatan
𝑎 = ∑ 𝑑 , ,𝑟 ≠ 𝑖 (9) (X8) terbuka memiliki nilai minimum 167
orang, nilai maksimum 4.587 orang dan rata-rata
b. Menghitung rata-rata jarak data ke-i dengan 1.186 orang.
semua data pada cluster yang berbeda 2. Principal Component Analysis (PCA)
𝑏 = 𝑚𝑖𝑛{𝑑 (𝑝)}, 𝑟 ≠ 𝑖 (10) Adapun tahapan-tahapan pada PCA adalah
c. Menghitung nilai 𝑆𝐶 (𝑖) sebagai berikut:
𝑏 −𝑎 a. Normalisasi Data
𝑆𝐶 (𝑖) = , 𝑖 = 1,2,3, … , 𝑛 (11)
𝑚𝑎𝑥{𝑏 − 𝑎 } Normalisasi dilakukan agar data memiliki
d. Menghitung rata-rata nilai 𝑆𝐶 (𝑝) rentang nilai yang tidak jauh berbeda, agar
𝑆𝐶 (𝑝) = ∑ ∈ 𝑆𝐶 (𝑖) (12) data yang lebih besar tidak akan
mendominasi data yang lebih kecil, sehingga
e. Menghitung nilai SC global hasil perhitungan yang diperoleh akan
∑ × ( )
𝑆𝐶 = semakin akurat.
∑ (13)
f. Menentukan nilai k optimal berdasarkan Tabel 2. Normalisasi Data Indikator Indeks
nilai silhouette coefficient terbesar Pembangunan Manusia di Kabupaten/Kota
5. Menginterpretasikan hasil cluster berdasarkan di Pulau Kalimantan Tahun 2020
nilai indeks validitas Silhouette Coefficient. Data X1 X2 … X8

Hasil dan Pembahasan 1 -0,703 -0,129 … 0,417


1. Statistika Deskriptif 2 1,325 -0,735 … 0,138
Tabel 1. Statistika Deskriptif Data Indikator 3 0,915 -0,374 … -0,150
Indeks Pembangunan Manusia di ⋮ ⋮ ⋱ ⋮ ⋮
Kabupaten/Kota di Pulau Kalimantan Tahun 56 1,383 -1,513 … 0,164
2020
Rata- b. Koefisien Korelasi
Variabel Minimum Maksimum
rata
Tabel 3. Koefisien Korelasi Indikator Indeks
X1 63,83 74,49 70,63 Pembangunan Manusia di Kabupaten/Kota
X2 11,16 15,00 12,72 di Pulau Kalimantan Tahun 2020
X1 X2 … X7 X8
X3 6,01 11,52 8,32
X1 1,000 0,353 … 0,450 0,419
X4 6.804 16.278 10.661
X2 0,353 1,000 … 0,631 0,539
X5 -1,21 0,65 -0,004
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
X6 2,55 12,04 5,97
X7 0,450 0,631 … 1,000 0,613
X7 2,24 12,36 4,94
X8 0,419 0,539 … 0,613 1,000
X8 167 4.587 1.186
Berdasarkan Tabel 3, dapat dilihat bahwa
Berdasarkan Tabel 1 dapat diketahui bahwa terdapat hubungan atau korelasi yang sedang
Usia harapan hidup (X1) memiliki nilai minimum antara varabel X dengan X yaitu sebesar
63,83 tahun, nilai maksimum 74,49 tahun dan 0,450, hubungan atau korelasi yang kuat
rata-rata 70,63 tahun. Harapan lama sekolah (X2) antara varabel X dengan X yaitu sebesar
memiliki nilai minimum 11,16 tahun, nilai 0,755 begitupun seterusnya.
maksimum 15,00 tahun dan rata-rata 12,75 tahun. c. Matriks Varians Kovarians
Rata-rata lama sekolah (X3) memiliki nilai Matriks varians kovarians dibentuk
minimum 6,01 tahun, nilai maksimum 11,52 berdasarkan nilai koefisien korelasi.
tahun dan rata-rata 8,32 tahun. Pengeluaran 1 0,353 … 0,450 0,419
perkapita (X4) memiliki nilai minimum Rp. ⎛0,353 1 … 0,631 0,539⎞
𝑅=⎜ ⋮ ⋮ ⋱ ⋮ ⋮ ⎟
6.804, nilai maksimum Rp. 16.278 dan rata-rata 0,450 0,631 … 1 0,613
Rp. 10.611. Laju pertumbuhan ekonomi (X5) …
⎝0,419 0,539 0,613 1 ⎠
memiliki nilai minimum 1,21, nilai maksimum

134 Jurusan Matematika FMIPA Universitas Mulawarman


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

d. Nilai Eigen dan Vektor Eigen


Nilai eigen (λ) 𝑃𝐶 = 0,475𝑍 + 0,005𝑍 − 0,019𝑍
𝜆 3,594 − 0,369𝑍 − 0,512𝑍
𝜆 1,805 + 0,589𝑍 − 0,068𝑍
⎛ ⎞ ⎛ ⎞ − 0,153𝑍
𝜆
⎜ ⎟ ⎜0,939⎟ g. Transformasi Data Set
𝜆 0,519
𝜆=⎜ ⎟ ⎜
⎜𝜆 ⎟ = ⎜0,421⎟
⎟ Transformasi data menggunakan persamaan
⎜ ⎟ principal component dengan memasukkan
⎜𝜆 ⎟ ⎜0,333⎟ nilai data yang telah dinormalisasi sehingga
𝜆 0,287
diperoleh data baru sebagai berikut:
⎝𝜆 ⎠ ⎝0,099⎠
Berdasarkan nilai eigen, terdapat delapan Tabel 5. Transformasi Data Set
nilai eigen yang diperoleh. Dalam No PC1 PC2
menentukan banyaknya PCA yang akan 1 1,235 0,262
dipilih menggunakan kriteria nilai eigen ≥ 1.
2 1,192 0,425
Sehingga dari 8 nilai eigen diperoleh dua nilai
eigen yang memenuhi kriteria tersebut, yaitu 3 1,792 2,197
𝜆 = 3,594 dan 𝜆 = 1,805. 4 0,953 0,322
Vektor eigen (𝑣⃗) 5 1,892 0,634
−0,266 0,375 ⋯ 0,059 −0,239 ... ... ...
⎛−0,464 0,005 ⋯ 0,537 −0,394⎞
56 -0,656 1,180
𝑣⃗ = ⎜ ⋮ ⋮ ⋱ ⋮ ⋮ ⎟
−0,420 0,068 ⋯ −0,445 0,152 3. K-Means Cluster
⎝−0,366 0,153 ⋯ 0,269 0,182 ⎠ Langkah-langkah pengelompokan K-Means
e. Komponen Korelasi cluster adalah sebagai berikut:
Komponen korelasi menunjukkan besarnya a. Menentukan banyaknya cluster yang akan
korelasi variabel terhadap skor komponen digunakan dengan menggunakan data set
yang terbentuk. baru hasil perhitungan PCA, dengan cluster
Tabel 4. Komponen Matriks Korelasi yang digunakan adalah k=2,3,4, dan 5.
b. Menentukan pusat cluster awal
PC1 PC2
Pada penelitan ini diambil contoh dengan
X1 -0,504 0,638 menggunakan untuk cluster k = 2. Pusat
X2 -0,880 0,007 cluster awal dipilih secara acak dari data
X3 -0,851 -0,026 yang telah ditrasformasi menggunakan PCA.
X4 -0,751 -0,496 Penentuan pusat cluster awal dilakukan
secara trial dan error. Sehingga dipilih data
X5 0,191 -0,688
ke-5 dan data ke-36 sebagai berikut:
X6 0,356 0,791
X7 -0,694 0,091 Tabel 6. Pusat Cluster (c(0)) Untuk k = 2
Variabel
X8 -0,693 0,206 Cluster (ci,j)
PC1 PC2
Berdasarkan Tabel 4, dapat disimpulkan 1 1,892 0,634
bahwa korelasi variabel X1 terhadap PC1 2 1,381 -1,366
sebesar --0,504 dan terhadap PC2 sebesar
0,638. Karena korelasi variabel X1 terhadap c. Menghitung jarak Euclid data pengamatan
PC2 lebih besar maka variabel X1 tergabung dengan pusat cluster awal
dengan PC2. Korelasi variabel X2 terhadap Tabel 7. Pusat Cluster (c(0)) Untuk k = 2
PC1 sebesar -0,880 dan terhadap PC2 sebesar
Jarak Euclid
0,007. Karena korelasi variabel X2 terhadap Data
PC1 lebih besar maka variabel X2 tergabung Cluster 1 Cluster 2
dengan PC1 dan seterusnya sampai dengan 1 0,755 1,635
variabel X8.
2 0,731 1,801
f. Persamaan Principal Component
Persamaan principal component terbentuk 3 1,566 3,587
berdasarkan vektor eigen, maka diperoleh ... ... ...
persamaan sebagai berikut: 56 2,606 3,261
𝑃𝐶 = −0,266𝑍 − 0,464𝑍 − 0,499𝑍
− 0,393𝑍 + 0,101𝑍 d. Mengalokasikan data penelitian ke pusat
+ 0,188𝑍 − 0,420𝑍 cluster terdekat iterasi ke-1
− 0,366𝑍

Jurusan Matematika FMIPA Universitas Mulawarman 135


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

Mengalokasikan data pengamatan ke pusat Tabel 10. Hasil Pengelompokan K-Means


cluster terdekat iterasi ke-1 menggunakan Cluster terhadap PCA (lanjutan)
persamaan 8. Maka diperoleh bahwa cluster Clus Anggota Cluster
1 beranggotakan 23 kabupaten/kota. Ter
Sedangkan cluster 2 beranggotakan 33 Kode Kabupaten/Kota
kabupaten/kota. Murung Raya, Paser,
e. Menghitung pusat cluster baru berdasarkan Kutai Barat, Kutai
keanggotaan cluster. 48, 53, Timur, Penajam Paser
1 54, 55, Utara, Mahakam Ulu,
Tabel 8. Pusat Cluster Baru (c(1)) Untuk k = 2 dan 56 Bulungan, Tana Tidung,
Cluster Variabel Nunukan, dan Kota
(ci,j) PC1 PC2 Tarakan
1 0,761 1,358 Kubu Raya, Pontianak,
2 -0,485 -0,900 Kota Singkawang,
f. Menghitung jarak Euclid data pengamatan Kotawaringin Barat,
terhadap pusat cluster baru 12, 13, Kotawaringin Timur,
14, 15, Kapuas, Barito Selatan,
Tabel 9. Jarak Euclid Terhadap Pusat 16, 17, Barito Utara, Sukamara,
Cluster Baru (c(1)) Untuk k = 2 18, 19, Lamadau, Katingan,
Jarak Euclid 20, 21, Pulang Pisau, Gunung
23, 24, Mas, Barito Timur,
Data Cluster 1 Cluster 2 25, 26, Kota Palangka Raya,
1 1,194 2,076 28, 29, Tanah Laut, Kota Baru,
2 1,028 2,137 2 30, 31, Banjar, Barito Kuala,
32, 33, Tapin, Hulu Sungai
3 1,329 3,844
34, 35, Selatan, Hulu Sungai
... ... ... 36, 37, Tengah, Hulu Sungai
56 1,428 2,087 38, 39, Utara, Tabalong, Tanah
40, 41, Bumbu, Balangan, Kota
g. Mengalokasikan data penelitian ke pusat 44, 46, Banjarmasin, Kota
cluster terdekat iterasi ke-1 49, 50, Banjar Baru, Kutai
Mengalokasikan data pengamatan ke pusat 51, dan 52 Kartanegara, Berau,
cluster terdekat iterasi ke-2 menggunakan Kota Balikpapan, Kota
persamaan 8. Maka diperoleh bahwa cluster Samarinda, Kota
1 beranggotakan 24 kabupaten/kota, Bontang, dan Malinau
sedangkan cluster 32 beranggotakan 5
kabupaten/kota. i. Mengulang kembali dengan perhitungan yang
h. Menghitung pusat cluster baru sama untuk mendapatkan nilai k 3, 4 dan 5.
Pusat cluster baru ditentukan berdasarkan Anggota dari cluster yang terbentuk adalah
keanggotaan cluster hingga tidak ada lagi sebagai berikut:
cluster yang berpindah tempat. Diketahui Tabel 11. Anggota Cluster Yang Terbentuk
bahwa hasil alokasi data iterasi ke-6 sama cluster Anggota Cluster
seperti alokasi iterasi ke-5, di mana tidak
2 {(1,2,..,56),(12,13,…,52)
terdapat perubahan pada keanggotaan cluster
{(9,12,..,39),(13,28,..,51),(1,2,…,
atau tidak ada lagi data pengamatan yang 3
56)}
berpindah cluster. Sehingga pusat cluster
{(9,12,..,39),(49,50),(1,2,..,56),(1
baru ke-5 akan sama dengan pusat cluster 4
4,28,…,51)}
ke-6.
{(1,2,…,27),(14,42,…,56),(12,15,
5
Tabel 10. Hasil Pengelompokan K-Means …,39),(2,6,…,55),(13,28,…,51)}
Cluster terhadap PCA
4. Silhouette Coefficient (SC)
Clus Anggota Cluster Adapun tahapan-tahapan pada PCA adalah
Ter Kode Kabupaten/Kota sebagai berikut:
1, 2, 3, 4, Sambas, Bengkayang, a. Menghitung rata-rata jarak data ke-i dengan
5, 6, 7, 8, Landak, Mempawah, semua data yang berada pada cluster yang
9, 10, 11, Sanggau, Ketapang, sama dengan menggunakan persamaan:
1
22, 27, Sintang, Kapuas Hulu, 1
42, 43, Sekadau, Melawi, 𝑎 = 𝑑 ,
𝑁 −1
45, 47 Kayong Utara, Seruyun,

136 Jurusan Matematika FMIPA Universitas Mulawarman


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

× ( ) × ( )
= ∑ 𝑑 , 𝑆𝐶 = ( )
= [𝑑(1,2) + 𝑑(1,3) + ⋯ + 𝑑(1,56)] =
{( × , ) ( × , )}
( )
= 1,479
= 0,359
Dengan cara yang sama dihitung semua
Hasil validasi untuk 2 cluster berdasarkan
nilai ai untuk anggota dalam cluster 1
nilai SC global adalah sebesar 0,359
sampai dengan terakhir yaitu a56.
artinya pengelompokan secara keseluruhan
Begitupun pada cluster 2.
dapat dikatakan weak structure (struktur
b. Menghitung rata-rata jarak data ke-i
cluster yang lemah/buruk), artinya sedikit
dengan semua data yang berada pada
sekali kumpulan objek i yang berada dalam
cluster yang berbeda dengan menggunakan
cluster yang tepat dan sisanya bergabung
persamaan:
pada cluster yang tidak semestinya.
1 Dilakukan perhitungan SC seperti
𝑑 (2) = 𝑑 , langkah 1 sampai dengan langkah 5 untuk
𝑁
clustering dengan metode K-Means pada
= [𝑑(1,12) + 𝑑(1,13) + ⋯ + pembentukan 3 cluster, 4 cluster dan 5
𝑑(1,52)] cluster.
1 f. Menentukan nilai k optimal berdasarkan
= [1,661 + 6,384 + ⋯ + 1,769] nilai silhouette coefficient terbesar.
34
1 Peneliti membandingkan nilai SC Global
= [86,387]
34 dari hasil pembentukan 2, 3, 4 dan 5
= 2,541 cluster yang dapat dilihat pada Tabel
Selanjutnya dengan cara yang sama berikut ini:
dihitung semua nilai di untuk anggota
Tabel 12. Nilai SC Global
dalam cluster 1 sampai dengan terakhir
yaitu d56. Begitupun pada cluster 2. Jumlah Cluster SC
c. Menghitung nilai 𝑆𝐶 data ke-i dengan 2 0,359
menggunakan persamaan: 3 0,467
𝑏 −𝑎 4 0,540
𝑆𝐶 (1) = 5 0,445
𝑚𝑎𝑥{𝑏 , 𝑎 }
2,541 − 1,479
= Berdasarkan Tabel 12, dapat diketahui bahwa
𝑚𝑎𝑥{(2,451), (1,479)} nilai SC untuk evaluasi hasil pengelompokan data
= 0,418 indeks pembangunan manusia berdasarkan
Demikian seterusnya dengan cara yang variabel yang diduga sebagai penentu rendahnya
sama dihitung SC1(i) untuk i = 1, 2,…, 56. indeks pembangunan manusia di kabupaten/kota
d. Menghitung rata-rata nilai 𝑆𝐶 pada cluster di Pulau Kalimantan dengan metode K-Means
ke-p. Perhitungan nilai SC1 untuk cluster 1 Cluster dengan Principle Component Analyisis
adalah sebagai berikut: memiliki nilai SC yang berbeda-beda. Nilai SC
𝑆𝐶 (1) = ∑ ∈ 𝑆𝐶 (𝑖) yang terbesar adalah pengelompokan pada 4
cluster yaitu 0,540. Oleh karena itu, dapat
= 𝑆𝐶 (1) + 𝑆𝐶 (2) + ⋯ +
diputuskan bahwa pengelompokan yang paling
𝑆𝐶 (56) optimal pada pengelompokan kabupaten/kota di
= (0,418 + 0,446 + ⋯ + Pulau Kalimantan dengan metode K-Means
0,270) Cluster dengan Principle Component Analyisis
= 0,435 adalah 4 cluster. Oleh karena itu, dapat
Perhitungan nilai SC2 untuk cluster 2 diputuskan bahwa pengelompokan yang paling
adalah sebagai berikut: optimal pada pengelompokan kabupaten/kota di
Pulau Kalimantan dengan metode K-Means
𝑆𝐶 (1) = ∑ ∈ 𝑆𝐶 (𝑖) Cluster dengan Principle Component Analyisis
= 𝑆𝐶 (12) + 𝑆𝐶 (13) + ⋯ + adalah 4 cluster. Cluster 1 beranggotakan 26
kabupaten/kota yang terdiri dari kabupaten/kota
𝑆𝐶 (52)
Sekadau, Kubu Raya, Kotawaringin Barat,
= 0,253 + 0,318 + ⋯ + Kotawaringin Utara, Kapuas, Barito Selatan,
(−0,208) Barito Utara, Sukamara, Lamandau, Seruyun,
= 0,310 Katingan, Pulang Pisau, Gunung Mas, Barito
e. Menghitung nilai SC Global dengan Timur, Murung Raya, Tanah Laut, Kota Baru,
menggunakan persamaan: Banjar, Barito Kuala, Tapin, Hulu Sungai Selatan,
Hulu Sungai Tengah, Hulu Sungai Utara,

Jurusan Matematika FMIPA Universitas Mulawarman 137


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

Tabalong, Tanah Bumbu dan Balangan. Cluster 2 pengangguran terbuka dan jumlah tenaga
beranggotakan 3 kabupaten/kota yang terdiri dari kesehatan kabupaten/kota yang rendah jika
kabupaten/kota Pontianak, Kota Balikpapan dan dibandingkan dengan cluster 1, 2 dan 4. Cluster 4
Kota Samarinda . Cluster 3 beranggotakan 20 merupakan cluster di mana variabel tingkat
kabupaten/kota yang terdiri dari kabupaten/kota pengangguran terbuka lebih tinggi jika
Sambas, Bengkayang, Landak, Mempawah, dibandingkan dengan cluster 1, 2 dan 3. Hal ini
Sanggau, Ketapang, Sintang, Kapuas Hulu, berarti kabupaten/kota pada cluster 4 cenderung
Melawi, Kayong Utara, Paser, Kutai Barat, Kutai memiliki usia harapan hidup, harapan lama
Timur, Penajam Paser Utara, Mahakam Ulu, sekolah, rata-rata lama sekolah, pengeluaran
Malinau, Bulungan, Tana Tidung, Nunukan dan perkapita, laju pertumbuhan ekonomi, persentase
Kota Tarakan. Sedangkan Cluster 4 penduduk miskin, dan jumlah tenaga kesehatan
beranggotakan 7 kabupaten/kota yang terdiri dari kabupaten/kota yang rendah jika dibandingkan
kabupaten/kota Singkawang, Kota Palangka Raya, dengan cluster 1, 2 dan 3.
Kota Banjarmasin, Kota Banjar Baru, Kutai
Kartanegara, Berau dan Kota Bontang. Kesimpulan
1. Nilai Silhouette Coefficient untuk
Karakteristik Hasil Analisis Cluster pengelompokan kabupaten/kota di Pulau
Berdasarkan hasil pengelompokan 4 cluster, Kalimantan berdasarkan indikator indeks
dilakukan perhitungan nilai rata-rata variabel pembangunan manusia dengan
untuk melihat karakteristik dari masing-masing menggunakan algoritma K-Means Cluster
cluster. dengan Principle Component Analysis
menghasilkan 4 cluster dengan nilai sebesar
Tabel 13. Nilai rata-rata pada setiap cluster
0,540 yang menyatakan bahwa structure
Cluster ke-i
Variabel
1 2 3 4
cluster yang terbentuk pada pengelompokan
X1 68,80 73,91 71,88 72,44 ini adalah medium structure.
X2 12,42 14,68 12,45 13,79 2. Cluster optimal yang terbentuk pada
X3 8,00 10,44 7,84 9,98 pengelompokan kabupaten/kota di Pulau
X4 10.834 13.384 8.380 13.243 Kalimantan berdasarkan indikator indeks
X5 0,19 -0,04 -0,23 -0,07 pembangunan manusia dengan
X6 4,77 4,01 8,25 4,75 menggunakan algoritma K-Means Cluster
X7 4,05 6,98 4,67 9,87 dengan Principle Component Analysis
X8 794 3.762 1.160 1.620 adalah sebanyak 4 cluster yaitu cluster 1,
Berdasarkan Tabel 13, dapat diketahui bahwa cluster 2, cluster 3 dan cluster 4. Cluster 1
Cluster 1 merupakan cluster di mana variabel laju beranggotakan 24 kabupaten/kota, cluster 2
pertumbuhan ekonomi lebih tinggi jika beranggotakan 3 kabupaten/kota, cluster 3
dibandingkan dengan cluster 2, 3 dan 4. Hal ini beranggotakan 20 kabupaten/kota dan
berarti kabupaten/kota pada cluster 1 cenderung cluster 4 beranggotakan 7 kabupaten/kota.
memiliki usia harapan hidup, harapan lama
sekolah, rata-rata lama sekolah, pengeluaran Daftar Pustaka
perkapita, persentase penduduk miskin, tingkat Alwi, W. & Hasrul, M. (2018). Analisis Cluster
pengangguran terbuka dan jumlah tenaga untuk Pengelompokan Kabupaten/Kota
kesehatan kabupaten/kota yang rendah jika di Provinsi Sulawesi Selatan Berdasarkan
dibandingkan dengan cluster 2, 3 dan 4.Cluster 2 Indikator Kesejahteraan Rakyat. Jurnal
merupakan cluster di mana variabel usia harapan MSA 35-41.
hidup, harapan lama sekolah, rata-rata lama Badan Pusat Statistik. (2020). Indeks
sekolah, pengeluaran perkapita dan jumlah tenaga Pembangunan Manusia 2020. Indonesia:
kesehatan kabupaten/kota yang lebih tinggi Badan Pusat Statistika Republik
dibandingkan dengan cluster 1, 3 dan 4. Hal ini Indonesia.
berarti kabupaten/kota pada cluster 2 cenderung Ediyanto, M.N. (2013). Pengklasifikasian
memiliki laju pertumbuhan ekonomi, persentase Karakteristik dengan Metode K-Means
penduduk miskin dan tingkat pengangguran Cluster Analysis. Buletin Ilmiah Mat,
terbuka yang rendah jika dibandingkan dengan Stat, dan terapannya, 133-136.
cluster 1, 3 dan 4. Cluster 3 merupakan cluster di Furqon, M.T., & Muflikhah, L. (2016). Clustering
mana variabel persentase penduduk miskin lebih the Potential Risk of Tsunami Using
tinggi jika dibandingkan dengan cluster 1, 2 dan Density-Based Spatial Clustering of
4. Hal ini berarti kabupaten/kota pada cluster 3 Application With Noise (Dbscan). Jurnal
cenderung memiliki usia harapan hidup, harapan of Enviromental Engineering and
lama sekolah, rata-rata lama sekolah, pengeluaran Sustainable Technology 1-8.
perkapita, laju pertumbuhan ekonomi, tingkat

138 Jurusan Matematika FMIPA Universitas Mulawarman


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

Hair, J. F., Black, W. C., Babin, B. J. &


Anderson, R. E. (2014). Multivariate
Data Analysis 7th Edition. New York:
Pearson Education, Inc.
Han, J., Kamber, M. & Pei, J. (2012). Data
Mining Concepts and Techniques Third
Edition. New York: Elsevier.
Johnson, R. A. and Wichern, D. W. (2007).
Applied Multivariate Statistical Analysis.
New Jersey: Pearson Prentice Hall.
Kaufman, E., & Rousseeuw, P.J. (1990). Finding
Groups in Data. New York: John Wiley
& Sons.
Muningsih, E., & Kiswati, S. (2015). Penerapan
Metode K-Means untuk Clustering
Produk Online Shop dalam Penentuan
Stok Barang. Jurnal Bianglala
Informatika 10-17.
Muningsih, E., Hasan, N., & Sulistyo, G.B.
(2020). Penerapan Metode Principal
Component Analysis (PCA) untuk
Clustering Data Kunjungan Wisatawan
Mancanegara ke Indonesia. Jurnal
Bianglala Informatika 58-62.
Prasetyo, E. (2012). Data Mining Konsep dan
Aplikasi Menggunakan MATLAB.
Yogyakarta: Andi.
Smith I.L., & Lindsay. (2002). A Tutorial on
Principal Component Analysis. New
York: Cornell University.
Supranto, J. (2010). Analisis Multivariate Arti dan
Interprestasi, cet. Kedua. Jakarta: Rineka
Cipta.
Tan, P., Steinbach, M. & Kumar, V. (2006).
Introduction to Data Mining. New York:
Pearson Education,Inc.
Talakua, M.W., Leleury, Z.A., & Talluta, A.W.
(2017). Analisis Cluster dengan
Menggunakan Metode K-Means untuk
Pengelompokan Kabupaten/Kota di
Provinsi Maluku berdasarkan Indikator
Indeks Pembangunan Manusia tahun
2014. Jurnal Ilmu Matematika dan
Terapan 119-127.
Wahono, R.S. (2015). Algoritma Cluster Dinamik
untuk Optimasi Cluster pada Algoritma
K-Means dalam Pemetaan Nasabah
Potensial. Journal of Intelligent Systems
33-36.
Windarjono, A. (2015). Analisis Multivariat
Terapan dengan Program SPSS, AMOS,
dan SMARTPLS Edisi Kedua.
Yogyakarta: UPM STIM YKPN.
Xu, R. And Donald, C. W. (2009). Clustering.
Hoboken: Wiley.

Jurusan Matematika FMIPA Universitas Mulawarman 139


p-ISSN 2085-7829
Jurnal EKSPONENSIAL Volume 13, Nomor 2, Nopember 2022 e-ISSN 2798-3455

140 Jurusan Matematika FMIPA Universitas Mulawarman

Anda mungkin juga menyukai