(STATISTIK EKONOMI)
DOSEN PENGAMPU:
DISUSUN OLEH:
Nim : 7163342039
Kelas : C Semester II
FAKULTAS EKONOMI
2017
Sukim
Dosen Sekolah Tinggi Ilmu Statistik
Abstract
Cluster analysis is a multivariate analysis technique used to classify objects such that
the objects in a cluster are very similar and the objects in different clusters are quite different.
This study will discuss the non-hierarchical clustering methods. The methods are C-Means
Cluster and Fuzzy C-Means Cluster. These methods are suitable for large data and
continuous variables. This study would also present the application of the methods on the
case of village grouping according to the underdevelopment status in two regions
of level II (Kota Metro and Kabupaten Lampung Timur) in Lampung Province. The unit of
observations in this study are 257 villages in Kota Metro (22 villages) and Kabupaten
Lampung Timur in Lampung Province obtained from the Village Potential Statistics (Podes -
Potensi Desa) 2008.
The results show that the optimal cluster in Kota Lampung data is 4, with a
minimum value of the Fukuyama-Sugeno validity index is at -45.4649. As for the data of
Kabupaten Lampung Timur, the optimum number of clusters is 13, with a minimum value
of the Fukuyama-Sugeno validity index is at 196.9629.
I. PENDAHULUAN
Analisis cluster (cluster analysis) adalah salah satu analisis peubah ganda (multivariate
analysis) yang digunakan untuk mengelompokkan objek-objek sedemikian rupa sehingga
objek dalam satu cluster yang sangat mirip dan objek di berbagai cluster cukup berbeda.
Analisis cluster banyak digunakan dalam penelitian-penelitian di bidang sosial, bidang
kesehatan, bidang marketing, bidang akademik, dan bidang kewilayahan.
Metode analisis cluster (clustering methods) dibedakan menjadi dua yaitu metode
hierarki (hierarchical clustering methods) dan metode tak berhierarki (non hierarchical
clustering methods). Metode hierarki dibedakan menjadi dua, yaitu metode penggabungan
(agglomerative/bottom up) dan metode pemecahan (devisive/ topdown). Prosedur yang
digunakan dalam metode hierarki adalah prosedur pautan tunggal (single linkage), pautan
lengkap (complete linkage), dan pautan rata-rata (average linkage). Hasil clustering metode
berhierarki secara umum membentuk diagram pohon (tree diagram) atau dendrogram yang
menggambarkan pengelompokkan objek berdasarkan jarak. Metode tak berhierarki disebut
juga metode partisi (partitional methods). Metode tak berhierarki yang banyak digunakan
adalah metode C-Means Cluster.
Pengelompokkan dengan metode ini mempertimbangkan derajat keanggotaan
himpunan fuzzy sebagai dasar pembobotan. Pada penelitian ini dibahas metode C-Means
Cluster (CM) dan Fuzzy C-Means Cluster (FCM). Dua metode ini cocok digunakan untuk data
berukuran besar dan memiliki tipe peubah kontinu. Penelitian sebelumnya di bidang
kewilayahan telah dilakukan oleh Sarpono (2009) membahas tentang pengelompokkan desa
tertinggal menggunakan metode regresi krigging. Pengelompokkan wilayah kecamatan
menurut partisipasi sekolah dengan metode FCM pernah dilakukan oleh Pravitasari
(2008).Kemudian dibandingkan hasil pengelompokkan dengan metode CM dan metode FCM.
Pengelompokkan desa menurut status (desa tertinggal dan desa tidak tertinggal) seringkali
menimbulkan kecemburuan antar daerah tingkat II (kabupaten/kota) di seluruh Indonesia. Pada
kenyataannya batasan status desa tertinggal dan desa tidak tertinggal sangat tipis (halus) dan
samar, sehingga penerapan metode CM yang dengan tegas mempartisi suatu kelompok
menjadi kurang tepat digunakan. Metode FCM diharapkan dapat mengatasi permasalahan
tersebut. Pengelompokkan FCM memerlukan indeks validitas untuk mengetahui banyak
cluster optimum yang terbentuk. Indeks validitas yang digunakan dalam penelitian ini adalah
Indeks Fukuyama-Sugeno (Halkidi dkk, 2010). Pengelompokkan dianggap optimum apabila
menghasilkan cluster yang mempunyai variansi minimum di dalam cluster dan mempunyai
variansi yang maksimum antar cluster.
II. METODOLOGI
mulai
Mengkaji metode
clustering
CM dan FCM
data
Cek kelengkapan
data
Standardisasi data
Mnegelompokkan
Dengan metode
CM dan FCM
Membandingkan: Hasil
pengelompokkan
dengan C = 2,3,4,C optimum :
· Varians within
· Varians between
· Kompleksitas waktu
Pembahasan
Kesimpulan dan
saran
selesai
uik m xk
c. Menghitung fuzzy centroid cluster (Vi) dengan persamaan vi k 1N
uik m
k 1
2 1
C D(x , v )
m1
k i
d. Memperbaharui anggota matriks U dengan persamaan u D(x , v
ik )
j 1 k j
e. Membandingkan nilai keanggotaan dalam matriks U, jika sudah tidak banyak
mengalami perubahan berarti konvergen dan kondisi keanggotaannya sudah optimum
nilai mutlak dari (Uk+1 – Uk) < threshold yang ditetapkan). Iterasi dihentikan dan
didapatkan hasil pengelompokkan. Jika belum terpenuhi kondisi optimum kembali ke
langkah 6c.
7. Melakukan perhitungan indeks validitas clustering. Ada beberapa indeks validitas yang
digunakan. Pada penelitian ini digunakan indeks validitas Fukuyama-Sugeno karena indeks
ini dapat menunjukkan compactness dalam cluster dan distances of clasters representative
(Halkidi dkk., 2000).
8. Melakukan interpretasi hasil penerapan metode FCM pada kasus data Podes 2008 Kota
Metro dan Kabupaten Lampung Timur di Provinsi Lampung.
Untuk menunjukkan jarak minimal antara objek dan pusat cluster dituliskan kembali
fungsi objektif sebagai berikut:
C
J X ;U ,V min 1 2
xi x j 2
ekuivalen dengan
K
K1 ,...,KC c 1 c iK , jK
c c
C
J X ;U ,V min xk v i 2
dimana vi 1 x j adalah rata-rata dari cluster
K1 ,...,KC c 1 k n K jK
C c C
xk vi
2
K
1 (xk xj)
k K c k K c c jKc
1
2 ( xk x j ), ( xk xs )
Kc jK c sKc
1
xk , xk xk , xs xk , x j x
j
,x
s
2
Kc k K c k , sK c k , jK c j ,sKc
1
xk , xk xk ,x
j
2
Kc k K c k , jKc
1 1
2 xk x j 2
2 Kc k , jKc
Untuk mengetahui bahwa persamaan fungsi objektif optimum (mempunyai nilai ekstrim),
adalah dengan cara melakukan derivative pertama terhadap vi dan disamakan dengan nol
sebagai berikut :
dy
2
x v 0
dv
k i
i k Kc
dy (x
k vi )T (xk vi ) 0
dv
i k K
dy 2
( xk ) 2( vi ) ( xk ) K ( vi ) 0
2
dv
i k K k K
2 ( xk ) 2 K ( vi ) 0
k K
2( ( xk ) K ( vi )) 0
k K
( xk ) Kvi 0
k K
1 ( xk ) vi
, yang merupakan rata-rata (mean) dari objek.
K
k K
Sedangkan untuk menunjukkan bahwa nilai ekstrim fungsi adalah minimum yaitu dengan
cara melihat tanda yang positif ( > 0 ) dari turunan (derivatif) kedua sebagai berikut:
d2y dy
2 xk vi ( 2 ( xk ) 2 Kvi ) 2K
2
dv
k K dv k K
C
i i
Nilai derivatif kedua dari fungsi di atas adalah 2K yang lebih besar dari 0, sehingga
nilai ekstrim yang dihasilkan adalah minimum.
dimensi p (banyaknya variabel) dan banyaknya cluster (C) yang ingin dibentuk. Langkah
berikutnya dilakukan inisialisasi pusat cluster ( vi(0) ) secara random, v1(0) ,..., vC(0) . Kemudian
dilakukan proses iterasi sampai mencapai konvergen dengan mengalokasikan tiap data set ke
(t+1) (t+1)
pusat cluster terdekat, sehingga membentuk cluster K1 ,…,KC dengan
X K
s C
( t 1) X s v(t) 2 X v(t) 2 , j 1,...,C dan menghitung pusat cluster baru dengan
i j
X .
persamaan vi ( t 1)
1
( t 1)
s
Ki sKi
Banyaknya
Cluster C
tidak
Menghitung Pusat
Cluster
Mengitung Jarak
Objek ke Pusat
Cluster
Alokasikan ke
Cluster Tidak ada Objek
y
a selesai
berdasarkan jarak berpindah Cluster?
minimum
cluster, Vi.), yaitu kondisi terpenuhinya suatu threshold ( vi( t ) vi( t 1) ).
J X , U , V (uik ) D ( xk , vi )2
k 1 i1
Begin
For k=1:N
For i=1:C
If d=min{ D ( x , v )2 }
ki
uik = 1
C kali N kali
Else
uik = 0
Endif
2
u *D(x,v)
ik Ki
End
Variabel yang dominan dalam algoritma CM adalah C dan N, sehingga running timenya
adalah O(NC). Variabel T banyaknya iterasi jelas berbanding lurus dengan running time
algoritma CM maka dapat dituliskan menjadi O(NCT). Hasil menggunakan data Podes 2008
Kota Metro dan Kabupaten Lampung Timur dengan menetapkan N dan T konstan untuk
mengevaluasi running time CM terhadap banyaknya cluster didapatkan data sepeerti Tabel 1.
Tabel 1. Running time Algoritma CM data Podes 2008 Kota Metro dan Kabupaten
Lampung Timur
Waktu (detik) Iterasi
Banyak Cluster Metro Lampung Metro Lampung
Timur Timur
2 0.037420 0.048745 2 2
3 0.029578 0.034817 2 2
4 0.026115 0.047218 2 2
5 0.027023 0.061226 2 2
6 0.040287 0.074604 2 2
7 0.040635 0.066479 2 2
8 0.028714 0.074693 2 2
9 0.041965 0.077199 2 2
10 0.098525 0.089858 2 2
Metode Fuzzy C-Means Cluster
Fuzzy clustering merupakan salah satu teknik untuk menentukan cluster optimum dalam
suatu ruang vektor yang didasarkan pada bentuk normal Euclidian untuk jarak antar vektor
[persamaan 2.4]. Konsep dasar FCM, menentukan pusat cluster (vi) yang akan menandai lokasi
rata-rata untuk tiap cluster [persamaan 2.8]. Tiap titik data mempunyai derajat keanggotaan ke
tiap cluster (uik) [persamaan 2.7]. Dengan cara mengupdate pusat cluster dan derajat
keanggotaan tiap titik data secara iteratif, akan didapat pusat cluster yang “tepat”. Iterasi ini
didasarkan pada minimisasi fungsi objektif (J) yang menggambarkan jarak titik data ke pusat
cluster dengan bobot derajat keanggotaan titik data tersebut.
Mencari nilai optimum uik dan vi dilakukan dengan menurunkan fungsi objektif secara
J X , U , V (uik ) m D ( xk , vi )2
k 1 i1
N
u
ik 0, i , dan V v1 , v2 , , vC R p
k 1
2 2 T 2
Di mana D(xk,vi) = ||xk - vi|| = (xk – vi) (xk – vi) = (xk – vi) jarak tiap data ke-k ke pusat
cluster ke-i dan k merupakan lagrange multiplier, dengan menggunakan teori pengganda
lagrange, diperoleh fungsi baru sebagai berikut:
N
N C
C
1 uik (dari persamaan 4.1) sebagai fungsi kendala, sehingga turunan pertama persamaan
i1
Sedangkan mencari nilai optimum vi dilakukan penurunan sebagai berikut:
J ( X , U , V ) 0
vi
C N N C
uik m D ( xk , vi ) 2 k uik 1
i 1 k 1 k 1 i 1 0
vi
C N 2 N C
u
ik
m xk vi
k uik 1
i 1 k 1 k 1 i 1 0
vi
N
uikm xk vi 2
0
k 1
vi
N
uikm xk vi T xk vi
k 1 0
vi k 1
N N N (vi2 ) 0
uikm (xk2 ) 2 uikm (xk )vi uikm
v
i k 1 k 1 k 1
N N
J X , U , V (uik ) m D ( xk , vi )2
k 1 i1
k i
D(x , v )
k j
m
u * D ( x , v )2
ik ki
End
Hasil dari proses penghitungan running time FCM dengan data Podes 2008 Kota Metro
dan Kabupaten Lampung Timur ditunjukkan Tabel 2 dan Gambar 4, dan dapat dikatakan
bahwa running timenya tidak linear dan mendekati kuadratik.
Tabel 2. Running time Algoritma FCM data Podes 2008 Kota Metro dan Kabupaten
Lampung Timur
Waktu (detik) Iterasi
Banyak Cluster Lampung Lampung
Metro Metro
Timur Timur
2 0.406585 0.636383 10 10
3 0.248894 1.089945 10 10
4 0.258251 2.973474 10 10
5 0.269117 4.550975 10 10
6 0.339287 4.555440 10 10
7 0.310426 4.223784 10 10
8 0.474275 5.417068 10 10
9 0.361569 4.888947 10 10
10 0.321329 5.053932 10 10
Penerapan Metode C-Means dan Fuzzy C-Means Cluster pada Pengelompokkan desa
menurut status ketertinggalan
Penerapan metode CM dan FCM pada pengelompokkan desa menurut status
ketertinggalan digunakan data sekunder hasil pendataan Podes 2008 Provinsi Lampung di dua
daerah tingkat II, yaitu kota Metro dan Kabupaten Lampung Timur. Perangkat lunak yang
digunakan adalah MATLAB versi 7.8.0.347 (2009a).
Std.
N Minimum Maximum Mean Deviation
Jumlah penduduk (x1) 22 2094 14441 6.3119E3 3397.86019
Bantaran sungai (x2) 22 0 0 0 0
Kumuh (x3) 22 0 100 4.5455 21.32007
Rmt berlangganan telp kabel
22 0 2362 3.9595E2 569.39069
(x4)
Pendidikan (x5) 22 4 28 9.1818 5.38637
Kesehatan (x6) 22 2 33 9.8182 6.35937
Tenaga kesehatan (x7) 22 3 25 7.8636 4.59083
Koperasi (x8) 22 0 19 4.9545 4.39130
Rmt pertanian (x9) 22 5 85 48.0455 26.74657
Rtm per desa (x10) 22 103 918 338.55 215.067
Pelanggan listrik (x11) 22 510 3178 1.3970E3 752.84821
Askeskin (x12) 22 74 816 3.0718E2 182.70081
Sktm (x13) 22 20 388 1.3018E2 91.75207
Luas desa (x14) 22 119 772 3.1236E2 152.22306
Rumah permanen (x15) 22 305 2284 1.0040E3 539.59010
Valid N (listwise) 22
Output dendrogram seperti pada Gambar 6 dapat ditentukan banyaknya jumlah cluster dengan
anggota tertentu. Masing-masing cluster mempunyai anggota sebanyak 3, 4, 1, dan 14
kelurahan. Cluster pertama terdiri dari 3 kelurahan yaitu Iringmulyo, Imopuro, dan Hadimulyo
Barat. Cluster kedua sebanyak 4 kelurahan (Ganjarasri, Hadimulyo Timur, Banjarsari, dan
Karangrejo).
Cluster ketiga hanya satu kelurahan yaitu Metro. Sedangkan cluster keempat terdiri dari 14
kelurahan yaitu Sumbersari, Rejomulyo, Margodadi, Margorejo, Mulyojati, Mulyosari,
Ganjaragung, Tejosari, Tejoagung, Yosorejo, Yosodadi, Yosomulyo, Purwosari, dan
Purwoasri.
Tabel 4. Hasil Pengelompokkan 22 Kelurahan di Kota Metro menggunakan metode CM
dengan jumlah C=4
Anggota Objek ke-
No Nama Kelurahan
C1 C2 C3 C4
1 Sumbersari 0 0 0 1
2 Rejomulyo 0 0 0 1
3 Margodadi 0 0 0 1
4 Margorejo 0 0 0 1
5 Mulyojati 0 0 0 1
6 Mulyosari 0 0 0 1
7 Ganjaragung 0 0 0 1
8 Tejosari 0 0 0 1
9 Tejoagung 0 0 0 1
10 Yosorejo 0 0 0 1
11 Yosodadi 0 0 0 1
12 Yosomulyo 0 0 0 1
13 Purwosari 0 0 0 1
14 Purwoasri 0 0 0 1
15 Metro 0 0 1 0
16 Ganjarasri 0 1 0 0
17 Hadimulyo Timur 0 1 0 0
18 Banjarsari 0 1 0 0
19 Karangrejo 0 1 0 0
20 Iringmulyo 1 0 0 0
21 Imopuro 1 0 0 0
22 Hadimulyo Barat 1 0 0 0
Karakteristik kelurahan yang masuk cluster pertama antara lain memiliki rata-rata
jumlah penduduk sebanyak 11.264 jiwa, fasilitas pendidikan sebanyak 11 unit, fasilitas
kesehatan sebanyak 10 unit, dan tenaga kesehatan sebanyak 8 orang. Anggota cluster kedua
memiliki karakteristik rata-rata jumlah penduduk, fasilitas pendidikan, fasilitas kesehatan, dan
tenaga kesehatan berturut-turut sebanyak 7.376 jiwa, 10 unit, 11 unit, dan 7 orang. Cluster
ketiga hanya satu kelurahan yaitu kelurahan Metro maka karakteristiknya juga karakteristik
yang dimiliki oleh kelurahan Metro sendiri antara lain jumlah penduduk sebanyak 14.441 jiwa,
fasilitas pendidikan sebanyak 28 unit, fasilitas kesehatan sebanyak 33 unit, dan tenaga
kesehatan sebanyak 25 orang. Karakteristik anggota cluster keempat antara lain memiliki rata-
rata jumlah penduduk sebanyak 4.367 jiwa, fasilitas pendidikan sebanyak 8 unit, fasilitas
kesehatan 8 unit, dan tenaga kesehatan sebanyak 7 orang.
Penerapan Metode Fuzzy C-Means Cluster pada Pengelompokkan desa menurut status
ketertinggalan di Kota Metro
Dari dendrogram di atas banyaknya cluster optimum adalah 3. Sebagai alternatif dicoba
untuk C=2, C=3, C=4, C=5, dan C=6 sebagai masukan FCM. Hasil percobaan menunjukkan
bahwa C=4 merupakan jumlah cluster optimum berdasarkan rata-rata nilai indeks validitas
Fukuyama-Sugeno yang minimal sebagaimana disajikan pada Tabel 4.
Tabel 5. Rata-rata Iterasi Konvergensi dan Indeks Validitas Hasil Pengelompokkan C=2
s.d. C=6 sebanyak 10 kali Running
Banyaknya Indeks
Iterasi
Cluster Validitas FS
2 23.0 72.5724
3 22.5 -15.7903
4 38.7 -45.4649
5 108.3 -43.6523
6 76.6 -34.5996
hasil tersebut, banyaknya cluster yang dianggap optimum pada kasus ini adalah empat.
Tabel 5 menunjukkan bahwa pengelompokkan kelurahan di Kota Metro mencapai optimum
dengan jumlah cluster empat, di mana rata-rata iterasi 38,7 dan nilai indeks validitas
Fukuyama-Sugeno pada lembah pertama minimum, sebesar -45.4649 (Gan dkk, 2007).Ilustrasi
hasil pengelompokkan dengan banyaknya cluster empat ditunjukkan pada Gambar 8(a).
Cluster pertama ditunjukkan dengan plot warna merah, cluster kedua dengan plot warna biru
muda, cluster ketiga dengan plot warna hijau, dan cluster keempat dengan warna ungu. Plot
lingkaran kecil menunjukkan objek (data), plot segi empat menunjukkan pusat cluster.
Sedangkan Gambar 8(b) menunjukkan bahwa fungsi objektif pada pengelompokkan dengan
empat cluster mencapai kondisi konvergen pada iterasi ke-45.
Pengelompokkan kelurahan menurut status ketertinggalan dengan jumlah
cluster 4 (b) dan konvergen pada iterasi ke-45
Cluster pertama (plot warna merah) terdiri dari empat kelurahan yaitu Iringmulyo,
Metro, Imopuro, dan Hadimulyo Barat yang memiliki kemiripan karakteristik antara lain
jumlah penduduk di atas 9.000 jiwa, fasilitas pendidikan di atas 9 unit, dan fasilitas kesehatan
di atas 13 unit. Cluster kedua (plot warna biru) terdiri dari empat kelurahan yaitu Ganjarasri,
Hadimulyo Timur, Banjarsari, dan Karangrejo. Cluster ketiga (plot warna hijau) terdiri dari
enam kelurahan yaitu Mulyojati, Ganjaragung, Tejoagung, Yosorejo, Yosodadi, dan
Yosomulyo. Sedangkan cluster keempat (plot warna ungu) terdiri dari delapan kelurahan yaitu
Sumbersari, Rejomulyo, Margodadi, Margorejo, Mulyosari, Tejosari, Purwosari, dan
Purwoasri. Hasil pengelompokkan dengan jumlah C=4 berdasarkan matriks keanggotaan U,
seperti pada Tabel 6.
Tabel 6. Derajat Keanggotaan Hasil pengelompokkan dengan jumlah C=4
Derajat Keanggotaan ke-
No Kelurahan
C1 C2 C3 C4
1 Sumbersari 0.030342 0.098435 0.162529 0.708694
2 Rejomulyo 0.044388 0.307428 0.312149 0.336034
3 Margodadi 0.023281 0.068991 0.120378 0.787350
4 Margorejo 0.014927 0.043333 0.096305 0.845435
5 Mulyojati 0.065846 0.207097 0.453679 0.273377
6 Mulyosari 0.015600 0.050854 0.102252 0.831294
7 Ganjaragung 0.054328 0.251111 0.451360 0.243200
8 Ganjarasri 0.137546 0.444688 0.310112 0.107654
9 Tejosari 0.021692 0.079007 0.130335 0.768966
10 Tejoagung 0.091602 0.167103 0.431845 0.309450
11 Iringmulyo 0.723234 0.123608 0.108344 0.044814
12 Yosorejo 0.217123 0.216264 0.357390 0.209223
13 Yosodadi 0.061680 0.205291 0.518944 0.214085
14 Metro 0.457187 0.207346 0.192301 0.143166
15 Imopuro 0.796094 0.088368 0.076019 0.039519
16 Hadimulyo Barat 0.464535 0.201562 0.211906 0.121997
17 Hadimulyo Timur 0.058972 0.686182 0.178417 0.076429
18 Yosomulyo 0.100463 0.283412 0.428209 0.187915
19 Banjarsari 0.117547 0.540397 0.209822 0.132233
20 Purwosari 0.034420 0.104520 0.208126 0.652934
21 Purwoasri 0.034446 0.104932 0.207188 0.653434
22 Karangrejo 0.094952 0.425875 0.258955 0.220218
Running time rata-rata terhadap banyaknya cluster algoritma CM dan FCM data Podes
2008 Kota Metro ditunjukkan dalam Tabel 7. dan Gambar 8. Berdasarkan plot grafik dalam
Gambar 9. running time rata-rata baik algoritma CM maupun FCM terlihat cenderung tidak
linear, berbeda dengan pendekatan empiris yang memperlihatkan perbedaan running time
2
antara algoritma CM yang O(NCT) dengan FCM yang O(NC T).
Tabel 7. Running time Algoritma CM dan FCM data Podes 2008 Kota Metro
Waktu (detik) Iterasi
Banyak Cluster
CM FCM CM FCM
2 0.037420 0.406585 2 10
3 0.029578 0.248894 2 10
4 0.026115 0.258251 2 10
5 0.027023 0.269117 2 10
6 0.040287 0.339287 2 10
7 0.040635 0.310426 2 10
8 0.028714 0.474275 2 10
9 0.041965 0.361569 2 10
10 0.098525 0.321329 2 10
desa (x15) mempunyai nilai jangkauan yang paling tinggi ( 20.220) sedangkan variabel jumlah
penduduk (x1) mempunyai nilai standar deviasi yang paling tinggi (2.076,397).
Tabel 9. Statistik Deskriptif Desa di Kabupaten Lampung Timur Hasil Podes 2008
Hasil pengelompokan dengan 2 sampai 13 cluster untuk metode CM pada data Kabupaten
Lampung Timur dapat dilihat pada Tabel 10. Berdasarkan Tabel 10 dapat dijelaskan bahwa
mulai C=5, pusat cluster mulai terpengaruh dengan objek yang outlier. Bahkan mulai C=8
pengaruh outlier semakin bertambah. Hal ini ditandai dengan adanya cluster yang hanya
memiliki satu anggota.
Tabel 10. Hasil pengelompokkan metode CM Kabupaten Lampung Timur.
Banyaknya Distribusi Anggota Tiap Cluster
Cluster C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13
Nc 215 42
C=2
% 83.66 16.34
Nc 19 75 163
C=3
% 7.39 29.18 63.42
Nc 163 73 9 12
C=4
% 63.42 28.40 3.50 4.67
Nc 15 90 1 113 38
C=5
% 5.84 35.02 0.39 43.97 14.79
Nc 14 46 89 1 103 4
C=6
% 5.45 17.90 34.63 0.39 40.08 1.56
Nc 11 1 45 10 96 28 66
C=7
% 4.28 0.39 17.51 3.89 37.35 10.89 25.68
Nc 54 18 1 4 17 136 26 1
C=8
% 21.01 7.00 0.39 1.56 6.61 52.92 10.12 0.39
Nc 75 86 5 14 1 28 15 9 24
C=9
% 29.18 33.46 1.95 5.45 0.39 10.89 5.84 3.50 9.34
Nc 1 8 36 71 72 1 10 23 3 32
C=10
% 0.39 3.11 14.01 27.63 28.02 0.39 3.89 8.95 1.17 12.45
Nc 1 29 9 3 7 1 69 71 24 28 15
C=11
% 0.39 11.28 3.50 1.17 2.72 0.39 26.85 27.63 9.34 10.89 5.84
Nc 28 56 1 9 28 10 1 10 14 53 22 25
C=12
% 10.89 21.79 0.39 3.50 10.89 3.89 0.39 3.89 5.45 20.62 8.56 9.73
Nc 1 17 13 23 14 21 10 23 1 67 8 58 1
C=13 % 0.39 6.61 5.06 8.95 5.45 8.17 3.89 8.95 0.39 26.07 3.11 22.57 0.39
Penerapan Metode Fuzzy C-Means Cluster pada Pengelompokkan desa menurut status
ketertinggalan di Kabupaten Lampung Timur
Gambar 11 memberikan ilustrasi pengelompokkan desa menurut status ketertinggalan di
Kabupaten Lampung Timur dengan jumlah kelompok enam (C=6) ditunjukkan dalam (b) dan
konvergensi fungsi objektif tercapai pada iterasi ke-447 ditunjukkan dalam (a). Jumlah
kelompok optimum pada pengelompokkan desa di Kabupaten Lampung Timur seperti
ditunjukkan pada Tabel 11. di mana banyaknya kelompok enam, rata-rata iterasi konvergensi
fungsi objektif 447,5 dan indeks validitas Fukuyama-Sugeno mencapai nilai minimum
371,320580. Berdasarkan Tabel 8. pengelompokkan desa di Kabupaten Lampung Timur
dibentuk enam cluster. Desa anggota masing-masing cluster disajikan pada Lampiran 3.
Gambar 11. Plot pengelompokkan desa menurut status ketertinggalan dengan jumlah
cluster enam (C=6)
Tabel 11. memperlihatkan running time algoritma CM maupun algoritma FCM. Percobaan
dilakukan sepuluh kali running untuk jumlah cluster mulai dua (C=2) sampai dengan sepuluh
(C=10). Plot running time berdasar banyaknya cluster disajikan dalam Gambar 11.
Berdasarkan plot tersebut dapat diketahui bahwa running time CM linear terhadap banyaknya
cluster, sedangkan running time FCM cenderung kuadratik terhadap banyaknya cluster.
Tabel 11. Hasil 10 kali Running untuk C=2 sampai C=6 dan maksimal Iterasi=500
Indeks
C= Iterasi Obj Fct Validitas FS
Tabel 12. Running time CM dan FCM Data Podes 2008 Kabupaten Lampung Timur
Waktu (detik) Iterasi
Banyak Cluster
CM FCM CM FCM
2 0.048745 0.636383 2 10
3 0.034817 1.089945 2 10
4 0.047218 2.973474 2 10
5 0.061226 4.550975 2 10
6 0.074604 4.555440 2 10
7 0.066479 4.223784 2 10
8 0.074693 5.417068 2 10
9 0.077199 4.888947 2 10
10 0.089858 5.053932 2 10
Tabel 13. Indeks Validitas Fukuyama-Sugeno untuk C=2 sampai dengan C=20
Indeks Indeks
Banyaknya Banyaknya
Fukuyama- Fukuyama-
Cluster Cluster
Sugeno Sugeno
2 1526.1 11 199.4
3 898.1 12 202.0
4 625.4 13 197.0
5 466.1 14 201.2
6 371.1 15 207.8
7 307.3 16 210.1
8 260.5 17 225.2
9 236.9 18 234.3
10 216.1 19 240.2
11 199.4 20 263.1
Berdasarkan Tabel 14. hasil pengelompokkan 257 desa di Kabupaten Lampung Timur ke
dalam 13 cluster, terlihat bahwa metode FCM lebih kokoh terhadap objek pencilan dalam
mempertahankan anggota cluster daripada metode CM. Hal ini ditunjukkan oleh cluster yang
hanya mempunyai satu anggota. Pada metode FCM hanya pada C9, sedangkan pada CM
terdapaat pada C1, C9, dan C13. Menurut Loureiro (2004) cluster dengan ukuran kecil
dipandang sebagai objek outlier (pencilan).
Tabel 14. Hasil Pengelompokkan dengan 13 cluster untuk metode CM dan FCM
Metode CM FCM
Cluster Nc % Nc %
C1 1 0.39 15 5.84
C2 17 6.61 97 37.74
C3 13 5.06 5 1.95
C4 23 8.95 3 1.17
C5 14 5.45 43 16.73
C6 21 8.17 14 5.45
C7 10 3.89 10 3.89
C8 23 8.95 19 7.39
C9 1 0.39 1 0.39
C10 67 26.07 12 4.67
C11 8 3.11 7 2.72
C12 58 22.57 7 2.72
C13 1 0.39 24 9.34
IV. KESIMPULAN DAN SARAN
Kesimpulan
Dari uraian analisis dan kajian metode pengelompokkan pada bab sebelumnya dapat
diambil kesimpulan:
1. Optimasi fungsi objektif:
a. Pada algoritma CM adalah dengan meminimalkan jarak antara objek dengan pusat
clusternya.
b. Pada algoritma FCM dihasilkan melalui optimasi dalam penentuan pusat cluster (vi) dan
derajat keanggotaan (ui).
2. Algoritma FCM dengan indeks validitas Fukuyama-Sugeno secara lengkap dalam script
MATLAB disajikan pada lampiran 4.
Saran
Dalam penelitian ini masih banyak permasalahan yang belum dikaji secara mendalam, oleh
karena itu penulis memberikan saran sebagai berikut:
1. Melakukan analisis data dengan metode pengelompokkan lainnya, seperti dengan algoritma
Two Step Cluster, Fuzzy C-Shelll, Fuzzy Substractive, dan sebagainya.
2. Mengembangkan algoritma pengelompokkan dan membuat sub programnya.