Anda di halaman 1dari 30

CRITICAL JOURNAL REVIEW

(STATISTIK EKONOMI)

DOSEN PENGAMPU:

Dr. H.M.Yusuf, M.Si

DISUSUN OLEH:

Nama : WIKA LARISMA BERUTU

Nim : 7163342039

Kelas : C Semester II

PRODI PENDIDIKAN AKUNTANSI

FAKULTAS EKONOMI

UNIVERSITAS NEGERI MEDAN

2017

JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK


METODE C-MEANS CLUSTER DAN FUZZY C-MEANS CLUSTER PADA KASUS
PENGELOMPOKAN DESA MENURUT STATUS KETERTINGGALAN (STUDI DI
KOTA METRO DAN KABUPATEN LAMPUNG TIMUR)

Sukim
Dosen Sekolah Tinggi Ilmu Statistik

Abstract
Cluster analysis is a multivariate analysis technique used to classify objects such that
the objects in a cluster are very similar and the objects in different clusters are quite different.
This study will discuss the non-hierarchical clustering methods. The methods are C-Means
Cluster and Fuzzy C-Means Cluster. These methods are suitable for large data and
continuous variables. This study would also present the application of the methods on the
case of village grouping according to the underdevelopment status in two regions
of level II (Kota Metro and Kabupaten Lampung Timur) in Lampung Province. The unit of
observations in this study are 257 villages in Kota Metro (22 villages) and Kabupaten
Lampung Timur in Lampung Province obtained from the Village Potential Statistics (Podes -
Potensi Desa) 2008.
The results show that the optimal cluster in Kota Lampung data is 4, with a
minimum value of the Fukuyama-Sugeno validity index is at -45.4649. As for the data of
Kabupaten Lampung Timur, the optimum number of clusters is 13, with a minimum value
of the Fukuyama-Sugeno validity index is at 196.9629.

I. PENDAHULUAN
Analisis cluster (cluster analysis) adalah salah satu analisis peubah ganda (multivariate
analysis) yang digunakan untuk mengelompokkan objek-objek sedemikian rupa sehingga
objek dalam satu cluster yang sangat mirip dan objek di berbagai cluster cukup berbeda.
Analisis cluster banyak digunakan dalam penelitian-penelitian di bidang sosial, bidang
kesehatan, bidang marketing, bidang akademik, dan bidang kewilayahan.
Metode analisis cluster (clustering methods) dibedakan menjadi dua yaitu metode
hierarki (hierarchical clustering methods) dan metode tak berhierarki (non hierarchical
clustering methods). Metode hierarki dibedakan menjadi dua, yaitu metode penggabungan
(agglomerative/bottom up) dan metode pemecahan (devisive/ topdown). Prosedur yang
digunakan dalam metode hierarki adalah prosedur pautan tunggal (single linkage), pautan
lengkap (complete linkage), dan pautan rata-rata (average linkage). Hasil clustering metode
berhierarki secara umum membentuk diagram pohon (tree diagram) atau dendrogram yang
menggambarkan pengelompokkan objek berdasarkan jarak. Metode tak berhierarki disebut
juga metode partisi (partitional methods). Metode tak berhierarki yang banyak digunakan
adalah metode C-Means Cluster.
Pengelompokkan dengan metode ini mempertimbangkan derajat keanggotaan
himpunan fuzzy sebagai dasar pembobotan. Pada penelitian ini dibahas metode C-Means
Cluster (CM) dan Fuzzy C-Means Cluster (FCM). Dua metode ini cocok digunakan untuk data
berukuran besar dan memiliki tipe peubah kontinu. Penelitian sebelumnya di bidang
kewilayahan telah dilakukan oleh Sarpono (2009) membahas tentang pengelompokkan desa
tertinggal menggunakan metode regresi krigging. Pengelompokkan wilayah kecamatan
menurut partisipasi sekolah dengan metode FCM pernah dilakukan oleh Pravitasari
(2008).Kemudian dibandingkan hasil pengelompokkan dengan metode CM dan metode FCM.
Pengelompokkan desa menurut status (desa tertinggal dan desa tidak tertinggal) seringkali
menimbulkan kecemburuan antar daerah tingkat II (kabupaten/kota) di seluruh Indonesia. Pada
kenyataannya batasan status desa tertinggal dan desa tidak tertinggal sangat tipis (halus) dan
samar, sehingga penerapan metode CM yang dengan tegas mempartisi suatu kelompok
menjadi kurang tepat digunakan. Metode FCM diharapkan dapat mengatasi permasalahan
tersebut. Pengelompokkan FCM memerlukan indeks validitas untuk mengetahui banyak
cluster optimum yang terbentuk. Indeks validitas yang digunakan dalam penelitian ini adalah
Indeks Fukuyama-Sugeno (Halkidi dkk, 2010). Pengelompokkan dianggap optimum apabila
menghasilkan cluster yang mempunyai variansi minimum di dalam cluster dan mempunyai
variansi yang maksimum antar cluster.
II. METODOLOGI

Langkah-langkah yang digunakan dalam penelitian ini adalah: melakukan kajian


metode CM Cluster dan metode FCM Cluster, standarisasi data, mengelompokkan data dengan
mencoba berbagai nilai C untuk metode CM Cluster dan FCM Cluster, membandingkan hasil
pengelompokkan yang terbentuk. Sedangkan alat bantu komputer yang digunakan adalah
berupa piranti lunak (software) yang terkait dengan pengolahan dan analisis statistik yaitu
MATLAB versi 7.8.0.347 (2009a). Hasil yang dibandingkan meliputi jumlah kelompok,
variansi kelompok (variansi within cluster dan variansi between cluster), dan menyimpulkan
cluster ideal pada masing-masing metode seperti ditunjukkan dalam Gambar 1.

mulai

Mengkaji metode
clustering
CM dan FCM

data

Cek kelengkapan
data

Standardisasi data

Mnegelompokkan
Dengan metode
CM dan FCM

Membandingkan: Hasil
pengelompokkan
dengan C = 2,3,4,C optimum :

· Varians within
· Varians between
· Kompleksitas waktu

Pembahasan

Kesimpulan dan
saran

selesai

Gambar 1. Alur Kerangka Pikir Penelitian


Tahapan Penelitian
Tahapan-tahapan yang dilakukan berdasar pada tujuan penelitian yang meliputi :
1. Melakukan kajian tentang metode CM Cluster dan FCM Cluster
2. Membangun algoritma FCM
3. Melakukan analisa statistik deskriptif
4. Melakukan preprosesing, meliputi menyusun matriks ukuran N x p, di mana N adalah
banyaknya observasi (banyaknya desa/kelurahan) dan p adalah banyaknya variabel atau
atribut data (dimensi data), yaitu matriks ukuran 22 x 15 untuk Kota Metro dan matriks
ukuran 257 x 15 untuk Kabupaten Lampung Timur.
5. Melakukan pengelompokkan dengan Metode FCM Cluster
a. Formula optimasi fungsi objektif yang diberikan sebagai berikut
N C

J X , U , V   (uik ) m D ( xk , vi )2 , melalui optimasi dan


k 1 i1

b. Menguji konvergensi algoritma FCM, yaitu menetapkan kondisi konvergen,


menganalisis kondisi konvergen, mendapatkan kondisi matriks jarak
6. Melakukan Analisis data hasil pendataan Podes 2008 Kota Metro dan Kabupaten Lampung
Timur di Provinsi Lampung.
a. Melakukan clustering dari mulai C=2 sampai C optimum, dilakukan dengan melihat
dendrogram hasil hierarkikal clustering untuk memperoleh gambaran jumlah cluster
optimum.
b. Menentukan faktor fuzzy (weigthing exponent) hasil pengelompokkan (m). Untuk
penentuan nilai m, belum terdapat teori yang memberikan landasan pemilihan nilai m
yang tepat. Pada penelitian ini digunakan m=2, sebagaimana telah umum diterapkan
dalam banyak penelitian terdahulu (Zimmermann dalam Naik, V.C., 2004).
N

uik m xk
c. Menghitung fuzzy centroid cluster (Vi) dengan persamaan vi  k 1N
 uik m
k 1

 2 1
 C  D(x , v ) 
m1
k i

d. Memperbaharui anggota matriks U dengan persamaan u   D(x , v  

ik  )
 j 1  k j  
 
e. Membandingkan nilai keanggotaan dalam matriks U, jika sudah tidak banyak
mengalami perubahan berarti konvergen dan kondisi keanggotaannya sudah optimum
nilai mutlak dari (Uk+1 – Uk) < threshold yang ditetapkan). Iterasi dihentikan dan
didapatkan hasil pengelompokkan. Jika belum terpenuhi kondisi optimum kembali ke
langkah 6c.
7. Melakukan perhitungan indeks validitas clustering. Ada beberapa indeks validitas yang
digunakan. Pada penelitian ini digunakan indeks validitas Fukuyama-Sugeno karena indeks
ini dapat menunjukkan compactness dalam cluster dan distances of clasters representative
(Halkidi dkk., 2000).
8. Melakukan interpretasi hasil penerapan metode FCM pada kasus data Podes 2008 Kota
Metro dan Kabupaten Lampung Timur di Provinsi Lampung.

III HASIL DAN PEMBAHASAN

Metode C-Means Cluster


Proses pengelompokkan pada metode CM Cluster diawali dengan menentukan jumlah
cluster yang ingin dibentuk, dengan mengasumsikan inisial cluster 2, 3,…,C. Alokasikan data
ke dalam cluster secara random. Kemudian menghitung inisial pusat cluster (centroid) yang
ada di masing-masing cluster, selanjutnya alokasikan kembali masing-masing data ke pusat
cluster yang terdekat dengan persamaan = 1, untuk = min{ ( , )} dan = 0, untuk d yang
lainnya. Setelah data masuk pada pusat cluster terdekat dan membentuk cluster baru, pusat
cluster baru ditentukan kembali dengan menghitung rata-rata dari data yang ada di pusat
cluster yang sama. Jika masih ada data yang berpindah cluster atau jika perubahan nilai pusat
cluster yang terbentuk di atas nilai threshold yang ditetapkan, atau perubahan nilai fungsi
objektif yang digunakan masih di atas nilai threshold yang ditetapkan maka proses partisi
penghitungan nilai pusat cluster terus dilakukan sampai salah satu dari tiga kondisi terpenuhi.
Optimasi Fungsi Objektif Algoritma C-Means Cluster
Optimasi fungsi objektif pada algoritma CM didapatkan dengan meminimalkan jarak
2 T
antara objek dan pusat clusternya ( D ( xk , vi )2 =||xk – vi|| =( xk – vi ) (xk – vi) di mana vi
merupakan rata-rata anggota cluster yang ke-i.

Untuk menunjukkan jarak minimal antara objek dan pusat cluster dituliskan kembali
fungsi objektif sebagai berikut:
C

J X ;U ,V   min  1 2
 xi  x j 2
ekuivalen dengan
K
K1 ,...,KC  c 1 c iK , jK
c c
C
J X ;U ,V   min  xk  v i 2
dimana vi  1  x j adalah rata-rata dari cluster
K1 ,...,KC  c 1 k n K jK
C c C

ke-i, K adalah banyaknya objek


2

 xk  vi
2

K
1  (xk xj)
k K c k K c c jKc


1
2  ( xk  x j ),  ( xk  xs )
Kc jK c sKc
1  
  xk , xk   xk , xs   xk , x j   x
j
,x


s
2
Kc  k K c k , sK c k , jK c j ,sKc 
1  
  xk , xk   xk ,x


j
2
Kc  k K c k , jKc 
1 1 
 2 xk  x j 2

2 Kc k , jKc

Untuk mengetahui bahwa persamaan fungsi objektif optimum (mempunyai nilai ekstrim),

adalah dengan cara melakukan derivative pertama terhadap vi dan disamakan dengan nol
sebagai berikut :
dy  
 2

 x v  0
dv
 k i 

i  k Kc 
dy  (x 
  k  vi )T (xk  vi )  0
dv
i  k K 
dy  2 
  ( xk )  2( vi ) ( xk )  K ( vi )   0
2

dv
i  k K k K 
2 ( xk )  2 K ( vi )  0
k K

2( ( xk )  K ( vi ))  0
k K

( xk )  Kvi 0
k K

1 ( xk )  vi
 , yang merupakan rata-rata (mean) dari objek.
K
k K

Sedangkan untuk menunjukkan bahwa nilai ekstrim fungsi adalah minimum yaitu dengan
cara melihat tanda yang positif ( > 0 ) dari turunan (derivatif) kedua sebagai berikut:
d2y  dy
2   xk  vi ( 2 ( xk )  2 Kvi )  2K
2

dv 
k K  dv k K
 C
i  i
Nilai derivatif kedua dari fungsi di atas adalah 2K yang lebih besar dari 0, sehingga
nilai ekstrim yang dihasilkan adalah minimum.

Konvergensi Algoritma C-Means Cluster


Algoritma CM Cluster dapat diuraikan sebagai berikut:
Input (masukan) dari algoritma CM Cluster berupa data set X 1,..., X n  R p , dalam ruang

dimensi p (banyaknya variabel) dan banyaknya cluster (C) yang ingin dibentuk. Langkah
berikutnya dilakukan inisialisasi pusat cluster ( vi(0) ) secara random, v1(0) ,..., vC(0) . Kemudian
dilakukan proses iterasi sampai mencapai konvergen dengan mengalokasikan tiap data set ke
(t+1) (t+1)
pusat cluster terdekat, sehingga membentuk cluster K1 ,…,KC dengan
X K
s C
( t 1)  X s v(t) 2  X v(t) 2 , j 1,...,C dan menghitung pusat cluster baru dengan
i j

X .
persamaan vi ( t 1) 
1
( t 1)
 s

Ki sKi

Output (keluaran) berupa cluster K1,…,KC.


mulai

Banyaknya
Cluster C

tidak

Menghitung Pusat
Cluster

Mengitung Jarak
Objek ke Pusat
Cluster

Alokasikan ke
Cluster Tidak ada Objek
y
a selesai
berdasarkan jarak berpindah Cluster?
minimum

Gambar 2. Diagram Alur Algoritma CM


Langkah-langkah metode CM Cluster sebagai berikut :
Misal X suatu matriks ukuran N x p, di mana N = banyaknya objek (data), dan p =
banyaknya variabel (atribut).
1. Menentukan banyaknya inisial cluster, misal C, bentuk pusat cluster (Vi) sebanyak C
secara random.
2. Mengalokasikan semua anggota X (= xij) ke dalam C kelompok yang dibentuk ke pusat
cluster terdekat.
3. Menghitung kembali pusat cluster yang terbentuk.
Ulangi langkah 3 sampai konvergen (sampai tidak ada perubahan berarti pada pusat

cluster, Vi.), yaitu kondisi terpenuhinya suatu threshold ( vi( t )  vi( t 1)   ).

Running time Algoritma C-Means Cluster


Running time proses clustering dengan algoritma CM adalah O(NCT) di mana N
banyaknya data (objek), C banyaknya cluster, dan T banyaknya iterasi (Kumar dan Sirohi,
2010). Hal ini dapat ditunjukkan dengan menganalisis algoritma CM sebagai berikut:
Fungsi objektif metode CM yang akan dioptimalisasi adalah
N C

J X , U , V   (uik ) D ( xk , vi )2
k 1 i1

Dalam pseudocode dituliskan

Begin
For k=1:N
For i=1:C
If d=min{ D ( x , v )2 }
ki

uik = 1
C kali N kali
Else
uik = 0
Endif
2
u *D(x,v)
ik Ki

End

Variabel yang dominan dalam algoritma CM adalah C dan N, sehingga running timenya
adalah O(NC). Variabel T banyaknya iterasi jelas berbanding lurus dengan running time
algoritma CM maka dapat dituliskan menjadi O(NCT). Hasil menggunakan data Podes 2008
Kota Metro dan Kabupaten Lampung Timur dengan menetapkan N dan T konstan untuk
mengevaluasi running time CM terhadap banyaknya cluster didapatkan data sepeerti Tabel 1.
Tabel 1. Running time Algoritma CM data Podes 2008 Kota Metro dan Kabupaten
Lampung Timur
Waktu (detik) Iterasi
Banyak Cluster Metro Lampung Metro Lampung
Timur Timur
2 0.037420 0.048745 2 2
3 0.029578 0.034817 2 2
4 0.026115 0.047218 2 2
5 0.027023 0.061226 2 2
6 0.040287 0.074604 2 2
7 0.040635 0.066479 2 2
8 0.028714 0.074693 2 2
9 0.041965 0.077199 2 2
10 0.098525 0.089858 2 2
Metode Fuzzy C-Means Cluster
Fuzzy clustering merupakan salah satu teknik untuk menentukan cluster optimum dalam
suatu ruang vektor yang didasarkan pada bentuk normal Euclidian untuk jarak antar vektor

[persamaan 2.4]. Konsep dasar FCM, menentukan pusat cluster (vi) yang akan menandai lokasi
rata-rata untuk tiap cluster [persamaan 2.8]. Tiap titik data mempunyai derajat keanggotaan ke

tiap cluster (uik) [persamaan 2.7]. Dengan cara mengupdate pusat cluster dan derajat
keanggotaan tiap titik data secara iteratif, akan didapat pusat cluster yang “tepat”. Iterasi ini
didasarkan pada minimisasi fungsi objektif (J) yang menggambarkan jarak titik data ke pusat
cluster dengan bobot derajat keanggotaan titik data tersebut.

Optimasi fungsi objektif Algoritma Fuzzy C-Means Cluster


Kondisi fungsi objektif J(X;U,V) seperti pada persamaan 2.9 akan mencapai optimum
diberikan melalui optimasi parameter U dan V :
N C

J X , U , V   (uik ) m D ( xk , vi )2, di mana uik dan vi diberikan


k 1 i1

pada persamaan berikut

Mencari nilai optimum uik dan vi dilakukan dengan menurunkan fungsi objektif secara

parsial terhadap uik dan vi sebagai berikut:


N C

J X , U , V   (uik ) m D ( xk , vi )2
k 1 i1

dengan batasan 1  m  , 0  uik 1 , dan fungsi kendala


C C C
u u 0
 ik  1, k  uik  1  0  1   ik (4.1)
i1 i 1 i1

N
u
 ik  0, i , dan V  v1 , v2 , , vC  R p
k 1
2 2 T 2
Di mana D(xk,vi) = ||xk - vi|| = (xk – vi) (xk – vi) = (xk – vi) jarak tiap data ke-k ke pusat

cluster ke-i dan k merupakan lagrange multiplier, dengan menggunakan teori pengganda
lagrange, diperoleh fungsi baru sebagai berikut:
N

J(X,U,V, k ) = J(X,U,V) + k G(X,U,V)


k 1

N C

di mana J X , U , V   (uik ) m D ( xk , vi )2 dan G(X,U,V) =


k 1 i1

 C 
 1  uik  (dari persamaan 4.1) sebagai fungsi kendala, sehingga turunan pertama persamaan
 i1 
Sedangkan mencari nilai optimum vi dilakukan penurunan sebagai berikut:
J ( X , U , V )  0
vi
C N N  C  
  uik m D ( xk , vi ) 2    k  uik 1

 i 1 k 1 k 1  i 1   0
vi
C N 2 N  C 
 
u
ik
m xk  vi 


k uik 1
 i 1 k 1 k 1  i 1  0
vi
N

uikm  xk  vi 2
0
k 1

vi

N
 
uikm    xk  vi T xk  vi 
k 1 0

vi k 1

N N N (vi2 )  0
 
 uikm (xk2 )  2 uikm (xk )vi  uikm
 
v
 i  k 1 k 1 k 1
N N

2 ( xk )  2uikm ( vi )  0 Konvergensi Algoritma Fuzzy C-Means Cluster


k 1 k 1

Algoritma FCM dapat diuraikan sebagai berikut:


N 
2  uik m
(xk  vi )   0 Pertama ditentukan banyaknya cluster yang diinginkan
 k 1 
N N (akan dibentuk), misalnya C cluster. Kemudian
 ( xk )  uik m
( vi ) alokasikan data sesuai dengan jumlah cluster yang telah
k 1 k 1

N ditentukan. Langkah berikutnya menghitung nilai pusat


uik m
xk C
v
i
k 1
N
v uik m xk
dari
cluster uikm masing-masing cluster menggunakan rumus I
i1
C (dari persamaan 2.8)
uik m
i1

dan menghitung nilai keanggotaan masing-masing data ke masing-masing cluster dengan


 2 1
 C  D(x , v ) m1
K i

rumus u   D(x ,v   (dari persamaan 2.7). Apabila perubahan nilai keanggotaan

ik  )
 j 1  K j  
 
masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai centroid masih
di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function
masih di atas nilai threshold yang ditentukan, di mana nilai threshold adalah suatu bilangan
-6
positif yang kecil sekali mendekati nol, misalnya 0.000001 (10 ) maka dilakukan
penghitungan kembali pusat cluster dan nilai keanggotaan masing-masing data dalam setiap
cluster sampai dipenuhi nilai threshold yang ditentukan (konvergen).

Running time Algoritma Fuzzy C-Means Cluster


2
Menurut Kumar dan Sirohi (2010) running time algoritma FCM adalah O(NC T), di
mana N banyaknya data (objek), C banyaknya cluster, dan T banyaknya iterasi. Berikut ini
ditampilkan hasil dari analisis algoritma FCM dengan pseudocode.
Fungsi objektif metode FCM yang akan dioptimalisasi ditulis sebagai berikut
N C

J X , U , V   (uik ) m D ( xk , vi )2
k 1 i1

Dalam pseudocode dituliskan


Begin
For k=1:N
For i=1:C
For j=1:C
1
uik = 2
C kali C kali N kali
 D(x , v ) 
m1

 k i

 D(x , v )
 k j 
m
u * D ( x , v )2
ik ki

End

Hasil dari proses penghitungan running time FCM dengan data Podes 2008 Kota Metro
dan Kabupaten Lampung Timur ditunjukkan Tabel 2 dan Gambar 4, dan dapat dikatakan
bahwa running timenya tidak linear dan mendekati kuadratik.
Tabel 2. Running time Algoritma FCM data Podes 2008 Kota Metro dan Kabupaten
Lampung Timur
Waktu (detik) Iterasi
Banyak Cluster Lampung Lampung
Metro Metro
Timur Timur
2 0.406585 0.636383 10 10
3 0.248894 1.089945 10 10
4 0.258251 2.973474 10 10
5 0.269117 4.550975 10 10
6 0.339287 4.555440 10 10
7 0.310426 4.223784 10 10
8 0.474275 5.417068 10 10
9 0.361569 4.888947 10 10
10 0.321329 5.053932 10 10

Penerapan Metode C-Means dan Fuzzy C-Means Cluster pada Pengelompokkan desa
menurut status ketertinggalan
Penerapan metode CM dan FCM pada pengelompokkan desa menurut status
ketertinggalan digunakan data sekunder hasil pendataan Podes 2008 Provinsi Lampung di dua
daerah tingkat II, yaitu kota Metro dan Kabupaten Lampung Timur. Perangkat lunak yang
digunakan adalah MATLAB versi 7.8.0.347 (2009a).

Penerapan Metode C-Means Cluster pada Pengelompokkan desa menurut status


ketertinggalan di Kota Metro
Berdasarkan Tabel 3. dapat dijelaskan bahwa tidak ada rumah tangga yang tinggal di
bantaran sungai (x2=0), sehingga variabel x2 didrop untuk analisis pengelompokkan di Kota
Metro. Sementara variabel data jumlah penduduk kelurahan (x1) di Kota Metro mempunyai
rentang paling tinggi sekitar 12.347.
Mengingat data hasil Podes 2008 mempunyai variabilitas satuan, maka perlu dilakukan
standardisasi atau transformasi (Milligan dan Cooper, 1988 dalam Gan, Ma dan Wu, 2007)
terhadap variabel yang relevan ke bentuk z-score dengan rumus X    Z . Di mana  adalah
rata-rata (mean), dan  adalah simpangan baku. Perhitungan z-score didasarkan pada deskriptif
seperti pada Tabel 3, dan hasilnya ditampilkan pada Lampiran 1. Hasil dari z-score inilah yang
digunakan sebagai dasar analisis cluster.
Tabel 3. Statistik Deskriptif Kelurahan di Kota Metro Hasil Podes 2008

Std.
N Minimum Maximum Mean Deviation
Jumlah penduduk (x1) 22 2094 14441 6.3119E3 3397.86019
Bantaran sungai (x2) 22 0 0 0 0
Kumuh (x3) 22 0 100 4.5455 21.32007
Rmt berlangganan telp kabel
22 0 2362 3.9595E2 569.39069
(x4)
Pendidikan (x5) 22 4 28 9.1818 5.38637
Kesehatan (x6) 22 2 33 9.8182 6.35937
Tenaga kesehatan (x7) 22 3 25 7.8636 4.59083
Koperasi (x8) 22 0 19 4.9545 4.39130
Rmt pertanian (x9) 22 5 85 48.0455 26.74657
Rtm per desa (x10) 22 103 918 338.55 215.067
Pelanggan listrik (x11) 22 510 3178 1.3970E3 752.84821
Askeskin (x12) 22 74 816 3.0718E2 182.70081
Sktm (x13) 22 20 388 1.3018E2 91.75207
Luas desa (x14) 22 119 772 3.1236E2 152.22306
Rumah permanen (x15) 22 305 2284 1.0040E3 539.59010
Valid N (listwise) 22
Output dendrogram seperti pada Gambar 6 dapat ditentukan banyaknya jumlah cluster dengan
anggota tertentu. Masing-masing cluster mempunyai anggota sebanyak 3, 4, 1, dan 14
kelurahan. Cluster pertama terdiri dari 3 kelurahan yaitu Iringmulyo, Imopuro, dan Hadimulyo
Barat. Cluster kedua sebanyak 4 kelurahan (Ganjarasri, Hadimulyo Timur, Banjarsari, dan
Karangrejo).
Cluster ketiga hanya satu kelurahan yaitu Metro. Sedangkan cluster keempat terdiri dari 14
kelurahan yaitu Sumbersari, Rejomulyo, Margodadi, Margorejo, Mulyojati, Mulyosari,
Ganjaragung, Tejosari, Tejoagung, Yosorejo, Yosodadi, Yosomulyo, Purwosari, dan
Purwoasri.
Tabel 4. Hasil Pengelompokkan 22 Kelurahan di Kota Metro menggunakan metode CM
dengan jumlah C=4
Anggota Objek ke-
No Nama Kelurahan
C1 C2 C3 C4
1 Sumbersari 0 0 0 1
2 Rejomulyo 0 0 0 1
3 Margodadi 0 0 0 1
4 Margorejo 0 0 0 1
5 Mulyojati 0 0 0 1
6 Mulyosari 0 0 0 1
7 Ganjaragung 0 0 0 1
8 Tejosari 0 0 0 1
9 Tejoagung 0 0 0 1
10 Yosorejo 0 0 0 1
11 Yosodadi 0 0 0 1
12 Yosomulyo 0 0 0 1
13 Purwosari 0 0 0 1
14 Purwoasri 0 0 0 1
15 Metro 0 0 1 0
16 Ganjarasri 0 1 0 0
17 Hadimulyo Timur 0 1 0 0
18 Banjarsari 0 1 0 0
19 Karangrejo 0 1 0 0
20 Iringmulyo 1 0 0 0
21 Imopuro 1 0 0 0
22 Hadimulyo Barat 1 0 0 0

Karakteristik kelurahan yang masuk cluster pertama antara lain memiliki rata-rata
jumlah penduduk sebanyak 11.264 jiwa, fasilitas pendidikan sebanyak 11 unit, fasilitas
kesehatan sebanyak 10 unit, dan tenaga kesehatan sebanyak 8 orang. Anggota cluster kedua
memiliki karakteristik rata-rata jumlah penduduk, fasilitas pendidikan, fasilitas kesehatan, dan
tenaga kesehatan berturut-turut sebanyak 7.376 jiwa, 10 unit, 11 unit, dan 7 orang. Cluster
ketiga hanya satu kelurahan yaitu kelurahan Metro maka karakteristiknya juga karakteristik
yang dimiliki oleh kelurahan Metro sendiri antara lain jumlah penduduk sebanyak 14.441 jiwa,
fasilitas pendidikan sebanyak 28 unit, fasilitas kesehatan sebanyak 33 unit, dan tenaga
kesehatan sebanyak 25 orang. Karakteristik anggota cluster keempat antara lain memiliki rata-
rata jumlah penduduk sebanyak 4.367 jiwa, fasilitas pendidikan sebanyak 8 unit, fasilitas
kesehatan 8 unit, dan tenaga kesehatan sebanyak 7 orang.
Penerapan Metode Fuzzy C-Means Cluster pada Pengelompokkan desa menurut status
ketertinggalan di Kota Metro
Dari dendrogram di atas banyaknya cluster optimum adalah 3. Sebagai alternatif dicoba
untuk C=2, C=3, C=4, C=5, dan C=6 sebagai masukan FCM. Hasil percobaan menunjukkan
bahwa C=4 merupakan jumlah cluster optimum berdasarkan rata-rata nilai indeks validitas
Fukuyama-Sugeno yang minimal sebagaimana disajikan pada Tabel 4.

Tabel 5. Rata-rata Iterasi Konvergensi dan Indeks Validitas Hasil Pengelompokkan C=2
s.d. C=6 sebanyak 10 kali Running

Banyaknya Indeks
Iterasi
Cluster Validitas FS

2 23.0 72.5724
3 22.5 -15.7903
4 38.7 -45.4649
5 108.3 -43.6523
6 76.6 -34.5996

hasil tersebut, banyaknya cluster yang dianggap optimum pada kasus ini adalah empat.
Tabel 5 menunjukkan bahwa pengelompokkan kelurahan di Kota Metro mencapai optimum
dengan jumlah cluster empat, di mana rata-rata iterasi 38,7 dan nilai indeks validitas
Fukuyama-Sugeno pada lembah pertama minimum, sebesar -45.4649 (Gan dkk, 2007).Ilustrasi
hasil pengelompokkan dengan banyaknya cluster empat ditunjukkan pada Gambar 8(a).
Cluster pertama ditunjukkan dengan plot warna merah, cluster kedua dengan plot warna biru
muda, cluster ketiga dengan plot warna hijau, dan cluster keempat dengan warna ungu. Plot
lingkaran kecil menunjukkan objek (data), plot segi empat menunjukkan pusat cluster.
Sedangkan Gambar 8(b) menunjukkan bahwa fungsi objektif pada pengelompokkan dengan
empat cluster mencapai kondisi konvergen pada iterasi ke-45.
Pengelompokkan kelurahan menurut status ketertinggalan dengan jumlah
cluster 4 (b) dan konvergen pada iterasi ke-45

Cluster pertama (plot warna merah) terdiri dari empat kelurahan yaitu Iringmulyo,
Metro, Imopuro, dan Hadimulyo Barat yang memiliki kemiripan karakteristik antara lain
jumlah penduduk di atas 9.000 jiwa, fasilitas pendidikan di atas 9 unit, dan fasilitas kesehatan
di atas 13 unit. Cluster kedua (plot warna biru) terdiri dari empat kelurahan yaitu Ganjarasri,
Hadimulyo Timur, Banjarsari, dan Karangrejo. Cluster ketiga (plot warna hijau) terdiri dari
enam kelurahan yaitu Mulyojati, Ganjaragung, Tejoagung, Yosorejo, Yosodadi, dan
Yosomulyo. Sedangkan cluster keempat (plot warna ungu) terdiri dari delapan kelurahan yaitu
Sumbersari, Rejomulyo, Margodadi, Margorejo, Mulyosari, Tejosari, Purwosari, dan
Purwoasri. Hasil pengelompokkan dengan jumlah C=4 berdasarkan matriks keanggotaan U,
seperti pada Tabel 6.
Tabel 6. Derajat Keanggotaan Hasil pengelompokkan dengan jumlah C=4
Derajat Keanggotaan ke-
No Kelurahan
C1 C2 C3 C4
1 Sumbersari 0.030342 0.098435 0.162529 0.708694
2 Rejomulyo 0.044388 0.307428 0.312149 0.336034
3 Margodadi 0.023281 0.068991 0.120378 0.787350
4 Margorejo 0.014927 0.043333 0.096305 0.845435
5 Mulyojati 0.065846 0.207097 0.453679 0.273377
6 Mulyosari 0.015600 0.050854 0.102252 0.831294
7 Ganjaragung 0.054328 0.251111 0.451360 0.243200
8 Ganjarasri 0.137546 0.444688 0.310112 0.107654
9 Tejosari 0.021692 0.079007 0.130335 0.768966
10 Tejoagung 0.091602 0.167103 0.431845 0.309450
11 Iringmulyo 0.723234 0.123608 0.108344 0.044814
12 Yosorejo 0.217123 0.216264 0.357390 0.209223
13 Yosodadi 0.061680 0.205291 0.518944 0.214085
14 Metro 0.457187 0.207346 0.192301 0.143166
15 Imopuro 0.796094 0.088368 0.076019 0.039519
16 Hadimulyo Barat 0.464535 0.201562 0.211906 0.121997
17 Hadimulyo Timur 0.058972 0.686182 0.178417 0.076429
18 Yosomulyo 0.100463 0.283412 0.428209 0.187915
19 Banjarsari 0.117547 0.540397 0.209822 0.132233
20 Purwosari 0.034420 0.104520 0.208126 0.652934
21 Purwoasri 0.034446 0.104932 0.207188 0.653434
22 Karangrejo 0.094952 0.425875 0.258955 0.220218

Running time rata-rata terhadap banyaknya cluster algoritma CM dan FCM data Podes
2008 Kota Metro ditunjukkan dalam Tabel 7. dan Gambar 8. Berdasarkan plot grafik dalam
Gambar 9. running time rata-rata baik algoritma CM maupun FCM terlihat cenderung tidak
linear, berbeda dengan pendekatan empiris yang memperlihatkan perbedaan running time
2
antara algoritma CM yang O(NCT) dengan FCM yang O(NC T).
Tabel 7. Running time Algoritma CM dan FCM data Podes 2008 Kota Metro
Waktu (detik) Iterasi
Banyak Cluster
CM FCM CM FCM
2 0.037420 0.406585 2 10
3 0.029578 0.248894 2 10
4 0.026115 0.258251 2 10
5 0.027023 0.269117 2 10
6 0.040287 0.339287 2 10
7 0.040635 0.310426 2 10
8 0.028714 0.474275 2 10
9 0.041965 0.361569 2 10
10 0.098525 0.321329 2 10

Tabel 8. Hasil Pengelompokkan dengan 4 cluster untuk metode CM dan FCM


Metode CM FCM
Cluster Nc % Nc %
C1 3 13.64 4 18.18
C2 4 18.18 4 18.18
C3 1 4.55 6 27.27
C4 14 63.64 8 36.36

Penerapan Metode C-Means Cluster pada Pengelompokkan desa menurut status


ketertinggalan di Kabupaten Lampung Timur
Deskripsi data desa di Kabupaten Lampung Timur hasil Podes 2008 menurut 15 variabel
yang digunakan untuk pengelompokkan menurut status ketertinggalan ditunjukkan seperti pada
Tabel 9. Sedangkan tabel z-score untuk data Kabupaten Lampung Timur disajikan pada Lampiran
2 mengingat jumlah observasi yang cukup besar (257 desa). Berdasarkan Tabel 9 variabel luas

desa (x15) mempunyai nilai jangkauan yang paling tinggi ( 20.220) sedangkan variabel jumlah

penduduk (x1) mempunyai nilai standar deviasi yang paling tinggi (2.076,397).
Tabel 9. Statistik Deskriptif Desa di Kabupaten Lampung Timur Hasil Podes 2008

Variabel N Minimum Maximum Mean Std. Deviation


Jumlah penduduk (x1) 257 1039 15016 3696.44 2076.397
Bantaran sungai (x2) 257 .00 375.00 4.6615 27.88548
Kumuh (x3) 257 .00 1204.00 10.6732 80.76680
Rmt berlangganan telp kabel
257 .00 525.00 16.0039 58.01768
(x4)
Pendidikan (x5) 257 .00 29.00 6.4047 4.32287
Kesehatan (x6) 257 1.00 16.00 5.4747 2.59363
Tenaga kesehatan (x7) 257 .00 67.00 5.4591 5.07976
Koperasi (x8) 257 .00 53.00 1.2840 4.14025
Rmt pertanian (x9) 257 30.00 99.00 83.1323 12.27572
Rtm per desa (x10) 257 44 1826 377.48 241.880
Pelanggan listrik (x11) 257 .00 2549.00 6.5996E2 424.55229
Askeskin (x12) 257 .00 1436.00 1.0320E2 186.88891
Sktm (x13) 257 .00 725.00 48.4047 65.14994
Luas desa (x14) 257 170.00 20390.00 1.2140E3 1797.82131
Rumah permanen (x15) 257 5.00 1984.00 4.2219E2 352.42148
Valid N (listwise) 257

Dendrogram Pengelompokkan Desa di Kabupaten Lampung Timur Hasil


Podes 2008

Hasil pengelompokan dengan 2 sampai 13 cluster untuk metode CM pada data Kabupaten
Lampung Timur dapat dilihat pada Tabel 10. Berdasarkan Tabel 10 dapat dijelaskan bahwa
mulai C=5, pusat cluster mulai terpengaruh dengan objek yang outlier. Bahkan mulai C=8
pengaruh outlier semakin bertambah. Hal ini ditandai dengan adanya cluster yang hanya
memiliki satu anggota.
Tabel 10. Hasil pengelompokkan metode CM Kabupaten Lampung Timur.
Banyaknya Distribusi Anggota Tiap Cluster
Cluster C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13
Nc 215 42
C=2
% 83.66 16.34
Nc 19 75 163
C=3
% 7.39 29.18 63.42
Nc 163 73 9 12
C=4
% 63.42 28.40 3.50 4.67
Nc 15 90 1 113 38
C=5
% 5.84 35.02 0.39 43.97 14.79
Nc 14 46 89 1 103 4
C=6
% 5.45 17.90 34.63 0.39 40.08 1.56
Nc 11 1 45 10 96 28 66
C=7
% 4.28 0.39 17.51 3.89 37.35 10.89 25.68
Nc 54 18 1 4 17 136 26 1
C=8
% 21.01 7.00 0.39 1.56 6.61 52.92 10.12 0.39
Nc 75 86 5 14 1 28 15 9 24
C=9
% 29.18 33.46 1.95 5.45 0.39 10.89 5.84 3.50 9.34
Nc 1 8 36 71 72 1 10 23 3 32
C=10
% 0.39 3.11 14.01 27.63 28.02 0.39 3.89 8.95 1.17 12.45
Nc 1 29 9 3 7 1 69 71 24 28 15
C=11
% 0.39 11.28 3.50 1.17 2.72 0.39 26.85 27.63 9.34 10.89 5.84
Nc 28 56 1 9 28 10 1 10 14 53 22 25
C=12
% 10.89 21.79 0.39 3.50 10.89 3.89 0.39 3.89 5.45 20.62 8.56 9.73
Nc 1 17 13 23 14 21 10 23 1 67 8 58 1
C=13 % 0.39 6.61 5.06 8.95 5.45 8.17 3.89 8.95 0.39 26.07 3.11 22.57 0.39

Penerapan Metode Fuzzy C-Means Cluster pada Pengelompokkan desa menurut status
ketertinggalan di Kabupaten Lampung Timur
Gambar 11 memberikan ilustrasi pengelompokkan desa menurut status ketertinggalan di
Kabupaten Lampung Timur dengan jumlah kelompok enam (C=6) ditunjukkan dalam (b) dan
konvergensi fungsi objektif tercapai pada iterasi ke-447 ditunjukkan dalam (a). Jumlah
kelompok optimum pada pengelompokkan desa di Kabupaten Lampung Timur seperti
ditunjukkan pada Tabel 11. di mana banyaknya kelompok enam, rata-rata iterasi konvergensi
fungsi objektif 447,5 dan indeks validitas Fukuyama-Sugeno mencapai nilai minimum
371,320580. Berdasarkan Tabel 8. pengelompokkan desa di Kabupaten Lampung Timur
dibentuk enam cluster. Desa anggota masing-masing cluster disajikan pada Lampiran 3.
Gambar 11. Plot pengelompokkan desa menurut status ketertinggalan dengan jumlah
cluster enam (C=6)

Tabel 11. memperlihatkan running time algoritma CM maupun algoritma FCM. Percobaan
dilakukan sepuluh kali running untuk jumlah cluster mulai dua (C=2) sampai dengan sepuluh
(C=10). Plot running time berdasar banyaknya cluster disajikan dalam Gambar 11.
Berdasarkan plot tersebut dapat diketahui bahwa running time CM linear terhadap banyaknya
cluster, sedangkan running time FCM cenderung kuadratik terhadap banyaknya cluster.
Tabel 11. Hasil 10 kali Running untuk C=2 sampai C=6 dan maksimal Iterasi=500

Indeks
C= Iterasi Obj Fct Validitas FS

2 33.2 1646.683328 1526.106550


3 95.3 1097.582379 898.097754
4 303.3 823.145781 625.379498
5 474.2 658.500346 466.117572
6 447.5 548.759835 371.320580

Tabel 12. Running time CM dan FCM Data Podes 2008 Kabupaten Lampung Timur
Waktu (detik) Iterasi
Banyak Cluster
CM FCM CM FCM
2 0.048745 0.636383 2 10
3 0.034817 1.089945 2 10
4 0.047218 2.973474 2 10
5 0.061226 4.550975 2 10
6 0.074604 4.555440 2 10
7 0.066479 4.223784 2 10
8 0.074693 5.417068 2 10
9 0.077199 4.888947 2 10
10 0.089858 5.053932 2 10
Tabel 13. Indeks Validitas Fukuyama-Sugeno untuk C=2 sampai dengan C=20
Indeks Indeks
Banyaknya Banyaknya
Fukuyama- Fukuyama-
Cluster Cluster
Sugeno Sugeno
2 1526.1 11 199.4
3 898.1 12 202.0
4 625.4 13 197.0
5 466.1 14 201.2
6 371.1 15 207.8
7 307.3 16 210.1
8 260.5 17 225.2
9 236.9 18 234.3
10 216.1 19 240.2
11 199.4 20 263.1
Berdasarkan Tabel 14. hasil pengelompokkan 257 desa di Kabupaten Lampung Timur ke
dalam 13 cluster, terlihat bahwa metode FCM lebih kokoh terhadap objek pencilan dalam
mempertahankan anggota cluster daripada metode CM. Hal ini ditunjukkan oleh cluster yang
hanya mempunyai satu anggota. Pada metode FCM hanya pada C9, sedangkan pada CM
terdapaat pada C1, C9, dan C13. Menurut Loureiro (2004) cluster dengan ukuran kecil
dipandang sebagai objek outlier (pencilan).

Tabel 14. Hasil Pengelompokkan dengan 13 cluster untuk metode CM dan FCM
Metode CM FCM
Cluster Nc % Nc %
C1 1 0.39 15 5.84
C2 17 6.61 97 37.74
C3 13 5.06 5 1.95
C4 23 8.95 3 1.17
C5 14 5.45 43 16.73
C6 21 8.17 14 5.45
C7 10 3.89 10 3.89
C8 23 8.95 19 7.39
C9 1 0.39 1 0.39
C10 67 26.07 12 4.67
C11 8 3.11 7 2.72
C12 58 22.57 7 2.72
C13 1 0.39 24 9.34
IV. KESIMPULAN DAN SARAN

Kesimpulan
Dari uraian analisis dan kajian metode pengelompokkan pada bab sebelumnya dapat
diambil kesimpulan:
1. Optimasi fungsi objektif:
a. Pada algoritma CM adalah dengan meminimalkan jarak antara objek dengan pusat
clusternya.
b. Pada algoritma FCM dihasilkan melalui optimasi dalam penentuan pusat cluster (vi) dan
derajat keanggotaan (ui).
2. Algoritma FCM dengan indeks validitas Fukuyama-Sugeno secara lengkap dalam script
MATLAB disajikan pada lampiran 4.

3. Hasil Pengelompokkan 22 kelurahan di Kota Metro menggunakan metode FCM


menghasilkan jumlah cluster terbaik 4 (empat) cluster. Masing-masing cluster yang terbentuk
sebagai berikut : Cluster pertama terdiri dari empat kelurahan yaitu Iringmulyo, Metro,
Imopuro, dan Hadimulyo Barat yang memiliki kemiripan karakteristik antara lain jumlah
penduduk di atas 9.000 jiwa, fasilitas pendidikan di atas 9 unit, dan fasilitas kesehatan di atas
13 unit. Cluster kedua terdiri dari empat kelurahan yaitu Ganjarasri, Hadimulyo Timur,
Banjarsari, dan Karangrejo. Sedangkan cluster ketiga terdiri dari enam kelurahan yaitu
Mulyojati, Ganjaragung, Tejoagung, Yosorejo, Yosodadi, dan Yosomulyo. Sedangkan cluster
keempat terdiri dari delapan kelurahan yaitu Sumbersari, Rejomulyo, Margodadi, Margorejo,
Mulyosari, Tejosari, Purwosari, dan Purwoasri.
4. Hasil pengelompokkan 257 desa di Kabupaten Lampung Timur menggunakan metode FCM
menghasilkan banyaknya cluster 13. Hal ini ditunjukkan dengan nilai minimum indeks
validitas Fukuyama-Sugeno sebesar 196.9424. Banyaknya desa anggota cluster pertama
sampai dengan cluster ketiga belas berturut-turut 15, 97, 5, 3, 43, 14, 10, 19, 1, 12, 7, 7, dan
24.
5. Metode FCM lebih dapat mempertahankan banyaknya cluster terhadap adanya data pencilan
jika dibandingkan dengan metode CM.
6. Berdasarkan hasil pengolahan data Podes 2008 sebagai pengujian metode FCM secara
empiris diperoleh nilai yang mendukung bahwa FCM lebih halus dalam mempartisi cluster.
Hal ini karena tiap objek dilengkapi dengan derajat keanggotaan ke pusat cluster yang
terbentuk.
7. Running time terhadap banyaknya cluster algoritma FCM tidak linear seperti CM.

Saran
Dalam penelitian ini masih banyak permasalahan yang belum dikaji secara mendalam, oleh
karena itu penulis memberikan saran sebagai berikut:
1. Melakukan analisis data dengan metode pengelompokkan lainnya, seperti dengan algoritma
Two Step Cluster, Fuzzy C-Shelll, Fuzzy Substractive, dan sebagainya.
2. Mengembangkan algoritma pengelompokkan dan membuat sub programnya.

KELEBIHAN DAN KEKURANGAN


1. Kelebihan
 Teknik untuk menentukan cluster optimum dalam suatu ruang vektor yang
didasarkan pada bentuk normal.
 Pengelompokkan desa di Kabupaten Lampung Timur ke dalam cluster, terlihat
bahwa metode FCM lebih kokoh terhadap objek pencilan dalam mempertahankan
cluster daripada metode CM.
 Jurnal ini dilengkapi dengan table dan grafik sehingga memudahkan untuk
memahami isi pada jurnal.
2. Kekurangan
 Dalam penelitian masih ada kesalahan pengelompokan seperti dengan algoritma
Two Step Cluster, Fuzzy C-Shelll, Fuzzy Substractive, dan sebagainya.
 Tidak memaparkan langkah-langkah penelitan.
 Jurnal ini juga tidak memaparkan pelaksanaan penelitian.

Anda mungkin juga menyukai