Oleh :
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
2016
ANALISIS KELOMPOK DENGAN MENGGUNAKAN METODE
I. PENDAHULUAN
Analisis kelompok atau yang biasa dikenal sebagai cluster analysis adalah salah satu
teknik statistik yang bertujuan untuk mengelompokkan objek ke dalam suatu kelompok
sedemikian sehingga objek yang berada dalam satu kelompok akan memiliki kesamaan yang
tinggi dibandingkan dengan objek yang berada di kelompok lain (Sharma, 1996:185).Santoso
(2004) menyatakan bahwa proses dari analisis kelompok adalah pengelompokkan data yang
dilakukan dengan dua macam metode yaitu metode hierarki dan metode non hierarki. Pada
metode non hierarki, telah ditentukan jumlah kelompok terlebih dahulu. Sedangkan metode
hierarki digunakan bila jumlah kelompok ditentukan berdasarkan hasil analisis.
2
(, ) = =1( ) ; = 1,2,3,
Jarak Mahalanobis digunakan jika data terjadi korelasi. Jarak Mahalanobis antara dua sampel X
danY dari suatu variabel acak didefinisikan sebagai berikut (Durak, 2001; 7)
dMahalanobis (y , x ) (y x )T 1 (y x)
Dengan adalah suatu matriks varian kovarian.
Secara umum ada dua cara pengelompokan dengan menggunakan metode hierarki, yaitu
dengan cara :
a. penggabungan (agglomerative)
Cara penggabungan, pada awal pengelompokan setiap obyek pengamatan dianggap berasal
dari kelompok yang berbeda. Kemudian secara bertahap objek-objek yang saling berdekatan
dikelompokkan. Sehingga pada akhirnya semua objek berada dalam satu kelompok yang
sama.
Single-linkage (pautan tunggal), metode dengan prinsip jarak minimum. Langkah
pertama menemukan jarak terdekat pada D = (dik) adalah nilai obyek ke-i pada variabel
ke-k dengan i=1,2,3,...,n dan menggabungkan obyek yang berkorespondensi, katakan U
dan V dan sebarang kelompok lain W adalah D = (d(uv)w) min{dUW.dVW} dUW dan dVW
adalah jarak tetangga terdekat dari kelompok U dan W, dan jarak kelompok V dan W.
Complete linkage (pautan lengkap), metode dengan prinsip jarak maksimum. Metode
umum dimulai penemuan anggota lain pada D = (dik) dan menggabungkan obyek yang
berkorespondensi misalnya U dan V menjadi (UV). Untuk langkah ketiga, jarak antara
(UV) dan kelompok lain W adalah D = (d(uv)w) maks{dUW.dVW} .
Average-linkage (pautan rata-rata), metode dengan prinsip jarak rata-rata. Metode
umum dimulai penemuan anggota lain pada D = (dik) dan menggabungkan obyek
yang berkorespondensi misalnya U dan V menjadi (UV). Untuk langkah ketiga, jarak
antara (UV) dan kelompok lain W adalah
d(uv)w =
()
N(UV) : jumlah dari anggota-anggota pada kelompok (UV) (Johnson dan Wichern, 1992)
Wards method, metode ini ini menggunakan perhitungan yang lengkap dan
memaksimumkan homogenitas di dalam satu kelompok.
1
ESS = =1( =1
2 (=1 2 ))
Keterangan :
xij : Nilai objek ke-i dengan i=1,2,3,... pada kelompok ke-j
Dalam Analisis Klaster Hierarki baik metode agglomerative maupun metode Divisive
menghasilkan suatu diagram dua dimensi yang disebut sebagai dendogram.
K-means merupakan suatu metode pengelompokan non hirarki yang bersifat top-down
yaitu membagi n obyek ke dalam K kelompok berdasarkan algoritma :
a. Mempartisi obyek ke dalam K kelompok (ditentukan oleh peneliti).
b. Menghitung pusat kelompok menggunakan persamaan :
1
() =
=
c. Menghitung jarak setiap obyek ke pusat kelompok menggunakan fungsi jarak Euclidean.
d. Menentukan obyek yang memiliki jarak terdekat dengan pusat kelompok. Jika obyek
berpindah dari posisi awal (langkah a) maka pusat kelompok harus dihitung kembali.
e. Mengulangi langkah (b) (d) sampai tidak ada lagi obyek yang berpindah posisi.
Pendekatan K-Means memproses semua obyek secara sekaligus di mana k merupakan
banyaknya kelompok. Pada metode sebelumnya dilakukan proses pengelompokan dengan
jumlah cluster yang terbentuk yaitu tiga. Untuk menyamakan jumlah kelompok dengan metode
sebelumnya dan berdasarkan screeplot pada gambar di bawah ini, maka pada pengelompokan
dengan metode K-Means juga ditentukan banyaknya kelompok yang dibentuk adalah tiga.
= 1
=1
Dimana :
1/2
= [( 1)1 ( )2 ]
=1
Dimana:
Metode yang mempunyai rasio terkecil merupakan metode terbaik. Cluster yang baik
adalah cluster yang mempunyai homogenitas (kesamaan) yang tinggi antar anggota dalam satu
cluster (within cluster ) dan heterogenitas yang tinggi antar cluster yang satu dengan cluster yang
lain (between cluster ) (Santoso, 2007:47).
II. ANALISIS DAN PEMBAHASAN
Pada kasus ini akan dianalisa data mengenai National Data Track Record for Women.
Data ini terdiri dari 54 Negara pada 7 jenis kejuaran lari . Akan dilakukan analisis klaster untuk
mengelompokkan negara berdasarkan lama waktu yang dibutuhkan pelari pada 7 kejuaraan lari.
Sebelum melakukan analisis klaster maka perlu dilakukan standarisasi ke normal baku.
Kemudian untuk profiling satuan waktu lari akan disamakan dalam second.
Maka langkah pertama dalam analisis adalah input data sebagai berikut:
Setelah data diinput maka langkah pertama dalam melakukan analisis klaster adalah
pembentukkan data menjadi matriks jarak (distance) dimana metode yang digunakan ialah jarak
euclidean, sebagai berikut:
Dari hasil klaster yang terbentuk dengan k=3 maka anggota dari setiap klaster
adalah sebagai berikut:
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan
pelari dari tiap klaster adalah sebagai berikut:
Dari hasil klaster yang terbentuk dengan k=3 maka anggota dari setiap klaster adalah
sebagai berikut:
- Klaster 1 : ARG, BER, CHI, COL, CRC, DEN, DOM, GUA, HUN, INA, IND,
IRL, ISR, JPN, KEN, KOR.S, KOR.N, LUX, MAS, MRI, MEX, MYA,
NZL, NOR, PHI, POR, SIN, SUI, TPE, THA, TUR,USA
- Klaster 2 : AUS, AUT, BEL, BRA, CAN, CHN, CZE, FIN, FRA, GER, GBR,
GRE, ITA, NED, POL, ROM, RUS, ESP, SWE,
- Klaster 3 : COK, PNG dan SAM
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan
pelari dari tiap klaster adalah sebagai berikut:
Perhitungan rata-rata waktu yang dibutuhkan pelari wanita berdasarkan klaster yang
dibentuk bertujuan untuk mempermudah dalam profiling. Berdasarkan tabel di atas maka
profiling dari tiap klaster adalah sebagai berikut:
- Klaster 1 : Negara dengan pelari wanita dengan waktu sedang
- Klaster 2 : Negara dengan pelari wanita dengan waktu tercepat
- Klaster 3 : Negara dengan pelari wanita dengan waktu terlama
Dari hasil klaster yang terbentuk dengan k=3 maka anggota dari setiap klaster adalah
sebagai berikut:
- Klaster 1 : Seluruh Negara kecuali COK, PNG dan SAM
- Klaster 2 : COK dan PNG
- Klaster 3 : SAM
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan
pelari dari tiap klaster adalah sebagai berikut:
Perhitungan rata-rata waktu yang dibutuhkan pelari wanita berdasarkan klaster yang
dibentuk bertujuan untuk mempermudah dalam profiling. Berdasarkan tabel di atas maka
profiling dari tiap klaster adalah sebagai berikut:
- Klaster 1 : Negara dengan pelari wanita dengan waktu tercepat
- Klaster 2 : Negara dengan pelari wanita dengan waktu terlama
- Klaster 3 : Negara dengan pelari wanita dengan waktu sedang
1.4 Ward
Prinsip dari pendekatan ward adalah dengan menghitung rata-rata untuk setiap
klaster, lalu dihitung jarak euclidean antara setiap objek dan nilai rata-rata itu, lalu jarak
itu dihitung semua.. Langkahnya adalah sebagai berikut:
> #metode klaster yang digunakan adalah ward
> fit_4 = hclust(ntr_dist,method="ward.D")
> plot (fit_4)
2 3 1
Dari hasil klaster yang terbentuk dengan k=3 maka anggota dari setiap klaster adalah
sebagai berikut:
- Klaster 1 : ARG, BER, CHI, CRC, DOM, GUA, INA, ISR, KOR.S, KOR.N, LUX,
MAS, MRI, MYA, PHI, SIN, SWE, TPE, THA
- Klaster 2 : AUS, AUT, BEL, BRA, CAN, COL, CHN, CZE, DEN, FIN,
FRA,GER, GBR, GRE, HUN, IND, IRL, ITA, JPN, KEN, MEX, NED,
NZL, NOR, POL, POR, ROM, RUS, ESP, SUI, TUR, USA
- Klaster 3 : COK, PNG dan SAM
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan
pelari dari tiap klaster adalah sebagai berikut:
Perhitungan rata-rata waktu yang dibutuhkan pelari wanita berdasarkan klaster yang
dibentuk bertujuan untuk mempermudah dalam profiling. Berdasarkan tabel di atas maka
profiling dari tiap klaster adalah sebagai berikut:
- Klaster 1 : Negara dengan pelari wanita dengan waktu sedang
- Klaster 2 : Negara dengan pelari wanita dengan waktu tercepat
- Klaster 3 : Negara dengan pelari wanita dengan waktu terlama
2. Non Hierarki (K-Means)
Salah satu metode analisis klaster non hierarki atau disebut juga metode partioning
yang paling populer adalah Analisis Klaster K-means. Pada metode ini banyaknya klaster
secara pasti harus sudah diketahui. Sebuah cara sederhana yang dapat digunakan untuk
menentukan banyak klaster yang akan digunakan adalah plot dari jumlah kuadrat dalam
klaster (within sum of squares) dengan banyak klaster yang mana hasilnya mirip dengan
screeplot dalam analisis faktor. Berikut adalah perintah-perintah yang digunakan dalam
Analisis Klaster K-Means :
Langkah pertama yaitu menentukan k sebagai jumlah klaster yang akan dibentuk:
> #B. Metode Non Hierarki (K-Means)
> #Menentukan banyaknya klaster
> wss <- (nrow(data)-1)*sum(apply(data,2,var))
> for (i in 2:15) wss[i] <- sum(kmeans(data, centers=i)$withinss)
> plot(1:15, wss, type="b", xlab="Banyak Klaster",ylab="Jumlah Kuadrat dalam
Klaster")
Banyaknya klaster yang akan dibentuk (k) pada proses pengklasteran dengan
metode K-Means adalah tiga buah sehingga terdapat tiga buah centroid (pusat klaster)
dimana c1 (centroid klaster1), c2 (centroid klaster2), c3 (centroid klaster3) dengan
bantuan aplikasi R, nilai centroid dapat dilihat pada output (Klaster Means), sebagai
berikut:
> #Analisis Klaster K-Means
> fit5<-kmeans(data, 3) #dari screeplot terlihat bahwa banyaknya klaster=3
> fit5
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan pelari
dari tiap klaster adalah sebagai berikut:
Perhitungan rata-rata waktu yang dibutuhkan pelari wanita berdasarkan klaster yang
dibentuk bertujuan untuk mempermudah dalam profiling. Berdasarkan tabel di atas maka
profiling dari tiap klaster adalah sebagai berikut:
- Klaster 1 : Negara dengan pelari wanita dengan waktu rata-rata terlama
- Klaster 2 : Negara dengan pelari wanita dengan waktu sedang
- Klaster 3 : Negara dengan pelari wanita dengan waktu tercepat
> library(klaster)
> clusplot(ntr,fit_3$klaster,color=TRUE,shade=TRUE, labals=2,lines=0)
Cluster means:
m100 m200 m400 m800 m1500 m3000
1 -0.5533625 -0.5617196 -0.5893224 -0.5893115 -0.5820694 -0.5398260
2 0.6216678 0.6300908 0.7128755 0.6053960 0.5996854 0.4999131
3 2.3569809 2.3983714 2.2052936 2.8500509 2.8046512 2.9386078
marathon
1 -0.4899492
2 0.3433833
3 3.3291417
Berdasarkan hasil di atas dapat dilihat hasil dari klaster dari 54 negara
berdasarkan waktu yang dibutuhka pelari wanita pada 7 perlombaan lari. Untuk lebih
jelas maka penulis menampilkan dalam bentuk plot. Tampak bahwa terdapat perbedaan
yang mencolok pada klaster 1 (orange) yang berada jauh dari 3 klaster lainnya.
Berikut adalah anggota kelompo dari 4 klaster yang terbentuk:
ARG AUS AUT BEL BER BRA CAN CHI CHN COL COK
1 2 2 2 1 2 2 1 2 2 3
CRC CZE DEN DOM FIN FRA GER GBR GRE GUA HUN
1 2 2 1 2 2 2 2 2 1 2
INA IND IRL ISR ITA JPN KEN KOR.S KOR.N LUX MAS
1 2 2 1 2 2 2 1 1 1 1
MRI MEX MYA NED NZL NOR PNG PHI POL POR ROM
1 2 1 2 2 2 3 1 2 2 2
RUS SAM SIN ESP SWE SUI TPE THA TUR USA
2 3 1 2 2 2 1 1 2 2
Perhitungan rata-rata waktu yang dibutuhkan pelari wanita berdasarkan klaster yang
dibentuk bertujuan untuk mempermudah dalam profiling. Berdasarkan tabel di atas maka
profiling dari tiap klaster adalah sebagai berikut:
= 0,415
= 1,653
= 0,251
Untuk prosedur tidak bertahap didapat nilainya:
= 0,415
= 1,964
= 0,211
Berdasarkan nilai rasio dari kedua prosedur tersebut, maka dapat dikatakan prosedur tidak
bertahap yaitu dengan pendekatan Kmean lebih baik digunakan karena memiliki nilai rasio yang
lebih kecil sehingga mempunyai homogenitas yang tinggi.
4. Pemilihan Metode
Tahapan selanjutnya adalah memilih dari 4 pendekatan tersebut mana yang merupakan
pendekatan terbaik. Untuk mengetahui metode mana yang mempunyai kinerja terbaik, dapat
digunakan rata-rata simpangan baku baku dalam klaster ( ) dan simpangan baku antar klaster
( ) (Bunkers, dkk.1996). Metode yang mempunyai rasio terkecil merupakan metode terbaik.
Klaster yang baik adalah klaster yang mempunyai homogenitas (kesamaan) yang tinggi antar
anggota dalam satu klaster (within klaster) dan heterogenitas yang tinggi antar klaster yang satu
dengan klaster yang lain (between klaster).
Rumus rata-rata simpangan baku dalam klaster (Sw):
1
=
=1
Di mana:
K = banyaknya klaster yang terbentuk
Sk= simpangan baku klaster ke-k
Rumus rata-rata simpangan baku antar klaster (SB):
1
= ( )2
1
=1
Di mana:
= rata-rata klaster ke-k
= rata-rata seluruh klaster
Jika hanya terdapat 1 objek dalam klaster maka S bernilai nol.
Selanjutnya akan dihitung nilai rata-rata simpangan baku baku dalam klaster ( ) dan
simpangan baku antar klaster ( ) untuk masing-masing pendekatan.
Pertama, akan dihitung untuk pendekatan single lingkage , dengan terlebih dahulu mencari
nilai simpangan baku masing-masing dari klaster yang terbentuk. Adapun 2 dan
3 bernilai nol karena hanya terdapat 1 objek didalam klaster. Sedangkan untuk
1 :
(0,145 (0,159))2 + + (1,245 (0,159))2
1 = = 0,63
52 1
Selanjutnya akan dihitung nilai simpangan baku antar klaster( ) dengan terlebih dahulu
mencari nilai yaitu dengan cara:
0,159 + 3,001 + 3,090
= = 1,978
3
Selanjutnya nilai didapat dengan cara:
Pada tahapan selanjutnya kita harus memilih 4 pendekatan tersebut mana yang merupakan
pendekatan terbaik. Untuk mengetahui metode mana yang mempunyai kinerja terbaik, dapat
digunakan rata-rata simpangan baku baku dalam cluster ( ) dan simpangan baku antar cluster
( ) (Bunkers, dkk.1996). Metode yang mempunyai rasio yang paling kecil merupakan metode
terbaik. Cluster yang baik adalah cluster yang mempunyai homogenitas (kesamaan) yang tinggi
antar anggota dalam satu cluster (within cluster) dan heterogenitas yang tinggi antar cluster yang
satu dengan cluster yang lain (between cluster).
Rumus rata-rata simpangan baku dalam cluster (Sw):
1
=
=1
Di mana:
K = banyaknya cluster yang terbentuk
Sk= simpangan baku cluster ke-k
Rumus rata-rata simpangan baku antar cluster (SB):
1
= ( )2
1
=1
Di mana:
= rata-rata cluster ke-k
= rata-rata seluruh cluster
Jika hanya terdapat 1 objek dalam cluster maka S bernilai nol.
Selanjutnya akan dihitung nilai rata-rata simpangan baku baku dalam cluster( ) dan
simpangan baku antar cluster( ) untuk masing-masing pendekatan.
Pertama, akan dihitung untuk pendekatan single lingkage , dengan terlebih dahulu mencari
nilai simpangan baku masing-masing dari cluster yang terbentuk. Adapun 2 dan
3 bernilai nol karena hanya terdapat 1 objek didalam cluster. Sedangkan untuk
1 :
Selanjutnya akan dihitung nilai simpangan baku antar cluster( ) dengan terlebih dahulu
mencari nilai yaitu dengan cara:
0,159 + 3,001 + 3,090
= = 1,978
3
Selanjutnya nilai didapat dengan cara:
Berdasarkan nilai rasio dari masing-masing pendekatan, maka dipilih pendekatan ward,
karena memiliki nilai rasio paling kecil. Sehingga untuk prosedur bertahap(metode Hierarki),
pendekatan yang digunakan dalam penelitian ini adalah pendekatan ward karena memiliki nilai
rasio yang paling kecil diantara rasio pendekatan yang lainnya.
III. INTERPRETASI
Dari tahapan pengolahan didapat bahwa untuk prosedur terbaik yang digunakan dalam
mengelompokkan data yang ada, yaitu dengan menggunakan prosedur tidak bertahap (Non
Hierarki) dengan pendekatan K-Means. Adapun cluster yang terbentuk adalah:
1. Klaster 1: kelompok negara pelari wanita dengan waktu rata-rata tercepat. Pada
kelompok ini terdapat 33 negara yang tergabung dalam kelompok ini, yaitu:
Australia, Austria, Belgium, Brasil, Canada, China, Columbia, Czech Republic,
Denmark, Finland, France, Germany, Great Britain, Greece, Hungary, Indonesia, Irland,
Italy, Japan, Kenya, Mexico, Netherland, New Zealand, Norway, Poland, Portugal,
Romania, Russia, Spain, Sweden, Switzerland, Turkey dan USA.
Dapat kita katakan bahwa kelompok pertama merupakan negara-negara unggulan
pada cabang atletik pelari wanita. Adapun negara-negara unggulan tersebut didominasi
oleh negara-negara dari benua eropa. Hal ini dikarenakan pembinaan atlet di negara-
negara tersebut sudah berjalan dengan baik.
2. Klaster 2: kelompok negara pelari wanita dengan waktu rata-rata sedang. Terdapat 18
negara yang tergabung dalam kelompok ini, yaitu:
Argentina, Bermuda, Chile, Costa Rica, Dominican Republic, Guatemala, India, Israel,
Korea South, Korea North, Luxemburg, Malaysia, Mauritius, Myanmar, Philipine,
Singapore, Taiwan dan Thailand.
Pada kelompok ini lebih didominasi oleh negara-negara dari benua Asia dan
Amerika. Atlet pelari wanita yang berasal dari kelompok ini, memiliki potensi untuk
menjadi pelari tercepat bila dilakukan pembinaan yang lebih baik.
3. Klaster 3: kelompok negara pelari wanita dengan waktu rata-rata terlama. Terdapat 3
negara yang tergabung dalam kelompok ini, yaitu:
Cook Islands, Papua New Guinea dan Samoa.
Dapat dikatakan bahwa negara-negara dalam kelompok ini merupakan negara non
unggulan pada cabang atletik pelari wanita.