Multi

ANALISIS KELOMPOK DENGAN MENGGUNAKAN METODE
HIERARKI DAN NON HIERARKI UNTUK PENGELOMPOKAN NEGARA

BERDASARKAN DATA NATIONAL TRACK RECORDS FOR WOMEN
Oleh :
1. Irtania Muthia Rizki 140720160005

2. Elsa Emeliana 140720160007
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
2016
ANALISIS KELOMPOK DENGAN MENGGUNAKAN METODE
HIERARKI DAN NON HIERARKI UNTUK PENGELOMPOKAN NEGARA

BERDASARKAN DATA NATIONAL TRACK RECORDS FOR WOMEN
I. PENDAHULUAN
Analisis kelompok atau yang biasa dikenal sebagai cluster analysis adalah salah satu
teknik statistik yang bertujuan untuk mengelompokkan objek ke dalam suatu kelompok
sedemikian sehingga objek yang berada dalam satu kelompok akan memiliki kesamaan yang
tinggi dibandingkan dengan objek yang berada di kelompok lain (Sharma, 1996:185).Santoso
(2004) menyatakan bahwa proses dari analisis kelompok adalah pengelompokkan data yang
dilakukan dengan dua macam metode yaitu metode hierarki dan metode non hierarki. Pada
metode non hierarki, telah ditentukan jumlah kelompok terlebih dahulu. Sedangkan metode
hierarki digunakan bila jumlah kelompok ditentukan berdasarkan hasil analisis.
1. Analisis Cluster Hierarki

Metode hierarki merupakan metode pengelompokan yang terstruktur dan bertahap
berdasarkan pada kemiripan sifat antar objek. Kemiripan sifat tersebut dapat ditentukan dari
kedekatan jarak. Ukuran jarak yang dapat digunakan yaitu ukuran jarak Euclid atau ukuran jarak
Mahalanobis. Jarak Euclid digunakan jika tidak terjadi korelasi. Jarak Euclid dirumuskan
sebagai berikut :
2
(, ) = =1( ) ; = 1,2,3,
d (y , x) = kuadrat jarak Euclid antar obyek pada y dengan obyek pada x

yk = nilai dari obyek y pada variabel ke-k xk = nilai dari
obyek x pada variabel ke-k
Jarak Mahalanobis digunakan jika data terjadi korelasi. Jarak Mahalanobis antara dua sampel X
danY dari suatu variabel acak didefinisikan sebagai berikut (Durak, 2001; 7)
dMahalanobis (y , x ) (y x )T 1 (y x)
Dengan adalah suatu matriks varian kovarian.
Secara umum ada dua cara pengelompokan dengan menggunakan metode hierarki, yaitu
dengan cara :
a. penggabungan (agglomerative)
Cara penggabungan, pada awal pengelompokan setiap obyek pengamatan dianggap berasal
dari kelompok yang berbeda. Kemudian secara bertahap objek-objek yang saling berdekatan
dikelompokkan. Sehingga pada akhirnya semua objek berada dalam satu kelompok yang
sama.
Single-linkage (pautan tunggal), metode dengan prinsip jarak minimum. Langkah
pertama menemukan jarak terdekat pada D = (dik) adalah nilai obyek ke-i pada variabel
ke-k dengan i=1,2,3,...,n dan menggabungkan obyek yang berkorespondensi, katakan U
dan V dan sebarang kelompok lain W adalah D = (d(uv)w) min{dUW.dVW} dUW dan dVW
adalah jarak tetangga terdekat dari kelompok U dan W, dan jarak kelompok V dan W.
Complete linkage (pautan lengkap), metode dengan prinsip jarak maksimum. Metode
umum dimulai penemuan anggota lain pada D = (dik) dan menggabungkan obyek yang
berkorespondensi misalnya U dan V menjadi (UV). Untuk langkah ketiga, jarak antara
(UV) dan kelompok lain W adalah D = (d(uv)w) maks{dUW.dVW} .
Average-linkage (pautan rata-rata), metode dengan prinsip jarak rata-rata. Metode
umum dimulai penemuan anggota lain pada D = (dik) dan menggabungkan obyek
yang berkorespondensi misalnya U dan V menjadi (UV). Untuk langkah ketiga, jarak
antara (UV) dan kelompok lain W adalah

d(uv)w =
()
N(UV) : jumlah dari anggota-anggota pada kelompok (UV) (Johnson dan Wichern, 1992)
Wards method, metode ini ini menggunakan perhitungan yang lengkap dan
memaksimumkan homogenitas di dalam satu kelompok.
1
ESS = =1( =1

2 (=1 2 ))

Keterangan :
xij : Nilai objek ke-i dengan i=1,2,3,... pada kelompok ke-j
k : Jumlah kelompok setiap stage
n j : Jumlah kelompok ke-i pada kelompok ke-j
b. cara pemisahan (divisive).

Dengan cara pemisahan, langkahnya berlawanan dengan metode sebelumnya. Semua objek
dianggap berasal dari satu kelompok besar. Kemudian dilihat perbedaan antar objek. Objek
yang berbeda akan dikeluarkan dari kelompok awal dan seterusnya secara bertahap sehingga
akan terbentuk kelompok terakhir yang beranggotakan satu objek saja.
Dalam Analisis Klaster Hierarki baik metode agglomerative maupun metode Divisive
menghasilkan suatu diagram dua dimensi yang disebut sebagai dendogram.
2. Analisis Cluster Non- Hierarki

Salah satu metode analisis klaster non hierarki atau disebut juga metode partioning yang
paling populer adalah Analisis Klaster K-means. Pada metode ini banyaknya klaster secara pasti
harus sudah diketahui. Sebuah cara sederhana yang dapat digunakan untuk menentukan banyak
klaster yang akan digunakan adalah plot dari jumlah kuadrat dalam klaster (within sum
of squares) dengan banyak klaster yang mana hasilnya mirip dengan screeplot dalam analisis
faktor.
K-means merupakan suatu metode pengelompokan non hirarki yang bersifat top-down
yaitu membagi n obyek ke dalam K kelompok berdasarkan algoritma :
a. Mempartisi obyek ke dalam K kelompok (ditentukan oleh peneliti).
b. Menghitung pusat kelompok menggunakan persamaan :

1
() =

=
c. Menghitung jarak setiap obyek ke pusat kelompok menggunakan fungsi jarak Euclidean.
d. Menentukan obyek yang memiliki jarak terdekat dengan pusat kelompok. Jika obyek
berpindah dari posisi awal (langkah a) maka pusat kelompok harus dihitung kembali.
e. Mengulangi langkah (b) (d) sampai tidak ada lagi obyek yang berpindah posisi.
Pendekatan K-Means memproses semua obyek secara sekaligus di mana k merupakan
banyaknya kelompok. Pada metode sebelumnya dilakukan proses pengelompokan dengan
jumlah cluster yang terbentuk yaitu tiga. Untuk menyamakan jumlah kelompok dengan metode
sebelumnya dan berdasarkan screeplot pada gambar di bawah ini, maka pada pengelompokan
dengan metode K-Means juga ditentukan banyaknya kelompok yang dibentuk adalah tiga.
3. Menentukan Kebaikan Metode Pengclusteran dengan Simpangan Baku

Untuk mengetahui metode mana yang mempunyai kinerja terbaik, dapat digunakan rata-rata
simpangan baku baku dalam cluster (Sw) dan simpangan baku antar cluster (SB) (Bunkers,
dkk1996).
Rumus rata-rata simpangan baku dalam cluster(Sw):
= 1
=1
Dimana :
K = banyaknya cluster yang terbentuk
Sk= simpangan baku cluster ke-k.
Rumus simpangan baku antar cluster (SB) :
1/2
= [( 1)1 ( )2 ]
=1
Dimana:
= rataan cluster ke-k
= rataan keseluruhan cluster
Metode yang mempunyai rasio terkecil merupakan metode terbaik. Cluster yang baik
adalah cluster yang mempunyai homogenitas (kesamaan) yang tinggi antar anggota dalam satu
cluster (within cluster ) dan heterogenitas yang tinggi antar cluster yang satu dengan cluster yang
lain (between cluster ) (Santoso, 2007:47).
II. ANALISIS DAN PEMBAHASAN
Pada kasus ini akan dianalisa data mengenai National Data Track Record for Women.
Data ini terdiri dari 54 Negara pada 7 jenis kejuaran lari . Akan dilakukan analisis klaster untuk
mengelompokkan negara berdasarkan lama waktu yang dibutuhkan pelari pada 7 kejuaraan lari.
Sebelum melakukan analisis klaster maka perlu dilakukan standarisasi ke normal baku.
Kemudian untuk profiling satuan waktu lari akan disamakan dalam second.
Maka langkah pertama dalam analisis adalah input data sebagai berikut:
> data <- read.table("datamulti2.txt")

> data
m100 m200 m400 m800 m1500 m3000 merathon
ARG 0.53849 -0.1921 0.1967 0.3176 0.2223 0.1340 -0.2006
AUS -0.6033 -0.9563 -1.2933 -0.4881 -0.6221 -0.5528 -0.6149
:
TPE -0.34960 -0.6011 0.28912 0.6629 0.6996 0.6736 0.3595
THA -0.0704 0.19534 0.23522 0.4327 0.6996 1.2133 0.5335
TUR -0.2734 -0.4397 0.44699 -0.142 -0.989 -0.6754 -0.1331
USA -2.2019 -1.9143 -1.21633 -0.9485 -0.879 -0.7981 -0.7587
> attach(data)
Setelah data diinput maka langkah pertama dalam melakukan analisis klaster adalah
pembentukkan data menjadi matriks jarak (distance) dimana metode yang digunakan ialah jarak
euclidean, sebagai berikut:
> ntr= as.matrix ((data))

> #untuk mencari matriks distance metode yang digunakan ialah euclidean
> ntr_dist = dist(ntr,method="euclidean")
Setelah matriks euclidean terbentuk maka langkah selanjutnya adalah menentukan

metode yang akan digunakan dalam melakukan pengklasteran. Berikut adalah metode yang
digunakan dalam kasus ini:
1. Analisis Klaster Hierarki
Analisis Klaster Hierarki merupakan metode pengelompokkan yang didasarkan atas
konsep kedekatan antar objek, dimana pada analisis ini penentuan banyak kelompok akan
ditentukan oleh penulis. Pada kasus ini akan digunakan metode algomeratif dengan pendekatan
single linkage dan average lingkage.
1.1 Single Linkage
Prinsip dari pendekatan single linkage adalah mengelompokkan data berdasarkan
jarak minimum data. Langkahnya adalah sebagai berikut:
> fit_1 = hclust(ntr_dist,method="single")
> plot (fit_1)
Setelah terbentuk dendogram dari data maka langkah selanjutnya adalah

menentukan banyak klaster yang akan dibentuk. Pada penelitian ini akan digunakan
klaster sebanyak 3 buah, dengan alasan untuk mempermudah dalam profiling untuk
setiap hasil klaster:
> groups=cutree(fit_1,k=3)
> rect.hclust(fit_1,k=3,border="red")
> agt_single=data.frame(fit_1$klaster)
> groups
ARG AUS AUT BEL BER BRA CAN CHI CHN COL COK
1 1 1 1 1 1 1 1 1 1 2
CRC CZE DEN DOM FIN FRA GER GBR GRE GUA HUN
1 1 1 1 1 1 1 1 1 1 1
INA IND IRL ISR ITA JPN KEN KOR.S KOR.N LUX MAS
1 1 1 1 1 1 1 1 1 1 1
MRI MEX MYA NED NZL NOR PNG PHI POL POR ROM
1 1 1 1 1 1 1 1 1 1 1
RUS SAM SIN ESP SWE SUI TPE THA TUR USA
1 3 1 1 1 1 1 1 1 1
32 1
Dari hasil klaster yang terbentuk dengan k=3 maka anggota dari setiap klaster
adalah sebagai berikut:
- Klaster 1 : Selain negara COK dan SAM

- Klaster 2 : COK
- Klaster 3 : SAM
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan
pelari dari tiap klaster adalah sebagai berikut:
Klaster m100 m200 m400 m800 m1500 m3000 Marathon

Klaster 1 11.32 23.02 51.72 120.74 249.22 537.85 9105.61
Klaster 2 12.52 25.91 61.65 136.80 289.20 666.00 12739.80
Klaster 3 12.38 25.45 56.32 137.40 325.20 787.20 11494.80
Perhitungan rata-rata waktu yang dibutuhkan pelari wanita berdasarkan klaster yang
dibentuk bertujuan untuk mempermudah dalam profiling. Berdasarkan tabel di atas maka
profiling dari tiap klaster adalah sebagai berikut:
- Klaster 1 : Negara dengan pelari wanita dengan waktu tercepat
- Klaster 2 : Negara dengan pelari wanita dengan waktu terlama
- Klaster 3 : Negara dengan pelari wanita dengan waktu sedang
1.2 Complete Linkage

Prinsip dari pendekatan complete linkage mengelompokkan data berdasarkan jarak
maksimum, dimana pada pendekatan ini, akan mengelompokkan 2 objek yang
mempunyai jarak terjauh dahulu.. Langkahnya adalah sebagai berikut:
> #metode klaster yang digunakan adalah complete
> fit_2 = hclust(ntr_dist,method="complete")
> plot (fit_2)
> groups=cutree(fit_2,k=3)
> rect.hclust(fit_2,k=3,border="BLUE")
> agt_single=data.frame(fit_2$klaster)
> groups
1 2 2 2 1 2 2 1 2 1 3
1 2 1 1 2 2 2 2 2 1 1
1 1 1 1 2 1 1 1 1 1 1
1 1 1 2 1 1 3 1 2 1 2
2 3 1 2 2 1 1 1 1 2
3 2 1
Dari hasil klaster yang terbentuk dengan k=3 maka anggota dari setiap klaster adalah
sebagai berikut:
- Klaster 1 : ARG, BER, CHI, COL, CRC, DEN, DOM, GUA, HUN, INA, IND,
IRL, ISR, JPN, KEN, KOR.S, KOR.N, LUX, MAS, MRI, MEX, MYA,
NZL, NOR, PHI, POR, SIN, SUI, TPE, THA, TUR,USA
- Klaster 2 : AUS, AUT, BEL, BRA, CAN, CHN, CZE, FIN, FRA, GER, GBR,
GRE, ITA, NED, POL, ROM, RUS, ESP, SWE,
- Klaster 3 : COK, PNG dan SAM

Klaster 1 11.47 23.37 52.72 122.48 253.37 547.99 9208.07
Klaster 2 11.03 22.34 49.86 117.09 240.76 516.85 8713.96
Klaster 3 12.29 25.35 57.72 136.20 297.20 688.60 12501.00
1.3 Average Linkage

Prinsip dari pendekatan average linkage adalah mengelompokkan data berdasarkan
rata-rata data. Langkahnya adalah sebagai berikut:
> #metode klaster yang digunakan adalah average
> fit_3 = hclust(ntr_dist,method="average")
> plot (fit_3)
> groups3=cutree(fit_3,k=3)
> rect.hclust(fit_3,k=3,border="purple")
> agt_single3=data.frame(fit_3$klaster)
> groups3
1 1 1 1 1 1 1 1 1 1 2
1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 2 1 1 1 1
1 3 1 1 1 1 1 1 1 1
1 32
sebagai berikut:
- Klaster 1 : Seluruh Negara kecuali COK, PNG dan SAM
- Klaster 2 : COK dan PNG
- Klaster 3 : SAM

Klaster 1 11.30 22.99 51.65 120.47 248.67 536.39 9023.99
Klaster 2 12.24 25.30 58.42 135.60 283.20 639.30 13004.10
Klaster 3 12.38 25.45 56.32 137.40 325.20 787.20 11494.80
1.4 Ward
Prinsip dari pendekatan ward adalah dengan menghitung rata-rata untuk setiap
klaster, lalu dihitung jarak euclidean antara setiap objek dan nilai rata-rata itu, lalu jarak
itu dihitung semua.. Langkahnya adalah sebagai berikut:
> #metode klaster yang digunakan adalah ward
> fit_4 = hclust(ntr_dist,method="ward.D")
> plot (fit_4)

> groups4=cutree(fit_4,k=3)
> rect.hclust(fit_4,k=3,border="green")
> agt_single4=data.frame(fit_4$klaster)
> groups4
1 2 2 2 1 2 2 1 2 2 3
1 2 2 1 2 2 2 2 2 1 2
1 2 2 1 2 2 2 1 1 1 1
1 2 1 2 2 2 3 1 2 2 2
2 3 1 2 2 2 1 1 2 2
2 3 1
sebagai berikut:
- Klaster 1 : ARG, BER, CHI, CRC, DOM, GUA, INA, ISR, KOR.S, KOR.N, LUX,
MAS, MRI, MYA, PHI, SIN, SWE, TPE, THA
- Klaster 2 : AUS, AUT, BEL, BRA, CAN, COL, CHN, CZE, DEN, FIN,
FRA,GER, GBR, GRE, HUN, IND, IRL, ITA, JPN, KEN, MEX, NED,
NZL, NOR, POL, POR, ROM, RUS, ESP, SUI, TUR, USA
- Klaster 3 : COK, PNG dan SAM

Klaster 1 11.58 23.66 53.73 124.23 260.34 567.16 9527.84
Klaster 2 11.18 22.69 50.76 118.80 243.18 522.60 8846.49
Klaster 3 12.29 25.35 57.72 136.20 297.20 688.60 12501.00
2. Non Hierarki (K-Means)
Salah satu metode analisis klaster non hierarki atau disebut juga metode partioning
yang paling populer adalah Analisis Klaster K-means. Pada metode ini banyaknya klaster
secara pasti harus sudah diketahui. Sebuah cara sederhana yang dapat digunakan untuk
menentukan banyak klaster yang akan digunakan adalah plot dari jumlah kuadrat dalam
klaster (within sum of squares) dengan banyak klaster yang mana hasilnya mirip dengan
screeplot dalam analisis faktor. Berikut adalah perintah-perintah yang digunakan dalam
Analisis Klaster K-Means :
Langkah pertama yaitu menentukan k sebagai jumlah klaster yang akan dibentuk:
> #B. Metode Non Hierarki (K-Means)
> #Menentukan banyaknya klaster
> wss <- (nrow(data)-1)*sum(apply(data,2,var))
> for (i in 2:15) wss[i] <- sum(kmeans(data, centers=i)$withinss)
> plot(1:15, wss, type="b", xlab="Banyak Klaster",ylab="Jumlah Kuadrat dalam
Klaster")
Banyaknya klaster yang akan dibentuk (k) pada proses pengklasteran dengan
metode K-Means adalah tiga buah sehingga terdapat tiga buah centroid (pusat klaster)
dimana c1 (centroid klaster1), c2 (centroid klaster2), c3 (centroid klaster3) dengan
bantuan aplikasi R, nilai centroid dapat dilihat pada output (Klaster Means), sebagai
berikut:
> #Analisis Klaster K-Means
> fit5<-kmeans(data, 3) #dari screeplot terlihat bahwa banyaknya klaster=3
> fit5
Dari anggota setiap klaster yang terbentuk maka rata-rata waktu yang dibutuhkan pelari
dari tiap klaster adalah sebagai berikut:
> # Menentukan Rata-rata Klaster

> aggregate(data, by=list(fit5$cluster),FUN=mean)
Cluster means:
m100 m200 m400 m800 m1500 m3000
1 0.6216678 0.6300908 0.7128755 0.6053960 0.5996854 0.4999131
2 -0.5533625 -0.5617196 -0.5893224 -0.5893115 -0.5820694 -0.5398260
3 2.3569809 2.3983714 2.2052936 2.8500509 2.8046512 2.9386078
marathon
1 0.3433833
2 -0.4899492
3 3.3291417
- Klaster 1 : Negara dengan pelari wanita dengan waktu rata-rata terlama
> library(klaster)
> clusplot(ntr,fit_3$klaster,color=TRUE,shade=TRUE, labals=2,lines=0)
Cluster means:
m100 m200 m400 m800 m1500 m3000
1 -0.5533625 -0.5617196 -0.5893224 -0.5893115 -0.5820694 -0.5398260
2 0.6216678 0.6300908 0.7128755 0.6053960 0.5996854 0.4999131
3 2.3569809 2.3983714 2.2052936 2.8500509 2.8046512 2.9386078
marathon
1 -0.4899492
2 0.3433833
3 3.3291417
Berdasarkan hasil di atas dapat dilihat hasil dari klaster dari 54 negara
berdasarkan waktu yang dibutuhka pelari wanita pada 7 perlombaan lari. Untuk lebih
jelas maka penulis menampilkan dalam bentuk plot. Tampak bahwa terdapat perbedaan
yang mencolok pada klaster 1 (orange) yang berada jauh dari 3 klaster lainnya.
Berikut adalah anggota kelompo dari 4 klaster yang terbentuk:
1 2 2 2 1 2 2 1 2 2 3
1 2 2 1 2 2 2 2 2 1 2
1 2 2 1 2 2 2 1 1 1 1
1 2 1 2 2 2 3 1 2 2 2
2 3 1 2 2 2 1 1 2 2

3. Perbandingan Prosedur Hierarki dengan Prosedur Tidak Non Hierarki

Sebagai dasar untuk membandingkan kedua metode tersebut, yaitu dengan cara melihat
rasio simpangan baku, seperti pada saat memilih pendekatan mana yang terbaik pada prosedur
bertahap.
Untuk prosedur bertahap menggunakan pendekatan ward didapat nilainya:
= 0,415
= 1,653
= 0,251
Untuk prosedur tidak bertahap didapat nilainya:
= 0,415
= 1,964
= 0,211
Berdasarkan nilai rasio dari kedua prosedur tersebut, maka dapat dikatakan prosedur tidak
bertahap yaitu dengan pendekatan Kmean lebih baik digunakan karena memiliki nilai rasio yang
lebih kecil sehingga mempunyai homogenitas yang tinggi.
4. Pemilihan Metode
Tahapan selanjutnya adalah memilih dari 4 pendekatan tersebut mana yang merupakan
pendekatan terbaik. Untuk mengetahui metode mana yang mempunyai kinerja terbaik, dapat
digunakan rata-rata simpangan baku baku dalam klaster ( ) dan simpangan baku antar klaster
( ) (Bunkers, dkk.1996). Metode yang mempunyai rasio terkecil merupakan metode terbaik.
Klaster yang baik adalah klaster yang mempunyai homogenitas (kesamaan) yang tinggi antar
anggota dalam satu klaster (within klaster) dan heterogenitas yang tinggi antar klaster yang satu
dengan klaster yang lain (between klaster).
Rumus rata-rata simpangan baku dalam klaster (Sw):

1
=

=1
Di mana:
K = banyaknya klaster yang terbentuk
Sk= simpangan baku klaster ke-k
Rumus rata-rata simpangan baku antar klaster (SB):

1
= ( )2
1
=1
Di mana:
= rata-rata klaster ke-k
= rata-rata seluruh klaster
Jika hanya terdapat 1 objek dalam klaster maka S bernilai nol.
Selanjutnya akan dihitung nilai rata-rata simpangan baku baku dalam klaster ( ) dan
simpangan baku antar klaster ( ) untuk masing-masing pendekatan.
Pertama, akan dihitung untuk pendekatan single lingkage , dengan terlebih dahulu mencari
nilai simpangan baku masing-masing dari klaster yang terbentuk. Adapun 2 dan
3 bernilai nol karena hanya terdapat 1 objek didalam klaster. Sedangkan untuk
1 :
(0,145 (0,159))2 + + (1,245 (0,159))2
1 = = 0,63
52 1
Kemudian dihitung dengan cara:

(0,63)
= = 0,63
1
Selanjutnya akan dihitung nilai simpangan baku antar klaster( ) dengan terlebih dahulu
mencari nilai yaitu dengan cara:
0,159 + 3,001 + 3,090
= = 1,978
3
Selanjutnya nilai didapat dengan cara:
(0,159 1,978)2 +. . +(3,090 1,978)2

= = 1,851
31
Selanjutnya dihitung nilai rasio dari kedua simpangan baku tersebut:

= =0,342

Dengan cara yang sama diperoleh:

= 0,458
= 1,778
= 0,258
= 0,447
= 1,731
= 0,258
= 0,415
= 1,653
= 0,251
Berdasarkan nilai rasio dari masing-masing pendekatan, maka dipilih pendekatan
ward, karena memiliki nilai rasio paling kecil. Sehingga untuk prosedur
bertahap(metode Hierarki), pendekatan yang digunakan dalam penelitian ini adalah
pendekatan ward karena memiliki nilai rasio yang paling kecil diantara rasio
pendekatan yang lainnya.
Pada tahapan selanjutnya kita harus memilih 4 pendekatan tersebut mana yang merupakan
pendekatan terbaik. Untuk mengetahui metode mana yang mempunyai kinerja terbaik, dapat
digunakan rata-rata simpangan baku baku dalam cluster ( ) dan simpangan baku antar cluster
( ) (Bunkers, dkk.1996). Metode yang mempunyai rasio yang paling kecil merupakan metode
terbaik. Cluster yang baik adalah cluster yang mempunyai homogenitas (kesamaan) yang tinggi
antar anggota dalam satu cluster (within cluster) dan heterogenitas yang tinggi antar cluster yang
satu dengan cluster yang lain (between cluster).
Rumus rata-rata simpangan baku dalam cluster (Sw):

1
=

=1
Di mana:
K = banyaknya cluster yang terbentuk
Sk= simpangan baku cluster ke-k
Rumus rata-rata simpangan baku antar cluster (SB):

1
= ( )2
1
=1
Di mana:
= rata-rata cluster ke-k
= rata-rata seluruh cluster
Jika hanya terdapat 1 objek dalam cluster maka S bernilai nol.
Selanjutnya akan dihitung nilai rata-rata simpangan baku baku dalam cluster( ) dan
simpangan baku antar cluster( ) untuk masing-masing pendekatan.
Pertama, akan dihitung untuk pendekatan single lingkage , dengan terlebih dahulu mencari
nilai simpangan baku masing-masing dari cluster yang terbentuk. Adapun 2 dan
3 bernilai nol karena hanya terdapat 1 objek didalam cluster. Sedangkan untuk
1 :
(0,145 (0,159))2 + + (1,245 (0,159))2

1 = = 0,63
52 1
Kemudian dihitung dengan cara:

(0,63)
= = 0,63
1
Selanjutnya akan dihitung nilai simpangan baku antar cluster( ) dengan terlebih dahulu
mencari nilai yaitu dengan cara:
0,159 + 3,001 + 3,090
= = 1,978
3
Selanjutnya nilai didapat dengan cara:
(0,159 1,978)2 +. . +(3,090 1,978)2

= = 1,851
31
Selanjutnya dihitung nilai rasio dari kedua simpangan baku tersebut:

= =0,342

Dengan cara yang sama diperoleh:

= 0,458
= 1,778
= 0,258
= 0,447
= 1,731
= 0,258
= 0,415
= 1,653
= 0,251
Berdasarkan nilai rasio dari masing-masing pendekatan, maka dipilih pendekatan ward,
karena memiliki nilai rasio paling kecil. Sehingga untuk prosedur bertahap(metode Hierarki),
pendekatan yang digunakan dalam penelitian ini adalah pendekatan ward karena memiliki nilai
rasio yang paling kecil diantara rasio pendekatan yang lainnya.
III. INTERPRETASI
Dari tahapan pengolahan didapat bahwa untuk prosedur terbaik yang digunakan dalam
mengelompokkan data yang ada, yaitu dengan menggunakan prosedur tidak bertahap (Non
Hierarki) dengan pendekatan K-Means. Adapun cluster yang terbentuk adalah:
1. Klaster 1: kelompok negara pelari wanita dengan waktu rata-rata tercepat. Pada
kelompok ini terdapat 33 negara yang tergabung dalam kelompok ini, yaitu:
Australia, Austria, Belgium, Brasil, Canada, China, Columbia, Czech Republic,
Denmark, Finland, France, Germany, Great Britain, Greece, Hungary, Indonesia, Irland,
Italy, Japan, Kenya, Mexico, Netherland, New Zealand, Norway, Poland, Portugal,
Romania, Russia, Spain, Sweden, Switzerland, Turkey dan USA.
Dapat kita katakan bahwa kelompok pertama merupakan negara-negara unggulan
pada cabang atletik pelari wanita. Adapun negara-negara unggulan tersebut didominasi
oleh negara-negara dari benua eropa. Hal ini dikarenakan pembinaan atlet di negara-
negara tersebut sudah berjalan dengan baik.
2. Klaster 2: kelompok negara pelari wanita dengan waktu rata-rata sedang. Terdapat 18
negara yang tergabung dalam kelompok ini, yaitu:
Argentina, Bermuda, Chile, Costa Rica, Dominican Republic, Guatemala, India, Israel,
Korea South, Korea North, Luxemburg, Malaysia, Mauritius, Myanmar, Philipine,
Singapore, Taiwan dan Thailand.
Pada kelompok ini lebih didominasi oleh negara-negara dari benua Asia dan
Amerika. Atlet pelari wanita yang berasal dari kelompok ini, memiliki potensi untuk
menjadi pelari tercepat bila dilakukan pembinaan yang lebih baik.
3. Klaster 3: kelompok negara pelari wanita dengan waktu rata-rata terlama. Terdapat 3
negara yang tergabung dalam kelompok ini, yaitu:
Cook Islands, Papua New Guinea dan Samoa.
Dapat dikatakan bahwa negara-negara dalam kelompok ini merupakan negara non
unggulan pada cabang atletik pelari wanita.

Multi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Multi

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS KELOMPOK DENGAN MENGGUNAKAN METODE

HIERARKI DAN NON HIERARKI UNTUK PENGELOMPOKAN NEGARA

1. Irtania Muthia Rizki 140720160005

HIERARKI DAN NON HIERARKI UNTUK PENGELOMPOKAN NEGARA

1. Analisis Cluster Hierarki

d (y , x) = kuadrat jarak Euclid antar obyek pada y dengan obyek pada x

k : Jumlah kelompok setiap stage

n j : Jumlah kelompok ke-i pada kelompok ke-j

b. cara pemisahan (divisive).

2. Analisis Cluster Non- Hierarki

3. Menentukan Kebaikan Metode Pengclusteran dengan Simpangan Baku

Rumus rata-rata simpangan baku dalam cluster(Sw):

K = banyaknya cluster yang terbentuk

Sk= simpangan baku cluster ke-k.

Rumus simpangan baku antar cluster (SB) :

= rataan cluster ke-k

= rataan keseluruhan cluster

> data <- read.table("datamulti2.txt")

> ntr= as.matrix ((data))

Setelah matriks euclidean terbentuk maka langkah selanjutnya adalah menentukan

Setelah terbentuk dendogram dari data maka langkah selanjutnya adalah

- Klaster 1 : Selain negara COK dan SAM

Klaster m100 m200 m400 m800 m1500 m3000 Marathon

1.2 Complete Linkage

Klaster m100 m200 m400 m800 m1500 m3000 Marathon

1.3 Average Linkage

Klaster m100 m200 m400 m800 m1500 m3000 Marathon

Setelah terbentuk dendogram dari data maka langkah selanjutnya adalah

Klaster m100 m200 m400 m800 m1500 m3000 Marathon

> # Menentukan Rata-rata Klaster

- Klaster 1 : Negara dengan pelari wanita dengan waktu terlama

3. Perbandingan Prosedur Hierarki dengan Prosedur Tidak Non Hierarki

Untuk prosedur bertahap menggunakan pendekatan ward didapat nilainya:

Kemudian dihitung dengan cara:

(0,159 1,978)2 +. . +(3,090 1,978)2

Selanjutnya dihitung nilai rasio dari kedua simpangan baku tersebut:

Dengan cara yang sama diperoleh:

(0,145 (0,159))2 + + (1,245 (0,159))2

Kemudian dihitung dengan cara:

(0,159 1,978)2 +. . +(3,090 1,978)2

Selanjutnya dihitung nilai rasio dari kedua simpangan baku tersebut:

Dengan cara yang sama diperoleh:

Anda mungkin juga menyukai