Pengkajian Keakuratan Twostep Cluster Dalam Menentukan Banyaknya Gerombol Populasi Kudsiati
Pengkajian Keakuratan Twostep Cluster Dalam Menentukan Banyaknya Gerombol Populasi Kudsiati
KUDSIATI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2006
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis Pengkajian Keakuratan TwoStep Cluster
dalam Menentukan Banyaknya Gerombol Populasi adalah karya saya sendiri dan
belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
daftar pustaka dibagian akhir tesis ini.
Kudsiati
NIM G151020151
ABSTRAK
KUDSIATI
Tesis
sebagai salah satu syarat memperoleh gelar
Magister Sains pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2006
Judul Tesis : Pengkajian Keakuratan TwoStep Cluster dalam Menentukan
Banyaknya Gerombol Populasi
Nama : Kudsiati
NIM : G151020151
Disetujui
Komisi Pembimbing
Dr. Ir. Bambang Juanda, M.S. Ir. Itasia Dina Sulvianti, M.Si.
Ketua Anggota
Diketahui
Dr. Ir. Aji Hamim Wigena, M.Sc. Prof. Dr. Ir. Khairil A. Notodiputro, M.S.
Puji dan syukur penulis panjatkan kepada Allah SWT atas rahmat dan karunia-
Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih dalam
penelitian ini adalah Pengkajian Keakuratan TwoStep Cluster dalam Menentukan
Banyaknya Gerombol Populasi.
Terima kasih penulis sampaikan kepada berbagai pihak yang telah membantu
penyelesaian karya ilmiah ini, antara lain :
1. Bapak Dr. Ir. Bambang Juanda, M.S. dan Ibu Ir. Itasia Dina Sulvianti, M.Si. atas
segala bimbingan dan arahannya.
2. Suami Satrio Wiseno serta anak tercinta Haikal Fadlurrahman, atas doa dan
dukungan yang telah memperlancar selesainya karya ilmiah ini.
3. Seluruh Staf Departemen Statistika IPB, atas kesempatan dan ilmu yang
diberikan selama penulis menuntut ilmu di Departemen Statistika IPB.
4. Rekan-rekan di GRP, terima kasih atas bantuan yang telah diberikan kepada
penulis.
Akhirnya sebagaimana manusia yang tidak pernah luput dari kesalahan, penulis
mohon maaf apabila ada kesalahan dalam penulisan ini dan semoga karya ilmiah ini
dapat bermanfaat.
Kudsiati
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 26 Agustus 1964, anak kedelapan dari
11 bersaudara, dari ayah H.Usman (Alm) dan ibu Hj. Tarbiah.
Tahun 1987 penulis lulus dari program sarjana IPB Jurusan Statistika. Pada tahun
2002 penulis diterima pada Program Pascasarjana IPB Program Studi Statistika.
Pada tahun 1988 s/d 2000 penulis bekerja di Bank Duta dan sejak bulan Januari
2001 sampai saat ini bekerja pada PT. Grup Riset Potensial.
vi
DAFTAR ISI
Halaman
Halaman
DAFTAR TABEL
Halaman
Halaman
DAFTAR GAMBAR
Halaman
PENDAHULUAN
Latar Belakang
Tujuan Penelitian
TINJAUAN PUSTAKA
Titik pusat awal k buah gerombol dipilih secara acak pada pertama kali,
selanjutnya dilakukan proses iterasi yang mana pada setiap iterasi dibentuk
penggerombolan berdasarkan jarak Euclidian terdekat ke pusat gerombol. Jadi pada
setiap iterasi pusat gerombol akan berubah. Proses iterasi akan berhenti bila rata-rata
gerombol lebih kecil dari batas perubahan yang ditentukan, atau banyaknya iterasi
telah melampaui batasan maksimum (Adenberg 1973). Secara umum, metode k-
rataan menghasilkan tepat k gerombol yang memiliki perbedaan keragaman terbesar 1) .
Garson (2006) mengemukakan bahwa metode k-rataan cocok untuk digunakan pada
data berukuran besar (misal lebih dari 200 individu).
TwoStep Cluster
Algoritma TwoStep Cluster dikembangkan oleh Chiu, Fang, Chen, Wang, dan
Jeris (2001) untuk analisis pada gugus data yang besar. Prosedurnya terdiri dari dua
langkah (Chiu et al. 2001, SPSS 2004), yaitu :
___________________________________________
1)
http://www.statsoft.com/textbook/stcluan.html#general
8
Node
Rebuild
Rebuild
Leaf
Threshold distance
Rebuild
Pre-Clustering
Rebuild
Rebuild
Pre-Clustering
stokastik dengan nilai tengah µij dan ragam σ ij , serta peubah-peubah kategorik aj
2
pada gerombol ke-i mengikuti sebaran multinomial dengan peluang π ijl , yang mana
3. Konsep Jarak
Terdapat dua konsep pengukuran jarak yang tersedia pada SPSS TwoStep
Cluster yaitu jarak Euclidean dan jarak log-likelihood. Bacher, Weinzig, dan Vogler
(2004) menyatakan bahwa ukuran jarak log-likelihood dapat diterapkan untuk atribut
(peubah-peubah) campuran antara kategorik dan numerik.
Jarak log-likelihood antara dua kelompok i dan s didefinisikan sebagai berikut:
d (i, s ) = ξ i + ξ s − ξ i ,s (1)
p 1
( ) log (πˆ ijl )
q mj
ξ i = −ni ∑ log σˆ ij2 + σˆ 2j − ∑ ∑πˆ ijl
(2)
j =1 2 j =1 l =1
p 1
( ) log (πˆ sjl )
q mj
ξ s = −ns ∑ log σˆ sj2 + σˆ 2j − ∑ ∑πˆ sjl
(3)
j =1 2 j =1 l =1
p 1
( ) ( )
q mj
ξ i , s = −n i , s ∑ log σˆ 2i , s j + σˆ 2j − ∑ ∑πˆ i , s jl
log πˆ i ,s jl
(4)
j =1 2 j =1 l =1
12
Menurut Chiu et al. (2001: 266) BIC k atau AIC k menghasilkan penduga awal
yang baik bagi banyaknya gerombol maksimum. Banyaknya gerombol maksimum
ditentukan sama dengan banyaknya gerombol yang memiliki rasio BICk /BIC1 yang
pertama kali lebih kecil dari c1 (SPSS menetapkan c1 = 0,04 yang didasarkan atas
studi simulasi) (SPSS Technical Support 2001).
Tahap kedua digunakan kriteria perubahan rasio jarak untuk k buah gerombol,
R(k) , yang didefinisikan sebagai :
R (k ) = d k −1 / d k (8)
yang mana dk-1 adalah jarak jika k buah gerombol digabungkan menjadi k-1 gerombol.
Jarak dk dapat diperoleh dari hasil perhitungan sebagai berikut :
d k = l k −1 − l k (9)
l v = (rv log n − BIC v ) / 2 atau l v = (2rv − AIC v ) / 2 untuk v=k, k-1 (10)
Menurut Bacher, Wenzig, dan Vogler (2004), menggunakan BIC atau AIC
menghasilkan jawaban ya ng berbeda. Sebagai catatan, SPSS menyediakan 2 pilihan
kriteria, yaitu menggunakan BIC atau AIC. Banyaknya gerombol diperoleh
berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan
gerombol. Rasio perubahan gerombol dihitung sebagai berikut
R (k1 ) / R(k 2 ) (11)
untuk dua nilai terbesar dari R(k) (k=1,2,…,kmax; kmax didapatkan dari langkah
pertama).
Jika rasio perubahan lebih besar daripada nilai batas c2 (SPSS menetapkan nilai
c2 = 1,15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama dengan
k1 , selainnya banyak gerombol sama dengan maksimum {k1 ,k2 }.
dimana :
V = ∏ R k ∏ Lm (13)
Rk = range dari peubah kontinu ke-k
Lm = Banyaknya kategori untuk peubah kategori ke-m
Sub-sub gerombol yang telah diidentifikasi sebagai pencilan, pada tahap pra-
penggerombolan (pre-clustering) tidak dilibatkan pada proses penentuan banyaknya
gerombol maupun penetapan keanggotaan gerombol.
15
Bahan
P4 : Populasi yang dibentuk dari 3 gerombol yang terpisah secara tegas. Sama pada
kasus di atas (P3), namun populasi yang dianalisis tersegmen menjadi kelompok
kelas atas (upper), menengah (middle), dan kelas bawah (lower).
P5 : Populasi yang dibentuk dari 5 gerombol yang terdiri dari 3 gerombol yang
terbedakan secara tegas, dan 2 gerombol lainnya tumpang tindih satu dengan
lainnya serta dengan gerombol lain. Pada bidang pemasaran, segmentasi
berdasarkan psikografik atau gaya hidup cukup umum dijump ai pemisahan
yang tidak nyata pada beberapa kelompok dan pada kelompok lainnya terdapat
perbedaan yang nyata.
Selain model- model populasi hipotetik di atas, pada penelitian ini akan
dievaluasi pengaruh jenis peubah yang terlibat dalam proses penggerombolan. Untuk
membatasi lingkup penelitian, ditetapkan banyaknya peubah yang terlibat adalah 14.
Dalam prakteknya, berdasarkan pengalaman penulis di bidang riset pemasaran,
atribut preferensi produk yang diukur untuk tujuan segmentasi umumnya tidak lebih
dari 10. Pada segmentasi konsumen berdasarkan psikografik, sangat umum
digunakan 14 dimensi nilai (value), sedangkan pada segmentasi berdasarkan sosio -
demografik peubah-peubah yang umum digunakan adalah (1) kelompok umur, (2)
pendidikan tertinggi, (3) kelas rata-rata pengeluaran rumah tangga per bulan, (4) kelas
rata-rata pendapatan rumah tangga per bulan, (5) status perkawinan, (6) status
pekerjaan, (7) gender, (8) ukuran keluarga, dan (9) kepemilikan barang-barang tahan
lama di rumah tangga. Kelompok peubah yang akan dievaluasi adalah :
V1 : Kumpulan peubah yang semuanya merupakan peubah kuantitatif (numerik,
dengan skala kontinu atau interval). Kasus ini sangat jarang dijumpai pada
bidang pemasaran, namun sangat umum ditemukan di bidang pertanian secara
luas, bidang ekonomi dan keuangan, atau bidang kesehatan.
17
V2: Kumpulan peubah yang semuanya merupakan peubah kategorik (nominal atau
ordinal yang diperlakukan sebagai nominal). Kasus ini paling banyak dijumpai
pada bidang pemasaran, ilmu- ilmu sosial, manajemen, dan politik.
V3 : Kumpulan peubah yang terdiri dari sebagian kecil (4) peubah kuantitatif, dan
sisanya (10) merupakan peubah kategorik. Pada bidang pemasaran dan ilmu-
ilmu sosial kasus seperti ini mulai mendapat perhatian.
V4 : Kumpulan peubah yang terdiri dari sebagian besar (10) merupakan peubah
kuantitatif, dan sisanya (4) merupakan peubah kategorik. Pada bidang pertanian
dan ekonomi keterlibatan peubah-peubah yang tidak dapat dikuantifikasi, saat
ini mulai mendapat perhatian.
Data Hipotetik
Faktor lain yang dipandang berpengaruh terhadap data bangkitan yang akan
digunakan adalah ukuran contoh secara total (banyaknya data). Pada penelitian ini
akan dievaluasi kemungkinan ukuran data relatif kecil (500), sedang (2.000), besar
(5.000) dan sangat besar (10.000). Dengan demikian, model data bangkitan yang akan
digunakan dalam penelitian ini merupakan fungsi dari :
• 5 Model hipotetik segmentasi di populasi.
• 4 Komposisi jenis peubah yang terlibat dalam analisis.
• 4 Ukuran data.
Dengan menggunakan rancangan faktorial lengkap, untuk mengkombinasikan
berbagai kemungkinan dari masing- masing parameter yang dievaluasi maka
dibangkitkan 80(5x4x4) data hipotetik untuk dianalisis. Masing- masing kombinasi
akan diulang sebanyak 100 kali, sehingga diperlukan 8.000 gugus data hipotetik yang
dibangkitkan melalui simulasi pada percobaan ini untuk dianalisis. Berdasarkan hasil
pembangkitan rancangan faktorial lengkap, diperoleh 80 kombinasi model untuk data
hipotetik yang akan digunakan dalam penelitian ini, yang secara lengkap disajikan
pada Tabel 1.
18
Metode
Data hipotetik dibangkitkan dari sebaran normal dengan nilai tengah µ dan
ragam=1. Lebih lanjut diasumsikan bahwa antar peubah-peubah yang terlibat dalam
analisis saling bebas stokastik, dengan sebaran yang sama. Dengan demikian,
peubah-peubah yang terlibat dalam analisis menyebar normal, bebas stokastik, identik
(normally independently identically distributed), N(µ,1). Nilai tengah untuk masing-
masing model segmentasi yang dievaluasi dinyatakan sebagai berikut :
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
P 2: Populasi yang dibentuk dari 2 gerombol dengan jarak antar gerombol relatif
kecil (pemisahan tidak tegas)
Gerombol 1 : µ (x1i) = -0,50 ; i = 1,2,3,........, n1 (catatan : n1=N/2)
Gerombol 2 : µ (x2i) = +0,50 ; i = 1,2,3,........, n2 (catatan : n2=N/2)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0
0
0
0.0
0.4
0.8
1.2
1.6
2.4
2.8
3.6
4.0
-4.0
-3.6
-3.2
-2.8
-2.4
-2.0
-1.6
-1.2
-0.8
-0.4
2.0
P3 : Populasi yang dibetuk dari 2 gerombol dengan jarak antar gerombol relatif
besar (pemisahan antar gerombol tegas)
Gerombol 1 : µ (x1i ) = -3,00 ; i = 1,2,3,........, n1 (catatan : n1=N/2)
Gerombol 2 : µ (x2i ) =+3,00 ; i = 1,2,3,........, n2 (catatan : n2=N/2)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
.60
.80
0
0
0
0
0
0
0
0
0
0
0
0
0
0.0
0.4
0.8
1.2
1.6
2.0
2.8
3.2
3.6
4.4
4.8
5.6
6.0
-5.2
-4.8
-4.4
-4.0
-3.6
-2.4
-2.0
-1.6
-1.2
-0.8
2.4
4.0
5.2
-6.0
-3.2
-0.4
-5
-2
N(-3,1) N(3,1)
P4 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup
besar (pemisahan secara tegas)
Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,........, n1 (catatan : n1=N/4)
Gerombol 2 : µ (x2i) = 0,00 ; i = 1,2,3,........., n2 (catatan : n2=N/2)
Gerombol 3 : µ (x3i) = +4,00 ; i = 1,2,3,......., n3 (catatan : n3=N/4)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0
0
0
60
40
80
60
00
80
20
00
40
3.8
5.6
-7.0
-5.2
-3.4
-1.6
0.2
0.8
1.4
2.0
2.6
3.2
4.4
5.0
6.2
6.8
7.4
-7.
-6.
-5.
-4.
-4.
-2.
-2.
-1.
-0.
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
.20
.80
.20
.80
.40
0
0
0
80
60
40
00
40
00
0
0
0
0
0
0
0
0
0
0
0
0
0
40
00
60
20
60
2.0
2.6
5.0
7.4
9.8
0.2
0.8
1.4
3.2
3.8
4.4
5.6
6.2
6.8
8.0
8.6
9.2
0.0
-8.
-7.
-6.
-4.
-3.
-1.
-9.
-7.
-4.
-2.
-1.
-8
-5
-5
-2
-0
-1
-0.05
Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas dan 2
gerombol saling tumpang tindih dengan lainnya.
MTB>RANDOM K1 C32-C45;
NORMAL K5 1.0.
3. Makro menggabungkan data dari setiap gerombol bangkitan
MTB> STACK C1 C16 C31 C1
MTB> STACK C2 C17 C32 C2
MTB> STACK C3 C18 C33 C3
MTB> STACK C4 C19 C34 C4
MTB> STACK C5 C20 C35 C5
MTB> STACK C6 C21 C36 C6
MTB> STACK C7 C22 C37 C7
MTB> STACK C8 C23 C38 C8
MTB> STACK C9 C24 C39 C9
MTB> STACK C10 C25 C40 C10
MTB> STACK C11 C26 C41 C11
MTB> STACK C12 C27 C42 C12
MTB> STACK C13 C28 C43 C13
MTB> STACK C14 C29 C44 C14
MTB> STACK C15 C30 C45 C15
Metode Analisis
Fokus penelitian ini adalah mengevaluasi keakuratan algoritma TwoStep
Cluster dalam mendeteksi banyaknya gerombol dan ukuran masing-masing gerombol
pada gugus data dari populasi yang dianalisis. Analisis yang akan dilakukan adalah :
1. Mengukur tingkat keakuratan algoritma TwoStep Cluster dalam mendeteksi
banyaknya gerombol sebenarnya. Pada penelitian ini, tingkat keakuratan
didefinisikan sebagai persentase jumlah percobaan (run) yang menghasilkan
banyaknya gerombol yang sama dengan populasi data hipotetik (dipandang
sebagai banyaknya gerombol sebenarnya).
A = Σ Xi / N (14)
Pada taraf nyata (a) sebesar 30%, dapat didefinisikan tingkat kesesuaian
sebaran ukuran gerombol hasil algoritma TwoStep Cluster dengan ukuran
gerombol sebenarnya, yaitu :
K = Σ Yi / N (15)
dengan Yi bernilai 1 bila hasil uji khi-kuadrat (pada taraf nyata tertentu)
menghasilkan kesimpulan “Terima Ho”; dan 0 bila “Tolak Ho”. N adalah
banyaknya ulangan percobaan, pada penelitian ini sama dengan 100.
3. Tingkat salah klasifikasi dari anggota gerombol. Salah klasifikasi dari hasil
penggerombolan, pada penelitian ini didefinisikan sebagai total persentase
semua individu (objek) yang berasal dari suatu gerombol namun
teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan,
dalam hal ini adalah hasil penggerombolan SPSS TwoStep Cluster.
lunak (software) statistika yang tersedia, dalam hal ini peneliti menggunakan
Minitab versi 13.2.
Pada setiap gugus data bangkitan yang akan digunakan sebagai bahan
simulasi, akan ditambahkan peubah (kolom atau field ) yang menunjukkan
indeks asal populasi.
2. Setiap gugus data yang terbentuk akan digerombolkan dengan menggunakan
prosedur SPSS TwoStep Cluster. Pada SPSS versi 11.5 tersedia pada modul
Analyze -> Clasify. Pilihan menu dasar (basic option) yang digunakan
adalah :
Distance Measure : Log-likelihood
Number of clusters : Determined Automatically, Maximum : 15
Clustering Criterion : BIC
Sesuai dengan saran dari Bacher, Wenzig, dan Vogler (2004), pada menu Options,
akan dilakukan pilihan pada kotak “Outlier Treatment” dengan memberi check
box pada kotak “Use noise handling” dan mengisi pada kotak “Percentage”
bilangan 5 (artinya 5%) dan dicobakan pula tanpa pencilan.
Pada menu “Output” akan dipilih Statistik-statistik :
a. Deskripsi setiap gerombol (Descriptives by cluster) untuk data kuantitatif.
b. Sebaran frekuensi setiap gerombol (Cluster frequencies) untuk data
kategorik.
c. Informasi BIC , dan
d. Simpan data keanggotaan gerombol (Create cluster membership variable).
3. Hasil penggerombolan TwoStep Clust er, khususnya banyaknya gerombol yang
terbentuk dan profil masing-masing gerombol, termasuk ukuran gerombol, akan
dicatat kemudian dimasukkan sebagai data yang akan dianalisis pada pengolahan
selanjutnya.
4. Setelah semua (8.000) gugus data hipotetik terolah dan statistik-statistik yang
dihasilkan dicatat sesuai untuk masing-masing kombinasi perlakuan, tahap
selanjutnya dilakukan analisis sebagaimana pada persamaan (13), dan menguji
kesesuaian sebaran ukuran gerombol serta salah klasifikasi penggerombolan.
28
Data homogen adalah gugus data yang mana setiap individu berasal dari satu
sebaran populasi tertentu. Dengan demikian pada populasi sebenarnya tidak terjadi
penggerombolan, yaitu hanya terdapat 1 gerombol. Kasus ini jarang dijumpai pada
situasi nyata, kecuali pada beberapa masalah segmentasi pelanggan dari produk masal.
Berdasarkan percobaan simulasi, hasil analisis keakuratan penggerombolan algoritma
TwoStep Cluster pada kasus ini berbeda dengan kasus-kasus populasi lain yang
dicobakan. Oleh karena itu kasus ini dibahas secara terpisah. Disamping itu, metode
penggerombolan konvensiona l, baik metode hirarki maupun k-rataan tidak
memungkinkan untuk menghasilkan 1 gerombol.
Pada Tabel 2 ditampilkan persentase kesesuaian banyaknya gerombol yang
dihasilkan dari algoritma TwoStep Cluster dengan banyaknya gerombol sebenarnya
pada populasi. Pada tabel tersebut terlihat bahwa persentase ketepatan TwoStep
Cluster dalam mengidentifikasi banyaknya gerombol pada kasus data homogen
umumnya sangat rendah, kecuali bila ukuran datanya kecil (dalam penelitian ini yaitu
500). Algoritma TwoStep Cluster cukup akurat bilamana ukuran data relatif kecil dan
peubah kriteria penggerombolan bersifat (1) semuanya kuantitatif (V1), (2) semuanya
bersifat kategorik (V2) dan mentransfernya menjadi peubah biner yang diperlakukan
sebagai data numerik , atau (3) sebagian kecil peubah kriteria bersifat kuantitatif (V3)
dan sebagian kecil peubah kategorik (V4), yang ditransformasi ke peubah biner dan
diperlakukan sebagai numerik.
Tidak akuratnya algoritma TwoStep Cluster dalam menduga banyaknya
gerombol di populasi, pada kasus data homogen, dapat dipahami, karena pada
metode-metode penggerombolan, baik metode konvensional maupun TwoStep
Cluster, terdapat kecenderungan untuk memecah gugus data yang dianalisis menjadi
gerombol- gerombol (Technical Manual SPSS, 2001).
29
Tabel 2 juga menyajikan hasil percobaan simulasi pada kasus data homogen
dengan opsi tanpa penanganan pencilan dan dengan penanganan pencilan sebesar 5%.
Secara keseluruhan, ketepatan algoritma TwoStep Cluster dalam menduga banyaknya
gerombol (pada gugus data homogen) tanpa penanganan terhadap pencilan maupun
dengan penanganan terhadap pencilan sebesar 5% memberikan hasil yang tidak
berbeda nyata.
2.000 0 0 0 0 0 0 0
5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
2.000 0 0 0 0 0 0 0
Opsi
5%
5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
Pada kasus ini banyaknya gerombol sebenarnya hanya 1, maka untuk setiap hasil
banyaknya penggerombolan algoritma TwoStep Cluster yang tepat sama dengan
populasi, ukuran gerombolnya juga akan tepat sama, sedangkan bila dugaan
banyaknya gerombol berbeda dengan populasi maka ukuran gerombolnya juga
berbeda.
Pengertian yang sama dengan di atas juga berlaku untuk salah klasifikasi
pengge rombolan dari setiap individu. Bila dugaan banyaknya gerombol tepat sama
dengan populasi hipotetik (1 gerombol), maka seluruh individu dikelompokkan
30
secara benar. Sebaliknya bila banyaknya gerombol dugaan lebih dari 1, maka
terdapat individu yang salah klas ifikasi. Tabel 3 menampilkan rata-rata persentase
salah klasifikasi penggerombolan pada kasus di populasi hanya terdapat 1 gerombol.
Pada Tabel 3 terlihat bahwa bila ketepatan pendugaan banyaknya gerombol
tinggi, maka salah klasifikasinya rendah, yaitu untuk kasus-kasus ukuran data 500
dengan semua peubah berjenis kontinu (V1), semua peubah bersifat kategorik (V2)
yang ditransformasi ke bentuk biner dan diperlakukan sebagai peubah numerik, dan
peubah campuran (V3 dan V4) yang mana peubah kategorik ditransformasi ke biner
dan diperlakukan sebagai numerik.
5%
dengan sebagian besar kontinu; penanganan pencilan 5% masih cukup akurat untuk
ukuran data kecil dan sedang (500 dan 2.000), tetapi untuk ukuran data besar (5.000
dan 10.000) keakuratan pendugaan menurun secara drastis dibandingkan tanpa
penanganan pencilan.
populasi (terima Ho); kecuali pada perlakuan semua peubah kategorik ditransformasi
ke biner dan dipandang sebagai peubah numerik untuk kasus 3 populasi. Sebaliknya,
dengan menerapkan opsi penanganan pencilan sebesar 5%, sebaran ukuran gerombol
yang terbentuk dari algoritma TwoStep Cluster hanya akurat pada kasus 2 populasi
yang terpisah secara tegas, sedangkan pada kasus 3 populasi, hanya akurat bilamana
peubah kriteria penggerombolan semuanya kontinu atau ukuran datanya relatif kecil
(500).
Penanga- Model Ukuran Semua Semua kategorik Sebagian kecil Sebagian besar
nan Populasi Data kontinu (V2) kontinu (V3) kontinu (V4)
pencilan asal (V1)
Biner Biner Biner Biner Biner Biner
sbg sbg sbg sbg sbg sbg
kategorik nume rik kategorik numerik kategorik numerik
2 gerombol 500 0% 0% 0% 0% 0% 0% 0%
Opsi tanpa penanganan
10.000 0% 0% 21,0% 0% 0% 0% 0%
Dari Tabel 7 dapat dilihat bahwa apabila hanya terdapat 2 gerombol yang saling
tumpang tindih, keakuratan algoritma TwoStep Cluster dalam menduga banyaknya
gerombol cukup baik untuk peubah kriteria penggerombolan semua kontinu (V1),
semua kategorik (V2) dan peubah campuran yang mempunyai sebagian kecil kontinu
(V3). Hal ini berlaku untuk semua ukuran data yang dicobakan, walaupun
kecenderungan tingkat keakuratan menurun dengan semakin meningkatnya ukuran
data. Untuk populasi dengan peubah campuran yang sebagian besar kontinu,
pendugaan gerombol akan menjadi akurat apabila peubah biner diperlakukan sebagai
36
numerik, namun dengan data yang sangat besar (10.000) juga tidak dapat menduga
banyaknya gerombol dengan baik. Untuk populasi dengan 5 gerombol yang saling
tumpang tindih, TwoStep Cluster tidak dapat mengidentifikasi secara akurat.
500 0 0 0 0 0 0 0
5 gerombol 2.000 0 0 0 0 0 0 0
tumpang tindih
(P5) 5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
2 gerombol
2.000 100% 99% 99% 99% 100% 26% 100%
tumpang tindih
(P2) 5.000 99% 56% 66% 79% 96% 24% 99%
10.000 67% 43% 54% 71% 76% 28% 64%
5%
500 0 0 0 0 0 0 0
5 gerombol
2.000 0 0 0 0 0 0 0
tumpang tindih
(P5) 5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
Bila ditelusuri lebih lanjut, dapat diketahui bahwa algoritma TwoStep Cluster
menghasilkan pendugaan banyaknya gerombol sebanyak 3, untuk kasus 5 gerombol
yang saling tumpang tindih. Hasil ini dapat dipahami, karena seperti terlihat pada
Gambar 6 (bagian metode) terdapat 3 gerombol yang secara nyata dapat terbedakan,
sedangkan 2 gerombol lainnya tersamar pada gerombol yang lain. Pada kasus
37
gerombol yang tidak terpisah secara tegas, ukuran masing- masing gerombol yang
dihasilkan dari algoritma TwoStep Cluster sebagian besar tidak sesuai dengan ukuran
gerombol sebenarnya dari populasi bangkitan (Tabel 8 ).
500 - - - - - - -
5 gerombol 2.000 - - - - - - -
tumpang tindih
(P5) 5.000 - - - - - - -
10.000 - - - - - - -
2 gerombol
2.000 87% 0 28% 44% 53% 65% 79%
tumpang tindih
(P2) 5.000 37% 0 205 24% 14% 63% 16%
10.000 15% 0 9% 11% 14% 61% 3%
5%
500 - - - - - - -
5 gerombol
2.000 - - - - - - -
tumpang tindih
(P5) 5.000 - - - - - - -
10.000 - - - - - - -
2 gerombol
2.000 3,2% 23,6% 7,7% 7,7% 5,7% 51,3% 6,0%
tumpang tindih
(P2) 5.000 3,4% 44,6% 26,0% 17,8% 6,7% 58,3% 6,1%
10.000 23,5% 46,8% 32,0% 20,0% 10,9% 58,2% 6,1%
5%
Prasyarat atau Tidak ada asumsi Tidak ada asumsi Asumsi peubah
asumsi sebaran sebaran sebaran kuantitatif
peubah kriteria menyebar Normal
bebas stokastik
dan peubah
kategorik
menyebar
multinomial
Pada tabel perbandingan di atas, dipaparkan bahwa metode hirarki hanya sesuai
untuk jenis peubah kriteria penggerombolan yang semuanya berjenis kuantitatif atau
semuanya peubah biner, selain itu ukuran data yang digerombolkan relatif kecil.
Di pihak lain, metode TwoStep Cluster memungkinkan untuk mengolah data yang
berukuran besar dan peubah kriteria penggerombolan bersifat semuanya kuantitatif,
semuanya kategorik, atau campuran kuantitatif dan kategorik. Dengan demikian,
perbandingan hasil penggerombolan antara metode hirarki dan TwoStep Cluster
hanya dapat dilakukan untuk kasus peubah kriteria penggerombolan yang (1)
semuanya bersifat kuantitatif dan (2) semuanya peubah biner. Mengingat metode
hirarki efektif untuk ukuran data yang kecil, maka untuk tujuan perbandingan
digunakan kasus ukuran data relatif kecil ( 500 data). Pada paket program SPSS versi
11.5, penentuan banyaknya gerombol minimum dengan menggunakan metode
hirarki adalah 2 gerombol. Dengan demikian, metode ini tidak memungkinkan untuk
mengidentifikasi kasus bilamana di dalam populasi hanya terdapat 1 gerombol. Oleh
karena itu, dalam perbandingan kasus ini tidak dilibatkan.
Sebagaimana dipaparkan pada Tabel 10, penentuan banyaknya gerombol pada
metode hirarki umumnya bersifat subjektif sehingga sangat bervariasi dan sangat
tergantung dari pengalaman pe neliti. Salah satu kriteria objektif yang sering
digunakan dalam menentukan banyaknya gerombol yang terbentuk adalah dengan
menggunakan kriteria jarak penggabungan terbesar (lihat Lampiran 2). Penentuan
banyaknya gerombol juga dapat ditelusuri dari pendekatan eksplorasi data dengan
mengamati sebaran dari data yang akan digerombolkan, umumnya juga
memanfaatkan analisis komponen utama. Dengan situasi tersebut, maka
perbandingan keakuratan penentuan banyaknya gerombol yang dihasilkan oleh
metode hirarki dan TwoStep Cluster tidak relevan; karena penentuan banyaknya
gerombol dengan metode hirarki tergantung dari pengamatan secara visual.
Pada penelitian ini diasumsikan peneliti mengetahui secara tepat banyaknya
gerombol yang terdapat di populasi, agar keakuratan metode hirarki dalam menduga
sebaran ukuran setiap gerombol dan salah klasifikasi penggerombolan dapat
42
Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan
metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi)
Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan
yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep Cluster
(hasil 100 kali simulasi)
Simpulan
Saran
DAFTAR PUSTAKA
Aaker, D.A. 2001. Strategic Marketing Management. Ed ke-6. John Wiley & Sons
Inc. New York.
Aaker, D. A. And G. S. Day. 1990. Marketing Research. Ed ke-4. John Wiley & Sons,
New York.
Adenberg, M.R. 1973, Cluster Analysis For Applications, Academic Press, Inc. New
York
Bacher, J., K. Wenzig and M. Vogler. 2004.. SPSS TwoStep Cluster : A First
Evaluation. Friedrich-Alexander-Universität Erlangen-Nurnberg.
Chiu, T., Fang,D., Chen,J., Wang,Y., and Jeris,C. 2001. A Robust and Scalable
Clustering Algorithm for Mixed Type Attributes in Large Database
Environment. In Proceedings of the 7th ACM SIGKDD International
Confererence on Knowledge Discovery and Data Mining 2001.
Everitt, B.S., Landan, S. and Leese, M. 2001. Cluster Analysis. Ed ke-4 Arnold,
London.
Huang, Z. (1998). Extensions to the k- means Algorithm for Clustering Large Data
Sets with Categorical Variables. Data Mining and Knowledge Discovery.
Lakshminarayan, C.K. and Q. Yu. 2001. A Novel Two-Stage Clustering Approach for
Visitor Segmentation and Prediction Based on Click Stream Attributes. The
Indian Institute of Information Technology, Bangalore.
Morrison, D.F. 1990. Multivariate Statistical Methods. McGraw-Hill. Inc. New York.
Strehl, A. And J. Gosh. 2002. Relationship -Based Clustering and Visualization for
High-Dimensional Data Mining. INFORMS. Journal on Computing. Pp. 1-23.
LAMPIRAN
51
1. Penyiapan data.
2. Pilih Menu : Analyze/Classify/TwoStep Cluster (Gambar 1), maka akan muncul
kotak dialog (Gambar 2).
4. Pada kotak DISTANCE MEASURE beri tanda log likelihood untuk pilihan
ukuran jarak, karena peubah yang akan dianalisis pada contoh diatas
merupakan peubah campuran kategorik dan kontinu.
5. Pada kotak Clustering Criterion beri tanda pada salah satu kriteria
penggerombolan yang diinginkan (BIC atau AIC)
6. Klik OPTION, untuk menentukan penanganan pencilan (outlier ) dan
standarisasi untuk peubah kontinu, seperti Gambar 4. Gambar ini merupakan
contoh pilihan tanpa penanganan pencilan, sedangkan pada Gambar 6
merupakan contoh dengan penanganan pencilan 5%.
53
8. Klik OUTPUT, maka akan muncul kotak dialog seperti Gambar 7 sesuai
dengan pilihan output yang diinginkan.
Kasus 1: Populasi dengan 2 gerombol yang saling tumpang tindih (P2) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
40 3,55 3,81 3,29 2,59 2,59 2,59 3,85 3,61 13,44
41 3,25 3,71 3,45 3,20 3,20 2,53 2,53 5,40 13,23
42 3,46 3,38 3,38 3,38 3,02 3,02 3,02 3,56 13,42
43 3,07 3,07 2,99 2,37 2,37 4,33 4,26 4,63 13,18
Kasus 1: Populasi dengan 2 gerombol yang saling tumpang tindih (P2) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
79 3,61 3,33 3,06 3,01 2,74 2,74 2,24 2,24 13,49
80 3,73 3,78 3,55 3,10 3,10 2,76 2,76 3,58 14,00
81 3,56 3,56 3,56 3,34 3,34 3,34 3,87 3,62 12,61
82 3,58 3,58 3,24 3,24 2,69 2,69 3,28 5,28 13,11
83 3,56 3,56 3,53 3,52 2,65 2,65 3,21 2,83 12,64
84 3,33 3,40 3,00 2,60 2,18 2,18 2,64 4,54 13,37
85 3,18 3,18 3,11 3,11 3,11 3,33 3,53 2,65 14,71
86 3,23 3,23 2,98 2,98 2,98 3,09 3,24 2,46 15,15
87 3,87 3,87 3,40 3,40 2,78 2,60 2,60 3,17 13,70
88 4,03 3,64 3,83 3,51 3,51 3,28 3,28 4,06 13,89
89 3,73 3,73 3,73 3,18 3,18 2,79 2,79 4,25 14,37
90 3,32 3,73 3,38 3,38 3,38 2,98 2,73 4,24 13,91
91 3,39 3,21 3,21 3,21 3,08 3,08 2,51 2,51 13,68
92 3,59 3,59 3,61 3,61 3,61 2,95 2,95 3,06 14,55
93 3,44 3,44 2,91 2,78 2,78 3,73 3,94 2,57 13,94
94 3,07 3,07 2,84 2,84 3,80 2,98 2,98 2,56 14,93
95 3,34 3,34 2,45 2,16 2,16 2,16 3,62 2,97 14,21
96 3,28 3,43 3,28 3,28 3,65 3,56 3,56 3,29 14,66
97 3,69 3,69 2,64 2,40 2,40 5,26 5,63 5,18 13,45
98 3,38 3,38 3,69 3,69 3,12 2,73 2,58 2,58 13,78
99 3,86 3,40 3,51 2,73 2,49 2,49 2,99 2,01 14,87
100 3,40 3,40 3,40 3,15 3,15 3,03 2,75 2,75 14,58
62
Kasus 2 : Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
1 3,44 3,52 3,52 3,24 3,24 2,46 2,46 5,68 510,00
2 3,68 3,56 3,56 3,06 3,06 2,36 2,35 2,35 509,45
3 3,60 3,01 3,01 3,01 3,05 3,73 3,73 2,55 518,68
4 3,73 3,12 3,12 3,59 3,17 2,77 2,77 2,77 505,78
5 3,33 2,78 2,78 2,60 2,60 2,60 3,53 3,13 502,56
6 3,12 3,12 3,12 3,21 2,59 2,59 2,95 2,80 507,38
7 3,13 3,49 2,88 2,88 2,88 2,67 2,41 2,41 514,04
8 2,98 2,98 3,20 3,20 2,83 2,83 2,78 2,78 501,60
9 3,63 3,63 3,63 2,87 2,87 2,87 2,75 2,75 492,96
10 3,74 3,26 3,26 2,79 2,79 2,39 2,39 2,61 503,09
11 3,36 3,36 2,97 2,97 2,72 2,33 2,33 3,69 502,36
12 3,59 3,59 3,25 3,25 2,36 1,88 1,88 3,70 504,47
13 3,69 3,27 3,27 3,27 3,08 3,08 3,36 3,29 502,36
14 3,24 2,89 2,89 2,30 2,30 2,30 2,40 2,42 504,48
15 3,45 2,68 2,68 2,68 3,14 3,13 2,88 2,88 506,46
16 3,63 2,77 2,77 2,77 2,37 2,37 2,80 2,22 501,52
17 3,45 3,45 3,45 3,12 2,65 2,65 2,04 2,04 504,63
18 3,74 3,73 3,73 3,63 3,02 3,02 2,62 2,62 502,40
19 3,49 3,49 3,49 3,49 2,82 2,82 2,82 3,08 511,66
20 3,24 3,24 2,91 2,91 2,91 2,70 2,70 3,44 501,05
21 3,96 3,93 3,74 3,67 3,26 2,87 3,26 2,66 508,44
22 3,25 3,25 3,25 3,25 3,42 2,99 3,91 3,41 505,41
23 3,51 3,51 2,85 2,48 2,48 2,48 2,26 2,77 507,78
24 3,46 3,46 3,20 3,20 3,32 2,39 2,39 3,48 507,51
25 3,20 3,20 3,64 3,67 3,18 3,18 2,49 2,49 499,00
26 3,21 3,14 3,14 2,82 2,60 2,42 2,42 3,34 500,72
27 3,37 3,69 2,43 2,43 2,43 3,87 2,89 4,19 508,76
28 3,18 3,18 3,28 2,98 2,98 2,98 3,30 3,32 509,22
29 3,28 3,02 2,86 2,86 2,86 3,43 3,43 3,46 509,96
30 3,34 2,71 2,71 2,71 2,51 2,51 3,30 2,76 505,67
31 3,61 3,61 2,89 2,89 2,09 2,09 2,98 2,71 506,24
32 3,65 3,65 3,01 2,91 2,91 2,88 2,88 2,54 502,63
33 3,47 3,14 3,14 3,14 2,87 1,92 1,92 3,03 501,80
34 3,54 2,99 2,99 2,50 2,50 2,50 2,76 2,42 504,65
35 3,32 3,32 3,29 3,29 2,72 2,72 2,50 2,50 503,42
36 3,57 3,28 3,28 3,02 3,02 2,49 2,20 2,20 504,84
37 3,59 3,59 3,21 2,95 2,95 2,64 2,13 2,13 503,09
38 3,49 3,40 3,17 3,17 3,17 2,84 2,84 3,31 507,67
39 3,43 3,16 2,84 2,84 2,84 2,12 2,12 2,79 495,99
40 3,07 3,07 2,76 2,76 2,41 2,41 3,23 3,64 502,35
63
Kasus 2 : Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
41 3,05 3,05 3,05 3,05 2,84 2,84 2,75 2,75 510,34
42 3,24 3,24 2,66 2,66 2,66 2,50 2,92 2,46 507,20
43 3,98 3,71 2,88 2,54 2,54 2,19 3,14 2,84 496,39
44 3,62 2,76 2,76 2,76 3,17 2,81 2,81 2,33 503,52
45 3,47 3,53 3,53 2,95 2,52 2,52 2,17 2,17 503,73
46 3,39 3,29 3,29 3,17 2,76 2,76 2,55 2,55 499,23
47 2,96 2,96 2,96 3,52 3,52 3,28 3,28 2,85 502,97
48 3,55 3,83 3,13 3,13 3,02 2,59 2,44 2,44 502,38
49 3,40 3,40 2,98 2,98 2,68 2,68 3,18 3,39 515,01
50 3,44 2,92 2,92 2,79 2,79 2,79 3,22 2,53 501,83
51 3,45 3,45 3,09 3,09 3,09 3,02 2,71 2,71 509,37
52 3,86 3,86 3,95 3,61 2,98 3,47 3,04 3,04 497,49
53 2,85 2,85 2,85 2,81 2,71 2,71 2,76 2,75 509,46
54 3,56 3,56 3,18 3,18 2,79 2,79 2,28 2,28 505,75
55 3,17 2,91 2,91 2,78 2,78 2,72 2,68 2,68 503,24
56 3,40 2,87 2,87 2,65 2,65 2,65 3,43 2,83 507,04
57 3,40 3,04 3,04 2,51 2,51 2,51 3,00 2,46 504,03
58 3,72 3,14 3,14 2,95 2,95 2,67 2,67 3,05 507,44
59 2,97 2,97 2,59 2,68 2,35 2,35 2,35 2,86 504,42
60 3,40 2,99 2,99 2,69 2,69 2,41 2,41 2,41 504,48
61 3,50 3,37 3,22 2,81 2,81 2,61 2,59 2,59 495,50
62 3,48 3,60 3,21 2,96 2,96 2,55 2,55 2,55 501,24
63 3,95 3,95 2,96 2,96 2,96 2,87 2,66 2,66 511,89
64 3,11 3,11 3,31 2,86 2,86 3,75 3,75 4,02 511,52
65 3,61 3,61 3,40 2,65 2,65 1,99 1,99 2,30 504,65
66 2,86 2,50 2,50 2,29 2,29 2,29 3,09 2,63 503,34
67 3,55 3,52 2,92 2,86 2,86 2,32 2,32 4,89 501,44
68 3,68 3,29 3,29 3,29 3,16 2,96 2,83 2,83 500,65
69 3,68 3,31 3,31 3,24 2,43 2,43 2,96 2,57 510,33
70 3,78 3,31 3,31 3,08 3,08 2,43 2,43 3,97 511,42
71 3,06 3,06 2,67 2,36 2,36 2,36 2,72 2,46 503,84
72 3,53 3,53 2,90 2,90 2,39 2,39 2,39 2,77 509,28
73 3,45 3,45 3,27 3,27 2,68 2,68 2,78 3,16 500,99
74 4,02 4,02 3,18 3,18 3,30 2,87 2,87 3,41 499,80
75 2,47 2,47 2,77 2,77 2,77 3,37 3,14 2,63 502,60
76 3,03 3,03 2,67 2,67 2,67 2,20 2,20 3,39 502,18
77 3,60 2,85 2,85 2,85 2,85 3,32 3,00 3,00 500,17
78 3,36 3,21 3,21 2,83 2,83 2,53 2,53 2,65 501,94
79 2,78 2,58 2,58 2,58 2,58 3,10 2,60 2,60 500,42
80 3,01 2,46 2,46 2,85 2,85 2,85 3,10 2,91 502,68
81 2,81 2,81 2,71 2,71 2,22 2,22 2,22 2,84 502,07
64
Kasus 2 : Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
82 3,13 3,14 3,14 2,55 2,55 2,82 2,03 2,03 503,32
83 3,09 3,09 3,09 2,61 2,61 3,84 3,39 3,31 507,05
84 3,34 3,34 3,03 3,03 2,45 2,45 3,53 2,64 499,11
85 3,84 3,11 3,11 2,69 2,69 2,58 2,58 1,82 504,46
86 3,33 3,25 3,25 2,77 2,77 2,41 2,41 3,14 503,93
87 3,60 3,28 2,71 2,71 2,71 3,13 2,93 2,93 505,72
88 3,95 3,70 2,95 2,68 2,68 2,68 2,30 2,72 505,06
89 3,11 3,11 3,11 2,42 2,42 3,27 3,02 2,34 497,50
90 3,49 2,63 2,63 2,84 2,58 2,58 2,29 2,29 507,56
91 3,31 3,14 2,48 2,48 3,54 3,54 3,54 3,56 502,21
92 3,54 3,54 3,54 2,60 2,50 2,50 3,43 4,85 506,26
93 3,08 2,81 2,81 2,81 2,62 2,60 2,60 4,62 501,59
94 3,70 3,75 3,42 3,42 2,82 2,82 3,33 5,91 509,03
95 3,45 3,42 3,42 2,68 2,68 2,65 2,48 2,48 507,84
96 4,02 3,46 3,13 3,13 2,59 2,52 2,34 2,52 507,72
97 2,91 2,91 2,91 3,01 2,65 2,65 2,28 4,05 507,33
98 3,77 3,15 3,03 2,96 2,28 2,28 2,28 5,24 504,39
99 3,59 3,59 3,59 3,59 3,34 2,98 2,98 2,98 504,89
100 3,96 3,53 3,48 2,66 2,66 3,48 2,85 2,64 506,27
65
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
1 3,35 3,35 2,65 2,65 3,13 3,13 3,09 221,09 400,32
2 2,94 2,94 2,94 2,74 2,74 2,74 5,06 220,59 398,29
3 3,25 3,27 3,27 2,89 2,89 2,89 4,42 219,25 402,29
4 3,23 3,05 2,79 2,25 2,25 2,25 3,67 222,65 405,75
5 2,07 2,07 2,07 2,07 3,42 3,20 3,20 222,97 403,13
6 2,72 2,72 2,72 3,29 3,29 3,29 3,78 225,72 401,75
7 3,01 3,01 3,01 3,23 2,90 2,90 4,00 224,29 401,30
8 3,27 2,41 2,18 2,18 2,18 1,91 1,91 220,86 398,66
9 3,05 3,05 3,05 3,05 3,05 3,81 3,81 220,86 393,47
10 2,67 2,67 2,90 2,90 2,60 2,60 5,01 217,64 398,28
11 3,36 3,01 3,01 3,05 3,05 3,05 4,33 223,05 404,99
12 2,52 2,35 2,35 2,35 2,64 2,64 3,81 221,08 398,59
13 3,46 3,37 3,23 3,23 2,56 2,56 2,56 224,45 403,42
14 3,95 3,34 3,34 3,34 3,02 3,02 2,48 224,24 402,99
15 3,24 3,79 3,02 3,02 2,52 2,52 2,52 226,17 402,58
16 3,16 3,16 3,16 2,65 2,65 3,06 3,06 224,49 401,93
17 3,51 2,97 2,97 2,08 2,08 3,22 3,22 222,13 397,57
18 3,43 2,73 2,73 2,73 2,25 3,41 3,41 224,09 401,35
19 3,59 3,59 3,17 2,84 2,40 2,40 2,40 221,50 397,76
20 2,12 4,50 3,78 3,75 3,75 3,75 5,96 219,55 399,07
21 2,79 2,79 3,27 2,63 2,32 2,32 2,32 221,31 399,60
22 2,81 2,81 2,35 2,35 3,17 3,79 3,60 224,60 399,37
23 3,61 3,61 3,14 3,14 3,14 4,54 5,12 218,77 397,14
24 3,34 3,34 3,01 3,01 3,01 3,48 3,01 219,36 397,52
25 3,01 2,81 2,81 2,81 2,81 2,81 2,89 220,34 404,20
26 3,45 3,19 3,19 2,64 2,64 4,13 4,42 224,60 403,88
27 2,07 2,07 2,07 5,27 4,92 3,78 3,35 222,90 399,55
28 2,89 2,89 2,89 2,31 4,50 3,72 3,56 226,18 408,69
29 3,09 3,24 3,21 2,62 2,62 2,62 3,42 223,12 403,95
30 3,14 3,14 3,14 2,91 2,91 2,91 3,67 225,38 407,01
31 3,27 3,08 3,08 3,08 3,27 2,54 4,14 220,20 398,76
32 3,72 3,72 3,15 3,14 2,31 2,31 4,54 223,09 404,93
33 3,13 3,13 3,13 2,46 2,46 2,11 2,11 223,10 402,88
34 3,24 3,24 2,85 2,85 2,46 2,46 3,20 219,77 401,00
35 2,79 2,79 2,07 2,07 3,08 3,08 3,12 222,36 401,12
36 2,59 2,59 2,59 2,44 2,44 3,29 3,80 220,81 405,01
37 3,34 2,64 2,26 2,26 2,26 5,57 4,35 225,09 404,57
38 3,04 3,04 3,04 3,04 3,25 3,25 2,76 219,60 392,16
39 3,00 2,75 2,75 2,75 2,51 2,51 2,51 221,52 399,70
40 3,21 3,21 3,21 3,37 3,37 3,69 2,26 223,26 398,47
41 3,74 3,03 3,03 3,03 2,68 2,68 3,38 219,78 401,17
66
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
42 2,53 2,53 2,53 2,53 3,72 3,72 5,12 223,24 398,81
43 2,52 2,52 3,95 3,45 3,24 3,12 3,13 218,82 396,68
44 4,19 3,74 3,74 3,17 3,17 2,45 2,45 220,77 404,26
45 3,89 3,79 3,60 3,31 2,99 2,99 2,99 218,91 400,27
46 2,89 2,96 2,96 2,96 2,96 3,53 4,00 218,12 400,97
47 3,42 3,42 3,42 2,97 2,97 2,53 2,53 224,79 400,70
48 3,62 3,62 3,62 3,57 3,92 3,77 3,77 223,29 398,68
49 2,64 2,64 1,95 1,95 4,23 4,88 3,98 226,06 401,70
50 3,50 3,50 3,50 3,50 3,51 2,95 2,09 222,86 400,09
51 2,76 2,76 2,76 2,55 2,25 2,25 2,55 223,85 398,79
52 2,99 2,99 2,19 2,19 2,00 2,00 3,20 221,61 398,20
53 3,19 3,05 3,05 2,84 2,22 2,22 4,24 225,61 402,40
54 2,64 2,64 2,64 2,18 2,18 4,22 3,92 222,64 400,68
55 3,18 3,18 3,18 2,77 2,77 4,36 4,11 219,21 400,82
56 2,91 2,91 2,78 3,87 3,52 3,52 3,71 220,92 393,46
57 3,69 3,35 3,35 2,75 2,75 2,75 3,15 219,86 397,55
58 2,94 4,36 4,19 3,45 3,45 3,37 3,37 222,03 400,86
59 3,52 4,15 3,01 3,01 3,01 2,61 4,74 224,54 399,23
60 3,25 3,21 3,21 3,21 3,13 3,13 2,98 224,23 402,97
61 2,99 2,99 3,19 2,92 2,92 2,92 3,69 223,21 399,99
62 3,71 2,99 2,70 2,70 2,34 2,34 4,66 220,85 399,75
63 3,03 3,20 3,20 3,20 2,75 2,44 2,44 222,70 399,49
64 3,59 3,59 3,29 2,60 2,60 2,60 3,11 222,12 407,01
65 3,85 3,29 3,13 3,13 2,42 2,42 5,20 221,27 405,06
66 3,25 3,91 3,23 3,04 3,04 2,74 2,74 221,64 405,12
67 3,26 3,21 3,21 3,12 3,12 2,90 2,90 222,40 400,42
68 3,66 4,25 3,96 3,03 3,03 2,35 4,80 223,87 402,32
69 2,55 2,55 3,47 3,08 3,08 2,57 2,57 220,75 400,59
70 3,36 3,12 3,12 3,09 2,53 2,53 3,09 222,40 402,62
71 3,47 2,85 2,85 2,85 3,56 3,56 3,65 221,45 397,83
72 2,98 2,25 2,25 2,25 4,41 4,41 4,01 221,38 400,13
73 3,04 3,04 2,64 2,64 2,64 2,64 2,77 227,50 407,33
74 2,86 2,79 2,79 2,45 2,45 2,45 3,77 220,15 395,33
75 3,11 2,50 2,50 3,28 3,43 3,43 5,48 222,37 401,25
76 2,63 2,63 3,93 3,93 4,54 3,47 3,47 222,33 399,88
77 3,73 3,73 3,44 3,44 2,89 2,89 2,89 220,69 396,31
78 3,53 3,53 3,53 2,68 2,68 2,46 2,46 221,20 394,72
79 3,64 2,66 2,66 4,30 4,29 4,29 5,28 223,28 403,70
80 3,26 3,26 2,82 2,82 2,82 3,09 3,99 221,01 403,11
81 2,70 2,70 2,29 2,29 2,91 3,85 3,40 222,57 401,92
82 4,00 4,00 3,22 2,50 2,50 2,50 4,36 223,43 403,69
67
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
83 2,91 2,91 4,47 4,47 5,17 5,17 4,65 223,66 400,49
84 2,83 3,94 3,76 3,76 3,68 2,99 2,99 223,40 406,97
85 2,88 2,68 2,68 2,68 3,28 3,03 2,29 223,88 403,41
86 3,21 3,21 3,21 2,86 2,86 2,86 3,55 222,13 401,08
87 2,95 2,95 2,95 2,95 3,14 3,14 3,99 224,59 400,18
88 3,31 3,08 3,08 3,08 2,79 2,79 6,01 226,13 401,97
89 2,99 2,45 2,45 2,45 3,89 3,89 2,97 222,01 396,29
90 3,47 3,47 3,26 2,79 2,79 2,79 3,57 221,27 399,29
91 3,30 3,30 3,30 3,30 2,48 2,48 2,42 223,08 398,92
92 3,70 3,70 3,70 2,56 2,56 2,56 3,76 222,74 399,14
93 2,47 2,47 2,47 2,47 3,38 3,38 5,51 223,13 396,92
94 2,69 2,35 2,35 2,35 2,35 4,44 3,97 222,43 400,97
95 2,91 2,91 2,91 2,91 2,89 2,89 2,89 225,35 402,48
96 4,52 4,52 4,46 4,46 4,98 3,88 3,79 223,30 401,75
97 3,20 3,10 3,10 3,10 3,20 3,20 3,35 220,32 402,57
98 3,34 3,34 3,34 3,34 2,69 3,61 3,61 221,89 394,50
99 3,26 2,56 2,56 3,76 3,76 4,25 3,19 225,90 408,49
100 3,18 3,18 3,18 2,87 2,87 2,87 4,04 221,34 399,06
68
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
Ulangan 10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
1 3,65 3,65 3,65 3,39 5,51 14,73 18,61 224,26 314,22
2 2,91 2,91 2,91 2,24 8,94 10,46 17,73 217,61 311,24
3 2,94 2,94 2,94 4,29 4,36 16,60 23,59 226,70 314,12
4 4,51 4,17 4,27 3,48 3,02 14,41 17,51 224,67 317,09
5 3,78 4,67 4,67 4,67 4,03 10,09 16,23 225,49 316,07
6 3,66 3,66 3,00 3,00 7,63 10,23 14,44 226,63 313,61
7 3,14 3,14 3,14 2,91 7,19 11,65 15,96 216,66 311,76
8 2,33 2,33 4,14 4,14 4,14 16,22 21,01 220,59 310,08
9 3,56 3,56 3,56 3,29 3,48 16,10 23,02 225,35 315,06
10 4,01 3,25 3,25 2,39 4,03 14,98 23,29 222,92 312,10
11 3,75 3,75 3,00 3,00 2,72 11,37 20,79 220,21 308,64
12 3,07 2,39 2,39 2,39 6,80 9,80 20,29 224,08 310,45
13 3,74 3,74 3,50 3,50 3,50 13,60 17,66 219,61 316,71
14 2,93 2,93 4,04 4,69 4,69 14,43 19,86 222,93 318,51
15 3,09 3,09 3,09 2,44 2,44 11,56 19,50 227,57 317,52
16 3,46 3,46 6,27 6,27 6,27 15,37 20,36 222,82 309,86
17 3,79 3,79 3,79 3,65 3,65 13,67 18,83 222,39 312,65
18 2,93 2,93 5,25 5,25 7,10 14,31 19,21 219,93 307,16
19 3,11 3,11 3,45 3,45 3,45 10,84 15,21 220,69 312,09
20 3,17 3,17 3,17 3,09 3,09 12,46 19,37 218,64 311,99
21 3,22 3,22 2,70 2,70 3,45 14,28 17,59 225,95 315,93
22 3,50 3,50 3,50 2,78 3,72 13,70 21,52 215,86 312,52
23 3,87 3,87 3,87 5,39 5,80 15,29 19,56 221,79 307,17
24 3,14 3,14 4,37 4,37 5,77 9,05 12,61 221,90 308,81
25 3,86 3,86 3,86 3,78 2,82 13,80 21,44 220,32 310,12
26 2,89 2,89 2,83 2,83 2,84 11,50 21,33 223,21 314,29
27 3,78 3,78 3,82 3,45 3,45 12,55 16,71 221,96 309,40
28 3,53 3,53 3,53 3,44 5,11 15,50 21,58 222,11 312,69
29 3,62 3,19 2,45 2,45 2,91 16,90 20,06 225,07 312,28
30 3,36 3,18 3,18 3,18 4,31 14,61 19,21 222,65 308,60
31 3,02 6,02 5,90 5,90 5,90 15,08 20,31 220,74 316,53
32 3,78 3,78 3,78 3,85 2,95 13,90 22,33 222,68 309,87
33 3,82 4,13 4,75 4,65 4,65 15,95 22,80 217,05 311,32
34 3,73 3,58 3,58 2,76 2,76 11,05 22,31 217,43 304,61
35 4,81 3,52 3,52 3,22 3,33 14,50 21,57 219,44 312,07
36 2,91 2,91 2,38 2,38 2,38 13,36 18,59 223,60 311,20
37 3,36 3,36 3,02 3,02 3,02 13,36 18,05 218,90 311,60
38 3,32 3,08 3,08 2,24 2,24 14,48 18,24 220,89 307,34
39 3,57 3,57 3,22 3,22 3,85 14,05 20,08 224,37 314,68
40 3,53 3,20 5,60 5,60 5,82 8,55 11,74 223,23 309,07
41 2,83 2,83 3,26 3,26 3,26 4,71 14,78 19,00 227,38
69
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
42 3,62 3,06 2,54 2,54 4,23 16,27 20,01 219,68 312,20
43 3,71 3,71 4,29 5,54 5,51 15,74 21,23 225,54 315,18
44 4,02 4,02 3,55 3,55 3,54 12,31 17,39 223,06 311,34
45 3,60 3,31 2,65 2,65 2,65 12,72 17,04 223,90 312,98
46 3,23 2,58 2,58 2,58 4,77 15,51 21,64 220,77 315,42
47 3,48 2,69 2,69 2,24 7,30 14,62 19,17 220,79 309,08
48 4,50 4,20 4,17 3,17 3,17 15,97 19,51 216,59 310,86
49 4,14 4,19 4,19 4,19 5,87 13,29 15,97 217,65 310,78
50 3,62 3,62 3,65 3,49 3,49 14,81 19,97 220,76 317,24
51 4,71 4,09 3,22 2,90 2,90 13,40 18,25 222,99 314,90
52 4,30 4,30 4,47 4,69 4,69 14,11 19,03 226,83 315,92
53 2,97 2,97 2,97 3,28 3,28 16,69 21,10 220,91 317,83
54 6,08 7,42 6,78 6,68 6,68 15,60 18,17 222,41 319,70
55 3,79 3,79 3,16 6,11 6,57 14,78 18,03 219,77 308,45
56 2,93 2,93 5,90 5,90 10,01 11,62 14,54 223,63 316,15
57 2,85 4,34 6,15 6,15 5,42 14,64 19,07 221,04 311,50
58 4,72 4,72 5,96 6,19 5,99 5,99 19,45 225,54 320,16
59 3,73 3,73 3,23 3,23 3,23 11,58 16,89 222,81 310,67
60 2,99 2,99 3,01 4,52 4,52 15,13 22,55 219,35 309,81
61 3,04 2,48 2,48 2,05 2,05 12,33 17,12 216,78 305,21
62 3,76 3,76 3,11 3,11 3,11 15,64 20,24 220,98 315,57
63 2,56 3,99 4,63 4,88 4,88 15,35 24,32 218,03 303,21
64 4,16 3,68 3,51 3,51 2,80 13,93 18,80 219,50 311,81
65 3,40 3,40 3,40 3,05 3,05 7,84 18,93 227,26 314,57
66 2,68 2,68 2,68 4,00 6,19 16,20 20,04 222,79 311,01
67 3,68 3,68 3,68 3,68 3,76 13,72 17,88 225,95 312,68
68 3,40 3,35 3,35 2,96 2,96 16,98 22,02 216,67 313,50
69 3,15 3,15 3,15 5,54 6,38 14,80 21,20 223,16 310,47
70 4,35 3,87 3,41 3,27 3,27 10,86 19,66 219,24 311,19
71 3,41 3,41 3,19 3,19 3,19 17,61 21,41 230,05 319,88
72 3,54 3,54 3,43 2,56 8,79 14,01 23,03 221,40 310,45
73 3,35 3,35 2,54 2,54 4,24 13,69 18,09 222,64 308,17
74 3,83 3,08 3,08 3,08 2,71 12,59 17,73 222,11 311,50
75 3,08 3,08 2,59 2,46 2,46 13,24 15,79 221,86 318,32
76 4,87 4,68 3,68 3,31 2,97 14,30 19,75 223,79 312,47
77 3,23 4,17 3,09 3,09 3,74 13,68 16,42 220,63 308,87
78 3,16 3,16 3,16 2,81 2,59 13,18 19,46 228,23 318,04
79 3,64 3,64 3,18 3,18 2,94 16,11 20,80 225,50 313,68
80 3,21 3,21 3,21 6,56 6,56 9,86 20,84 215,58 309,22
81 3,37 3,37 3,27 3,27 3,27 16,47 22,29 225,73 315,84
70
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
82 2,78 3,95 3,95 3,95 6,88 13,05 17,03 219,16 318,17
83 3,80 3,42 3,42 6,00 4,57 14,63 24,07 224,54 313,35
84 3,33 3,33 3,33 3,05 3,05 14,37 19,58 221,72 308,30
85 4,28 3,77 3,03 3,03 2,67 15,43 22,38 218,30 313,77
86 3,49 3,49 3,49 3,95 3,95 16,76 21,99 222,97 313,92
87 3,84 3,84 3,22 3,22 3,22 10,41 20,19 222,75 313,31
88 3,73 2,83 2,83 2,83 3,92 14,63 21,33 225,04 311,70
89 4,13 4,13 4,92 4,50 4,50 15,20 18,87 224,74 310,97
90 3,11 3,11 3,11 4,09 7,54 11,72 16,08 223,80 321,00
91 3,64 3,38 3,38 3,32 2,80 17,61 22,02 217,47 310,74
92 3,77 3,47 3,02 3,02 7,75 10,79 21,93 220,37 313,44
93 3,00 3,00 2,34 2,34 11,24 12,77 16,84 221,12 316,55
94 3,11 3,11 3,11 6,16 6,16 9,13 12,45 223,03 311,93
95 2,82 3,40 3,40 2,27 2,27 11,47 20,35 227,69 315,31
96 2,63 2,63 4,17 4,17 4,17 10,55 15,11 220,06 311,04
97 2,66 2,39 2,39 4,89 5,73 18,13 21,95 226,84 317,15
98 2,77 2,77 2,77 2,39 9,69 14,95 18,74 226,27 314,50
99 3,83 3,83 3,83 3,83 3,14 13,70 20,35 221,66 316,48
100 3,14 3,14 3,14 3,06 3,06 12,15 20,43 219,98 304,43