Pengkajian Keakuratan Twostep Cluster Dalam Menentukan Banyaknya Gerombol Populasi Kudsiati

PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM
MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2006
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI
Dengan ini saya menyatakan bahwa tesis Pengkajian Keakuratan TwoStep Cluster
dalam Menentukan Banyaknya Gerombol Populasi adalah karya saya sendiri dan
belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
daftar pustaka dibagian akhir tesis ini.
Bogor, September 2006
Kudsiati
NIM G151020151
ABSTRAK
KUDSIATI. Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya

Gerombol Populasi. Dibimbing oleh BAMBANG JUANDA dan ITASIA DINA
SULVIANTI.
Algoritma analisis gerombol seperti metode penggerombolan hirarki dan k-
rataan tidak dapat menangani peubah (atribut) campuran kategorik dan numerik,
serta penentuan banyaknya gerombol. Metode TwoStep Cluster (Chiu et al. 2001)
dapat menangani peubah campuran kategorik dan numerik dan penentuan banyaknya
gerombol secara objektif (otomatis).
Penelitian ini mengevaluasi keakuratan TwoStep Cluster dalam menghasilkan
banyaknya gerombol dan ukuran gerombol yang sama dengan populasi yang
sebenarnya. Perbandingan struktur gerombol dalam populasi hipotetik dengan hasil
penduga banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dapat
diperoleh dengan studi simulasi.
Algoritma TwoStep Cluster sangat akurat dalam menduga banyaknya gerombol
dan sebaran ukuran gerombol sebenarnya jika semua peubah kontinu. Transformasi
peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah
numerik meningkatkan keakuratan TwoStep Cluster dalam menduga banyaknya
gerombol, bilamana peubah kriteria penggerombolan merupakan peubah campuran.
Selain itu TwoStep Cluster juga sangat akurat dalam menghasilkan gerombol yang
sama dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas,
atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis.
PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM
MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
Tesis
sebagai salah satu syarat memperoleh gelar
Magister Sains pada
Program Studi Statistika
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2006
Judul Tesis : Pengkajian Keakuratan TwoStep Cluster dalam Menentukan
Banyaknya Gerombol Populasi
Nama : Kudsiati
NIM : G151020151
Disetujui
Komisi Pembimbing
Dr. Ir. Bambang Juanda, M.S. Ir. Itasia Dina Sulvianti, M.Si.
Ketua Anggota
Diketahui
Ketua Program Studi Statistika Dekan Sekolah Pascasarjana
Dr. Ir. Aji Hamim Wigena, M.Sc. Prof. Dr. Ir. Khairil A. Notodiputro, M.S.
Tanggal Ujian : 21 September 2006 Tanggal Lulus:

PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT atas rahmat dan karunia-
Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih dalam
penelitian ini adalah Pengkajian Keakuratan TwoStep Cluster dalam Menentukan
Banyaknya Gerombol Populasi.
Terima kasih penulis sampaikan kepada berbagai pihak yang telah membantu
penyelesaian karya ilmiah ini, antara lain :
1. Bapak Dr. Ir. Bambang Juanda, M.S. dan Ibu Ir. Itasia Dina Sulvianti, M.Si. atas
segala bimbingan dan arahannya.
2. Suami Satrio Wiseno serta anak tercinta Haikal Fadlurrahman, atas doa dan
dukungan yang telah memperlancar selesainya karya ilmiah ini.
3. Seluruh Staf Departemen Statistika IPB, atas kesempatan dan ilmu yang
diberikan selama penulis menuntut ilmu di Departemen Statistika IPB.
4. Rekan-rekan di GRP, terima kasih atas bantuan yang telah diberikan kepada
penulis.
Akhirnya sebagaimana manusia yang tidak pernah luput dari kesalahan, penulis
mohon maaf apabila ada kesalahan dalam penulisan ini dan semoga karya ilmiah ini
dapat bermanfaat.
Bogor, September 2006
Kudsiati
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 26 Agustus 1964, anak kedelapan dari
11 bersaudara, dari ayah H.Usman (Alm) dan ibu Hj. Tarbiah.
Tahun 1987 penulis lulus dari program sarjana IPB Jurusan Statistika. Pada tahun
2002 penulis diterima pada Program Pascasarjana IPB Program Studi Statistika.
Pada tahun 1988 s/d 2000 penulis bekerja di Bank Duta dan sejak bulan Januari
2001 sampai saat ini bekerja pada PT. Grup Riset Potensial.
vi
DAFTAR ISI
Halaman
DAFTAR TABEL............................................................................................... viiii

DAFTAR GAMBAR ..............................................................................................ix
PENDAHULUAN....................................................................................................1
Latar Belakang .....................................................................................................1
Tujuan Penelitian..................................................................................................2
TINJAUAN PUSTAKA...........................................................................................4
Metode Penggerombolan Berhirarki....................................................................5
Metode Penggerombolan K-rataan......................................................................6
TwoStep Cluster ...................................................................................................7
1. Penggerombolan Awal (Pre-Clustering) ....................................................7
2. Penggerombolan Individu Objek ( Step 2 Cluster)...................................11
3. Konsep Jarak .............................................................................................11
4. Penentuan Banyaknya Gerombol..............................................................12
5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan...13
BAHAN DAN METODE ......................................................................................15
Bahan..................................................................................................................15
Model Populasi Hipotetik ..............................................................................15
Model Komposisi Peubah yang Dianalisis .....................................................16
Data Hipotetik ................................................................................................17
Metode ................................................................................................................19
Metode Pembangkitan Data ...........................................................................19
Prosedur Pembangkitan Data .........................................................................23
Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan ........................24
Metode Analisis ..............................................................................................25
Prosedur dan Pelaksanaan Percobaan ............................................................26
vii
Halaman
HASIL DAN PEMBAHASAN ..............................................................................28

Kasus Data Homogen.........................................................................................28
Kasus Data Berasal dari Populasi yang Terbedakan..........................................30
Kasus Populasi yang Saling Tumpang Tindih ...................................................34
Perbandingan dengan Metode Hirarki dan K-rataan..........................................39
SIMPULAN DAN SARAN ...................................................................................45
Simpulan.............................................................................................................45
Saran...................................................................................................................45
DAFTAR PUSTAKA ............................................................................................47
LAMPIRAN ...........................................................................................................50
Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS..........................51
Lampiran 2. Jarak penggabungan dengan metode hirarki..................................59
viii
DAFTAR TABEL
Halaman
Tabel 1. Kombinasi parameter model data hipotetik yang akan dibangkitkan----- 18

Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma
TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus
data homogen -------------------------------- ----------------------------- 29
Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep
Cluster dengan gerombol populasi sebenarnya pada kasus data
homogen -------------------------------- -------------------------------- -- 30
TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus
data berasal dari populasi yang terbedakan ------------------------------- 32
Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma
data berasal dari populasi yang terbedakan ------------------------------- 33
Cluster dengan gerombol populasi sebenarnya, pada kasus data
berasal dari populasi yang terbedakan ------------------------------------ 35
Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma
data berasal dari populasi yang tumpang tindih -------------------------- 36
Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma
Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma
ix
Halaman
Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan

TwoStep Cluster----------------------------------------------------------- 40
Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil
olahan metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali
simulasi)------------------------------------------------------------------- 43
Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi
dengan yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep
Cluster (hasil 100 kali simulasi) ------------------------------------------ 44
DAFTAR GAMBAR
Halaman
Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster ------------------ 10

Gambar 2. Sebaran Populasi Tunggal, N (0,1) --------------------------------------- 19
Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas---------------- 20
Gambar 4. Sebaran model 2 populasi dengan pemisahan yang tegas---------------- 20
Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas---------------- 21
Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas
dan 2 gerombol saling tumpang tindih dengan lainnya ------------------ 22
1
PENDAHULUAN
Latar Belakang
Dalam riset pemasaran, segmentasi pelanggan merupakan topik yang paling

banyak diterapkan. Pada dasarnya segmentasi pelanggan adalah pengelompokan
pelanggan baik atas dasar karakteristik individu (sosio-demografik), gaya hidup (life
style), psikografik, atau kebutuhan pelanggan (Kotler 2000 serta Kotabe & Helsen
2001). Segmentasi pelanggan merupakan hal yang sangat penting untuk merancang
berbagai strategi pemasaran (Porter 1980 & Aaker 2001), karena pada situasi pasar
yang kompetitif, jika mengambil pasar yang umum (mass market) maka akan sulit
bersaing atau menjadi tidak fokus, sehingga biaya pemasaran yang dikeluarkan
menjadi mahal.
Selama ini khususnya di Indonesia, alat analisis statistika untuk segmentasi
pelanggan yang biasa digunakan adalah analisis gerombol (Kasali 1998 ).
Permasalahan utama dalam penerapan analisis gerombol pada data-data riset
pemasaran adalah peubah kriteria penggerombolan sebagai dasar segmentasi bersifat
kategorik maupun campuran kategorik dan numerik (Aaker & Day 1990), sedangkan
algoritma -algoritma analisis gerombol konvensional seperti metode penggerombolan
berhirarki (aglomeratif ) dikembangkan untuk peubah-peubah numerik berskala
interval atau ordinal, walaupun telah tersedia pilihan berbagai konsep jarak untuk
peubah biner seperti konsep jarak Russel & Rao, Simple Matching, Jaccard, Dice,
Sokal & Sneeath dan sebagainya (Dillon and Goldstein, 1984). Sementara itu, metode
k-rataan (k-means) mensyaratkan peubah kriteria penggerombolan berskala interval.
Permasalahan kedua dalam penggunaan analisis gerombol untuk segmentasi
pelanggan adalah dalam penentuan banyaknya gerombol. Pada analisis gerombol
konvensional, seperi metode berhirarki maupun k-rataan, penentuan banyaknya
gerombol sangat ditentukan oleh subyektivitas peneliti, tidak ada uji statistik untuk
mengetahui ketepatan banyaknya gerombol yang “pantas” (fit) dengan data yang
2
dianalisis, sehingga hasil segmentasi sangat tergantung dari pengetahuan, pengalaman,

serta subyektivitas peneliti (Garson, 2006).
Untuk mengatasi kedua permasalahan di atas, SPSS telah me ngembangkan
algoritma penggerombolan yang memungkinkan untuk mengolah data campuran
kategorik dan kontinu (kuantitatif), serta kriteria statistik yang memungkinkan
penentuan banyaknya gerombol secara objektif. Algoritma tersebut sudah mulai
diimplementasikan pada SPSS versi 11.5 atau yang lebih tinggi dengan nama
TwoStep Cluster (SPSS 2001, 2004). Prosedur ini masih belum banyak digunakan
sampai saat ini. Pada algoritma penggerombolan, baik metode berhirarki aglomeratif
maupun metode tak berhirarki (k-rataan) mempunyai beberapa permasalahan yang
telah diketahui secara luas (misalnya, Bacher 2000: 223; Everitt et al. 2001: 94-96;
Huang 1998: 288), sedangkan TwoStep Cluster dapat menyelesaikan beberapa dari
permasalahan yang ditimbulkan pada metode-metode sebelumnya. Lebih tepatnya,
atribut tipe campuran dapat ditangani dan banyaknya gerombol dapat ditentukan
secara otomatis.
Namun demikian, kemampuan algoritma TwoStep Cluster dalam
mengidentifikasi banyaknya gerombol secara akurat dan tingkat salah klasifikasi
penggerombolan belum banyak ditelaah oleh para peneliti di Indonesia. Bahkan
metode ini belum banyak diterapkan di kalangan peneliti pemasaran di Indonesia.
Tujuan Penelitian
Penelitia n ini bertujuan untuk melakukan evaluasi terhadap keakuratan

algoritma TwoStep Cluster dalam mengidentifikasi banyaknya gerombol populasi
yang sebenarnya. Secara rinci, penelitian ini bertujuan untuk menjawab hal-hal
berikut :
1. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik
gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang
terlibat semuanya bersifat kontinu.
3

terlibat semuanya bersifat kategorik.
terlibat merupakan campuran kategorik dan kontinu.
4. Seberapa baik algoritma TwoStep Cluster dibandingkan dengan metode hirarki
dan k-rataan dalam mendeteksi gerombol sebenarnya yang terdapat di populasi.
4
TINJAUAN PUSTAKA
Analisis gerombol dalam bidang riset pemasaran sering diistilahkan sebagai

analisis segmentasi, merupakan alat statistika peubah ganda yang bertujuan untuk
mengelompokkan n individu data ke dalam k gerombol, dengan k < n. Individu yang
terletak dalam satu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan
dengan individu yang terletak dalam gerombol lain (Dillon & Goldstein 1984).
Dengan demikian, sasaran analisis gerombol adalah mendapatkan gugus
pengelompokkan yang meminimumkan keragaman di dalam gerombol dan sekaligus
memaksimumkan keragaman antar gerombol (Garson 2006). Secara umum, metode
penggerombolan dapat dibedakan ke dalam 3 kelompok, yaitu (1) metode
penggerombolan berhirarki, (2) metode penggerombolan tak-berhirarki, dan (3)
penggabungan kedua pendekatan metode penggerombolan, atau dikenal juga sebagai
metode hybrid (Putri 2005).
Semakin rumitnya masalah yang dihadapi dalam menggerombolkan gugus data
berdimensi besar dan banyaknya individu yang sangat besar, mendorong
berkembangnya teknik-teknik penggerombolan baru yang dalam prosesnya dilakukan
secara bertahap (pre clustering dan clustering). Metode-metode yang cukup dikenal
dikalangan peneliti bidang pemasaran dan data mining diantaranya adalah, TwoStep
Cluster (Chiu et al. 2001), Latent Segment Analysis (Vermunt & Magidson 2000;
McCutcheon 1999, dan Bernstein et al. 2002), BIRCH (Zhang 1996), CLARANS,
CURE, dan DBscan (Strehl & Gosh 2002), serta Two Stage Clustering
(Lakshminarayan & Yu 2001). Pada penelitian ini, fokus evaluasi diarahkan pada
metode TwoStep Cluster. Metode penggerombolan klasik, yaitu hirarki dan k-rataan
dijadikan sebagai pembanding untuk mengevaluasi keakuratan metode TwoStep
Cluster.
5
Metode Penggerombolan Berhirarki
Metode penggerombolan berhirarki digunakan apabila banyaknya gerombo l

yang akan dibentuk belum diketahui dengan pasti di awal. Menurut Garson (2006),
penggerombolan berhirarki cocok untuk ukuran data yang kecil (biasanya<250).
Metode penggerombolan berhirarki dapat dibedakan menjadi dua yaitu metode
penggabungan (agglomerative) dan metode pemecahan (divisive). Garson (2006)
mengistilahkannya sebagai forward dan backward clustering. Pendekatan metode
penggabungan berhiraki (agglomerative hierarchical) paling umum digunakan oleh
para peneliti.
Metode berhirarki agglomerative dimulai dengan mengasumsikan bahwa setiap
objek merupakan satu gerombol, selanjutnya secara bertahap dilakukan
penggabungan pada objek-objek yang paling dekat. Proses ini berlanjut sampai
semua sub grup bergabung menjadi satu gerombol. Sebaliknya, meto de divisive
diawali dengan asumsi semua objek berada dalam satu gerombol, kemudian objek-
objek yang paling jauh dipisah dan membentuk satu gerombol lain. Proses tersebut
berlanjut sampai semua objek masing- masing membentuk satu gerombol. Hasil
pembentukan gerombol berhirarki beserta jarak penggabungannya dapat digambarkan
dalam suatu dendogram.
Secara umum pembentukan dendogram dengan algoritma agglomerative adalah
sebagai berikut (Johnson 1967) :
1. Mulai dengan N gerombol yang masing- masing hanya beranggotakan
satu individu.
2. Gabungkan dua individu atau sub-gerombol yang memiliki jarak terdekat
pada matrik jarak.
3. Hitung kembali jarak antar gerombol yang baru.
4. Ulangi langkah (2) dan (3) sampai (N-1) kali, sampai akhirnya semua
objek bergabung menjadi satu gerombol.
6
Dalam metode penggerombolan berhirarki setiap langkah penggabungan

gerombol diikuti dengan perbaikan matrik s jarak. Adenberg (1973), Dillon dan
Goldstein (1984), serta Morrison (1990) memaparkan beberapa pilihan metode
perbaik an jarak yang dapat digunakan pada langkah (3) di atas, yaitu :
a. Pautan tunggal (single linkage)
b. Pautan lengkap (complete linkage)
c. Pautan rataan dalam kelompok (average linkage within the new group)
d. Pautan rataan antar kelompok (average linkage between merged group)
e. Centroid
f. Median
g. Ward
Wijayanti (2002), dengan menggunakan metode simulasi, menunjukkan bahwa
metode perbaikan jarak pautan rataan dalam kelompok memberikan nilai salah
klasifikasi yang paling rendah diantara metode perbaikan jarak lainnya.
Metode penggerombolan berhirarki memungkinkan untuk digunakan pada
gugus peubah kriteria penggerombolan yang semuanya berskala rasio, interval,
ordinal, atau biner (Garson 2006). Untuk masing- masing jenis skala terdapat pilihan
konsep jarak yang sesuai. Berbagai konsep jarak untuk data biner dibahas pada
Digby dan Kempton (1987).
Metode Penggerombolan K-rataan

Metode k-rataan termasuk kedalam kelompok penggerombolan tak berhirarki.
Menurut Garson (2006), penggerombolan dengan menggunakan metode k-rataan
menggunakan konsep jarak Euclidian, sehingga peubah kriteria penggerombolan
haruslah semuanya berskala rasio, interval, atau biner (true dichotomies). Untuk
menggunakan metode penggerombolan k-rataan, pengguna (peneliti) harus
menentukan terlebih dahulu banyaknya gerombol yang akan dibentuk secara apriori
(Morrison 1990; dan Garson 2006). Pemilihan banyaknya gerombol (k) dapat
ditentukan secara subjektif berdasarkan landasan teori dari masalah yang dianalisis
atau melalui penelusuran data awal.
7
Titik pusat awal k buah gerombol dipilih secara acak pada pertama kali,
selanjutnya dilakukan proses iterasi yang mana pada setiap iterasi dibentuk
penggerombolan berdasarkan jarak Euclidian terdekat ke pusat gerombol. Jadi pada
setiap iterasi pusat gerombol akan berubah. Proses iterasi akan berhenti bila rata-rata
gerombol lebih kecil dari batas perubahan yang ditentukan, atau banyaknya iterasi
telah melampaui batasan maksimum (Adenberg 1973). Secara umum, metode k-
rataan menghasilkan tepat k gerombol yang memiliki perbedaan keragaman terbesar 1) .
Garson (2006) mengemukakan bahwa metode k-rataan cocok untuk digunakan pada
data berukuran besar (misal lebih dari 200 individu).
TwoStep Cluster
Algoritma TwoStep Cluster dikembangkan oleh Chiu, Fang, Chen, Wang, dan
Jeris (2001) untuk analisis pada gugus data yang besar. Prosedurnya terdiri dari dua
langkah (Chiu et al. 2001, SPSS 2004), yaitu :
1. Penggerombolan Awal (Pre-Clustering)

Tujuan penggerombolan awal (pre-clustering) adalah untuk memasukkan data
matriks baru dengan objek yang lebih sedikit pada langkah selanjutnya. Langkah
penggerombolan awal menggunakan pendekatan penggerombolan secara sekuensial
(Theodoridis & Koutroumbas 1999). Pendekatan ini menelusuri (scan) vektor data
individu (record) satu per satu dan memutuskan apakah vektor data yang
bersangkutan akan digabung dengan gerombol yang telah terbentuk sebelumnya atau
memulai gerombol yang baru berdasarkan kriteria jarak yang telah ditetapkan.
___________________________________________
1)
http://www.statsoft.com/textbook/stcluan.html#general
8
Prosedur tersebut diimplementasikan dengan membentuk Cluster Feature tree

(Zhang et al. 1996), pada penulisan ini diterjemahkan sebagai “pohon ciri gerombol”.
Pohon ciri gerombol terdiri dari beberapa tingkatan cabang (nodes) dan masing-
masing cabang berisikan individu data (entries). Individu yang terdapat pada cabang
yang berisikan individu rujukan disebut Leaf Entry, merepresentasikan anak-
gerombol (sub-cluster) dari gerombol rujukan awal. Cabang-cabang yang bukan
menjadi rujukan (non-leaf nodes) beserta individu di dalamnya akan mengarahkan
vektor individu baru ke dalam cabang yang tepat secara cepat. Sebagai contoh, SPSS
memberikan nilai default untuk banyaknya tingkat cabang maksimum (maximum
levels of nodes)=3 dan banyaknya entries per nodes maksimum 8 sehingga
3
banyaknya leaf entries maksimum sebanyak 8 = 512 anak-gerombol (SPSS
Technical Guide 2001).
Suatu pohon ciri gerombol (CF tree) dengan informasi banyaknya individu
pada pohon gerombol yang bersangkutan, nilai tengah dan ragam setiap peubah
kontinu, serta frekuensi masing-masing kategori untuk peubah kategorik mencirikan
setiap anak-gerombol (entries). Setiap vektor individu (record) yang berurutan,
secara rekursif diarahkan untuk menemukan anak cabang terdekat, untuk menjadi
daun pada pohon yang bersangkutan. Bila vektor individu yang bersangkutan terletak
pada wilayah jarak penerimaan (threshold distance) dari dahan terdekat (leaf entry),
dahan tersebut akan memasukkan individu yang bersangkutan menjadi anggota anak
gerombol, kemudian merubah informasi pohon ciri gerombol dari dahan. Bila vektor
individu terletak di luar wilayah jarak penerimaan, individu tersebut akan menjadi
cikal bakal dahan yang baru pada cabang yang bersesuaian. Bila suatu cabang tidak
lagi memiliki ruang untuk menambah daun baru (entries), maka cabang tersebut akan
dipecah menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan kemudian
membelah menjadi dua dahan. Individu- individu yang terdapat pada cabang
sebelumnya akan dipecah menjadi 2 kelompok dengan menggunakan 2 titik rujukan
yang paling berjauhan, kemudian individu lainnya akan disebarkan berdasarkan
kriteria kedekatan. Proses ini akan berlanjut sampai seluruh individu terolah secara
lengkap.
9
Jika CF tree berkembang melewati batas ukuran maksimum yang telah

ditetapkan, maka CF tree yang telah ada akan dibangun ulang dengan cara
meningkatkan kriteria ukuran penerimaan. CF tree yang melewati batas biasanya
dikarenakan pada saat proses algoritma CF tree ini dijalankan, terbentuk daun entri
yang beranggotakan pencilan (outlier). Pencilan pada analisis TwoStep Cluster
adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF tree
akan dibangun ulang, maka akan diperiksa daun entri yang berpote nsi sebagai
pencilan. Daun entri yang terdeteksi beranggotakan pencilan merupakan daun entri
yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah
paling besar yang telah ditetapkan. Pada saat pembangunan ulang, daun entri yang
berpotensi sebagai pencilan disimpan. Setelah CF tree dibangun ulang, maka satu per
satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam
CF tree yang baru tanpa mengubah ukuran CF tree tersebut. Jika masih ada data yang
tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai
pencilan. Data-data yang dideteksi sebagai pencilan dimasukkan ke dalam satu
gerombol.
Pada diagram algoritma CF tree yang disajikan pada Gambar 1, maksimum
depth dan maksimum nodes yang digunakan yaitu masing- masing 3, sehingga daun
entri (anak gerombol) yang terbentuk adalah sebanyak 33 atau 27 anak gerombol,
sedangkan pada penelitian ini sesuai dengan default dari program SPSS maksimum
depth sama dengan 3 dan maksimum nodes 8.
Menurut Bacher, Wenzig, dan Vogler (2004), hasil penggerombolan awal
bergantung pada urutan dari objek/individu yang disusun pada matriks data. Oleh
karena itu, SPSS (2001:2) merekomendasikan untuk menggunakan urutan data secara
acak.
10
Node
Rebuild
Rebuild
Leaf
Threshold distance
Rebuild
Pre-Clustering
Rebuild
Rebuild
Pre-Clustering
Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster

11
2. Penggerombolan Individu Objek ( Step 2 Cluster)
Pada tahap ini diterapkan model berbasiskan teknik hirarki. Sebagaimana

halnya dengan teknik hirarki aglomeratif, hasil penggerombolan awal digabungkan
dengan menggunakan cara bertatar (stepwise) sampai semua objek berada dalam satu
gerombol. Berbeda dengan teknik -teknik hirarki aglomeratif, algoritma TwoStep
Cluster didasarkan pada suatu model statistik. Model dilandasi pada asumsi bahwa
peubah-peubah kontinu xj (j = 1,2,…,p) pada gerombol ke-i menyebar normal bebas
stokastik dengan nilai tengah µij dan ragam σ ij , serta peubah-peubah kategorik aj
2
pada gerombol ke-i mengikuti sebaran multinomial dengan peluang π ijl , yang mana
(jl) adalah indeks dari kategori ke l (l = 1,2,…,ml ) dari peubah aj (j = 1,2,…,q).
3. Konsep Jarak
Terdapat dua konsep pengukuran jarak yang tersedia pada SPSS TwoStep
Cluster yaitu jarak Euclidean dan jarak log-likelihood. Bacher, Weinzig, dan Vogler
(2004) menyatakan bahwa ukuran jarak log-likelihood dapat diterapkan untuk atribut
(peubah-peubah) campuran antara kategorik dan numerik.
Jarak log-likelihood antara dua kelompok i dan s didefinisikan sebagai berikut:
d (i, s ) = ξ i + ξ s − ξ i ,s (1)
 p 1 
( ) log (πˆ ijl )
q mj
ξ i = −ni  ∑ log σˆ ij2 + σˆ 2j − ∑ ∑πˆ ijl
(2)
 j =1 2 j =1 l =1 
 p 1 
( ) log (πˆ sjl )
q mj
ξ s = −ns  ∑ log σˆ sj2 + σˆ 2j − ∑ ∑πˆ sjl
(3)
 j =1 2 j =1 l =1 
 p 1
( ) ( )
q mj
ξ i , s = −n i , s  ∑ log σˆ 2i , s j + σˆ 2j − ∑ ∑πˆ i , s jl
log πˆ i ,s jl
(4)
 j =1 2 j =1 l =1 
12
Untuk penyingkatan ξ i, s dituliskan sebagai ε v , yang dapat ditafsirkan sebagai
suatu jenis galat penyimpangan (dispersi) di dalam gerombol v (v = i,s,(i,s)). ε v

terdiri dari dua komponen keragaman. Bagian pertama adalah
1
− nv ∑ j =1
p
log( σˆ vj2 + σˆ 2j ) yang mengukur total simpangan (keragaman) dari peubah
2
kontinu xj di dalam gerombol v dan bagian kedua − nv ∑ qj=1 ∑ mj
l =1 π vjl log( π vjl )
ˆ ˆ
(entropy) mengukur dispersi pada peubah kategorik. Seperti halnya dengan teknik
hirarki aglomeratif, gerombol- gerombol dengan jarak terkecil d(i,s) digabungkan
pada tiap langkah. Fungsi log-likelihood untuk langkah dengan k gerombol dituliskan
sebagai:
k
lk = ∑ ξ v (5)
v =1
Fungsi lk bukan merupakan fungsi log-likelihood yang selengkapnya

sebagaimana dituliskan pada persamaan sebelumnya. Fungsi ini dapat ditafsirkan
sebagai dispersi di dalam gerombol (keragaman dalam gerombol). Bila hanya
diperhatikan pada bagian peubah kategorik, lk adalah entropy dalam gerombol ke k.
4. Penentuan Banyaknya Gerombol
Pada SPSS TwoStep Cluster, banyaknya gerombol dapat diperoleh secara

otomatis. Dua tahap pendugaan diterapkan untuk menentukan banyaknya gerombol
secara objektif. Tahap pertama menghitung besaran Kriteria Informasi Akaike
(AIC) dan Kriteria Informasi Bayes (BIC). Kriteria Informasi Akaike untuk k buah
gerombol dirumuskan sebagai :
AIC k = −2l k + 2rk (6)
yang mana rk adalah banyaknya parameter bebas.
Kriteria Informasi Bayes untuk k buah gerombol, dengan rumusan sebagai :
BICk = −2l k + rk log n (7)
13
Menurut Chiu et al. (2001: 266) BIC k atau AIC k menghasilkan penduga awal
yang baik bagi banyaknya gerombol maksimum. Banyaknya gerombol maksimum
ditentukan sama dengan banyaknya gerombol yang memiliki rasio BICk /BIC1 yang
pertama kali lebih kecil dari c1 (SPSS menetapkan c1 = 0,04 yang didasarkan atas
studi simulasi) (SPSS Technical Support 2001).
Tahap kedua digunakan kriteria perubahan rasio jarak untuk k buah gerombol,
R(k) , yang didefinisikan sebagai :
R (k ) = d k −1 / d k (8)
yang mana dk-1 adalah jarak jika k buah gerombol digabungkan menjadi k-1 gerombol.
Jarak dk dapat diperoleh dari hasil perhitungan sebagai berikut :
d k = l k −1 − l k (9)
l v = (rv log n − BIC v ) / 2 atau l v = (2rv − AIC v ) / 2 untuk v=k, k-1 (10)
Menurut Bacher, Wenzig, dan Vogler (2004), menggunakan BIC atau AIC
menghasilkan jawaban ya ng berbeda. Sebagai catatan, SPSS menyediakan 2 pilihan
kriteria, yaitu menggunakan BIC atau AIC. Banyaknya gerombol diperoleh
berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan
gerombol. Rasio perubahan gerombol dihitung sebagai berikut
R (k1 ) / R(k 2 ) (11)
untuk dua nilai terbesar dari R(k) (k=1,2,…,kmax; kmax didapatkan dari langkah
pertama).
Jika rasio perubahan lebih besar daripada nilai batas c2 (SPSS menetapkan nilai
c2 = 1,15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama dengan
k1 , selainnya banyak gerombol sama dengan maksimum {k1 ,k2 }.
5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan
Tiap objek ditetapkan sebagai anggota dari gerombol terdekat secara

deterministik berdasarkan ukuran jarak yang biasanya digunakan untuk mendapatkan
gerombol. Bacher (2000) mengungkapkan bahwa penetapan keanggotaan gerombol
14
secara deterministik memungkinkan terjadinya penduga yang bias bagi profil

gerombol, bila terjadi tumpang tindih (overlap ) antar dua gerombol yang saling
berdekatan. Kelompok data yang dapat mengakibatkan terjadinya bias dalam
penetapan keanggotaan gerombol disebut sebagai pencilan (outlier) atau gangguan
(noise). Untuk menanggulangi hal ini, Bacher, Wenzig, dan Vogler (2004)
menyarankan agar pengguna SPSS menentukan nilai fraction of noise (opsi
penanganan pencilan), misalnya 5 (=5%). Bila diyakini pada data tidak terdapat
gangguan (penc ilan), maka pilihan penanganan pencilan dapat diabaikan.
Suatu dahan (pada tahapan penggerombolan awal) dianggap sebagai gerombol
yang berpotensi sebagai pencilan bilamana banyaknya individu pada sub gerombol
yang bersangkutan lebih sedikit dari persentase (proporsi) fraksi ukuran gerombol
maksimum yang ditetapkan.
Pencilan atau gangguan (noise) diasumsikan menyebar mengikuti sebaran
seragam. Untuk mendeteksi bahwa suatu individu dapat dinyatakan sebagai pencilan
atau bukan, dilakukan perhitungan jarak log-likelihood dari titik yang bersangkutan
ke sub gerombol terdekat yang bukan pencilan (closest non-noise cluster), dan jarak
log-likelihood bilamana titik tersebut dimasukkan sebagai pencilan. Langkah
berikutnya, memilih jarak log-likelihood terbesar dari kedua perhitungan tersebut.
Langkah ini setara dengan memasukkan individu yang diduga sebagai pencilan ke
sub gerombol terdekat yang bukan pencilan bilamana jarak log-likelihood lebih kecil
dari titik kritis
C=log(V) (12)
dimana :
V = ∏ R k ∏ Lm (13)
Rk = range dari peubah kontinu ke-k
Lm = Banyaknya kategori untuk peubah kategori ke-m
Sub-sub gerombol yang telah diidentifikasi sebagai pencilan, pada tahap pra-
penggerombolan (pre-clustering) tidak dilibatkan pada proses penentuan banyaknya
gerombol maupun penetapan keanggotaan gerombol.
15
BAHAN DAN METODE
Bahan
Model Populasi Hipotetik

Pada penelitian ini akan digunakan pendekatan simulasi untuk mengevaluasi
efektivitas algoritma TwoStep Cluster, sebagai mana dinyatakan pada tujuan
penelitian. Data bangkitan yang akan digunakan didasarkan pada 5 model data
hipotetik, yang dipandang dapat mewakili situasi yang mungkin muncul atau dapat
dijadikan rujukan untuk generalisasi berbagai situasi di populasi.
Kelima model tersebut adalah :
P1 : Populasi yang homogen (1 gerombol), yaitu dapat ditafsirkan bahwa tidak
terdapat struktur kelas (gerombol) pada populasi yang dianalisis. Dalam kasus
pemasaran, beberapa produk-produk masal (misal minuman ringan/soft drink )
tidak tersegmen, karena preferensi atas produk tersebut tidak terkait dengan
kelas sosial ekonomi, gaya hidup, atau demografi.
P2 : Populasi yang dibentuk dari 2 gerombol yang memiliki sifat hampir mirip
(overlap) atau tidak terpisah secara tegas. Contoh pada kasus pemasaran adalah
segmentasi preferensi antara kelompok laki- laki dan perempuan pada kelompok
umur muda (15-24 tahun) untuk berbagai jenis produk non kosmetik atau model
pakaian.
P3 : Populasi yang dibentuk dari 2 gerombol yang terpisah secara tegas (mutually
exclusive). Pada penerapan bidang pemasaran, sangat umum dijumpai
pemisahan kelas atas (upper class atau high end) dan kelas bawah (lower class
atau low end ) yang memiliki ciri dan/atau preferensi yang sangat berbeda,
sejalan dengan sumber daya (kelas sosial dan ekonomi) dan gaya hidup yang
dimiliki.
16
P4 : Populasi yang dibentuk dari 3 gerombol yang terpisah secara tegas. Sama pada
kasus di atas (P3), namun populasi yang dianalisis tersegmen menjadi kelompok
kelas atas (upper), menengah (middle), dan kelas bawah (lower).
P5 : Populasi yang dibentuk dari 5 gerombol yang terdiri dari 3 gerombol yang
terbedakan secara tegas, dan 2 gerombol lainnya tumpang tindih satu dengan
lainnya serta dengan gerombol lain. Pada bidang pemasaran, segmentasi
berdasarkan psikografik atau gaya hidup cukup umum dijump ai pemisahan
yang tidak nyata pada beberapa kelompok dan pada kelompok lainnya terdapat
perbedaan yang nyata.
Model Komposisi Peubah yang Dianalisis
Selain model- model populasi hipotetik di atas, pada penelitian ini akan
dievaluasi pengaruh jenis peubah yang terlibat dalam proses penggerombolan. Untuk
membatasi lingkup penelitian, ditetapkan banyaknya peubah yang terlibat adalah 14.
Dalam prakteknya, berdasarkan pengalaman penulis di bidang riset pemasaran,
atribut preferensi produk yang diukur untuk tujuan segmentasi umumnya tidak lebih
dari 10. Pada segmentasi konsumen berdasarkan psikografik, sangat umum
digunakan 14 dimensi nilai (value), sedangkan pada segmentasi berdasarkan sosio -
demografik peubah-peubah yang umum digunakan adalah (1) kelompok umur, (2)
pendidikan tertinggi, (3) kelas rata-rata pengeluaran rumah tangga per bulan, (4) kelas
rata-rata pendapatan rumah tangga per bulan, (5) status perkawinan, (6) status
pekerjaan, (7) gender, (8) ukuran keluarga, dan (9) kepemilikan barang-barang tahan
lama di rumah tangga. Kelompok peubah yang akan dievaluasi adalah :
V1 : Kumpulan peubah yang semuanya merupakan peubah kuantitatif (numerik,
dengan skala kontinu atau interval). Kasus ini sangat jarang dijumpai pada
bidang pemasaran, namun sangat umum ditemukan di bidang pertanian secara
luas, bidang ekonomi dan keuangan, atau bidang kesehatan.
17
V2: Kumpulan peubah yang semuanya merupakan peubah kategorik (nominal atau
ordinal yang diperlakukan sebagai nominal). Kasus ini paling banyak dijumpai
pada bidang pemasaran, ilmu- ilmu sosial, manajemen, dan politik.
V3 : Kumpulan peubah yang terdiri dari sebagian kecil (4) peubah kuantitatif, dan
sisanya (10) merupakan peubah kategorik. Pada bidang pemasaran dan ilmu-
ilmu sosial kasus seperti ini mulai mendapat perhatian.
V4 : Kumpulan peubah yang terdiri dari sebagian besar (10) merupakan peubah
kuantitatif, dan sisanya (4) merupakan peubah kategorik. Pada bidang pertanian
dan ekonomi keterlibatan peubah-peubah yang tidak dapat dikuantifikasi, saat
ini mulai mendapat perhatian.
Data Hipotetik
Faktor lain yang dipandang berpengaruh terhadap data bangkitan yang akan
digunakan adalah ukuran contoh secara total (banyaknya data). Pada penelitian ini
akan dievaluasi kemungkinan ukuran data relatif kecil (500), sedang (2.000), besar
(5.000) dan sangat besar (10.000). Dengan demikian, model data bangkitan yang akan
digunakan dalam penelitian ini merupakan fungsi dari :
• 5 Model hipotetik segmentasi di populasi.
• 4 Komposisi jenis peubah yang terlibat dalam analisis.
• 4 Ukuran data.
Dengan menggunakan rancangan faktorial lengkap, untuk mengkombinasikan
berbagai kemungkinan dari masing- masing parameter yang dievaluasi maka
dibangkitkan 80(5x4x4) data hipotetik untuk dianalisis. Masing- masing kombinasi
akan diulang sebanyak 100 kali, sehingga diperlukan 8.000 gugus data hipotetik yang
dibangkitkan melalui simulasi pada percobaan ini untuk dianalisis. Berdasarkan hasil
pembangkitan rancangan faktorial lengkap, diperoleh 80 kombinasi model untuk data
hipotetik yang akan digunakan dalam penelitian ini, yang secara lengkap disajikan
pada Tabel 1.
18
Tabel 1. Kombinasi parameter model data hipotetik yang akan d ibangkitkan.
Komposisi Ukuran Komposisi Ukuran

Model jenis data Model jenis data
No Segmentasi peubah (N) No Segmentasi peubah (N)
1 P1 V1 500 41 P1 V1 5000
2 P1 V2 500 42 P1 V2 5000
3 P1 V3 500 43 P1 V3 5000
4 P1 V4 500 44 P1 V4 5000
5 P2 V1 500 45 P2 V1 5000
6 P2 V2 500 46 P2 V2 5000
7 P2 V3 500 47 P2 V3 5000
8 P2 V4 500 48 P2 V4 5000
9 P3 V1 500 49 P3 V1 5000
10 P3 V2 500 50 P3 V2 5000
11 P3 V3 500 51 P3 V3 5000
12 P3 V4 500 52 P3 V4 5000
13 P4 V1 500 53 P4 V1 5000
14 P4 V2 500 54 P4 V2 5000
15 P4 V3 500 55 P4 V3 5000
16 P4 V4 500 56 P4 V4 5000
17 P5 V1 500 57 P5 V1 5000
18 P5 V2 500 58 P5 V2 5000
19 P5 V3 500 59 P5 V3 5000
20 P5 V4 500 60 P5 V4 5000
21 P1 V1 2000 61 P1 V1 10000
22 P1 V2 2000 62 P1 V2 10000
23 P1 V3 2000 63 P1 V3 10000
24 P1 V4 2000 64 P1 V4 10000
25 P2 V1 2000 65 P2 V1 10000
26 P2 V2 2000 66 P2 V2 10000
27 P2 V3 2000 67 P2 V3 10000
28 P2 V4 2000 68 P2 V4 10000
29 P3 V1 2000 69 P3 V1 10000
30 P3 V2 2000 70 P3 V2 10000
31 P3 V3 2000 71 P3 V3 10000
32 P3 V4 2000 72 P3 V4 10000
33 P4 V1 2000 73 P4 V1 10000
34 P4 V2 2000 74 P4 V2 10000
35 P4 V3 2000 75 P4 V3 10000
36 P4 V4 2000 76 P4 V4 10000
37 P5 V1 2000 77 P5 V1 10000
38 P5 V2 2000 78 P5 V2 10000
39 P5 V3 2000 79 P5 V3 10000
40 P5 V4 2000 80 P5 V4 10000
19
Metode
Metode Pembangkitan Data
Data hipotetik dibangkitkan dari sebaran normal dengan nilai tengah µ dan
ragam=1. Lebih lanjut diasumsikan bahwa antar peubah-peubah yang terlibat dalam
analisis saling bebas stokastik, dengan sebaran yang sama. Dengan demikian,
peubah-peubah yang terlibat dalam analisis menyebar normal, bebas stokastik, identik
(normally independently identically distributed), N(µ,1). Nilai tengah untuk masing-
masing model segmentasi yang dievaluasi dinyatakan sebagai berikut :
P1 : Tidak terdapat struktur kelas (gerombol), yaitu populasi dengan 1 gerombol.

µ (xi) = 0,00 ; i = 1,2,3,.........., N (ukuran data).
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
-2.40-2.20-2.00-1.80-1.60-1.40-1.20-1.00-0.80-0.60-0.40-0.200.000.200.400.60 0.80 1.001.20 1.401.601.802.002.202.402.602.80 3.00

-3.00-2.80-2.60
Gambar 2. Sebaran populasi tunggal, N (0,1)

20
P 2: Populasi yang dibentuk dari 2 gerombol dengan jarak antar gerombol relatif
kecil (pemisahan tidak tegas)
Gerombol 1 : µ (x1i) = -0,50 ; i = 1,2,3,........, n1 (catatan : n1=N/2)
Gerombol 2 : µ (x2i) = +0,50 ; i = 1,2,3,........, n2 (catatan : n2=N/2)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0
0
0
0.0
0.4
0.8
1.2
1.6
2.4
2.8
3.6
4.0
-4.0
-3.6
-3.2
-2.8
-2.4
-2.0
-1.6
-1.2
-0.8
-0.4
2.0
N(-0.5,1) N(0.5,1) 3.2
Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas
P3 : Populasi yang dibetuk dari 2 gerombol dengan jarak antar gerombol relatif
besar (pemisahan antar gerombol tegas)
Gerombol 1 : µ (x1i ) = -3,00 ; i = 1,2,3,........, n1 (catatan : n1=N/2)
Gerombol 2 : µ (x2i ) =+3,00 ; i = 1,2,3,........, n2 (catatan : n2=N/2)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
.60
.80
0
0
0
0
0
0
0
0
0
0
0
0
0
0.0
0.4
0.8
1.2
1.6
2.0
2.8
3.2
3.6
4.4
4.8
5.6
6.0
-5.2
-4.8
-4.4
-4.0
-3.6
-2.4
-2.0
-1.6
-1.2
-0.8
2.4
4.0
5.2
-6.0
-3.2
-0.4
-5
-2
N(-3,1) N(3,1)
Gambar 4. Sebaran model 2 populasi dengan pemisahan yang tegas

21
P4 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup
besar (pemisahan secara tegas)
Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,........, n1 (catatan : n1=N/4)
Gerombol 2 : µ (x2i) = 0,00 ; i = 1,2,3,........., n2 (catatan : n2=N/2)
Gerombol 3 : µ (x3i) = +4,00 ; i = 1,2,3,......., n3 (catatan : n3=N/4)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0
0
0
60
40
80
60
00
80
20
00
40
3.8
5.6
-7.0
-5.2
-3.4
-1.6
0.2
0.8
1.4
2.0
2.6
3.2
4.4
5.0
6.2
6.8
7.4
-7.
-6.
-5.
-4.
-4.
-2.
-2.
-1.
-0.
N(-4,1) N(0,1) N(4,1)
Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas
Penyebaran banyaknya data pada masing-masing (ukuran gerombol) ditetapkan

tidak seimbang, tetapi proporsional dan menyebar secara simetrik. Pada kasus ini,
ukuran contoh masing- masing gerombol adalah 25%, 50%, dan 25% dari jumlah
keseluruhan data yang dicobakan.
P5 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup
besar dan 2 gerombol lainnya terletak diantara 3 gerombol lain serta tumpang
tindih terhadap gerombol lain.
Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,........, n1 (catatan : n1=15% dari N)
Gerombol 2 : µ (x2i) = -1,00 ; i = 1,2,3,........, n2 (catatan : n2= 10% dari N)
Gerombol 3 : µ (x3i) = 0,00 ; i = 1,2,3,........, n3 (catatan : n3= 50% dari N)
Gerombol 4 : µ (x4i) = +1,00 ; i = 1,2,3,........, n4 (catatan : n4= 10% dari N)
Gerombol 5 : µ (x5i) = +4,00 ; i = 1,2,3,........, n5 (catatan : n5= 15% dari N)
22
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
.20
.80
.20
.80
.40
0
0
0
80
60
40
00
40
00
0
0
0
0
0
0
0
0
0
0
0
0
0
40
00
60
20
60
2.0
2.6
5.0
7.4
9.8
0.2
0.8
1.4
3.2
3.8
4.4
5.6
6.2
6.8
8.0
8.6
9.2
0.0
-8.
-7.
-6.
-4.
-3.
-1.
-9.
-7.
-4.
-2.
-1.
-8
-5
-5
-2
-0
-1
-0.05
N(-4,1) N(0,1) N(4,1) N(-1.0,1) N(1.0,1)
Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas dan 2
gerombol saling tumpang tindih dengan lainnya.
Seperti pada kasus sebelumnya, ukuran contoh pada masing-masing gerombol

ditetapkan menyebar secara simetrik, sehingga pada kasus ini ukuran contoh masing-
masing gerombol adalah 10%, 15%, 50%, 15% dan 10% dari jumlah keseluruhan
data yang dicobakan.
Data hipotetik peubah kategorik akan dibentuk dari pembangkitan dengan
menggunakan aturan pada peubah kuantitatif. Transformasi peubah kuantitatif
menjadi kategorik dilakukan dengan mengikuti aturan sebagai berikut :
• Peubah Biner dengan π 1 = 0,5
yi = 1 jika xi < µ(xi)
yi = 0 jika xi > µ(xi) dengan xi adalah data bangkitan pada peubah kuantitatif
dan µ(xi) adalah nilai tengah gerombol.
23
Prosedur Pembangkitan Data
Pembangkitan data untuk masing- masing kasus yang dievaluasi, dilakukan

dengan menggunakan bantuan paket program statistika MINITAB versi 13. Pada
masing-masing kasus, pemba ngkitan 14 peubah kriteria penggerombolan dilakukan
secara serentak (bersamaan), karena nilai tengah dan ragam untuk masing- masing
peubah sama dan saling bebas stokastik satu dengan lainnya. Proses pembangkitan
data dengan menggunakan perintah pada MINITAB, misal untuk kasus populasi P4,
V1, dengan ukuran data 500, adalah sebagai berikut :
1. Memasukkan parameter populasi hipotetik
MTB> LET K1=125
MTB> LET K2=250
MTB> LET K3=-4.0
MTB> LET K4=0.0
MTB> LET K5=4.0
2. Makro membangkitkan data masing- masing gerombol hipotetik
MTB>SET C1
K1 (1)
END.
MTB>RANDOM K1 C2-C15;
NORMAL K3 1.0.
MTB> SET C16
K2 (2)
END.
MTB> RANDOM K2 C17-C30;
NORMAL K4 1.0.
MTB>SET C31
K1 (3)
END.
24
MTB>RANDOM K1 C32-C45;
NORMAL K5 1.0.
3. Makro menggabungkan data dari setiap gerombol bangkitan
MTB> STACK C1 C16 C31 C1
Konversi data kontinu menjadi data biner dilakukan dengan menggunakan

paket program SPSS V. 11.5. Hal ini dilakukan karena pengolahan data hasil
pembangkitan, konversi, dan analisis TwoStep Cluster dapat dilakukan pada paket
program yang sama.
Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan

Sebagaimana disarankan oleh Bacher, Wenzig, dan Vogler (2004), untuk
menghindarkan adanya bias akibat pencilan, penggunaan opsi penanganan pencilan
(fraction of noise) sebesar 5% dibandingkan dengan pengolahan data tanpa
penanganan opsi pencilan. Kotak pilihan penggunaan opsi penanganan pencilan atau
25
tanpa penanganan pencilan ditampilkan pada lampiran 1.gambar 6. Pada penelitian

ini, akan dibandingkan hasil penggerombolan TwoStep Cluster antara penggunaan
opsi penanganan pencilan dengan tanpa penanganan pencilan.
Metode Analisis
Fokus penelitian ini adalah mengevaluasi keakuratan algoritma TwoStep
Cluster dalam mendeteksi banyaknya gerombol dan ukuran masing-masing gerombol
pada gugus data dari populasi yang dianalisis. Analisis yang akan dilakukan adalah :
1. Mengukur tingkat keakuratan algoritma TwoStep Cluster dalam mendeteksi
banyaknya gerombol sebenarnya. Pada penelitian ini, tingkat keakuratan
didefinisikan sebagai persentase jumlah percobaan (run) yang menghasilkan
banyaknya gerombol yang sama dengan populasi data hipotetik (dipandang
sebagai banyaknya gerombol sebenarnya).
A = Σ Xi / N (14)
dengan Xi bernilai 1 bila banyaknya gerombol yang dihasilkan dari algoritma

TwoStep Cluster sama dengan banyaknya gerombol sebenarnya di dalam
populasi (pada penelitian ini diketahui) dan 0 selainnya. N adalah banyaknya
ulangan percobaan, pada penelitian ini sama dengan 100.
2. Analisis berikutnya adalah menelusuri kesesuaian sebaran ukuran
gerombol yang dihasilkan dari algoritma TwoStep Cluster dengan sebaran
ukuran gerombol sebenarnya pada populasi. Kesesuaian sebaran ukuran
gerombol diuji dengan menggunakan uji khi-kuadrat sebagai berikut :
Ho : Sebaran ukuran gerombol hasil TwoStep Cluster = sebaran gerombol
populasi.
H1 : Sebaran ukuran gerombol hasil TwoStep Cluster ? sebaran gerombol
populasi
26
Pada taraf nyata (a) sebesar 30%, dapat didefinisikan tingkat kesesuaian
sebaran ukuran gerombol hasil algoritma TwoStep Cluster dengan ukuran
gerombol sebenarnya, yaitu :
K = Σ Yi / N (15)
dengan Yi bernilai 1 bila hasil uji khi-kuadrat (pada taraf nyata tertentu)
menghasilkan kesimpulan “Terima Ho”; dan 0 bila “Tolak Ho”. N adalah
banyaknya ulangan percobaan, pada penelitian ini sama dengan 100.
3. Tingkat salah klasifikasi dari anggota gerombol. Salah klasifikasi dari hasil
penggerombolan, pada penelitian ini didefinisikan sebagai total persentase
semua individu (objek) yang berasal dari suatu gerombol namun
teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan,
dalam hal ini adalah hasil penggerombolan SPSS TwoStep Cluster.
Hasil Keanggotaan pada populasi

Penggerombolan yang sebenarnya
Populasi 1 Populasi 2
Gerombol 1 n1 n2
Gerombol 2 n3 n4
Salah klasifikasi pada 2 populasi (geromb ol) adalah (n2+n3)/(n1+n2+n3+n4)
Prosedur dan Pelaksanaan Percobaan
1. Membangkitkan gugus data hipotetik untuk setiap kombinasi struktur

populasi, komposisi jenis peubah, dan ukuran data yang tercantum pada
Tabel 1. Masing- masing kombinasi perlakuan diulang sebanyak 100 kali.
Dengan demikian akan dibangkitkan sebanyak 8.000 gugus data untuk
dianalisis.
Data hipotetik diperoleh dengan menggunakan prosedur yang telah
dipaparkan pada bagian metode pembangkitan data, sedangkan pembangkitan
data sebaran Ν(µ,1) dilakukan dengan menggunakan alat bantu perangkat
27
lunak (software) statistika yang tersedia, dalam hal ini peneliti menggunakan
Minitab versi 13.2.
Pada setiap gugus data bangkitan yang akan digunakan sebagai bahan
simulasi, akan ditambahkan peubah (kolom atau field ) yang menunjukkan
indeks asal populasi.
2. Setiap gugus data yang terbentuk akan digerombolkan dengan menggunakan
prosedur SPSS TwoStep Cluster. Pada SPSS versi 11.5 tersedia pada modul
Analyze -> Clasify. Pilihan menu dasar (basic option) yang digunakan
adalah :
Distance Measure : Log-likelihood
Number of clusters : Determined Automatically, Maximum : 15
Clustering Criterion : BIC
Sesuai dengan saran dari Bacher, Wenzig, dan Vogler (2004), pada menu Options,
akan dilakukan pilihan pada kotak “Outlier Treatment” dengan memberi check
box pada kotak “Use noise handling” dan mengisi pada kotak “Percentage”
bilangan 5 (artinya 5%) dan dicobakan pula tanpa pencilan.
Pada menu “Output” akan dipilih Statistik-statistik :
a. Deskripsi setiap gerombol (Descriptives by cluster) untuk data kuantitatif.
b. Sebaran frekuensi setiap gerombol (Cluster frequencies) untuk data
kategorik.
c. Informasi BIC , dan
d. Simpan data keanggotaan gerombol (Create cluster membership variable).
3. Hasil penggerombolan TwoStep Clust er, khususnya banyaknya gerombol yang
terbentuk dan profil masing-masing gerombol, termasuk ukuran gerombol, akan
dicatat kemudian dimasukkan sebagai data yang akan dianalisis pada pengolahan
selanjutnya.
4. Setelah semua (8.000) gugus data hipotetik terolah dan statistik-statistik yang
dihasilkan dicatat sesuai untuk masing-masing kombinasi perlakuan, tahap
selanjutnya dilakukan analisis sebagaimana pada persamaan (13), dan menguji
kesesuaian sebaran ukuran gerombol serta salah klasifikasi penggerombolan.
28
HASIL DAN PEMBAHASAN
Kasus Data Homogen
Data homogen adalah gugus data yang mana setiap individu berasal dari satu
sebaran populasi tertentu. Dengan demikian pada populasi sebenarnya tidak terjadi
penggerombolan, yaitu hanya terdapat 1 gerombol. Kasus ini jarang dijumpai pada
situasi nyata, kecuali pada beberapa masalah segmentasi pelanggan dari produk masal.
Berdasarkan percobaan simulasi, hasil analisis keakuratan penggerombolan algoritma
TwoStep Cluster pada kasus ini berbeda dengan kasus-kasus populasi lain yang
dicobakan. Oleh karena itu kasus ini dibahas secara terpisah. Disamping itu, metode
penggerombolan konvensiona l, baik metode hirarki maupun k-rataan tidak
memungkinkan untuk menghasilkan 1 gerombol.
Pada Tabel 2 ditampilkan persentase kesesuaian banyaknya gerombol yang
dihasilkan dari algoritma TwoStep Cluster dengan banyaknya gerombol sebenarnya
pada populasi. Pada tabel tersebut terlihat bahwa persentase ketepatan TwoStep
Cluster dalam mengidentifikasi banyaknya gerombol pada kasus data homogen
umumnya sangat rendah, kecuali bila ukuran datanya kecil (dalam penelitian ini yaitu
500). Algoritma TwoStep Cluster cukup akurat bilamana ukuran data relatif kecil dan
peubah kriteria penggerombolan bersifat (1) semuanya kuantitatif (V1), (2) semuanya
bersifat kategorik (V2) dan mentransfernya menjadi peubah biner yang diperlakukan
sebagai data numerik , atau (3) sebagian kecil peubah kriteria bersifat kuantitatif (V3)
dan sebagian kecil peubah kategorik (V4), yang ditransformasi ke peubah biner dan
diperlakukan sebagai numerik.
Tidak akuratnya algoritma TwoStep Cluster dalam menduga banyaknya
gerombol di populasi, pada kasus data homogen, dapat dipahami, karena pada
metode-metode penggerombolan, baik metode konvensional maupun TwoStep
Cluster, terdapat kecenderungan untuk memecah gugus data yang dianalisis menjadi
gerombol- gerombol (Technical Manual SPSS, 2001).
29
Tabel 2 juga menyajikan hasil percobaan simulasi pada kasus data homogen
dengan opsi tanpa penanganan pencilan dan dengan penanganan pencilan sebesar 5%.
Secara keseluruhan, ketepatan algoritma TwoStep Cluster dalam menduga banyaknya
gerombol (pada gugus data homogen) tanpa penanganan terhadap pencilan maupun
dengan penanganan terhadap pencilan sebesar 5% memberikan hasil yang tidak
berbeda nyata.

TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data
homogen
Jenis Peubah kriteria penggerombolan

Penanga- Ukuran Data Semua Semua kategorik (V2) Sebagian kecil Sebagian besar
nan kontinu kontinu (V3) kontinu (V4)
Pencilan (V1)
Biner sbg Biner sbg Biner sbg Biner sbg Biner sbg Biner sbg
kategorik numerik kategorik numeric kategorik numerik
500 100% 0 97% 0 96% 0 40%

an pencilan
penangan-
Opsi tanpa
2.000 0 0 0 0 0 0 0
5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
500 100% 0 97% 0 97% 0 69%

an pencilan
penangan-
2.000 0 0 0 0 0 0 0
Opsi
5%
5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
Pada kasus ini banyaknya gerombol sebenarnya hanya 1, maka untuk setiap hasil
banyaknya penggerombolan algoritma TwoStep Cluster yang tepat sama dengan
populasi, ukuran gerombolnya juga akan tepat sama, sedangkan bila dugaan
banyaknya gerombol berbeda dengan populasi maka ukuran gerombolnya juga
berbeda.
Pengertian yang sama dengan di atas juga berlaku untuk salah klasifikasi
pengge rombolan dari setiap individu. Bila dugaan banyaknya gerombol tepat sama
dengan populasi hipotetik (1 gerombol), maka seluruh individu dikelompokkan
30
secara benar. Sebaliknya bila banyaknya gerombol dugaan lebih dari 1, maka
terdapat individu yang salah klas ifikasi. Tabel 3 menampilkan rata-rata persentase
salah klasifikasi penggerombolan pada kasus di populasi hanya terdapat 1 gerombol.
Pada Tabel 3 terlihat bahwa bila ketepatan pendugaan banyaknya gerombol
tinggi, maka salah klasifikasinya rendah, yaitu untuk kasus-kasus ukuran data 500
dengan semua peubah berjenis kontinu (V1), semua peubah bersifat kategorik (V2)
yang ditransformasi ke bentuk biner dan diperlakukan sebagai peubah numerik, dan
peubah campuran (V3 dan V4) yang mana peubah kategorik ditransformasi ke biner
dan diperlakukan sebagai numerik.

Cluster dengan gerombol populasi sebenarnya pada kasus data
homogen

Sebagian kecil Sebagian besar
Semua kategorik (V2) kontinu (V3) kontinu (V4)
Penanga- Semua
nan Ukuran kontinu Biner sbg Biner sbg Biner sbg Biner sbg Biner sbg Biner sbg
Pencilan Data (V1) kategorik numerik kategorik numerik kategorik numerik
500 0,0% 74,8% 1,4% 75,3% 1,6% 66,7% 27,3%
an pencilan
penangan-
Opsi tanpa
2000 68,6% 58,4% 58,8% 62,2% 32,5% 78,4% 64,3%

5000 59,7% 55,6% 51,9% 57,0% 54,8% 79,0% 73,9%
10000 50,0% 53,9% 52,3% 50,1% 49,8% 50,0% 50,0%
500 0,0% 77,2% 1,4% 75,1% 1,6% 66,5% 28,0%

penangan-
an encilan
2.000 67,9% 59,1% 58,1% 60,8% 59,5% 78,2% 66,7%

Opsi
5%
5.000 66,7% 55,3% 51,7% 59,8% 71,2% 76,2% 78,2%

10.000 61,3% 54,1% 53,8% 73,5% 61,0% 29,3% 29,0%
Kasus Data Berasal dari Populasi yang Terbedakan
Pada kasus populasi masing- masing mempunyai 2 dan 3 gerombol yang

terpisah secara tegas (P3 dan P4), TwoStep Cluster lebih akurat dalam menduga
banyaknya gerombol, yaitu menghasilkan banyaknya gerombol yang sama dengan
populasi yang sebenarnya. Secara keseluruhan, percobaan simulasi mengindikasikan
31
semakin besar ukuran data, ketepatan rata-rata banyaknya gerombol cenderung

menurun.
Pada kasus data berasal dari populasi yang saling terpisah secara tegas,
algoritma TwoStep Cluster sangat akurat, dalam menduga banyaknya gerombol
sebenarnya pada populasi, untuk berbagai jenis kumpulan peubah kriteria
penggerombolan, baik semua peubahnya berjenis kontinu (V1), semua nya peubah
kategorik (V2), ataupun peubah campuran (V3 dan V4). Bilamana kumpulan peubah
kriteria penggerombolan semuanya kategorik, transformasi ke peubah biner yang
diperlakukan sebagai peubah numerik akan menurunkan tingkat keakuratan
pendugaan banyaknya gerombol, sedangkan bilamana kumpulan peubah kriteria
berupa campuran peubah kontinu dan kategorik, transformasi peubah kategorik
menjadi peubah biner dan diperlakukan sebagai peubah numerik akan meningkatkan
ketepatan pendugaan banyaknya gerombol.
Penanganan pencilan (outlier treatment) dengan pilihan sebesar 5%
berpengaruh pada keakuratan pendugaan banyaknya gerombol yang terbentuk. Pada
semua peubah kriteria penggerombolan berjenis kontinu (V1) keakuratan penduga
banyaknya gerombol dari algoritma TwoStep Cluster menurun untuk ukuran data
besar (10.000) baik untuk populasi dengan banyaknya gerombol 2 maupun 3.
Sementara itu, bila semua peubah kriteria penggerombolan bersifat kategorik, baik
tetap dipandang sebagai kategorik atau ditransformasi menjadi peubah biner yang
diperlakukan sebagai numerik, memberikan hasil yang lebih buruk dibandingkan
tanpa penanganan pencilan; kecuali untuk ukuran data kecil (500) dengan
memperlakukan biner sebagai numerik.
Bilamana peubah kriteria berjenis campuran antara kontinu dan kategorik, pada
kasus 2 populasi yang terpisah tegas (P3) algoritma TwoStep Cluster dengan
penanganan pencilan 5% terlihat masih cukup akurat, walaupun menurun
dibandingkan dengan tanpa penanganan pencilan, sedangkan pada kasus 3 populasi
yang terpisah tegas (P4), penanganan pencilan sebesar 5% memberikan hasil yang
buruk untuk jenis peubah kriteria penggerombolan yang melibatkan lebih banyak
peubah kategorik. Apabila peubah kriteria penggerombolan berjenis campuran
32
dengan sebagian besar kontinu; penanganan pencilan 5% masih cukup akurat untuk
ukuran data kecil dan sedang (500 dan 2.000), tetapi untuk ukuran data besar (5.000
dan 10.000) keakuratan pendugaan menurun secara drastis dibandingkan tanpa
penanganan pencilan.
Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep

Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari
populasi yang terbedakan.

Penanga- Model Ukuran Semua Semua kategorik Sebagian kecil Sebagian besar
nan Populasi Data kontinu (V2) kontinu (V3) kontinu (V4)
Pencilan asal (V1)
Biner Biner Biner Biner Biner Biner sbg
sbg sbg sbg sbg sbg numerik
kategorik numerik kategorik numerik kategorik
2 gerombol 500 100% 100% 100% 100% 100% 100% 100%

Opsi tanpa penanganan
terpisah 2.000 100% 100% 53% 99% 100% 99% 100%

Tegas
(P3) 5.000 100% 100% 55% 100% 100% 100% 100%
pencilan
10.000 100% 100% 51% 100% 100% 100% 100%
500 100% 100% 100% 100% 100% 100% 100%

3 gerombol
terpisah 2.000 100% 100% 93% 100% 100% 100% 100%
tegas 5.000 100% 100% 65% 100% 100% 89% 100%
(P4)
10.000 100% 100% 68% 100% 100% 100% 100%
500 100% 0% 100% 100% 100% 100% 100%

2 gerombol
Opsi penanganan pencilan
terpisah 2.000 99% 43% 1% 93% 100% 98% 100%

tegas 5.000 100% 0% 40% 100% 100% 100% 100%
(P3)
10.000 92% 0% 32% 100% 100% 100% 100%
5%
3 gerombol 500 100% 0% 36% 19% 19% 100% 100%

terpisah 2.000 100% 0% 0% 0% 0% 100% 100%
tegas 5.000 100% 1% 0% 12% 0% 52% 65%
(P4)
10.000 73% 2% 12% 9% 4% 3% 10%
Dengan menggunakan uji suai khi-kuadrat, diperoleh kesimpulan bahwa tanpa

penanganan pencilan bila banyaknya gerombol yang dihasilkan dari algoritma
TwoStep Cluster sama dengan populasi sebenarnya, maka sebaran ukuran gerombol
yang dihasilkan dari TwoStep Cluster sama dengan sebaran ukuran gerombol di
33
populasi (terima Ho); kecuali pada perlakuan semua peubah kategorik ditransformasi
ke biner dan dipandang sebagai peubah numerik untuk kasus 3 populasi. Sebaliknya,
dengan menerapkan opsi penanganan pencilan sebesar 5%, sebaran ukuran gerombol
yang terbentuk dari algoritma TwoStep Cluster hanya akurat pada kasus 2 populasi
yang terpisah secara tegas, sedangkan pada kasus 3 populasi, hanya akurat bilamana
peubah kriteria penggerombolan semuanya kontinu atau ukuran datanya relatif kecil
(500).
Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep


pencilan asal (V1)
Biner Biner Biner Biner Biner Biner
sbg sbg sbg sbg sbg sbg
kategorik numerik kategorik numerik kategorik numerik
2 gerombol 500 100% 100% 100% 100% 100% 100% 100%

terpisah 2.000 100% 100% 100% 100% 100% 100% 100%

Tegas 5.000 100% 100% 100% 100% 100% 100% 100%
(P3)
pencilan
10.000 100% 100% 100% 100% 100% 100% 100%
500 100% 100% 100% 100% 100% 100% 100%

3 gerombol
terpisah 2.000 100% 100% 100% 100% 100% 100% 100%
tegas 5.000 100% 100% 95% 100% 100% 100% 100%
(P4)
10.000 100% 100% 100% 100% 100% 100% 100%
500 100% 0% 100% 100% 100% 100% 100%

2 gerombol
terpisah 2.000 97% 100% 100% 100% 100% 99% 100%

tegas 5.000 100% 0% 100% 100% 100% 100% 100%
(P3)
10.000 96% 0% 100% 100% 100% 92% 100%
5%
500 100% - 0% 100% 100% 100% 100%

3 gerombol
terpisah 2.000 100% - 0% 0% 0% 100% 100%
tegas 5.000 100% 0% 0% 50% 0% 35% 0%
(P4)
10.000 100% 0% 58% 22% 75% 0% 100%
34
Tabulasi silang antara individu- individu anggota gerombol asal dengan

gerombol yang diperoleh dari TwoStep Cluster menunjukkan bahwa algoritma ini
akurat dalam menghasilkan gerombol yang sama dengan populasi asal. Secara
keseluruhan, terutama pada opsi tanpa penanganan pencilan, salah klasifikasi dari
individu- individu gerombol sangat kecil (di bawah 5%); kecuali pada kasus semua
peubah kriteria penggerombolan berjenis kategorik yang ditransformasi ke biner dan
diperlakukan sebagai numerik. Sebagaimana tampak pada Tabel 6; salah klasifikasi
penggerombolan dari TwoStep Cluster sangat kecil bila seluruh peubah kriteria
penggerombolan berjenis kontinu, baik dengan penanganan pencilan 5% atau tanpa
penanganan pencilan.
Bilamana semua peubah kriteria penggerombolan merupakan peubah kategorik,
pilihan penanganan pencilan 5% atau transformasi peubah kategorik menjadi bentuk
biner yang diperlakukan sebagai peubah numerik akan memperbesar salah klasifikasi
penggerombolan. Bila peubah kriteria penggerombolan merupakan campuran
kontinu dan kategorik penanganan pencilan 5% memperbesar salah klasifikasi.
Sementara itu, bila tanpa perlakuan penanganan pencilan, salah klasifikasi
penggerombolan sangat kecil baik perlakuan peubah biner sebagai kategorik atau
sebagai numerik.
Kasus Populasi yang Saling Tumpang Tindih

Pada kasus data berasal dari populasi yang saling tumpang tindih (overlaping
population), algoritma TwoStep Cluster masih cukup akurat untuk populasi data 2
gerombol, sedangkan pada kasus 5 gerombol yang saling tumpang tindih terjadi bias.
Khusus untuk peubah kriteria berjenis campuran, transformasi peubah kategorik
menjadi biner dan memperlakukannya sebagai peubah numerik akan meningkatkan
keakuratan pendugaan banyaknya gerombol. Pada kasus ini, juga dapat disimpulkan
bahwa penanganan pe ncilan secara umum akan mengurangi keakuratan hasil
penggerombolan dari algoritma TwoStep Cluster.
35

pencilan asal (V1)
kategorik nume rik kategorik numerik kategorik numerik
2 gerombol 500 0% 0% 0% 0% 0% 0% 0%
terpisah 2.000 0% 0% 20,0% 0% 0% 0,1% 0%

Tegas 5.000 0% 0% 23,0% 0% 0% 0% 0%
(P3)
pencilan
10.000 0% 0% 21,0% 0% 0% 0% 0%
500 0,0% 0,1% 2,1% 0,1% 0,1% 0,0% 0,0%

3 gerombol
terpisah 2.000 0,6% 0,1% 2,5% 0,1% 0,1% 0,0% 0,0%
tegas 5.000 0,5% 0,1% 17,9% 0,1% 0,1% 2,8% 0,0%
(P4)
10.000 0,0% 0,1% 16,4% 0,1% 0,1% 0,0% 0,0%
500 0,0% 50,0% 0,0% 0,0% 0,0% 0,0% 0,0%

2 gerombol
terpisah 2.000 0,7% 50,0% 27,5% 0,8% 0,5% 0,0% 0,0%

tegas 5.000 0,0% 50,0% 27,0% 0,5% 0,0% 0,0% 0,0%
(P3)
10.000 0,9% 50,0% 34,4% 0,0% 0,0% 5,5% 0,0%
5%
500 0,0% 51,7% 30,7% 30,7% 45,0% 0,0% 0,0%

3 gerombol
terpisah 2.000 0,0% 52,5% 50,0% 52,0% 50,0% 0,0% 0,0%
tegas 5.000 0,0% 54,7% 50,0% 0,0% 50,0% 13,3% 0,0%
(P4)
10.000 6,8% 55,6% 43,6% 47,4% 50,0% 24,0% 0,0%
Dari Tabel 7 dapat dilihat bahwa apabila hanya terdapat 2 gerombol yang saling
tumpang tindih, keakuratan algoritma TwoStep Cluster dalam menduga banyaknya
gerombol cukup baik untuk peubah kriteria penggerombolan semua kontinu (V1),
semua kategorik (V2) dan peubah campuran yang mempunyai sebagian kecil kontinu
(V3). Hal ini berlaku untuk semua ukuran data yang dicobakan, walaupun
kecenderungan tingkat keakuratan menurun dengan semakin meningkatnya ukuran
data. Untuk populasi dengan peubah campuran yang sebagian besar kontinu,
pendugaan gerombol akan menjadi akurat apabila peubah biner diperlakukan sebagai
36
numerik, namun dengan data yang sangat besar (10.000) juga tidak dapat menduga
banyaknya gerombol dengan baik. Untuk populasi dengan 5 gerombol yang saling
tumpang tindih, TwoStep Cluster tidak dapat mengidentifikasi secara akurat.
Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep

populasi yang tumpang tindih

nan Populasi asal Data kontinu (V2) kontinu (V3) kontinu (V4)
pencilan (V1)
500 100% 99% 100% 98% 100% 48% 100%
2 gerombol
2.000 100% 100% 100% 98% 100% 26% 100%

tumpang tindih
(P2) 5.000 100% 95% 97% 93% 99% 14% 100%
10.000 100% 84% 80% 80% 92% 16% 18%
pencilan
500 0 0 0 0 0 0 0
5 gerombol 2.000 0 0 0 0 0 0 0
tumpang tindih
(P5) 5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
500 100% 99% 99% 98% 100% 47% 100%

2 gerombol
2.000 100% 99% 99% 99% 100% 26% 100%
tumpang tindih
(P2) 5.000 99% 56% 66% 79% 96% 24% 99%
10.000 67% 43% 54% 71% 76% 28% 64%
5%
500 0 0 0 0 0 0 0
5 gerombol
2.000 0 0 0 0 0 0 0
tumpang tindih
(P5) 5.000 0 0 0 0 0 0 0
10.000 0 0 0 0 0 0 0
Bila ditelusuri lebih lanjut, dapat diketahui bahwa algoritma TwoStep Cluster
menghasilkan pendugaan banyaknya gerombol sebanyak 3, untuk kasus 5 gerombol
yang saling tumpang tindih. Hasil ini dapat dipahami, karena seperti terlihat pada
Gambar 6 (bagian metode) terdapat 3 gerombol yang secara nyata dapat terbedakan,
sedangkan 2 gerombol lainnya tersamar pada gerombol yang lain. Pada kasus
37
gerombol yang tidak terpisah secara tegas, ukuran masing- masing gerombol yang
dihasilkan dari algoritma TwoStep Cluster sebagian besar tidak sesuai dengan ukuran
gerombol sebenarnya dari populasi bangkitan (Tabel 8 ).
Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep

populasi yang tumpang tindih.

pencilan (V1)
500 91% 58% 52% 57% 71% 67% 81%
2 gerombol
2.000 87% 31% 28% 56% 61% 50% 71%

tumpang tindih
(P2) 5.000 28% 8% 6% 18% 16% 79% 20%
10.000 28% 5% 5% 19% 8% 63% 11%
pencilan
500 - - - - - - -
5 gerombol 2.000 - - - - - - -
tumpang tindih
(P5) 5.000 - - - - - - -
10.000 - - - - - - -
500 88% 0 50% 52% 72% 26% 53%

2 gerombol
2.000 87% 0 28% 44% 53% 65% 79%
tumpang tindih
(P2) 5.000 37% 0 205 24% 14% 63% 16%
10.000 15% 0 9% 11% 14% 61% 3%
5%
500 - - - - - - -
5 gerombol
2.000 - - - - - - -
tumpang tindih
(P5) 5.000 - - - - - - -
10.000 - - - - - - -
Secara keseluruhan, salah klasifikasi penggerombolan dari algoritma Twostep

Cluster pada kasus 5 gerombol yang saling tumpang tindih di populasi sangat besar
(20% ke atas). Hasil ini cukup dapat dimengerti, karena secara visual (pada Gambar
6) 2 gerombol tumpang tindih dengan gerombol lainnya sehingga cenderung akan
menghasilkan salah klasifikasi dalam penggerombolan. Bilamana di populasi asal
38
terdapat 2 gerombol, algoritma TwoStep Cluster masih akurat dalam

menggerombolkan individu untuk kasus semua peubah kriteria berjenis kontinu,
sedangkan bilamana peubah kriteria penggerombolan merupakan peubah kategorik
atau campuran kontinu dan kategorik, salah klasifikasi penggerombolan relatif kecil
bila ukuran data di bawah 5.000 (Tabel 9).

populasi yang tumpang tindih

pencilan (V1)
500 3,7% 8,1% 7,8% 7,7% 6,4% 44,9% 4,8%
2 gerombol
2.000 3,2% 7,6% 7,3% 8,6% 5,8% 54,7% 4,0%

tumpang tindih
(P2) 5.000 3,4% 11,2% 11,4% 14,2% 10,4% 58,8% 4,9%
pencilan
10.000 3,3% 17,9% 19,2% 23,8% 21,3% 60,4% 6,9%
500 20,0% 22,4% 22,1% 20,0% 20,0% 20,0% 20,0%

5 gerombol 2.000 20,0% 21,3% 22,2% 20,0% 20,0% 20,0% 20,0%
tumpang tindih
(P5) 5.000 20,0% 24,5% 28,6% 20,0% 20,0% 20,0% 20,0%
10.000 20,0% 20,4% 30,8% 20,3% 20,0% 20,0% 20,0%
500 3,7% 8,1% 7,8% 30,7% 6,4% 44,9% 4,7%

2 gerombol
2.000 3,2% 23,6% 7,7% 7,7% 5,7% 51,3% 6,0%
tumpang tindih
(P2) 5.000 3,4% 44,6% 26,0% 17,8% 6,7% 58,3% 6,1%
10.000 23,5% 46,8% 32,0% 20,0% 10,9% 58,2% 6,1%
5%
500 20,0% 62,8% 59,2% 69,5% 54,20% 20,0% 20,0%

5 gerombol
2.000 20,0% 67,5% 85,0% 70,0% 60.3% 20,0% 20,0%
tumpang tindih
(P5) 5.000 20,0% 70,0% 50,0% 70,0% 57,40% 27,9% 20,0%
10.000 20,0% 71,6% 50,0% 54,4% 37,30% 67,1% 32,8%
39
Perbandingan dengan Metode Hirarki dan K-rataan
Secara umum, berdasarkan aspek-aspek penggunaannya, perbandingan antar

metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster diringkas pada Tabel
10. Ditinjau dari aspek peubah kriteria penggerombolannya, metode hirarki sesuai
untuk peubah-peubah yang bersifat kuantitatif yang berskala rasio, interval, ordinal,
berupa peubah biner. Metode k-rataan hanya dapat digunakan bilamana peubah
kriteria penggerombolan merupakan peubah kuantitatif dengan skala rasio atau
interval. TwoStep Cluster memungkinkan peubah kriteria penggerombolan bersifat
kuantitatif, kategorik, atau campuran dari kuantitatif dan kategorik. Berdasarkan
konsep jarak yang berlaku, metode hirarki memiliki banyak pilihan konsep jarak
diantaranya Euclidian, khi-kuadrat atau phi-kuadrat, beda pola (pattern difference),
kecocokan sederhana (simple matching), dan sebagainya. Konsep jarak yang berlaku
pada metode k-rataan adalah Euclidian. Pada algoritma TwoStep Cluster, pilihan
konsep jarak yang dapat digunakan adalah Euclidian (bila semua peubah bersifat
kuantitatif atau biner) atau jarak log-likelihood (terutama bila melibatkan peubah
campuran atau kategorik). Metode hirarkidan k-rataan tidak mensyaratkan sebaran
dari peubah-peubah kriteria penggerombolan; sedangkan TwoStep Cluster
mengasumsikan peubah kuantitatif berasal dari sebaran normal yang saling bebas
stokastik dan peubah kategorik berasal dari sebaran multinomial. Penentuan
banyaknya gerombol yang terbentuk dari metode hirarki sangat tergantung dari
peneliti berdasarkan dendogram yang terbentuk atau jarak penggabungan antar sub -
gerombol. Pada metode k-rataan, penentuan banyaknya gerombol ditentukan diawal
(apriori) sesuai dengan pengetahuan peneliti pada masalah yang ditelitinya.
Sementara itu, penentuan banyaknya gerombol pada TwoStep Cluster dilakukan
secara obyektif dengan melibatkan kriteria statistik BIC atau AIC.
40
Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan TwoStep

Cluster
Aspek yang Metode hirarki Metode k-rataan Metode TwoStep

dibandingkan Cluster
Jenis peubah Kuantitatif (rasio, Kuantitatif, dgn Kuantitatif
kriteria interval, ordinal) skala rasio atau Kategorik
penggerombolan atau peubah biner interval Campuran
Konsep jarak yang Euclidian, Chi- Euclidian Euclidian

berlaku square, Pattern Log-likelihood
difference, Simple
matching, dsb.
Prasyarat atau Tidak ada asumsi Tidak ada asumsi Asumsi peubah
asumsi sebaran sebaran sebaran kuantitatif
peubah kriteria menyebar Normal
bebas stokastik
dan peubah
kategorik
menyebar
multinomial
Ukuran data Sesuai untuk Cocok untuk Cocok untuk

ukuran data relatif ukuran data besar ukuran dara besar
kecil
Penentuan Secara posterior Secara apriori Secara otomatik,

Banyaknya berdasarkan ditentukan oleh berdasarkan
gerombol dendogram peneliti kriteria statistik.
41
Pada tabel perbandingan di atas, dipaparkan bahwa metode hirarki hanya sesuai
untuk jenis peubah kriteria penggerombolan yang semuanya berjenis kuantitatif atau
semuanya peubah biner, selain itu ukuran data yang digerombolkan relatif kecil.
Di pihak lain, metode TwoStep Cluster memungkinkan untuk mengolah data yang
berukuran besar dan peubah kriteria penggerombolan bersifat semuanya kuantitatif,
semuanya kategorik, atau campuran kuantitatif dan kategorik. Dengan demikian,
perbandingan hasil penggerombolan antara metode hirarki dan TwoStep Cluster
hanya dapat dilakukan untuk kasus peubah kriteria penggerombolan yang (1)
semuanya bersifat kuantitatif dan (2) semuanya peubah biner. Mengingat metode
hirarki efektif untuk ukuran data yang kecil, maka untuk tujuan perbandingan
digunakan kasus ukuran data relatif kecil ( 500 data). Pada paket program SPSS versi
11.5, penentuan banyaknya gerombol minimum dengan menggunakan metode
hirarki adalah 2 gerombol. Dengan demikian, metode ini tidak memungkinkan untuk
mengidentifikasi kasus bilamana di dalam populasi hanya terdapat 1 gerombol. Oleh
karena itu, dalam perbandingan kasus ini tidak dilibatkan.
Sebagaimana dipaparkan pada Tabel 10, penentuan banyaknya gerombol pada
metode hirarki umumnya bersifat subjektif sehingga sangat bervariasi dan sangat
tergantung dari pengalaman pe neliti. Salah satu kriteria objektif yang sering
digunakan dalam menentukan banyaknya gerombol yang terbentuk adalah dengan
menggunakan kriteria jarak penggabungan terbesar (lihat Lampiran 2). Penentuan
banyaknya gerombol juga dapat ditelusuri dari pendekatan eksplorasi data dengan
mengamati sebaran dari data yang akan digerombolkan, umumnya juga
memanfaatkan analisis komponen utama. Dengan situasi tersebut, maka
perbandingan keakuratan penentuan banyaknya gerombol yang dihasilkan oleh
metode hirarki dan TwoStep Cluster tidak relevan; karena penentuan banyaknya
gerombol dengan metode hirarki tergantung dari pengamatan secara visual.
Pada penelitian ini diasumsikan peneliti mengetahui secara tepat banyaknya
gerombol yang terdapat di populasi, agar keakuratan metode hirarki dalam menduga
sebaran ukuran setiap gerombol dan salah klasifikasi penggerombolan dapat
42
dibandingkan dengan metode TwoStep Cluster. Kasus-kasus yang dibandingkan

adalah kasus semua peubah kriteria penggerombolan berjenis kontinu (V1) dan
semua peubah kategorik yang ditransformasi ke biner diperlakukan sebagai numerik
(V2) dengan ukuran contoh 500. Mempertimbangkan hasil evaluasi yang dilakukan
oleh Wijayanti (2002), pada penelitian ini digunakan metode perbaikan jarak pautan
rataan dalam kelompok (average linkage within group) dan konsep jarak untuk
peubah biner yang digunakan adalah simple matching. Hasil simulasi dan uji
kesesuaian sebaran ukuran gerombol sebenarnya dengan yang dihasilkan dari metode
hirarki dan TwoStep Cluster ditampilkan pada Tabel 11.
Secara umum, pada kasus-kasus yang dibandingkan dengan ukuran data 500,
metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki. Pada kasus
data berasal dari populasi yang terbedakan (P3 dan P4) dan peubah kriteria
penggerombolan semuanya berjenis kontinu, persentase kesesuaian ukuran gerombol
populasi dengan yang dihasilkan dari metode hirarki sama dengan yang dihasilkan
dari TwoStep Cluster (100%), sedangkan bila semua peubah kriteria penggerombolan
merupakan peubah biner metode TwoStep Cluster jauh lebih baik dibandingkan
dengan metode hirarki pada kasus populasi memiliki 3 gerombol yang terpisah
secara tegas. Bila pada populasi terdapat 2 gerombol yang saling tumpang tindih,
metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki, pada kasus
peubah kriteria penggerombo lan semuanya berjenis kontinu. Pada kasus yang sama,
metode hirarki sedikit lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria
berupa peubah biner. Sementara itu, bila pada populasi terdapat 5 gerombol yang
saling tumpang tindih, metode hirarki lebih baik dibandingkan TwoStep Cluster untuk
peubah kriteria semuanya bersifat kontinu.
Dibandingkan dengan metode k-rataan, dengan asumsi banyaknya gerombol
dapat diketahui sebelumnya, akurasi kesesuaian sebaran ukuran gerombol yang
dihasilkan dari metode TwoStep Cluster sama dengan metode k-rataan, kecuali pada
kasus 2 populasi yang saling tumpang tindih.
43
Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan
metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi)
Jenis populasi Jenis peubah yang dianalisis

hipotetik Semua biner (V2)
Semua kontinu (V1) diperlakukan sebagai
numerik
hirarki k-rataan TwoStep hirarki k-rataan TwoStep
2 gerombol tumpang
52,0% 99% 91% 66,0% 73% 52%
tindih (P2)
2 gerombol terpisah
100% 100% 100% 100,0% 100% 100%
tegas (P3)
3 gerombol terpisah
100% 100% 100% 0,0% 69% 100%
tegas (P4)
5 gerombol tumpang
28,0% 16% 0% 0,0% 0% 0%
tindih (P5)
Tabulasi silang antara individu- individu anggota gerombol asal dengan

gerombol yang diperoleh dari metode hirarki dan TwoStep Cluster menunjukkan
bahwa secara umum metode TwoStep Cluster menghasilkan salah klasifikasi yang
lebih kecil dibandingkan metode hirarki. Pada kasus populasi yang terpisah secara
tegas, metode hirarki dan TwoStep Cluster menghasilkan salah klasifikasi yang sama
(0%) bilamana peubah kriteria penggerombolan bersifat semuanya kontinu dan
semuanya biner untuk kasus 2 populasi. Metode TwoStep Cluster menghasilkan salah
klasifikasi yang lebih kecil dibandingkan metode hirarki bila pada populasi terdapat 2
gerombol yang saling tumpang tindih, baik pada kasus semua peubah kriteria berjenis
kontinu maupun semuanya biner. Metode hirarki lebih akurat dibandingkan TwoStep
Cluster bilamana pada populasi terdapat 5 gerombol yang saling tumpang tindih (bila
diasumsikan peneliti dapat menduga banyaknya gerombol secara tepat) dan semua
peubah kriteria penggerombolan berjenis kontinu; sedangkan bila peubah kriteria.
penggerombolan semuanya peubah biner, metode TwoStep Cluster jauh lebih akurat
(Tabel 12).
44
Secara keseluruhan persentase salah klasifikasi dari metode TwoStep Cluster

tidak berbeda nyata dengan yang dihasilkan dari metode k-rataan, bilamana semua
peubah kriteria penggerombolan merupakan peubah kontinu. Bila peubah kriteria
penggerombolan merupakan peubah biner, salah klasifikasi dari metode TwoStep
Cluster lebih kecil dibandingkan metode k-rataan.
Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan
yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep Cluster
(hasil 100 kali simulasi)
Jenis Peubah yang dianalisis

Jenis populasi
hipotetik Semua biner (V2)
Semua kontinu (V1) diperlakukan sebagai
numerik
hirarki k-rataan TwoStep hirarki k-rataan TwoStep
2 gerombol tumpang
6,7% 3.5% 3.7% 11,1% 7.3% 7.8%
tindih (P2)
2 gerombol terpisah
0% 0% 0% 0,0% 0% 0%
tegas (P3)
3 gerombol terpisah
0% 0% 0% 50,7% 3% 2.1%
tegas (P4)
5 gerombol tumpang
7,1% 12.8% 20% 72,8% 52.0% 22.1%
tindih (P5)
45
SIMPULAN DAN SARAN
Simpulan
1. Metode TwoStep Cluster menghasilkan gerombol yang sama dengan populasi

sebenarnya apabila semua peubah kriteria penggerombolan bersifat kontinu; kecuali
pada situasi data yang saling tumpang tindih dan tidak terbedakan.
2. Metode TwoStep Cluster sangat akurat dalam menghasilkan gerombol yang sama
dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau
setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis.
3. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya
sebagai peubah numerik akan meningkatkan keakuratan TwoStep Cluster dalam
menduga banyaknya gerombol, apabila peubah kriteria penggerombolan merupakan
peubah campuran.
4. Apabila pada data tidak terdapat pencilan, penggunaan opsi “Penanganan Pencilan”
(outlier treatment) akan menurunkan keakuratan TwoStep Cluster dalam menduga
gerombol yang sebenarnya.
5. Pada kasus-kasus populasi dengan 2 dan 3 gerombol dan peubah kriteria
penggerombolan semuanya kontinu atau semuanya peubah biner untuk ukuran data
kecil (500), metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki
dan tidak berbeda nyata dibandingkan metode k-rataan dalam hal akurasi sebaran
ukuran gerombol asal serta salah klasifikasi.
Saran
1. Sebelum melakukan penggerombolan disarankan peneliti memiliki pengetahuan awal

terhadap data atau populasi yang akan digerombolkan.
2. Sebelum melakukan penggerombolan disarankan untuk melakukan analisis
eksplorasi sebaran data, agar dapat membantu dalam menentukan banyaknya
gerombol di populasi sebenarnya lebih akurat.
46
3. Perlu dilakukan studi perbandingan atau evaluasi terhadap keakuratan berbagai

metode penggerombolan, khususnya metode hirarki, TwoStep Cluster, dan Latent
Segment dalam menduga banyaknya gerombol serta profil gerombol yang
sebenarnya di populasi.
4. Perlu dilakukan studi lebih lanj ut untuk mengevaluasi metode Twostep Cluster, dan
metode penggerombolan lainnya, pada kasus terjadinya korelasi antar peubah kriteria
karena dalam realitas sering terjadi korelasi antar peubah.
47
DAFTAR PUSTAKA
Aaker, D.A. 2001. Strategic Marketing Management. Ed ke-6. John Wiley & Sons
Inc. New York.
Aaker, D. A. And G. S. Day. 1990. Marketing Research. Ed ke-4. John Wiley & Sons,
New York.
Adenberg, M.R. 1973, Cluster Analysis For Applications, Academic Press, Inc. New
York
Anonimous. 2001. The SPSS TwoStep Cluster Component. A scalable component to

segment your customers more effectively. White paper – technical report, SPSS
Inc. Chicago.
__________. 2004. TwoStep Cluster Analysis. Technical Report, SPSS Inc.

Chicago.
Bacher, J. 2000. A Probabilistic Clustering Model for Variables of Mixed Type.

Quality & Quantity.
Bacher, J., K. Wenzig and M. Vogler. 2004.. SPSS TwoStep Cluster : A First
Evaluation. Friedrich-Alexander-Universität Erlangen-Nurnberg.
Bernstein, L. K. Bradley, and S. Zarich. 2002. GOLDminer : Improving Models for

Classifying Patients with Chest Pain. Yale Journal of Biology and Medicine 75.
Chiu, T., Fang,D., Chen,J., Wang,Y., and Jeris,C. 2001. A Robust and Scalable
Clustering Algorithm for Mixed Type Attributes in Large Database
Environment. In Proceedings of the 7th ACM SIGKDD International
Confererence on Knowledge Discovery and Data Mining 2001.
Digby, P.G.N. and R.A. Kempton. 1987. Multivariate Analysis of Ecological

Communities. Chapman and Hall. New York.
Dillon, W.R. & M. Goldstein. 1984. Multivariate Analysis Method Applications.

John Wiley and Sons, Inc. New York.
48
Everitt, B.S., Landan, S. and Leese, M. 2001. Cluster Analysis. Ed ke-4 Arnold,
London.
Garson, D.G. 2006. Quantitative Research in Public Administration. Lecture Note.

North Carolina State University.
Huang, Z. (1998). Extensions to the k- means Algorithm for Clustering Large Data
Sets with Categorical Variables. Data Mining and Knowledge Discovery.
Kasali, R. (1998). Membidik Pasar Indonesia : Segmentasi, Targeting, dan

Positioning. Gramedia Pustaka Utama, Jakarta..
Kotabe, M and K. Helsen. 2001. Global Marketing Management . Ed ke-2. John

Wiley & Sons, New York.
Kotler, P. 2000. Marketing Management : The Millennium Edition. Prentice Hall

International Inc. New Jersey.
Lakshminarayan, C.K. and Q. Yu. 2001. A Novel Two-Stage Clustering Approach for
Visitor Segmentation and Prediction Based on Click Stream Attributes. The
Indian Institute of Information Technology, Bangalore.
McCutcheon A, Hagenaars J., eds. (1999). Advances in Latent Class Modeling.

Cambridge, UK and NY: Cambridge University Press.
Morrison, D.F. 1990. Multivariate Statistical Methods. McGraw-Hill. Inc. New York.
Porter, M. 1980. Competitive Strategy : Techniques for Analyzing Industries and

Competitors. The Free Press, New York.
Putri, D. Y. 2005. Penerapan Metode TwoStep Cluster dalam Analisis Gerombol :

Studi Kasus Data Potensi Desa Sensus Ekonomi 2003 Wilayah Jawa Barat,
Skripsi S1. Departemen Statistika FMIPA Institut Pertanian Bogor, Bogor-
Indonesia.
49
Strehl, A. And J. Gosh. 2002. Relationship -Based Clustering and Visualization for
High-Dimensional Data Mining. INFORMS. Journal on Computing. Pp. 1-23.
Theodoridis, S. and K. Koutroumbas. 1999. Pattern Recognition. Academic Press,

New York.
Vermunt, J. K. and J. Magidson (2000). "Latent class cluster analysis." Chapter B1 in

Hagenaars and McCutcheon, eds., Advances in latent class models. Cambridge,
UK: Cambridge University Press. Related to Latent Gold software.
Wijayanti, A. 2002. Evaluasi Konsep Jarak dan Metode Penggerombolan untuk

Data Biner. Skripsi. Jurusan Statistika. FMIPA. Institut Pertanian Bogor,
Bogor.
Zhang, T, R. Ramakrishnon and M. Livny. (1996). BIRCH: An Efficient data

clustering method for very large databases. Proceeding of the ACM SIGMOD
Conference on Management of Data, 103-114, Montreal, Canada.
50
LAMPIRAN
51
Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS
1. Penyiapan data.
2. Pilih Menu : Analyze/Classify/TwoStep Cluster (Gambar 1), maka akan muncul
kotak dialog (Gambar 2).
Gambar 1 . Kotak dialog pemilihan metode TwoStep Cluster
Gambar 2 . Kotak dialog TwoStep Cluster

52
3. Pindahkan variabel yang akan digerombolkan ke kotak variabel sesuai

dengan perlakuan yang diinginkan.
Gambar 3. Kotak dialog perlakuan variabel
4. Pada kotak DISTANCE MEASURE beri tanda log likelihood untuk pilihan
ukuran jarak, karena peubah yang akan dianalisis pada contoh diatas
merupakan peubah campuran kategorik dan kontinu.
5. Pada kotak Clustering Criterion beri tanda pada salah satu kriteria
penggerombolan yang diinginkan (BIC atau AIC)
6. Klik OPTION, untuk menentukan penanganan pencilan (outlier ) dan
standarisasi untuk peubah kontinu, seperti Gambar 4. Gambar ini merupakan
contoh pilihan tanpa penanganan pencilan, sedangkan pada Gambar 6
merupakan contoh dengan penanganan pencilan 5%.
53
7. Selanjutnya klik ADVANCED jika ingin me mgubah Threshold Distance,

maksimum Branches dan Tree Depth. Default SPSS adalah seperti tertera
pada Gambar 5. Selanjutnya kembali ke CONTINUE.
Gambar 4. Kotak OPTION pada TwoStep Cluster
Gambar 5. Kotak ADVANCED pada TwoStep Cluster

54
Gambar 6. Kotak OPTION dengan pilihan penanganan pencilan 5%
8. Klik OUTPUT, maka akan muncul kotak dialog seperti Gambar 7 sesuai
dengan pilihan output yang diinginkan.
Gambar 7. Kotak dialog OUTPUT

55
9. Klik PLOTS, maka akan muncul kotak dialog berikut:
Gambar 8. Kotak dialog PLOT
10. Kemudian klik CONTINUE, maka akan kembali pada Gambar 3.

Selanjutnya klik OK untuk melakukan eksekusi.
56
11. Pada OUTPUT EDITOR akan ditampilkan seperti berikut :

57
58
59
Lampiran 2. Jarak penggabungan dengan metode hirarki

Kasus 1: Populasi dengan 2 gerombol yang saling tumpang tindih (P2) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 Ulangan
Ulangan Jarak Penggabungan
10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
1 2,56 3,98 2,56 2,56 3,07 2,87 2,39 2,12 13,98
2 4,22 4,04 3,27 3,27 3,01 3,01 2,50 2,50 14,01
3 2,26 2,26 3,30 3,30 4,32 4,04 3,43 3,43 14,71
4 3,21 2,24 3,19 3,19 3,05 3,05 3,05 4,40 12,98
5 3,17 3,17 3,09 3,09 2,69 2,69 3,07 5,37 12,78
6 3,10 3,10 2,66 3,10 3,24 2,88 2,88 4,87 13,02
7 2,77 2,77 2,41 2,41 3,26 3,32 2,68 2,43 14,37
8 3,15 2,91 2,91 2,47 2,47 3,65 2,95 2,51 14,56
9 3,53 3,68 2,88 2,88 2,88 4,15 3,53 3,53 13,18
10 3,64 3,90 3,90 3,22 2,83 2,83 3,22 3,31 12,57
11 4,14 3,97 3,62 3,56 2,54 2,54 2,61 2,61 13,55
12 3,72 3,50 3,50 2,95 2,70 2,70 3,31 3,05 14,45
13 3,30 2,70 2,54 2,54 2,54 2,44 2,44 4,78 13,06
14 3,08 2,56 3,08 2,92 2,27 2,27 2,27 3,17 14,27
15 3,26 3,26 2,73 2,73 3,80 3,44 3,44 3,44 13,27
16 3,52 3,50 3,34 3,34 2,77 2,77 3,42 4,47 13,33
17 3,20 3,20 3,17 3,17 2,68 2,68 2,25 2,25 14,61
18 3,64 3,63 3,30 3,30 3,07 2,33 3,07 2,84 13,44
19 3,10 3,10 3,37 3,37 3,22 3,22 2,94 2,52 13,06
20 4,08 3,58 3,51 2,54 2,54 1,90 1,90 2,72 14,68
21 3,25 3,25 3,14 3,10 3,10 2,57 4,30 3,89 12,58
22 4,03 3,35 3,35 2,78 2,78 2,19 2,19 3,37 12,21
23 3,75 3,42 3,42 3,42 3,08 2,98 2,98 4,15 13,16
24 4,28 4,28 3,56 3,45 3,07 3,07 2,62 2,62 13,40
25 2,88 2,88 2,88 2,76 2,62 2,62 3,87 4,31 13,49
26 3,59 3,59 3,59 2,96 2,93 2,55 2,55 2,47 13,82
27 3,40 3,17 3,17 3,17 2,81 2,81 3,00 3,45 14,21
28 3,98 4,09 3,98 3,40 3,40 4,14 2,91 2,80 12,66
29 3,30 3,30 2,56 2,74 2,74 2,74 3,12 3,00 13,96
30 3,26 2,58 3,09 3,09 3,13 2,91 2,69 2,69 13,38
31 2,96 3,46 2,96 3,59 3,18 3,18 2,86 2,91 13,74
32 4,58 4,58 3,89 3,84 3,15 3,15 2,52 2,41 2,05
33 3,45 3,43 3,43 2,90 2,90 2,33 2,33 3,85 14,04
34 3,32 3,54 3,19 3,19 3,45 2,94 2,94 5,07 14,12
35 3,91 3,91 2,98 2,98 2,79 2,78 2,78 3,42 13,97
36 3,29 3,08 3,08 2,86 2,86 2,86 3,32 5,30 14,24
37 3,73 2,84 3,68 3,36 2,96 2,55 2,55 4,48 13,69
38 2,91 2,91 3,01 2,92 2,72 2,72 2,72 4,85 15,03
39 3,04 2,67 3,29 3,29 3,15 3,15 3,20 3,20 13,29
60
40 3,55 3,81 3,29 2,59 2,59 2,59 3,85 3,61 13,44
41 3,25 3,71 3,45 3,20 3,20 2,53 2,53 5,40 13,23
42 3,46 3,38 3,38 3,38 3,02 3,02 3,02 3,56 13,42
43 3,07 3,07 2,99 2,37 2,37 4,33 4,26 4,63 13,18
44 3,72 3,64 3,72 2,84 2,84 2,84 2,79 3,01 12,94

45 3,21 3,49 3,30 3,30 3,07 2,70 2,70 3,54 14,76
46 3,55 3,55 3,29 2,91 2,91 2,91 2,91 2,91 15,66
47 4,09 4,19 4,11 3,92 3,60 3,08 3,08 3,35 13,45
48 3,42 4,12 3,42 3,42 3,05 3,05 3,49 2,60 12,88
49 3,27 3,27 3,27 2,99 2,85 2,85 2,55 2,55 13,57
50 3,97 3,97 3,97 3,45 3,45 2,91 2,91 3,37 13,33
51 3,13 3,13 3,08 3,07 2,72 2,72 2,90 2,21 13,75
52 3,27 3,27 3,27 3,31 3,31 3,72 2,93 2,93 14,16
53 3,53 3,48 3,31 3,19 2,65 2,65 2,65 5,19 13,23
54 2,75 2,75 2,75 3,31 3,31 3,66 2,79 2,58 13,38
55 3,64 3,64 3,40 3,19 3,09 2,55 2,55 2,68 14,08
56 3,05 3,05 3,05 3,12 3,12 3,39 3,21 5,36 12,37
57 3,32 2,77 2,77 2,77 2,77 2,81 4,49 3,21 14,11
58 3,33 3,33 3,15 3,15 3,10 2,37 2,37 2,73 14,14
59 3,84 3,40 3,79 3,79 3,30 3,30 3,30 3,46 12,46
60 2,99 2,99 2,99 2,99 3,01 3,01 2,84 2,84 14,07
61 3,02 3,02 3,02 2,66 2,66 3,34 2,89 7,62 14,29
62 2,85 2,85 2,85 4,04 4,04 3,85 3,85 2,88 14,28
63 4,08 3,98 3,42 3,42 2,91 2,57 2,57 9,00 14,57
64 2,95 2,95 2,95 3,56 3,25 2,91 2,91 5,48 11,27
65 3,67 3,67 3,67 3,55 3,55 3,04 2,78 2,78 12,56
66 2,85 2,83 2,83 2,83 2,46 2,46 2,81 7,69 14,08
67 3,85 3,85 3,53 3,07 2,90 3,07 4,19 5,02 12,58
68 3,50 2,95 2,95 3,45 3,26 3,26 3,26 5,20 14,48
69 3,19 3,19 3,19 2,99 2,40 2,40 2,11 2,11 14,17
70 3,44 3,25 3,24 3,24 3,24 2,91 2,91 5,94 12,78
71 3,44 2,71 3,73 2,93 2,93 2,93 3,21 2,54 14,87
72 3,92 3,18 3,33 2,86 2,86 2,41 2,41 2,98 13,11
73 3,22 2,81 3,43 3,43 2,81 2,81 3,19 2,38 14,46
74 2,80 2,80 2,80 2,71 2,56 2,56 3,63 2,73 13,70
75 3,24 3,24 2,60 2,60 2,60 2,60 3,53 2,87 14,18
76 2,93 2,93 2,93 3,51 3,47 3,47 2,76 2,76 14,57
77 3,89 2,98 3,13 3,13 3,13 2,80 2,80 3,39 14,26
78 3,48 3,48 3,40 3,40 2,43 2,43 3,06 4,15 13,70
61
Ulangan Jarak penggabungan
79 3,61 3,33 3,06 3,01 2,74 2,74 2,24 2,24 13,49
80 3,73 3,78 3,55 3,10 3,10 2,76 2,76 3,58 14,00
81 3,56 3,56 3,56 3,34 3,34 3,34 3,87 3,62 12,61
82 3,58 3,58 3,24 3,24 2,69 2,69 3,28 5,28 13,11
83 3,56 3,56 3,53 3,52 2,65 2,65 3,21 2,83 12,64
84 3,33 3,40 3,00 2,60 2,18 2,18 2,64 4,54 13,37
85 3,18 3,18 3,11 3,11 3,11 3,33 3,53 2,65 14,71
86 3,23 3,23 2,98 2,98 2,98 3,09 3,24 2,46 15,15
87 3,87 3,87 3,40 3,40 2,78 2,60 2,60 3,17 13,70
88 4,03 3,64 3,83 3,51 3,51 3,28 3,28 4,06 13,89
89 3,73 3,73 3,73 3,18 3,18 2,79 2,79 4,25 14,37
90 3,32 3,73 3,38 3,38 3,38 2,98 2,73 4,24 13,91
91 3,39 3,21 3,21 3,21 3,08 3,08 2,51 2,51 13,68
92 3,59 3,59 3,61 3,61 3,61 2,95 2,95 3,06 14,55
93 3,44 3,44 2,91 2,78 2,78 3,73 3,94 2,57 13,94
94 3,07 3,07 2,84 2,84 3,80 2,98 2,98 2,56 14,93
95 3,34 3,34 2,45 2,16 2,16 2,16 3,62 2,97 14,21
96 3,28 3,43 3,28 3,28 3,65 3,56 3,56 3,29 14,66
97 3,69 3,69 2,64 2,40 2,40 5,26 5,63 5,18 13,45
98 3,38 3,38 3,69 3,69 3,12 2,73 2,58 2,58 13,78
99 3,86 3,40 3,51 2,73 2,49 2,49 2,99 2,01 14,87
100 3,40 3,40 3,40 3,15 3,15 3,03 2,75 2,75 14,58
62
Kasus 2 : Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1)
1 3,44 3,52 3,52 3,24 3,24 2,46 2,46 5,68 510,00
2 3,68 3,56 3,56 3,06 3,06 2,36 2,35 2,35 509,45
3 3,60 3,01 3,01 3,01 3,05 3,73 3,73 2,55 518,68
4 3,73 3,12 3,12 3,59 3,17 2,77 2,77 2,77 505,78
5 3,33 2,78 2,78 2,60 2,60 2,60 3,53 3,13 502,56
6 3,12 3,12 3,12 3,21 2,59 2,59 2,95 2,80 507,38
7 3,13 3,49 2,88 2,88 2,88 2,67 2,41 2,41 514,04
8 2,98 2,98 3,20 3,20 2,83 2,83 2,78 2,78 501,60
9 3,63 3,63 3,63 2,87 2,87 2,87 2,75 2,75 492,96
10 3,74 3,26 3,26 2,79 2,79 2,39 2,39 2,61 503,09
11 3,36 3,36 2,97 2,97 2,72 2,33 2,33 3,69 502,36
12 3,59 3,59 3,25 3,25 2,36 1,88 1,88 3,70 504,47
13 3,69 3,27 3,27 3,27 3,08 3,08 3,36 3,29 502,36
14 3,24 2,89 2,89 2,30 2,30 2,30 2,40 2,42 504,48
15 3,45 2,68 2,68 2,68 3,14 3,13 2,88 2,88 506,46
16 3,63 2,77 2,77 2,77 2,37 2,37 2,80 2,22 501,52
17 3,45 3,45 3,45 3,12 2,65 2,65 2,04 2,04 504,63
18 3,74 3,73 3,73 3,63 3,02 3,02 2,62 2,62 502,40
19 3,49 3,49 3,49 3,49 2,82 2,82 2,82 3,08 511,66
20 3,24 3,24 2,91 2,91 2,91 2,70 2,70 3,44 501,05
21 3,96 3,93 3,74 3,67 3,26 2,87 3,26 2,66 508,44
22 3,25 3,25 3,25 3,25 3,42 2,99 3,91 3,41 505,41
23 3,51 3,51 2,85 2,48 2,48 2,48 2,26 2,77 507,78
24 3,46 3,46 3,20 3,20 3,32 2,39 2,39 3,48 507,51
25 3,20 3,20 3,64 3,67 3,18 3,18 2,49 2,49 499,00
26 3,21 3,14 3,14 2,82 2,60 2,42 2,42 3,34 500,72
27 3,37 3,69 2,43 2,43 2,43 3,87 2,89 4,19 508,76
28 3,18 3,18 3,28 2,98 2,98 2,98 3,30 3,32 509,22
29 3,28 3,02 2,86 2,86 2,86 3,43 3,43 3,46 509,96
30 3,34 2,71 2,71 2,71 2,51 2,51 3,30 2,76 505,67
31 3,61 3,61 2,89 2,89 2,09 2,09 2,98 2,71 506,24
32 3,65 3,65 3,01 2,91 2,91 2,88 2,88 2,54 502,63
33 3,47 3,14 3,14 3,14 2,87 1,92 1,92 3,03 501,80
34 3,54 2,99 2,99 2,50 2,50 2,50 2,76 2,42 504,65
35 3,32 3,32 3,29 3,29 2,72 2,72 2,50 2,50 503,42
36 3,57 3,28 3,28 3,02 3,02 2,49 2,20 2,20 504,84
37 3,59 3,59 3,21 2,95 2,95 2,64 2,13 2,13 503,09
38 3,49 3,40 3,17 3,17 3,17 2,84 2,84 3,31 507,67
39 3,43 3,16 2,84 2,84 2,84 2,12 2,12 2,79 495,99
40 3,07 3,07 2,76 2,76 2,41 2,41 3,23 3,64 502,35
63
41 3,05 3,05 3,05 3,05 2,84 2,84 2,75 2,75 510,34
42 3,24 3,24 2,66 2,66 2,66 2,50 2,92 2,46 507,20
43 3,98 3,71 2,88 2,54 2,54 2,19 3,14 2,84 496,39
44 3,62 2,76 2,76 2,76 3,17 2,81 2,81 2,33 503,52
45 3,47 3,53 3,53 2,95 2,52 2,52 2,17 2,17 503,73
46 3,39 3,29 3,29 3,17 2,76 2,76 2,55 2,55 499,23
47 2,96 2,96 2,96 3,52 3,52 3,28 3,28 2,85 502,97
48 3,55 3,83 3,13 3,13 3,02 2,59 2,44 2,44 502,38
49 3,40 3,40 2,98 2,98 2,68 2,68 3,18 3,39 515,01
50 3,44 2,92 2,92 2,79 2,79 2,79 3,22 2,53 501,83
51 3,45 3,45 3,09 3,09 3,09 3,02 2,71 2,71 509,37
52 3,86 3,86 3,95 3,61 2,98 3,47 3,04 3,04 497,49
53 2,85 2,85 2,85 2,81 2,71 2,71 2,76 2,75 509,46
54 3,56 3,56 3,18 3,18 2,79 2,79 2,28 2,28 505,75
55 3,17 2,91 2,91 2,78 2,78 2,72 2,68 2,68 503,24
56 3,40 2,87 2,87 2,65 2,65 2,65 3,43 2,83 507,04
57 3,40 3,04 3,04 2,51 2,51 2,51 3,00 2,46 504,03
58 3,72 3,14 3,14 2,95 2,95 2,67 2,67 3,05 507,44
59 2,97 2,97 2,59 2,68 2,35 2,35 2,35 2,86 504,42
60 3,40 2,99 2,99 2,69 2,69 2,41 2,41 2,41 504,48
61 3,50 3,37 3,22 2,81 2,81 2,61 2,59 2,59 495,50
62 3,48 3,60 3,21 2,96 2,96 2,55 2,55 2,55 501,24
63 3,95 3,95 2,96 2,96 2,96 2,87 2,66 2,66 511,89
64 3,11 3,11 3,31 2,86 2,86 3,75 3,75 4,02 511,52
65 3,61 3,61 3,40 2,65 2,65 1,99 1,99 2,30 504,65
66 2,86 2,50 2,50 2,29 2,29 2,29 3,09 2,63 503,34
67 3,55 3,52 2,92 2,86 2,86 2,32 2,32 4,89 501,44
68 3,68 3,29 3,29 3,29 3,16 2,96 2,83 2,83 500,65
69 3,68 3,31 3,31 3,24 2,43 2,43 2,96 2,57 510,33
70 3,78 3,31 3,31 3,08 3,08 2,43 2,43 3,97 511,42
71 3,06 3,06 2,67 2,36 2,36 2,36 2,72 2,46 503,84
72 3,53 3,53 2,90 2,90 2,39 2,39 2,39 2,77 509,28
73 3,45 3,45 3,27 3,27 2,68 2,68 2,78 3,16 500,99
74 4,02 4,02 3,18 3,18 3,30 2,87 2,87 3,41 499,80
75 2,47 2,47 2,77 2,77 2,77 3,37 3,14 2,63 502,60
76 3,03 3,03 2,67 2,67 2,67 2,20 2,20 3,39 502,18
77 3,60 2,85 2,85 2,85 2,85 3,32 3,00 3,00 500,17
78 3,36 3,21 3,21 2,83 2,83 2,53 2,53 2,65 501,94
79 2,78 2,58 2,58 2,58 2,58 3,10 2,60 2,60 500,42
80 3,01 2,46 2,46 2,85 2,85 2,85 3,10 2,91 502,68
81 2,81 2,81 2,71 2,71 2,22 2,22 2,22 2,84 502,07
64
82 3,13 3,14 3,14 2,55 2,55 2,82 2,03 2,03 503,32
83 3,09 3,09 3,09 2,61 2,61 3,84 3,39 3,31 507,05
84 3,34 3,34 3,03 3,03 2,45 2,45 3,53 2,64 499,11
85 3,84 3,11 3,11 2,69 2,69 2,58 2,58 1,82 504,46
86 3,33 3,25 3,25 2,77 2,77 2,41 2,41 3,14 503,93
87 3,60 3,28 2,71 2,71 2,71 3,13 2,93 2,93 505,72
88 3,95 3,70 2,95 2,68 2,68 2,68 2,30 2,72 505,06
89 3,11 3,11 3,11 2,42 2,42 3,27 3,02 2,34 497,50
90 3,49 2,63 2,63 2,84 2,58 2,58 2,29 2,29 507,56
91 3,31 3,14 2,48 2,48 3,54 3,54 3,54 3,56 502,21
92 3,54 3,54 3,54 2,60 2,50 2,50 3,43 4,85 506,26
93 3,08 2,81 2,81 2,81 2,62 2,60 2,60 4,62 501,59
94 3,70 3,75 3,42 3,42 2,82 2,82 3,33 5,91 509,03
95 3,45 3,42 3,42 2,68 2,68 2,65 2,48 2,48 507,84
96 4,02 3,46 3,13 3,13 2,59 2,52 2,34 2,52 507,72
97 2,91 2,91 2,91 3,01 2,65 2,65 2,28 4,05 507,33
98 3,77 3,15 3,03 2,96 2,28 2,28 2,28 5,24 504,39
99 3,59 3,59 3,59 3,59 3,34 2,98 2,98 2,98 504,89
100 3,96 3,53 3,48 2,66 2,66 3,48 2,85 2,64 506,27
65
1 3,35 3,35 2,65 2,65 3,13 3,13 3,09 221,09 400,32
2 2,94 2,94 2,94 2,74 2,74 2,74 5,06 220,59 398,29
3 3,25 3,27 3,27 2,89 2,89 2,89 4,42 219,25 402,29
4 3,23 3,05 2,79 2,25 2,25 2,25 3,67 222,65 405,75
5 2,07 2,07 2,07 2,07 3,42 3,20 3,20 222,97 403,13
6 2,72 2,72 2,72 3,29 3,29 3,29 3,78 225,72 401,75
7 3,01 3,01 3,01 3,23 2,90 2,90 4,00 224,29 401,30
8 3,27 2,41 2,18 2,18 2,18 1,91 1,91 220,86 398,66
9 3,05 3,05 3,05 3,05 3,05 3,81 3,81 220,86 393,47
10 2,67 2,67 2,90 2,90 2,60 2,60 5,01 217,64 398,28
11 3,36 3,01 3,01 3,05 3,05 3,05 4,33 223,05 404,99
12 2,52 2,35 2,35 2,35 2,64 2,64 3,81 221,08 398,59
13 3,46 3,37 3,23 3,23 2,56 2,56 2,56 224,45 403,42
14 3,95 3,34 3,34 3,34 3,02 3,02 2,48 224,24 402,99
15 3,24 3,79 3,02 3,02 2,52 2,52 2,52 226,17 402,58
16 3,16 3,16 3,16 2,65 2,65 3,06 3,06 224,49 401,93
17 3,51 2,97 2,97 2,08 2,08 3,22 3,22 222,13 397,57
18 3,43 2,73 2,73 2,73 2,25 3,41 3,41 224,09 401,35
19 3,59 3,59 3,17 2,84 2,40 2,40 2,40 221,50 397,76
20 2,12 4,50 3,78 3,75 3,75 3,75 5,96 219,55 399,07
21 2,79 2,79 3,27 2,63 2,32 2,32 2,32 221,31 399,60
22 2,81 2,81 2,35 2,35 3,17 3,79 3,60 224,60 399,37
23 3,61 3,61 3,14 3,14 3,14 4,54 5,12 218,77 397,14
24 3,34 3,34 3,01 3,01 3,01 3,48 3,01 219,36 397,52
25 3,01 2,81 2,81 2,81 2,81 2,81 2,89 220,34 404,20
26 3,45 3,19 3,19 2,64 2,64 4,13 4,42 224,60 403,88
27 2,07 2,07 2,07 5,27 4,92 3,78 3,35 222,90 399,55
28 2,89 2,89 2,89 2,31 4,50 3,72 3,56 226,18 408,69
29 3,09 3,24 3,21 2,62 2,62 2,62 3,42 223,12 403,95
30 3,14 3,14 3,14 2,91 2,91 2,91 3,67 225,38 407,01
31 3,27 3,08 3,08 3,08 3,27 2,54 4,14 220,20 398,76
32 3,72 3,72 3,15 3,14 2,31 2,31 4,54 223,09 404,93
33 3,13 3,13 3,13 2,46 2,46 2,11 2,11 223,10 402,88
34 3,24 3,24 2,85 2,85 2,46 2,46 3,20 219,77 401,00
35 2,79 2,79 2,07 2,07 3,08 3,08 3,12 222,36 401,12
36 2,59 2,59 2,59 2,44 2,44 3,29 3,80 220,81 405,01
37 3,34 2,64 2,26 2,26 2,26 5,57 4,35 225,09 404,57
38 3,04 3,04 3,04 3,04 3,25 3,25 2,76 219,60 392,16
39 3,00 2,75 2,75 2,75 2,51 2,51 2,51 221,52 399,70
40 3,21 3,21 3,21 3,37 3,37 3,69 2,26 223,26 398,47
41 3,74 3,03 3,03 3,03 2,68 2,68 3,38 219,78 401,17
66
42 2,53 2,53 2,53 2,53 3,72 3,72 5,12 223,24 398,81
43 2,52 2,52 3,95 3,45 3,24 3,12 3,13 218,82 396,68
44 4,19 3,74 3,74 3,17 3,17 2,45 2,45 220,77 404,26
45 3,89 3,79 3,60 3,31 2,99 2,99 2,99 218,91 400,27
46 2,89 2,96 2,96 2,96 2,96 3,53 4,00 218,12 400,97
47 3,42 3,42 3,42 2,97 2,97 2,53 2,53 224,79 400,70
48 3,62 3,62 3,62 3,57 3,92 3,77 3,77 223,29 398,68
49 2,64 2,64 1,95 1,95 4,23 4,88 3,98 226,06 401,70
50 3,50 3,50 3,50 3,50 3,51 2,95 2,09 222,86 400,09
51 2,76 2,76 2,76 2,55 2,25 2,25 2,55 223,85 398,79
52 2,99 2,99 2,19 2,19 2,00 2,00 3,20 221,61 398,20
53 3,19 3,05 3,05 2,84 2,22 2,22 4,24 225,61 402,40
54 2,64 2,64 2,64 2,18 2,18 4,22 3,92 222,64 400,68
55 3,18 3,18 3,18 2,77 2,77 4,36 4,11 219,21 400,82
56 2,91 2,91 2,78 3,87 3,52 3,52 3,71 220,92 393,46
57 3,69 3,35 3,35 2,75 2,75 2,75 3,15 219,86 397,55
58 2,94 4,36 4,19 3,45 3,45 3,37 3,37 222,03 400,86
59 3,52 4,15 3,01 3,01 3,01 2,61 4,74 224,54 399,23
60 3,25 3,21 3,21 3,21 3,13 3,13 2,98 224,23 402,97
61 2,99 2,99 3,19 2,92 2,92 2,92 3,69 223,21 399,99
62 3,71 2,99 2,70 2,70 2,34 2,34 4,66 220,85 399,75
63 3,03 3,20 3,20 3,20 2,75 2,44 2,44 222,70 399,49
64 3,59 3,59 3,29 2,60 2,60 2,60 3,11 222,12 407,01
65 3,85 3,29 3,13 3,13 2,42 2,42 5,20 221,27 405,06
66 3,25 3,91 3,23 3,04 3,04 2,74 2,74 221,64 405,12
67 3,26 3,21 3,21 3,12 3,12 2,90 2,90 222,40 400,42
68 3,66 4,25 3,96 3,03 3,03 2,35 4,80 223,87 402,32
69 2,55 2,55 3,47 3,08 3,08 2,57 2,57 220,75 400,59
70 3,36 3,12 3,12 3,09 2,53 2,53 3,09 222,40 402,62
71 3,47 2,85 2,85 2,85 3,56 3,56 3,65 221,45 397,83
72 2,98 2,25 2,25 2,25 4,41 4,41 4,01 221,38 400,13
73 3,04 3,04 2,64 2,64 2,64 2,64 2,77 227,50 407,33
74 2,86 2,79 2,79 2,45 2,45 2,45 3,77 220,15 395,33
75 3,11 2,50 2,50 3,28 3,43 3,43 5,48 222,37 401,25
76 2,63 2,63 3,93 3,93 4,54 3,47 3,47 222,33 399,88
77 3,73 3,73 3,44 3,44 2,89 2,89 2,89 220,69 396,31
78 3,53 3,53 3,53 2,68 2,68 2,46 2,46 221,20 394,72
79 3,64 2,66 2,66 4,30 4,29 4,29 5,28 223,28 403,70
80 3,26 3,26 2,82 2,82 2,82 3,09 3,99 221,01 403,11
81 2,70 2,70 2,29 2,29 2,91 3,85 3,40 222,57 401,92
82 4,00 4,00 3,22 2,50 2,50 2,50 4,36 223,43 403,69
67
83 2,91 2,91 4,47 4,47 5,17 5,17 4,65 223,66 400,49
84 2,83 3,94 3,76 3,76 3,68 2,99 2,99 223,40 406,97
85 2,88 2,68 2,68 2,68 3,28 3,03 2,29 223,88 403,41
86 3,21 3,21 3,21 2,86 2,86 2,86 3,55 222,13 401,08
87 2,95 2,95 2,95 2,95 3,14 3,14 3,99 224,59 400,18
88 3,31 3,08 3,08 3,08 2,79 2,79 6,01 226,13 401,97
89 2,99 2,45 2,45 2,45 3,89 3,89 2,97 222,01 396,29
90 3,47 3,47 3,26 2,79 2,79 2,79 3,57 221,27 399,29
91 3,30 3,30 3,30 3,30 2,48 2,48 2,42 223,08 398,92
92 3,70 3,70 3,70 2,56 2,56 2,56 3,76 222,74 399,14
93 2,47 2,47 2,47 2,47 3,38 3,38 5,51 223,13 396,92
94 2,69 2,35 2,35 2,35 2,35 4,44 3,97 222,43 400,97
95 2,91 2,91 2,91 2,91 2,89 2,89 2,89 225,35 402,48
96 4,52 4,52 4,46 4,46 4,98 3,88 3,79 223,30 401,75
97 3,20 3,10 3,10 3,10 3,20 3,20 3,35 220,32 402,57
98 3,34 3,34 3,34 3,34 2,69 3,61 3,61 221,89 394,50
99 3,26 2,56 2,56 3,76 3,76 4,25 3,19 225,90 408,49
100 3,18 3,18 3,18 2,87 2,87 2,87 4,04 221,34 399,06
68
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1)
Ukuran data = 500, dengan 100 ulangan
Jarak Penggabungan
Ulangan 10 to 9 9 to 8 8 to 7 7 to 6 6 to 5 5 to 4 4 to 3 3 to 2 2 to 1
1 3,65 3,65 3,65 3,39 5,51 14,73 18,61 224,26 314,22
2 2,91 2,91 2,91 2,24 8,94 10,46 17,73 217,61 311,24
3 2,94 2,94 2,94 4,29 4,36 16,60 23,59 226,70 314,12
4 4,51 4,17 4,27 3,48 3,02 14,41 17,51 224,67 317,09
5 3,78 4,67 4,67 4,67 4,03 10,09 16,23 225,49 316,07
6 3,66 3,66 3,00 3,00 7,63 10,23 14,44 226,63 313,61
7 3,14 3,14 3,14 2,91 7,19 11,65 15,96 216,66 311,76
8 2,33 2,33 4,14 4,14 4,14 16,22 21,01 220,59 310,08
9 3,56 3,56 3,56 3,29 3,48 16,10 23,02 225,35 315,06
10 4,01 3,25 3,25 2,39 4,03 14,98 23,29 222,92 312,10
11 3,75 3,75 3,00 3,00 2,72 11,37 20,79 220,21 308,64
12 3,07 2,39 2,39 2,39 6,80 9,80 20,29 224,08 310,45
13 3,74 3,74 3,50 3,50 3,50 13,60 17,66 219,61 316,71
14 2,93 2,93 4,04 4,69 4,69 14,43 19,86 222,93 318,51
15 3,09 3,09 3,09 2,44 2,44 11,56 19,50 227,57 317,52
16 3,46 3,46 6,27 6,27 6,27 15,37 20,36 222,82 309,86
17 3,79 3,79 3,79 3,65 3,65 13,67 18,83 222,39 312,65
18 2,93 2,93 5,25 5,25 7,10 14,31 19,21 219,93 307,16
19 3,11 3,11 3,45 3,45 3,45 10,84 15,21 220,69 312,09
20 3,17 3,17 3,17 3,09 3,09 12,46 19,37 218,64 311,99
21 3,22 3,22 2,70 2,70 3,45 14,28 17,59 225,95 315,93
22 3,50 3,50 3,50 2,78 3,72 13,70 21,52 215,86 312,52
23 3,87 3,87 3,87 5,39 5,80 15,29 19,56 221,79 307,17
24 3,14 3,14 4,37 4,37 5,77 9,05 12,61 221,90 308,81
25 3,86 3,86 3,86 3,78 2,82 13,80 21,44 220,32 310,12
26 2,89 2,89 2,83 2,83 2,84 11,50 21,33 223,21 314,29
27 3,78 3,78 3,82 3,45 3,45 12,55 16,71 221,96 309,40
28 3,53 3,53 3,53 3,44 5,11 15,50 21,58 222,11 312,69
29 3,62 3,19 2,45 2,45 2,91 16,90 20,06 225,07 312,28
30 3,36 3,18 3,18 3,18 4,31 14,61 19,21 222,65 308,60
31 3,02 6,02 5,90 5,90 5,90 15,08 20,31 220,74 316,53
32 3,78 3,78 3,78 3,85 2,95 13,90 22,33 222,68 309,87
33 3,82 4,13 4,75 4,65 4,65 15,95 22,80 217,05 311,32
34 3,73 3,58 3,58 2,76 2,76 11,05 22,31 217,43 304,61
35 4,81 3,52 3,52 3,22 3,33 14,50 21,57 219,44 312,07
36 2,91 2,91 2,38 2,38 2,38 13,36 18,59 223,60 311,20
37 3,36 3,36 3,02 3,02 3,02 13,36 18,05 218,90 311,60
38 3,32 3,08 3,08 2,24 2,24 14,48 18,24 220,89 307,34
39 3,57 3,57 3,22 3,22 3,85 14,05 20,08 224,37 314,68
40 3,53 3,20 5,60 5,60 5,82 8,55 11,74 223,23 309,07
41 2,83 2,83 3,26 3,26 3,26 4,71 14,78 19,00 227,38
69
Jarak Penggabungan
42 3,62 3,06 2,54 2,54 4,23 16,27 20,01 219,68 312,20
43 3,71 3,71 4,29 5,54 5,51 15,74 21,23 225,54 315,18
44 4,02 4,02 3,55 3,55 3,54 12,31 17,39 223,06 311,34
45 3,60 3,31 2,65 2,65 2,65 12,72 17,04 223,90 312,98
46 3,23 2,58 2,58 2,58 4,77 15,51 21,64 220,77 315,42
47 3,48 2,69 2,69 2,24 7,30 14,62 19,17 220,79 309,08
48 4,50 4,20 4,17 3,17 3,17 15,97 19,51 216,59 310,86
49 4,14 4,19 4,19 4,19 5,87 13,29 15,97 217,65 310,78
50 3,62 3,62 3,65 3,49 3,49 14,81 19,97 220,76 317,24
51 4,71 4,09 3,22 2,90 2,90 13,40 18,25 222,99 314,90
52 4,30 4,30 4,47 4,69 4,69 14,11 19,03 226,83 315,92
53 2,97 2,97 2,97 3,28 3,28 16,69 21,10 220,91 317,83
54 6,08 7,42 6,78 6,68 6,68 15,60 18,17 222,41 319,70
55 3,79 3,79 3,16 6,11 6,57 14,78 18,03 219,77 308,45
56 2,93 2,93 5,90 5,90 10,01 11,62 14,54 223,63 316,15
57 2,85 4,34 6,15 6,15 5,42 14,64 19,07 221,04 311,50
58 4,72 4,72 5,96 6,19 5,99 5,99 19,45 225,54 320,16
59 3,73 3,73 3,23 3,23 3,23 11,58 16,89 222,81 310,67
60 2,99 2,99 3,01 4,52 4,52 15,13 22,55 219,35 309,81
61 3,04 2,48 2,48 2,05 2,05 12,33 17,12 216,78 305,21
62 3,76 3,76 3,11 3,11 3,11 15,64 20,24 220,98 315,57
63 2,56 3,99 4,63 4,88 4,88 15,35 24,32 218,03 303,21
64 4,16 3,68 3,51 3,51 2,80 13,93 18,80 219,50 311,81
65 3,40 3,40 3,40 3,05 3,05 7,84 18,93 227,26 314,57
66 2,68 2,68 2,68 4,00 6,19 16,20 20,04 222,79 311,01
67 3,68 3,68 3,68 3,68 3,76 13,72 17,88 225,95 312,68
68 3,40 3,35 3,35 2,96 2,96 16,98 22,02 216,67 313,50
69 3,15 3,15 3,15 5,54 6,38 14,80 21,20 223,16 310,47
70 4,35 3,87 3,41 3,27 3,27 10,86 19,66 219,24 311,19
71 3,41 3,41 3,19 3,19 3,19 17,61 21,41 230,05 319,88
72 3,54 3,54 3,43 2,56 8,79 14,01 23,03 221,40 310,45
73 3,35 3,35 2,54 2,54 4,24 13,69 18,09 222,64 308,17
74 3,83 3,08 3,08 3,08 2,71 12,59 17,73 222,11 311,50
75 3,08 3,08 2,59 2,46 2,46 13,24 15,79 221,86 318,32
76 4,87 4,68 3,68 3,31 2,97 14,30 19,75 223,79 312,47
77 3,23 4,17 3,09 3,09 3,74 13,68 16,42 220,63 308,87
78 3,16 3,16 3,16 2,81 2,59 13,18 19,46 228,23 318,04
79 3,64 3,64 3,18 3,18 2,94 16,11 20,80 225,50 313,68
80 3,21 3,21 3,21 6,56 6,56 9,86 20,84 215,58 309,22
81 3,37 3,37 3,27 3,27 3,27 16,47 22,29 225,73 315,84
70
Jarak Penggabungan
82 2,78 3,95 3,95 3,95 6,88 13,05 17,03 219,16 318,17
83 3,80 3,42 3,42 6,00 4,57 14,63 24,07 224,54 313,35
84 3,33 3,33 3,33 3,05 3,05 14,37 19,58 221,72 308,30
85 4,28 3,77 3,03 3,03 2,67 15,43 22,38 218,30 313,77
86 3,49 3,49 3,49 3,95 3,95 16,76 21,99 222,97 313,92
87 3,84 3,84 3,22 3,22 3,22 10,41 20,19 222,75 313,31
88 3,73 2,83 2,83 2,83 3,92 14,63 21,33 225,04 311,70
89 4,13 4,13 4,92 4,50 4,50 15,20 18,87 224,74 310,97
90 3,11 3,11 3,11 4,09 7,54 11,72 16,08 223,80 321,00
91 3,64 3,38 3,38 3,32 2,80 17,61 22,02 217,47 310,74
92 3,77 3,47 3,02 3,02 7,75 10,79 21,93 220,37 313,44
93 3,00 3,00 2,34 2,34 11,24 12,77 16,84 221,12 316,55
94 3,11 3,11 3,11 6,16 6,16 9,13 12,45 223,03 311,93
95 2,82 3,40 3,40 2,27 2,27 11,47 20,35 227,69 315,31
96 2,63 2,63 4,17 4,17 4,17 10,55 15,11 220,06 311,04
97 2,66 2,39 2,39 4,89 5,73 18,13 21,95 226,84 317,15
98 2,77 2,77 2,77 2,39 9,69 14,95 18,74 226,27 314,50
99 3,83 3,83 3,83 3,83 3,14 13,70 20,35 221,66 316,48
100 3,14 3,14 3,14 3,06 3,06 12,15 20,43 219,98 304,43

Pengkajian Keakuratan Twostep Cluster Dalam Menentukan Banyaknya Gerombol Populasi Kudsiati

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pengkajian Keakuratan Twostep Cluster Dalam Menentukan Banyaknya Gerombol Populasi Kudsiati

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM

MENENTUKAN BANYAKNYA GEROMBOL POPULASI

Bogor, September 2006

KUDSIATI. Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya

Ketua Program Studi Statistika Dekan Sekolah Pascasarjana

Tanggal Ujian : 21 September 2006 Tanggal Lulus:

Bogor, September 2006

DAFTAR TABEL............................................................................................... viiii

HASIL DAN PEMBAHASAN ..............................................................................28

Tabel 1. Kombinasi parameter model data hipotetik yang akan dibangkitkan----- 18

Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan

Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster ------------------ 10

Dalam riset pemasaran, segmentasi pelanggan merupakan topik yang paling

dianalisis, sehingga hasil segmentasi sangat tergantung dari pengetahuan, pengalaman,

Penelitia n ini bertujuan untuk melakukan evaluasi terhadap keakuratan

2. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik

Analisis gerombol dalam bidang riset pemasaran sering diistilahkan sebagai

Metode Penggerombolan Berhirarki

Metode penggerombolan berhirarki digunakan apabila banyaknya gerombo l

Dalam metode penggerombolan berhirarki setiap langkah penggabungan

Metode Penggerombolan K-rataan

1. Penggerombolan Awal (Pre-Clustering)

Prosedur tersebut diimplementasikan dengan membentuk Cluster Feature tree

Jika CF tree berkembang melewati batas ukuran maksimum yang telah

Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster

2. Penggerombolan Individu Objek ( Step 2 Cluster)

Pada tahap ini diterapkan model berbasiskan teknik hirarki. Sebagaimana

(jl) adalah indeks dari kategori ke l (l = 1,2,…,ml ) dari peubah aj (j = 1,2,…,q).

Untuk penyingkatan ξ i, s dituliskan sebagai ε v , yang dapat ditafsirkan sebagai

suatu jenis galat penyimpangan (dispersi) di dalam gerombol v (v = i,s,(i,s)). ε v

Fungsi lk bukan merupakan fungsi log-likelihood yang selengkapnya

4. Penentuan Banyaknya Gerombol

Pada SPSS TwoStep Cluster, banyaknya gerombol dapat diperoleh secara

5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan

Tiap objek ditetapkan sebagai anggota dari gerombol terdekat secara

secara deterministik memungkinkan terjadinya penduga yang bias bagi profil

BAHAN DAN METODE

Model Populasi Hipotetik

Model Komposisi Peubah yang Dianalisis

Tabel 1. Kombinasi parameter model data hipotetik yang akan d ibangkitkan.

Komposisi Ukuran Komposisi Ukuran

Metode Pembangkitan Data

P1 : Tidak terdapat struktur kelas (gerombol), yaitu populasi dengan 1 gerombol.

-2.40-2.20-2.00-1.80-1.60-1.40-1.20-1.00-0.80-0.60-0.40-0.200.000.200.400.60 0.80 1.001.20 1.401.601.802.002.202.402.602.80 3.00

Gambar 2. Sebaran populasi tunggal, N (0,1)

N(-0.5,1) N(0.5,1) 3.2

Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas

Gambar 4. Sebaran model 2 populasi dengan pemisahan yang tegas

N(-4,1) N(0,1) N(4,1)

Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas

Penyebaran banyaknya data pada masing-masing (ukuran gerombol) ditetapkan

N(-4,1) N(0,1) N(4,1) N(-1.0,1) N(1.0,1)

Seperti pada kasus sebelumnya, ukuran contoh pada masing-masing gerombol

Prosedur Pembangkitan Data

Pembangkitan data untuk masing- masing kasus yang dievaluasi, dilakukan

Konversi data kontinu menjadi data biner dilakukan dengan menggunakan

Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan

tanpa penanganan pencilan ditampilkan pada lampiran 1.gambar 6. Pada penelitian

dengan Xi bernilai 1 bila banyaknya gerombol yang dihasilkan dari algoritma

Hasil Keanggotaan pada populasi

Salah klasifikasi pada 2 populasi (geromb ol) adalah (n2+n3)/(n1+n2+n3+n4)

Prosedur dan Pelaksanaan Percobaan

1. Membangkitkan gugus data hipotetik untuk setiap kombinasi struktur