Anda di halaman 1dari 76

CLUSTERING

diajukan untuk memenuhi salah satu tugas


mata kuliah Metode Statistika Multivariat








oleh
Ogi J ayaprana 1006667
Ulfah Nur Azizah 0900249



PROGRAM STUDI MATEMATIKA
FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN
ALAM
UNIVERSITAS PENDIDIKAN INDONESIA
BANDUNG
2013


i


KATA PENGANTAR
Assalamualaikum warahmatullahi wabarakatuh.
Alhamdulillahirrabilalamin rasa syukur kami panjatkan kepada Allah
SWT yang telah memberikan karunia dan rahmat sehingga kami dapat
menyelesaikan makalah ini. Shalawat dan salam kami curahkan kepada sosok
mulia, guru abadi Nabi Muhammad Saw karena berkat perjuangannya hingga
Islam sampai pada kita.
Makalah dengan judul Clustering ini telah kami selesaikan dengan
semaksimal mungkin. Tak lupa kami juga mengucapkan terima kasih kepada :
1. Para orang tua kami yang selalu mendoakan kami dimanapun kami berada.
2. Bapak Dr. Jarnawi M.Kes. dan Ibu Dr. Elah Nurelah M.Si sebagai dosen
Metode Statistika Multivariat yang telah membimbing dalam penentuan
judul yang kita bahas.
Tak ada gading yang tak retak maka kami menyadari dalam penyusunan
makalah ini masih terdapat kekurangan. Untuk itu kami sangat mengharapkan
kritik dan saran yang membangun dari pembaca. Sekian terima kasih
Wassalamualaikum warahmatullahi wabarakatuh.
Bandung, Mei 2013


Penyusun




ii

DAFTAR ISI

KATA PENGANTAR ................................................................................ i
DAFTAR ISI .............................................................................................. ii
BAB I PENDAHULUAN........................................................................... 5
1.1 Latar Belakang..................................................................................... 1
1.2 Rumusan Masalah ................................................................................ 2
1.3 Tujuan Penulisan Makalah ................................................................... 3
1.4 Manfaat Penulisan Makalah ................................................................. 3
1.5 Sistematika Penulisan Makalah ............................................................ 4
BAB II PEMBAHASAN ............................................................................ 5
2.1 Analisis Cluster .................................................................................... 5
2.2 Cara Kerja Analisis Cluster.................................................................. 6
2.3 Proses Analisis Cluster ......................................................................... 6
2.4 Kesamaan Ukuran ................................................................................ 13
2.5 Hierarchical Clustering Methods .......................................................... 23
2.5.1 Single Linkage ................................................................................ 25
2.5.2 Complete Linkage .......................................................................... 30
2.5.3 Average Linkage ............................................................................ 32
2.6 Nonhierarchical Metods ....................................................................... 34
2.6.1 Metode K-Means ............................................................................ 35


iii

2.7 Multidimensional Scaling .................................................................... 37
2.7.1 Multidimensional Scaling Metrik .................................................... 46
2.7.2 Multidimensional Scaling Non Metrik ............................................ 46
2.8 Tampilan-tampilan Data dan Penyajian Gambar .................................. 50
2.8.1 Hubungan Perkalian Scatterplot dua Dimensi ................................. 51
2.8.1.1 Stars .......................................................................................... 54
2.8.1.2 Andrews Plot ............................................................................. 54
2.8.1.3 Chernoff Face ............................................................................ 56
BAB III STUDI KASUS ............................................................................ 59
3.1 Metode Hierarki ................................................................................... 60
3.2 Metode K-Means (Non-Hierarki) ......................................................... 65
BAB IV KESIMPULAN DAN SARAN ..................................................... 59
3.1 Kesimpulan.......................................................................................... 71
3.2 Saran ................................................................................................... 71
DAFTAR PUSTAKA ................................................................................. 72


1

BAB I
PENDAHULUAN

1.1 Latar Belakang
Analisis cluster merupakan teknik multivariat yang mempunyai tujuan
utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang
dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek
yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang
sama. Cluster-cluster yang terbentuk memiliki homogenitas internal yang
tinggi dan heterogenitas eksternal yang tinggi. Berbeda dengan teknik
multivariat lainnya, analisis ini tidak mengestimasi set variabel secara empiris
sebaliknya menggunakan set variabel yang ditentukan oleh peneliti itu
sendiri. Fokus dari analisis cluster adalah membandingkan objek berdasarkan
set variabel, hal inilah yang menyebabkan para ahli mendefinisikan set
variabel sebagai tahap kritis dalam analisis cluster. Set variabel cluster adalah
suatu set variabel yang merpresentasikan karakteristik yang dipakai objek-
objek. Bedanya dengan analisis faktor adalah bahwa analisis cluster terfokus
pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok
variabel.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap
penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa
solusi yang berbeda dapat diperoleh dengan mengubah satu elemen atau
lebih. Solusi cluster secara keseluruhan bergantung pada variabel-variaabel
yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau
pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi
hasi analisisi cluster.
Ketaksempurnaan, penyelidikan langkah-langkah sering membantu
dalam pengertian hubungan multivariat kompleks. Untuk contoh, melalui
buku ini kita tegaskan nilainya dari plot-plot data. Dibagian ini, akan
didiskusikan beberapa teknik grafik tambahan dan diusulkan aturan
langkah per langkah (algoritma) untuk pengelompokkan objek-objek
(variabel-variabel atau bentuk-bentuk).
Pencarian data untuk suatu struktur pada pengelompokan dasar
adalah suatu teknik penyelidikan yang penting. Pengelompokkan-pen
gelompokkan dapat menentukan suatu makna-makna informal untuk
penaksiran secara dimensi, pengidentifikasian pencilan, dan penyaranan


2

dalam menarik hubungan pemusatan hipotesis. Pengelompokkan (grouping)
atau clustering berbeda dari metode pengklasifikasian yang didiskusikan
pada bab sebelumnya. Pengklasifikasian menyinggung pada jumlah
kelompok yang diketahui; dan secara operasionalnya objek yang
memberikan satu pengamatan baru dari beberapa kelompok.
Analisis cluster merupakan suatu teknik yang lebih sederhana
bukan dalam asumsinya yang memusatkan jumlah kelompok-kelompok
atau struktur kelompok. Pengelompokkan dilakukan pada kesamaan dasar
atau jarak (ketaksamaan). Masukan-masukan yang dibutuhkan merupakan
kesamaan ukuran atau data-data dari kesamaan-kesamaan yang dapat
dihitung.
Penerapan praktis paling banyak pada analisis cluster , penyelidik
cukup mengetahui masalah untuk membedakan pengelompokkan baik
dan pengelompokkan buruk. Objek dasar dalam analisis cluster adalah
untuk menemukan pengelompokkan dasar pada bentuk-bentuknya (variabel-
variabel). Dalam metode clustering terdapat metode yang digunakan yaitu
metode clustering hirarki. Dalam metode ini, dilakukan single cluster
dengan menggunakan prosedur agglomerative dan divisive yang dapat
digambarkan dalam diagram dua dimensi yang dinamakan dendogram.
Ini akan lebih fokus pada prosedur hirarki agglomerative dan bagiannya
yaitu metode Linkage. Akan digunakan yaitu single linkage (jarak
minimum atau tetangga terdekat), complete linkage (jarak maksimum atau
tetangga terjauh), serta average linkage (jarak rata-rata).
Dalam clustering akan dilakukan multidimensional scaling suatu
teknik pengurangan dimensi selain itu, juga akan dijelaskan pengambaran
data-data dan representasinya.

1.2 Rumusan Masalah
Dalam uraian diatas maka dapat dibentuk rumusan masalah
sebagai berikut:
a. Apakah yang dimaksud dengan Analisis Cluster?
b. Bagaimana melakukan pengelompokkan data dengan menggunakan
metode clustering ?


3

c. Apakah yang dimaksud dengan metode analisis Hierarki dan Non Hierarki?
Seperti apakah perbedaan di antara kedua metode analisis tersebut? Serta
bagaimanakah algoritmanya?
d. Apakah yang dimaksud dengan Multidimensional Scalling (MDS)?
e. Berapa banyak cluster/kelompok yang akan dibentuk ?

1.3 Tujuan Penulisan Makalah
Dari rumusan masalah diatas maka tujuan dan maksud dari presentasi
ini adalah sebagai berikut:
a. Untuk mengetahui apa yang dimaksud dengan Analisis Cluster.
b. Memberikan penjelasan bagaimana menggelompokkan data dengan
menggunakan metode clustering
c. Untuk mengetahui apa yang dimaksud dengan metode analisis Hierarki dan
Non Hierarki, perbedaan di antara kedua metode analisis tersebut serta
bagaimana algoritmanya.
d. Untuk mengetahui apa yang dimaksud dengan Multidimensional Scalling
(MDS).
e. Banyak cluster/kelompok yang dibentuk

1.4 Mafaat Penulisan Makalah
Makalah ini disusun dengan harapan memberikan kegunaan baik
secara teoritis maupun secara praktis. Secara teoritis makalah ini berguna
sebagai pengembangan konsep clustering. Secara praktis makalah ini
diharapkan bermanfaat bagi:
a. penulis, sebagai wahana penambah pengetahuan dan konsep keilmuan
khususnya tentang konsep clustering;
b. pembaca/guru, sebagai media informasi tentang konsep clustering guna
menambah wawasan baik secara teoritis maupun secara praktis





4

1.5 Sistematika Penulisan
BAB I : Pendahuluan
Pada bab ini akan dijelaskan tentang Latar Belakang Masalah,
Rumusan Masalah, Tujuan Penelitian,dan Manfaat Penelitian
BAB II : Analisis Cluster
Pada bab ini akan dijelaskan tentang pengertian analisis cluster,
proses analisis cluster dan algoritma cluster.

BAB III : Studi Kasus
Pada bab ini akan dijelaskan tentang penerapan analisis cluster
dalam pengelompokan kota-kota di Indonesia baik secara Hierarki
maupun Non-Hierarki.

BAB IV : Penutup
Pada bab ini akan dijelaskan tentang kesimpulan secara
keseluruhan dan saran yang ingin penyusun sampaikan bagi
seluruh pembaca.












5

BAB II
PEMBAHASAN

2.1 Analisis Cluster
Analisis cluster merupakan suatu teknik yang lebih sederhana bukan
dalam asumsinya yang memusatkan jumlah kelompok-kelompok atau
struktur kelompok. Pengelompokkan setuju pada kesamaan dasar atau
jarak (ketaksamaan). Masukan-masukan yang dibutuhkan merupakan
kesamaan ukuran atau data-data dari kesamaan-kesamaan yang dapat
dihitung.
Untuk menggambarkan sifat yang sulit dalam pendefinisian suatu
pengelompokkan dasar, misalnya pengurutan 16 kartu dalam permainan
kartu biasa ke dalam cluster dari kesamaan objek-objek. Beberapa
pengelompokkan digambarkan dalam gambar 12.1, ini dengan jelas
bahwa maksud pembagian-pembagian tergantung pada pendefinisian
kesamaan.
Untuk permainan kartu contohnya, terdapat satu cara membentuk
suatu kelompok tunggal pada 16 kartu; terdapat 32.767 cara untuk
membagi kartu ke dalam dua kelompok (bermacam-macam ukuran );
terdapat 7.141.686 cara untuk mengurutkan kartu-kartu ke dalam tiga
kelompok (bermacam-macam ukuran) dan seterusnya.
Dengan jelas, batasan waktu membuat ini tidak mungkin untuk
menetukan pengelompokkan terbaik pada kesamaan objek-objek dari
suatu daftar dari semua struktur yang mungkin. Meskipun komputer-
komputer besar dengan mudah meliputi jumlah kasus yang besar. Jadi
satu kasus menyelesaikan pencarian algoritma yang baik, tetapi tidak
memenuhi yang terbaik dalam pengelompokkan. Kembali lagi, pertama
harus dikembangkan suatu ukuran kuantitatif untuk assosiasi (kesamaan)
ukuran antara objek-objek.
Bagian 12.2 memberikan suatu pendiskusian pada kesamaan
ukuran. Setelah bagian 12.2 dideskripsikan sedikitnya dari beberapa
algoritma umum untuk pengurutan objek-objek ke dalam kelompok-
kelompok. Meskipun tanpa notasi yang tepat pada suatu
pengelompokkan biasa, sering digunakan objek cluster dalam dua atau tiga
dimensi scatter plot, memiliki keuntungan pada kemampuan pemikiran


6

untuk mengelompokkan objek-objek yang sama dan untuk memilih
pengamatan-pengamatan terpencil, langkah grafik secara umum baru-baru
ini dikembangkan untuk penggambaran dimensi tingkat tinggi
pengamatan- pengamatan dalam dua dimensi. Beberapa dari teknik
langkahnya diberikan dalam bagian 12.5 dan 12.6.

2.2 Cara Kerja Analisis Cluster
Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja
analisis cluster, yaitu :
1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu ukuran
korelasi, ukuran jarak, dan ukuran asosiasi.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yang
memiliki kesamaan yang tinggi ke dalam sutau cluster yang sama.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas alam
cluster secara otomatis akan menurun.

2.3 Proses Analisis Cluster
Sebagaimana teknik multivariat lain proses analisis cluster dapat
dijelaskan dalam enam tahap sebagai berikut :
2.3.1 Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah mempartisi suatu set objek
menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik
khusus yang dimilikinya.
Dalam pembentukan kelompok/cluster dapat dicapai tiga tujuan, yaitu :




7

1. Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal bertujuan
mengeksplorasi dan membentuk suatu klasisfikasi/taksonomi secara
empiris. Karena kemampuan partisinya analisis cluster dapat
diterapkan secara luas. Meskipun secara empiris merupakan teknik
eksplorasi analisis cluster dapat pula digunakan untuk tujuan
konfirmasi.
a. Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi.
Dengan struktur yang terbatas observasi/objek dapat
dikelompokkan untuk analisis selanjutnya.
b. Identifikasi Hubungan (Relationship Identification)
Hubunganantar objek diidentifikasi secara empiris. Struktur
analisis cluster yang sederhana dapat menggambarkan adanya
hubungan atau kesamaan dan perbedaan yang tidak dinyatakan
sebelumnya.
c. Pemilihan pada Pengelompokan Variabel
Tujuan analisis cluster tidak dapat dipisahkan dengan pemilihan
variabel yang digunakan untuk menggolongkan objek ke dalam
clucter-cluster. Cluster yang terbentuk merefleksikan struktur
yang melekat pada data seperti yang didefinisikan oleh variabel-
variabel. Pemilihan variabel harus sesuai dengan teori dan
konsep yang umum digunakan dan harus rasional. Rasionalitas
ini didasarkan pada teori-teori eksplisit atau penelitian
sebelumnya. Variabel-variabel yang dipilih hanyalah variabel
yang dapat mencirikan objek yang akan dikelompokkan dan
secara spesifik harus sesuai dengan tujuan analisis cluster.

2.3.2 Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian outlier,
mengukur kesamaan, dan standarisasi data.




8

1. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya.
Outlier dapat digambarkan sebagai observasi yang secara nyata
kebiasaan, tidak mewakili populasi umum, dan adanya undersampling
dapat pula memunculkan outlier. Outlier menyebabkan menyebabkan
struktur yang tidak benar dan cluster yang terbentuk menjadi tidak
representatif.
2. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster.
Kesamaan antar objek merupakan ukuran korespondensi antar objek.
Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran
jarak, dan ukuran asosiasi.
a. Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik, namun
jarang digunakan karena titik bertnya pada nilai suatu pola tertentu,
padahal tisik berat analisis cluster adalah besarnya objek.
Kesamaan antar objek dapat dilihat dari koefisien korelasi antar
pasangan objek yang diukur dengan beberapa variabel.
b. Ukuran Jarak
Merupakan ukuran yang paling sering digunakan. Diterapkan untuk
data berskala metrik. Sebenarnya merupakan ukuran
ketidakmiripan, dimana jarak yang besar menunjukkan sedikit
kesamaan sebaliknya jarak yang pendek/kecil menunjukkan bahwa
suatu objek makin mirip dengan objek lain. Bedanya dengan
ukuran korelasi adalah bahwa ukuran jarak fokusnya pada besarnya
nilai. Cluster berdasarkan ukuran korelasi bisa saja tidak memiliki
kesamaan nilai tapi memiliki kesamaan pola, sedangkan cluster
dberdasrkan ukuran jarak lebih memiliki kesamaan nilai meskipun
polanya berbeda.
Ada beberapa tipe ukuran jarak antara lain jarak Euclidian, jarak
city-Box, dan jarak Mahalanobis. Ukuran yang paling sering
digunakan adalah jarak Euklidian. J arak Euclidian adalah besarnya
jarak suatu garis lurus yang menghubungkan antar objek.



9

c. Ukuran Asosiasi
Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik
(nominal atau ordinal).
3. Standarisasi Data
a. Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah konversi
setiap variabel terhadap skor atandar ( dikenal dengan Z score)
dengan melakukan substraksi nilai tengan dan membaginyadengan
standar deviasi tiap variabel.
b. Standarisasi Data
Berbeda dengan standarisasi variabel, standarisasi ndata dilakukan
terhadap observasi/objek yang akan dikelompokkan.

2.3.3 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster
Seperti hal teknik analisis lain,analisis cluster juga menetapkan
adanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu :
1. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh
sekelompok sampel. Sampel yang digunakan dalam analisis ckuster
harus dapat mewakili populasi yang ingin dijelaskan, karena analisis
ini baik jika sampel representatif. Jumlah sampel yang diambil
tergantung penelitinya, seorang peneliti harus yakin bahwa sampil
yang diambil representatif terhadap populasi.
2. Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangat
diperhatikan dalam analisis cluster karena hal itu berpengaruh,
sehingga variabel-variabel yang bersifat multikolinieritas secara
eksplisit dipertimbangkan dengan lebih seksama.




10

2.3.4 Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan
secara keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam pembentukan
cluster dan menentukan jumlah cluster yang akan dibentuk. Keduanya
mempunyai implikasi substansial tidak hanya pada hasil yang diperoleh
tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.
Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif
cluster terhadap variasi dalam cluster. Dua metode paling umum dalam
algoritma cluster adalahmetode hirarkhi dan metode non hirarkhi.
Penentuan metode mana yag akan dipakai tergantung kepada peneliti dan
konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep
yang berlaku.
Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan
metode hirarkhi adalah cepat dalam proses pengolahan sehingga
menghemat waktu, namun kelemahannya metode ini dapat menimbulkan
kesalahan. Selain itu tidak baik diterapkan untuk menganalisis sampel
dengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebih
daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data
outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevan
atau variabel yang tidak tepat. Keuntungannya hanya dengan
menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi
untuk titik bakal random secara nyata lebih buruk dari pada metode
hirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode
ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan
metode non hirarkhi.
1. Metode Hirarkhi
Tipe dasar dalam metode ini adalah aglomerasi dan
pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya
dianggap sebagai cluster tersendiri sehingga terdapat cluster sebanyak
jumlah observasi. Kemudian dua cluster yang terdekat kesamaannya
digabung menjadi suatu cluster baru, sehingga jumlah cluster
berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan
dimulai dari satu cluster besar yang mengandung seluruh observasi,
selanjutnya observasi-observasi yang paling tidak sama dipisah dan


11

dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga
tiap observasi menjadi cluster sendiri-sendiri.
Hal penting dalam metode hirarkhi adalah bahwa hasil pada
tahap sebelumnya selalu bersarang di dalam hasil pada tahap
berikutnya, membentuk sebuah pohon.
Ada lima metode aglomerasi dalam pembentukan cluster, yaitu :
a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua
objek yang dipisahkan dengan jarak paling pendek maka keduanya
akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini
dikenal pula dengan nama pendekatan tetangga terdekat.
b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak
maksimum. Dalam metode ini seluruh objek dalam suatu cluster
dikaitkan satu sama lain pada suatu jarak maksimuma atau dengan
kesamaan minimum.
c. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar observasi. pengelompokan
dimulai dari tengan atau pasangan observasi dengan jarak paling
mendekati jarak rata-rata.

2. Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi adalah bagaimana
memilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster
terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah
observasi pertama dalam set data tanpa missing value. Bakal kedua adalah
observasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari
bakal pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi, yaitu :




12

a. Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan menyertakan
seluruh objek dalam jarak tertentu. J ika seluruh objek dalam jarak
tersebut disertakan, bakal cluster kedua terpilih, kemudian proses terus
berlangsung seperti sebelumnya.
b. Parallel Threshold
Metode ini memilih beberapa bakal cluster secara simultan pada
permulaannya dan menandai objek-objek dengan jarak permulaan ke
bakal terdekat.
c. Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali
pada penandaan ulang terhadap objek-objek.
Hal penting lain dalam tahap keempat adalah menentukan
jumlah cluster yang akan dibentuk.Sebenarnya tidak ada
standar,prosedur pemilihan tujuan eksis. Karena tidak ada kriteria
statistik internal digunakan untuk inferensia, seperti tes
signifikansipada teknik multivariat lainnya, para peneliti telah
mengembangkan beberapa kriteria dan petunjuk sebagai pendekatan
terhadap permasalahan ini dengan memperhatikan substansi dan aspek
konseptual.

2.3.5 Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk
menamai dan menandai dengan suatu label yang secara akurat dapat
menjelaskan kealamian cluster. Proes ini dimulai dengan suatu ukuran yang
sering digunakan yaitu centroid cluster.
Membuat profil dan interpretasi cluster tidak hanya tidak hanya
untuk memoeroleh suatu gambaran saja melainkan pertama, menyediakan
suatu rata-rata untuk menilai korespondensi pada cluster yang terbentuk,
kedua, profil cluster memberikan araha bagi penilainan terhadap signifikansi
praktis.


13


2.3.6 Tahap Keenam: Proses Validasi dan Pembuatan Profil (PROFILING)
Cluster
1. Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan
dari analisis cluster dapat mewakili populasi dan dapat digeneralisasi
untuk objek lain. Pendekatan ini membandingkan solusi cluster dan
menilai korespondensi hasil. Terkadang tidak dapat dipraktekkan
karena adanya kendala waktu dan biaya atau ketidaktersediaan ibjek
untuk analisis cluster ganda.
2. Pembuatan Profil ( PROFILING) Solusi Cluster
Tahap ini menggambarkan karakteristik tiap cluster untuk
menjelaskan cluster-cluster tersebut dapat dapat berbeda pada dimensi
yang relevan. Titik beratnta pada karakteristik yang secara signifikan
berbeda antar clustre dan memprediksi anggota dalam suatu cluster
khusus.
Secara keseluruhan proses analisis cluster berakhir setelah keenam
tahap ini dilalui. Hasil analisis cluster dapat digunakan untuk berbagai
kepentingan sesuai dengan materi yang dianalisis.

2.4 Kesamaan Ukuran (Similarity measures)
Banyak usaha-usaha untuk langkah suatu struktur kelompok yang
cukup sederhana dari suatu kumpulan data kompleks yang perlu suatu
ukuran pada pendekatan atau kesamaan. Di sana sering terdapat ide
bagus pada kesubjektifan termasuk d alam pemilihan dari suatu kesamaan
ukuran. Anggapan-anggapan penting termasuk sifat dari variabel-
variabelnya (diskrit, kontinu, biner) atau skala-skala pada pengukuran
(nominal, ordinal, interval, rasio) dan subjek masalah keilmuan
Karena bentuk-bentuk (satuan-satuan atau kasus-kasus) di cluster,
didekatkan biasan ya yang diindikasikan dengan beberapa urutan pada
jarak. Dilain pihak, variabel-variabel biasanya dikelompokkan berdasarkan
koefisien korelasi atau seperti ukuran assosiasi.


14

Jarak-jarak dan kesamaan koefisien-koefisien untuk pasangan
bentuk-bentuk
Didiskusikan notasi jarak pada bab I, bagian 1.4, mengulang kembali
jarak Euclid (garis lurus) antara dua pengamatan p-dimensi (bentuk-
bentuk) x =|x
1
,x
2
,x
3
,,x
p
]
t
dan y =|y
1
,y
2
,y,,y
p
]
t
adalah, dari (1-12 )

(12-1)
Jarak secara statistiknya antara dua pengamatan yang sama yaitu
bentuknya, (lihat (1-22))
(12-2)
Biasanya,A = S
-1
di mana S
-1
memuat variansi-kovariansi sampel.
Bagaimana pun, tanpa ilmu sebelumnya pada perbedaan kelompok-
kelompok, terdapat kuantitas sampel yang tak dapat dihitung. Untuk
alasan ini jarak Euclid sering dilebihkan untuk clustering. Ukuran jarak
lainnya adalah metrik Minkowski (Minkowski Metric)
(12-3)
Untuk m =1,d(x,y) mengukur jarak city-block antara dua titik
dalam p-dimensi; untuk m = 2 ,d(x,y) menjadi jarak Euclid. Umumnya,
bermacam-macam mengubah bobotnya yang diketahui perbedaan lebih besar
dan lebih kecil.
Dimanapun mungkin, ini dapat menjadi alat untuk menggunakan
jarak sesungguhnya, ini adalah jarak yang memenuhi sifat jarak pada
(1-25) untuk objek clustering. Dilain pihak, banyak algoritma clustering akan
menerima secara subjektif yang diberikan jumlah jarak yang mungkin
tidak memenuhi, untuk contoh ketaksamaan segitiga.
Contoh 12.1: tabel 12.1 memberikan jarak Euclid antar pasangan pada
22 kegunaan perusahaan publik U.S yang berdasarkan pada datanya dalam
tabel 12.5 setelah ini distandarisasikan. Karena ukuran matriksnya besar, ini


15

sulit untuk, memvisualisasikan pilihan perusahaan-perusahaan yang
mendekati bersama-sama (sama). Bagaimanapun, metode grafiknya dari
shading memberikan untuk penemuan cluster pada perusahaan-perusahaan
yang sama secara mudah dan cepat.
Jarak pertama disusun kedalam kelas-kelas umum (jelasnya, 15 atau
lebih sedikit) yang berdasarkan pada besar atau jaraknya. Selanjutnya semua
jarak antar suatu kelas yang diketahui diganti dengan suatu simbol yang
umum dengan suatu perbedaan khusus. Simbol-simbol yang
mengkorespondensikan untuk menutupi (patches) dari dark shading.
Dari gambar 12.2 dilihat bahwa bentuk perusahaan 1, 18, 19
dan 14 sebuah kelompok; bentuk perusahaan 22, 10, 13, 20 dan 4
sebuah kelompok; bentuk perusahaan 9 dan 3 sebuah kelompok; bentuk
perusahaan 3 dan 6 sebuah kelompok dan seterusnya. Kelompok (9, 3)
dan (3, 6) saling melengkapi, begitu pula kelompok lain dalam
diagramnya, perusahaan-perusahaan 11, 5 dan 17 kelihatan berdiri sendiri.
Karena bentuk-bentuknya tak dapat direpresentasikan secara berarti
pengukuran p-dimensi, pasangan-pasangan pada bentuk-bentuk sering
dibandingkan pada basisnya dari kemunculan atau takkemunculan pada
karakteristik-karakteristik khususnya. Bentuk-bentuk yang sama lebih
mempunyai karakteristik-karakteristik pada umumnya daripada bentuk-
bentuk ketaksamaan. Kemunculan atau ketakmunculan dari suatu
karakteristik dapat digambarkan secara matematik dengan pengenalan
suatu variabel biner (binary variable), yang mengasumsikan nilai 1 jika
karakteristiknya muncul dan nilai 0 jika karakteristiknya tak muncul.
Untuk p = 5 variabel biner, untuk lebih jelasnya, nilai score
variabelnya untuk dua bentuk i dan k mungkin disusun sebagai berikut,



16

Dalam kasus ini terdapat dua yang cocok dengan 1-1, satu yang
cocok dengan 0-0 dan tidak cocok.

Misalkan x
ij
nilainya menjadi (1 atau 0) dari variabel biner ke-j pada ij
bentuk ke-i dan x
kj
nilainya menjadi (1 atau 0) dari variabel ke-j pada
bentuk ke-k, j =1, 2, , p. Konsekuensinya,
(12-4)
Dan jarak kuadrat Euclid, memberikan suatu
perhitungan pada jumlah dari ketakcocokan. Suatu jarak besar
mengkorespondensikan banyaknya ketakcocokan, ini berarti, bentuk-
bentuk ketaksamaan. Dari pemaparan diatas, jarak kuadrat antara bentuk i
dan k menjadi,

Meskipun suatu jarak berdasarkan pada (12-4) mungkin
digunakan untuk ukuran yang sama, ini mendapatkan dari pembobotan
yang sama 1-1 dan 0-0.
Dalam beberapa kasus kecocokan 1-1 mengindikasikan lebih kuat
dari kesamaan daripada 0-0. Untuk lebih jelasnya, ketika
pengelompokkan orang-orang, keterangan bahwa dua orang keduanya
membaca Yunani kuno lebih kuat keterangannya pada kesamaan daripada
ketakmunculan pada kemampuan ini. J adi ini mungkin beralasan untuk tak
menghitung kecocokan 0-0 atau meskipun diabaikan secara
kelengkapannya. Penyediaan untuk perbedaan perlakuan pada 1-1 dan 0-0,
maksud umum untuk pendefinisian kesamaan koefisien yang diusulkan.
Untuk memperkenalkan maksud ini, misalkan disusun jumlah
dari kecocokan dan ketakcocokan untuk bentuk i dan k dalam bentuk tabel
kontingensi berikut,


17


(12-5)
Dalam tabel ini, a mempresentasikan jumlah 1-1, b adalah jumlah
1-0 dan seterusnya. Diketahui lima pasangan pada keluaran (outcomes)
biner di atas, a =2 dan b = c = d = 1. Tabel 12.2 memberikan
kesamaan koefisien umum yang didefinisikan dalam bentuk-bentuk pada
jumlah dalam (12-5). Sebuah alasan pemikiran yang diikuti beberapa
definisi.





18


Koefisien 1, 2 dan 3 dalam tabel 12.2 memperoleh suatu
hubungan monotonikmonotonic. Misalkan koefisien 1 dihitung untuk
dua tabel kontingensi, tabel I dan tabel II. Maka jika

dan juga

Koefisien 3 paling tidak akan menjadi besar untuk tabel I seperti
untuk tabel II. Koefisien 5, 6 d an 7 (tabel 12.2) juga menyimpan
urutan kerelatifannya (lihat latihan 12.4).
Monotonitas monotonicity penting karena beberapa langkah
clustering tak berpengaruh jika definisinya pada kesamaan diubah dalam
suatu cara bahwa lembaran pengurutan kerelatifannya pada kesamaan tak
berubah. Langkah secara hirarki hubungan tunggal dan lengkap
didiskusikan dalam bagian 12.3. Untuk metode-metodenya beberapa
pilihan pada koefisien 1, 2 dan 3 (dalam tabel 12.2) langkah
pengelompokkan yang sama. Dengan cara yang sama, beberapa pilihan
pada koefisien-koefisien 5, 6, dan 7 hasil pengelompokkan identikal.
Contoh 12.2: Misalkan lima individu mempunyai karakteristik-
karakteristik sebagai berikut,


19



Nilai-nilai untuk individu 1 dan 2 pada p =6 variabel biner adalah

Dan jumlah kecocokan dan ketakcocokan diindikasikan dalam
susunan dua cara,


20



Kesamaan koefisien 1, yang memberikan bobot yang sama untuk
kecocokan, dihitung
.
Selanjutnya dengan kesamaan koefisien 1, dihitung sisa jumlah
kesamaan untuk pasangan individu. Ditampilkan dalam matriks simetris
berukuran 5 x 5

Berdasarkan pada besar atau jarak dari koefisiennya, dapat
disimpulkan individu 2 dan 5 paling sama (serupa) dan individu 1 dan 5
paling sedikit sama. Beberapa pasangan berada antara keekstrimannya.
J ika dibagi individu-individu ke dalam 2 sub kelompok yang sama relatif


21

pada basisnya dari kesamaan jumlahnya, memungkinkan membentuk sub
kelompoknya (1 3 4) dan (2 5).
Catatan bahwa x
3
=0 memenuhi ketakmunculan secara kasat mata
jadi,3 dua orang mempunyai pandangan yang berbeda, akan hasil 0-0.
Konsekuensinya, ini mungkin tidak tepat untuk menggunakan k esamaan
koefisien 1, 2 atau 3 karena koefisien-koefisiennya memberikan bobot
yang sama unutk 1-1 dan 0-0.
Dideskripsikan konstruksi dari jarak dan kesamaannya. Ini selalu
mungkin untuk mengkontruksikan kesamaan dari jarak. Untuk contoh,
himpunan
(12-6)
Dimana adalah kesamaan antara bentuk i dan k dan
d
ik
mengkorespondensikan jarak.
Bagaimanapun, jarak-jarak harus memenuhi (1-25) tidak dapat
selalu dikonstruksikan dari kesamaan-kesamaan. Gower [10, 11] telah
menunjukkan, ini dapat berlaku jika matriks dari kesamaan-k esamaannya
definit tak negatif, dengan keadaan definit tak negatif dan dengan sk ala
kesamaan maksimum sedemikian hingga S tt


(12-7)
mempunyai sifat jarak.

Kesamaan dan Assosiasi Ukuran untuk Pasangan-Pasangan
pada Variabel-variabel
Akan didiskusikan kesamaan ukuran untuk bentuk-bentuk yang di
atas. Dalam beberapa penerapan, variabel-variabel yang harus
dikelompokkan daripada bentuk-bentuknya. Kesamaan ukuran untuk
variabel-variabel sering mengambil bentuk-bentuknya dari koefisien
korelasi sampel. Selanjutnya, dalam beberapa penerapan clustering,
korelasi-korelasi negatif diganti dengan memutlakkan nilainya. Karena


22

variabel-variabel biner, datanya dapat disusun kembali dalam bentuk
suatu tabel kontingensi. Bagaimanapun, variabel-variabelnya, daripada
bentuk-bentuknya, menggambarkan kategori-kategorinya. Untuk setiap
pasangan pada variabel-variabel, terdapat n bentuk yang dikategorikan
dalam tabel, dengan pengkodean yang biasa 0 dan 1, tabelnya menjadi
sebagai berikut

(12-8)
Untuk lebih jelasnya variabel i sama dengan 1 dan variabel k
sama dengan 0 untuk b pada n bentuk. Perhitungan hasil korelasi momen
yang biasa diterapkan ke variabel biner dalam tabel kontingensinya pada
(12-8) memberikan (lihat latihan 12.3),
(12-9)
Bilangan ini dapat diambil sebagai suatu ukuran dari kesamaan
antara dua variabel. Koefisien korelasi dalam (12-9) direlasikan ke
chi-kuadrat statistik r
2
=
X
n
n
untuk pengujian kebebasan dari kategori dua
variabel. Untuk n yang sudah ditetapkan, besarnya suatu kesamaan (atau
korelasi) konsisten dengan ketidakbebasan.
Diketahui dalam tabel (12-8), ukuran dari assosiasi (atau
kesamaan) secara tepat menganalogikan satu daftar dalam tabel 12.2
yang dapat dikembangkan. Hanya mengubah yang diperlukan yaitu
pensubstitusian pada n (jumlah bentuk) dari p (jumlah variabel).




23

2.5 Hierarchical Clustering Methods ( Metode Pengelompokan Hierarki )
Tidak semua kemungkinan dalam pengelompokan (clustering)
dapat diselidiki secara keselu ruhan, meski dengan media pen ghitung
tercepat dan terbesar. Oleh karena itu, berbagai variasi dari algoritma
clustering muncul sehingga dapat menemukan kelompok yang cocok
tanpa menyelidiki semua bentuk yang mungkin. Teknik hierarchical
clustering yang dapat digunakan antara lain deret gabungan yang berturut-
turut (series of successive mergers) dan deret bagian yang berturut-turut
(series of successive divisions). Metode hirarki aglomeratif berawal dari
objek individual. Dengan demikian akan terdapat proses awal sebanyak
objek cluster (kelompok). Objek-objek yan g paling banyak memiliki
kesamaan adalah yang pertama dikelompokkan, dan ini sebagai grup
awal.
Akan tetapi, seiring berkurangnya kesamaan diantara objek-
objeknya, maka semua subgroup tergabung dalam suatu kelompok tunggal
single cluster. Metode hirarki yang terbagi (divisive hierarchical methods)
bekerja pada arah yang berlawanan. Objek-objek dalam grup tunggal awal
terbagi menjadi dua subgrup dimana objek-objek pada satu subgroup
terletak jauh dari objek-objek pada subgroup yang lain. Kedua subgroup
ini kemudian dibagi atas subgroup-subgrup yang tidak sama. Proses ini
berlanjut hingga terdapat banyak subgroup sebanyak objek, yakni hingga
setiap objek membentuk sebuah grup.
Hasil dari kedua metode (agglomerative dan divisive) dapat
digambarkan dalam diagram dua dimensi yang dinamakan dendogram.
Dendogram mengilustrasikan penggabungan ataupun pembagian yang telah
dibuat pada proses successive (berturut-turut).
Pada bagian ini akan lebih fokus pada prosedur hirarki
agglomerative dan bagiannya yaitu metode Linkage. Metode Linkage
cocok untuk item clustering, sebagaimana variabel. Namun hal ini tidak
untuk semua prosedur hirarki agglomerative. Harus diperhatikan beberapa
kemungkinan yaitu single linkage (jarak minimum atau tetangga


24

terdekat), complete linkage (jarak maksimum atau tetangga terjauh), serta
average linkage (jarak rata-rata). Gabungan dari kelompok-kelompok
dengan tiga kriteria linkage diilustrasikan sebagai berikut:

Dari gambar di atas dapat dilihat bahwa hasil single linkage
ketika grup tergabung berdasarkan jarak antara anggota-anggota yang
terdekat. Complete linkage terjadi ketika grup tergabung berdasarkan jarak
antar anggotanya yang paling berjauhan. Sedangkan untuk average
linkage, grup tergabung berdasarkan jarak rata-rata antara pasangan
anggota-anggotanya dalam masing-masing himpunan.
Berikut adalah langkah-langkah dalam algoritma pengelompokan
hirarki agglomeratif (agglomerative hierarchical clustering algorithm)
untuk mengelompokkan N objek (bagian atau variabel):
1. Dimulai dengan N kelompok, masing-masing mengandung kesatuan
yang tunggal dan matriks simetris N x N dari jarak (kesamaan),D={d
ik
}
2. Dicari matriks jarak untuk pasan gan kelompok terdekat (yang paling

banyak kesamaan). Dimisalkan jarak antara kelompok U dan V yang
paling sama dinotasikan dengan d
uv
3. Gabungkan kelompok U dan V. Gabungan tersebut dinotasikan
dengan (UV). Letakkan objek pada matriks jarak dengan:
a. menghapus baris dan kolom yang berkorespondensi dengan
kelompok U dan V


25

b. menambahkan baris dan kolom yang terdapat jarak antara
kelompok (UV) dan kelompok yang tertinggal.
4. Ulangi langkah 2 dan 3 sebanyak N-1 kali. (Semua objek akan berada
pada single cluster saat algoritma terakhir). Catat identitas dari
cluster yang tergabung dan levelnya (jarak atau kesamaannya)
dimana gabungannya ditempatkan.
(12-10)

2.5.1 Single Linkage
Input pada algoritma single linkage dapat berupa jarak atau
kesamaan antara pasangan-pasangan objek. Grup dibentuk dari
kesatauan individu dengan menggabungkan tetangga terdekatnya,
dimana kata tetangga terdekat mengandung arti jarak terkecil atau
kesamaan terbesar (terbanyak).
Sebagai langkah awal kita harus menemukan jarak terkecil pada
D={d
ik
} dan menggabungkan objek-objek yang saling berkorespondensi,
katakanlah U dan V, untuk mendapatkan kelompok (UV). Untuk
langkah ketiga pada algoritma umum (12-10), jarak antara di antara
(UV) dan kelompok yang lainnya, katakanlah W, dihitung dengan cara

Di sini, nilai d
uw
dan d
vw
adalah jarak antara tetangga terdekat dari
kelompok U

dan W

serta kelompok V dan W, begitupun sebaliknya .

Hasil dari pengelompokan single linkage dapat digambarkan secara
grafis melalui dendogram atau diagram pohon. Cabang-cabang pada
pohon melambangkan kelompok (clusters). Cabang-cabang tersebut
tergabung pada poros node (simpul) yang posisinya sepanjang jarak (atau
kesamaan) yang menunjukkan level dimana gabungan terjadi.
Dendogram untuk beberapa kasus spesifik diilustrasikan pada
contoh-contoh sebagai berikut:



26

Contoh 1
Untuk mengilustrasikan algoritma single linkage, kita misalkan
jarak antara pasangan dari lima objek diduga sebagai berikut:

Perlakukan setiap objek sebagai kelompok (cluster),
pengelompokan (clustering) dimulai dengan menggabungkan dua item
terdekat. Sehingga

Objek 5 dan 3 digabungkan untuk membentuk kelompok (35).
Alat untuk level selanjutnya dalam pengelompokan ini adalah
dibutuhkan jarak antara kelompok (35) dan objek sisa, 1, 2, 3 dan 4.
Jarak tetangga terdekat adalah

Hapus baris dan kolom dari D yang bekorespondensi dengan
objek # dan 5 dan tambahkan baris dan kolom untuk kelompok (35),
maka diperoleh matriks jarak yang baru berikut

Jarak terkecil antara pasangan-pasangan cluster (kelompok)
sekarang adalah dan gabungkan kelompok (1) dengan


27

kelompok (35) untuk mendapatkan kelompok berikutnya. Kemudian
dihitung

Matriks jarak untuk pengelompokan pada level selanjutnya adalah

Jarak minimum tetangga terdekat antara pasangan-pasangan
kelompok adalah dan kemudian gabungkan objek 4 dan 2
untuk mendapatkan kelompok (24).
Pada titik ini diperoleh dua kelompok yang berbeda, (135) dan
(24). Jarak tetangga terdekatnya adalah

Maka matriks jarak terakhir yang diperoleh adalah

Akibatnya, kelompok (135) dan (24) tergabung untuk
membentuk single cluster (kelompok tunggal) dari kelima objek,
(12345), dimana jarak tetangga terdekatnya adalah 6.



28

Dendogram di atas menggambarkan pengelompokan hirarki
(hierarchical clustering) telah disimpulkan. Pengelompokan, dan level
jarak yang terjadi, diiliustrasikan melalui dendogram tersebut.
Contoh 2
Misalkan barisan persetujuan pada tabel 12.4 menunjukkan
kedekatan antara nomor 1-10 dalam 11 bahasa. Untuk
mengembangkan matriks jaraknya, kita mendasarkan persetujuan dari
gambar persetujuan yang sempurna dari 10, dimana setiap bahasa
memiliki karakteristik masing-masing. Jarak selanjutnya adalah sebagai
berikut:

Langkah pertama adalah mencari jarak minimum antara
pasangan bahasa (kelompok). Jarak minimum adalah 1, terjadi antara
bahasa Denmark dan J erman, Italia dan Perancis, serta Italia dan
Spanyol. Penomoran bahasa dimana hal ini muncul melintasi puncak
barisan, diperoleh

Dengan maka yang dapat digabungkan hanya kelompok 8 dan
7 atau 76 kelompok 8 dan 7. Sedangkan kelompok 6, 7, dan 8 pada
level 1 tidak dapat digabungkan. Pertama, dipilih untuk
menggabungkan 8 dan 6, kemudian mengentri matriks jarak dan


29

menggabungkan 2 dan 3 untuk memperoleh kelompok (68) dan (23).
Penghitungan di atas menghasilkan dendogram sebagai berikut:

Dari dendogram dapat dilihat bahwa bahasa Norwegia dan
Denmark dan juga Perancis dan Italia, tergabung berdasarkan jarak
minimum (kesamaan maksimum). Ketika kemungkinan jarak
meningkat, bahasa Inggris ditambahkan ke grup Norwegia-Denmark
dan Spanyol tergabung dengan grup Perancis-Italia.Perhatikan bahwa
Hongaria dan Finlandia lebih banyak kesamaan diantara keduanya
dibanding kelompok bahasa lainnya. Akan tetapi, dua kelompok bahasa
ini tidak tergabung sampai jarak diantara tetangga terdekatnya
meningkat sepenuhnya. Pada akhirnya, semua kelompok bahasa
tergabung dalam single cluster (kelompok tunggal) dengan tetangga
terdekat yang terbesar yaitu 9.

2.5.2 Complete Linkage
Prosedur pengelompokan complete-linkage hampir sama dengan
single linkage, dengan satu pengecualian. Pada setiap tingkat, jarak
(kesamaan) antar kelompok ditentukan dengan jarak (kesamaan)
anatara dua elemen, satu dari setiap kelompok, yakni yang paling


30

jauh. Dengan demikian complete linkage menjamin bahwa dalam
seluruh item pada kelompok terdapat jarak maksimum (atau kesamaan
minimum).
Algoritma aglomeratif umum dimulai dengan menemukan entri
(elemen) dalam D={d
ik
} dan menggabungkan objek yang
berkorespondensi, misalkan U dan V, untuk membentuk kelompok
(UV). Pada langkah ketiga dalam algoritma umum (12-10), jarak
antara (UV) d an kelompok lainnya, misalkan W ditentukan sebagai
berikut:

Dimana d
uw
dan d
vw
merupakan jarak terjauh antara anggota
kelompok U dan W serta kelompok V dan W, begitupun sebaliknya.
Contoh 3
Misalkan matriks jarak berikut adalah matriks jarak pada Contoh
1. Dalam kasus ini

Pada tingkatan pertama, objek 3 dan 5 tergabung jika
diantaranya paling banyak kesamaan. Hal ini menghasilkan kelompok
(35). Pada tingkatan kedua, dapat dihitung

dan matriks jarak yang dimodifikasi sebagai berikut:


31


Penggabungan selanjutnya terjadi antara grup paling sama, 2
dan 4, untuk membentuk kelompok (24). Pada tingkatan ketiga
diperoleh

dan matriks jaraknya sebagai berikut:

Penggabungan berikutnya membentuk kelompok (124). Pada
tingkatan akhir, kelompok (35) dan (124) tergabung dalam kelompok
tunggal (single cluster) (12345) pada level

Dendogram dari kasus ini adalah sebagai berikut:



32

2.5.3 Average Linkage
Average Linkage didasarkan pada rata-rata jarak dari seluruh
objek pada suatu cluster dengan seluruh objek pada cluster lain.
Algoritma yang digunak an dalam Average Linkage hampir sama
dengan algoritma agglomerative hierarchical clustering. Kita mulai
dengan mencari jarak dari matrik D={d
ik
}. Untuk mencari objek
terdekat, sebagai contoh U dan V, objek ini digabung ke dalam
bentuk cluster (UV). Untuk tahap ketiga, jarak antara (UV) dan
cluster W adalah:

Dimana d
ik
adalah jarak antara objek I pada cluster (UV) dan objek
k pada cluster W , dan N
(UV)
dan N
w
adalah jumlah dari item-item pada
cluster (UV) dan W.
Contoh:
Misalkan kita ambil matrik di contoh 12.4

Pertama kita cari jarak min, yaitu
Objek 5 dan 3 digabung ke bentuk cluter (35). Lalu akan
dicari jarak antara cluster (35) terhadap 1, 2, dan 4.


33


Dengan menghapus baris dan kolom dari matrik korespondensi
D terhadap objek 3 dan 5 dan dengan menambahkan baris dan
kolom untuk cluster (35), kita akan memperoleh matrik baru.

Penggabungan berikutnya adalah antara 2 dan 4,

Dan matrik jaraknya

Penggabungan berikutnya menghasilkan cluster (124). Pada
tahap terakhir, grup (35) dan (124) akan digabung pada cluster
tunggal (12345) dimana

Dendogramnya adalah sebagai berikut:


34



2.6 Metode Pengelompokkan Nonhierarchical
Tipe Clustering
a. Metode pengelompokan pada dasarnya ada dua, yaitu Hierarchical
Clustering Method) dan Non Hierarchical Clustering Method).
b. Metode pengelompokan hirarki digunakan apabila belum ada
informasi jumlah kelompok. Sedangkan metode pengelompokan Non
Hirarki bertujuan mengelompokan n obyek ke dalam k kelompok
( k <n).
c. Salah satu prosedur pengelompokan pada non hirarki adalah dengan
menggunakan metode K-Means.

2.6.1 Metode K-means
Metode ini merupakan metode pengelompokan yang
bertujuan mengelompokan obyek sedemikian hingga jarak tiap-tiap
obyek ke pusat kelompok di dalam satu kelompok adalah minimum.
Pada metode ini banyaknya klaster secara pasti harus sudah diketahui.
Sebuah cara sederhana yang dapat digunakan untuk menentukan
banyak klaster yang akan digunakan adalah plot dari jumlah kuadrat
dalam klaster (within sum of squares) dengan banyak klaster yang
mana hasilnya mirip dengan screeplot dalam analisis faktor.
Dasar pengelompokan dalam metode k means adalah
menempatkan objek berdasarkan rata-rata (mean) klaster terdekat.
Oleh karena itu, metode ini bertujuan untuk meminimumkan error


35

akibat partisi n objek ke dalam k klaster. Error partisi disebut juga
sebagai fungsi objektif.
Secara umum algoritma K- Means dapat disusun sebagai berikut:

Algoritma K-Means
a. Tentukan Jumlah K cluster.
b. Cari data yang lebih dekat dengan pusat cluster. Hitung jarak
Euclidean masing-masing item dari pusat cluster. Tentukan
kembali pusat cluster.
c. Ulangi langkah 2 sampai tidak ada yang berpindah posisi.
Contoh 12.11
Misalkan kita mempunyai dua variable X
1
dan X
2
, dan
masing-masing terdiri dari 12 item A, B, C, D. data nya adalah
sebagai berikut.


36


Objek-objek diatas akan dibagi kedalam K = 2 cluster.
Dengan Metode K =2-means kita akan mempartisi kedalam dua
cluster, misalkan (AB) dan (CD), koordinat dari pusat cluster (rata-
rata) adalah sebagai berikut:
koordinat pusat cluster

Pada tahap kedua, kita menghitung jarak Euclidean masing-
masing item dari grup pusat dan kembali menentukan item ke
grup terdekat. Jika item dipindahkan dari posisi awal, pusat
cluster harus diperbarui sebelum diproses. Jarak kuadratnya adalah
sebagai berikut:

terdekat terhadap cluster (AB) daripada cluster (CD), proses berlanjut.



37

akibatnya, B kembali ditentukan terhadap cluster (CD)
sehingga diberikan cluster (BCD) dan koordinat pusat yang baru
adalah:

Kemudian masing-masing item di cek kembali. Hasil
penghitungan jarak kuadrat adalah sebagai berikut:

Masing-masing item telah ditentukan terhadap cluster
dengan pusat terd ekat dan proses dihentikan. Akhirnya, K=2
cluster adalah A dan (BCD).

2.7 Multidimensional Scaling
Teknik multidimensional scaling digunakan pada permasalahan
berikut : untuk kesamaan(jarak) himpunan obsevasi antara setiap
pasangan sebanyak N item, temukan gambaran dari item tersebut
dalam dimensi yang sedikit sedemikian sehingga kedekatan antar item
hampir sesuai (nearly match) dengan jarak aslinya.
Hal ini san gatlah mungkin untuk menyesuaikan secara tepat
urutan jarak asli.


38

Akibatnya, teknik scaling ini mencoba untuk menemukan
susunan dalam qN-1 dimensi sedemikian sehingga kecocokannya
sedekat mungkin. Ukuran numerik kedekatan tersebut dinamakan stress.
Kemungkinan untuk menyusun sebanyak N item dalam dimensi
yang rendah dalam suatu koordinat system hanya dengan menggunakan
urutan tingkatan dari N(N-1)/2 jarak aslinya dan bukan magnitudes-nya
(besarnya). Ketika informasi ordinal (nomor urutan) digunakan untuk
memperoleh gambaran secara geometris, maka prosesnya disebut dengan
nonmetric multidimensional scalling. J ika magnitudes sebenarnya dari
jarak asli digunakan untuk memperoleh gambaran dalam q-dimensi,
maka prosesnya dinamakan metric multidimensional scalling.[ ]
Teknik scaling ini dibangun oleh Shepard (lihat [18] untuk kilas
balik dari pekerjaan pertama), Kruskal [14,15,16 ] dan lain-lain.
Ringkasan sejarah, teori dan aplikasi multidimensional scaling tercakup
dalam[22]. Didalam multidimensional scaling selalu menggunakan
computer, dan beberapa program computer yang menyediakan untuk
tujuan ini.
Algoritma Dasar
Untuk N item, maka terdapat M=N(N-1)/2 kesamaan (jarak )
antara pasangan item yang berbeda. J arak ini merupakan data utama.
(dalam kasus dimana kesamaannya tidak dapat dengan mudah diukur,
contohnya kesamaan antara dua warna, urutan tingkatan dari suatu
kesamaan merupakan data utama).
Asumsikan no ties, maka kesamaannya dapat disusun dalam
urutan yang meningkat sebagai
(12-15)
Disini S
i1k1
adalah M kesamaan terkecil. Sedangkan subscript i
1
k
1
menunjukan pasangan item yang paling sedikit sama ; yaitu item
dengan rank 1 dalam urutan kesamaan. Begitupun dengan subscript yang
lain. Misalkan kita ingin menemukansusunan dalam q-dimensi dari N


39

item sedemikian sehingga jarak,J
k
(q)
, antar pasangan sesuai dengan
urutan dalam persamaan (12-15). J ika jaraknya dibuat dalam cara yang
berkorespondensi dengan persamaan (12-15), maka kesesuaian yang
sempurna terjadi ketika
(12-16)
Yakni, urutan menurun dari jarak dalam q-dimensi secara tepat
menganalogikan dengan susunan yang meningkat dari kesamaan awal.
Sepanjang urutan dalam persamaan (12-16) dipertahankan, magnitude
(besar) tidaklah penting. Untuk nilai q yang diberikan, tidaklah mungkin
untuk menemukan susunan titik-titik yang jarak pasangannya
dihubungkan secara monoton dengan kesamaan aslinya. Kruskal (14)
mengemukakan ukuran kedekatan (stress) yang didefinisikan sebagai :
(12-17)

J
`
k
q
dalam rumus di atas adalah jumlah yang tidak diketahui
untuk memenuhi persamaan (12-16); yaitu kesamaan yang dihubungkan
secara monoton. J
`
k
q
bukanlah jarak dalam pengertian ini yaitu mereka
yang memenuhi sifat-sifat jarak yang umum pada (1-25). Mereka hanya
sejumlah keterangan (reference) yang digunakan untuk menilai
ketidakmonotonan dari observasi J
`
k
q
.
Gagasan untuk menemukan gambaran item sebagai titik-titik
dalam q-dimensi sedemikian sehingga nilai stress (kedekatan) sekecil
mungkin. Kruskal (14) mengemukakan penafsiran secara informal menurut
garis pedoman berikut :





40

Stress Goodness of fit
20 % Tidak baik
10 % Kurang
5 % Baik
2.5 % Baik sekali
0 % Sempurna
Goodness of fit mengacu kepada hubungan kemonotonan antara
kesamaan dan jarak akhir.
Telah kita nyatakan bahwa ukuran stress sebagai suatu fungsi
q, jumlah dimensi untuk penggambaran secara geometri. Untuk setiap
q, susunan yang menghasilkan stress minimum dapat diperoleh.
Karena q akan meningkatkan stress minimum dalam rounding error,
meningkatkan dan akan sama dengan nol untuk q = N-1. pertama-tama
untuk q = 1, plot jumlah dari stress (q) melawan q dapat dikonstruksi.
Dari nilai q ini kita memilih dimensi yang paling baik yaitu kita
mencari siku (elbow) dalam plot dimensi stress.
Algoritma multidimensional scaling dapat diringkas melalui tiga tahapan :
1. Untuk N item, maka M=N(N-1)/2 kesamaan (jarak) antara pasangan-
pasangan itemnya. Susun kesamaan (jarak) seperti dalam persamaan
(12-15). (Jarak disusun dari yang terbesar hingga yang terkecil.
J ika kesamaannya (jarak) tidak dapat dihitung, maka susunan rank
harus ditentukan.)
2. Dengan menggunakan susunan percobaan dalam q-dimensi, tentukan
jarak antar item, J
k
q
dan J
`
k
q
jumlah yang kemudian memenuhi
persamaan (12-16) dan minimumkan stress dalam persamaan (12-17).
(J
`
k
q
biasanya ditentukan dengan menggunakan program komputer
menggunakan metode regresi yang dirancang untuk menghasilkan jarak
monoton yang fitted.
3. Dengan menggunakan J
`
k
q
, titik-titik dipindahkan untuk memperoleh
susunan yang baru. ( untuk q tetap, susunan yang baru ditentukan
oleh fungsi umum prosedur minimisasi yang diterapkan pada stress.


41

Dalam konteks ini stress dianggap sebagai fungsi dari koordinat
N x q dari N item.) susunan yang baru akan memiliki dan yang
baru, J
k
q
dan J
`
k
q
stress yang lebih kecil dari sebelumnya. Proses
tersebut diulang sampai diperoleh stress minimum terbaik.
4. Plot stress minimum dan pilih jumlah dimensi q* terbaik. Kita telah
mengasumsikan nilai kesamaan awal adalah simetri (S
ik
=S
ki
), maka
no ties, dan tidak ada observasi yang hilang. Kruskal menyarankan
suatu metode untuk menangani ketidaksimetrian ini, ties, dan
observasi hilang. Lagi pula sekarang terdapat program komputer
yang dapat menangani tidak hanya jarak euclid tetapi juga jarak
Minkowski. [lihat (12-3)]
Contoh berikut merupakan ilustrasi dari multidimensional scaling
dengan jarak sebagai ukuran kesamaan awal.
Contoh 12.13
Tabel 12.7 memperlihatkan jarak antara pasangan kota-kota terpilih di
Amerika. Karena kota-kota tersebut tentu saja terletak dalam jarak dua
dimensi. Perhatikan jika jarak pada tabel 12.7 diurut dari yang terbesar hingga
yang terkecil yaitu yang paling sedikit sama hingga yang paling banyak
kesamaannya, maka posisi pertama ditempati oleh




42



Gambaran geometris dari kota-kota yang dihasilkan oleh
multidimensional scaling

Fungsi stress jarak antar kota pada perusahaan penerbangan


43

Plot multidimensional scaling untuk q = 2 dimensi ditunjukkan
dalam gambar 12.13. sumbu yang terletak sepanjang scatterplot
principal components sampel. Plot dari stress(q) melawan q ditunjukan
dalam gambar 12.14. karena stress(1)x100% =12%, suatu gambaran
kota-kota dalam satu dimensi ( sepanjang sumbu tunggal) kurang pantas.
Siku (elbow) pada fungsi stress terjadi pada q =2. Disini stress(2) x
100% = 0.08% dan dilihat dari tabel Goodness of fitnya hampir
sempurna.
Plot pada gambar 12.14 menunjukkan q = 2 adalah pilihan terbaik
untuk dimensi. Perhatikan sesungguhnya untuk nilai stress meningkat
untuk q = 3. ini merupakan keanehan yang dapat terjadi untuk nilai
stress yang sangat kecil karena kesulitan untuk pencarian prosedur
numerik yang digunakan untuk meletakan stress minimum.
Contoh 12.14
Misalkan untuk menggambarkan 22 perusahaan keperluan umum
yang telah didiskusikan pada contoh 12.8 sebagai titik-titik dalam
dimensi kecil. Ukuran dis(similarrities) antara pasangan perusahaan
merupakan jarak euclid yang terdaftar dalam tabel 12.1.
multidimensional scaling dalam q = 1, 2, 3, ...,6 dimensi dihasilkan
fungsi stress dalam gambar 12.15 di bawah ini. Dalam gambar tersebut
terlihat tidak adanya siku (elbow) yang mencolok . nilai stressnya
adalah kurang lebih 5 % disekitar q = 4. sebuah penggambaran yang
baik dalam 4 dimensi dari suatu keperluan dapat dicapai akan tetapi
sulit untuk ditunjukkan. Kita menunjukkan plot suatu keperluan susunan
diperoleh dalam q =2 dimensi dalam gambar 12.16. sumbu yang terletak
sepanjang komponen utama sampe dari scatter akhir.


44





45

Meskipun stress untuk dua dimensi cukup tinggi (stress(2) x
100% = 195), jarak antar perusahaan dalam gambar 12.16 konsisten
dengan hasil pengelompokan dihadirkan dalam pembahasan sebelumnya.
Sebagai contoh keperluan bagian barat tengah, Commonwealth Edison,
Wisconsin Electric Power (WEPCO), Madison Gas and Electric
(MG&E), dan Northen State Power (NSP) berdekatan. Keperluan texas
dan Oklahoma gas dan Electric (Ok. G & E) juga sangat berdekatan.
Keperluan lainya cenderung kepada grup yang berdasarkan pada lokasi
geografi atau lingkungan yang sama. Keperluan tidak dapat diposisikan
dalam dua dimensi sedemikian sehingga jarak antar keperluan
J
k
(2)
secara keseluruhan konsisten dengan jarak asli pada tabel 12.1
kefleksibelan untuk memposisikan titik-titik diperlukan dan hal ini
hanya dapat diperoleh dengan memperkenalkan dimensi tambahan.
Untuk meringkaskan , sasaran utama dalam prosedur
multidimensional scaling adalah sebuah gambar dalam dimensi yang
rendah. Sewaktu-waktu data multivariat dapat digambarkan secara grafik
dalam dua atau tiga dimensi, inspeksi visual sangat dapat membantu
interpretasi. Ketika observasi multivariat merupakan data numerik, dan
jarak euclid dalam q-dimensi, J
k
(p)
dapat dihitung, kita dapat mencari
gambaran q <p dimensi dengan meminimumkan
(12-20)
Dalam pendekatan ini, jarak euclid dalam dimensi p dan q
dibandingkan secara langsung. Teknik-teknik untuk mendapatkan dimensi
yang mudah dengan meminimumkan E disebut nonlinear mapping
(pemetaan tidak linear). Goodness of fit akhir dari gambaran dimensi yang
rendah dapat diperoleh secara grafik dengan spanning tree minimal .
untuk lebih lanjut pembahasan topik ini dapat dilihat pada (8) dan (13).




46

2.7.1 Multidimensional Scaling Metrik
Multidimensional Scaling metrik digunakan jika skala datanya
interval atau rasio. Dalam prosedur MDS metrik tidak dipermasalahkan
apakah data input ini merupakan jarak yang sebenarnya atau tidak,
prosedur ini hanya menyusun bentuk geometri dari titik-titik objek yang
diupayakan sedekat mungkin dengan input jarak yang diberikan.
Sehingga pada dasarnya adalah mengubah input jarak atau metrik
kedalam bentuk geometrik sebagai outputnya.

2.7.2 Multidimensional Scaling Non Metrik
Multidimesional scaling nonmetrik mengasumsikan bahwa datanya
adalah kualitatif (nominal dan ordinal). Program Multidimensional
scaling nonmetrik menggunakan transformasi monoton. Transformasi
monoton akan memelihara urutan nilai ketidaksamaannya sehingga jarak
antara objek yang tidak sesuai dengan urutan nilai ketidaksamaan dirubah
sedemikian rupa sehingga akan tetap memenuhi urutan nilai
ketidaksamaan tersebut dan mendekati jarak awalnya. Hasil perubahan
ini disebut disparities.

Contoh
Analisis Positioning & Segmentasi Pemirsa Televisi Swasta
Nasional Berdasarkan Preferensinya Terhadap Program Acara.
Tujuan : untuk mengetahui kemiripan stasiun televisi swasta nasional
berdasarkan program acaranya. Variabel pengamatan ada 11.
VARIABEL PENGAMATAN
D1 : Tayangan informasi aktual termasuk news, dokumenter, dan
lainnya.
D2 : Tayangan olah raga, baik tayangan langsung maupun tidak
langsung.
D3 : Tayangan tentang musik pop,rock,jazz, informasi, pemutaran
perkembangannya


47

D4 : Tayangan musik dangdut serta informasi perkembangannya
D5 : Tayangan berbagai gosip; penayangan sisi kehidupan selebritis
dan rumornya.
D6 : Talk Show; diskusi/dialog menghadirkan tokoh yang membahas
suatu topik
D7 : Berbagai macam hiburan yang disajikan sekaligus bintang tamu,
kuis interaksi
D8 : Tayangan film produksi negara Asia (Mandarin, India, Indonesia)
D9 : Tayangan film barat
D10 : Tanyangan sinetron dan telenovela
D11 : Reality show, sosial, misteri beserta ajang pencarian bakat.
Rata rata positioning tiap stasiun televisi


Langkah langkah mengerjakan multidimensional scaling dengan
SPSS
1. Masukan data


48



2. Analyze Scale Multidimensional Scaling (ALSCAL)



3. Masukan objek kedalam kotak sebelah kanan.



49

4. Pilih Model, skala yang digunakan dan jarak euclid


Hasil Dari Output

ANALISA PEMBAHASAN
Stress
Stress values
For matrix
Stress =.16502 RSQ =.90932
Nilai stress adalah 0. 16502 berdasarkan garis pedoman kriteria
kedekatan masuk ke dalam kategori cukup. Dan nilai RSQ sebesar
0,90932 berdasarkan kriteria maka data yang ada terpetakan dengan
sempurna.




50

ANALISA PEMBAHASAN
Dilihat dari plot secara keseluruhan terdapat tiga kelompok stasiun
televisi yang memiliki kemiripan antar anggotanya tetapi berbeda dengan
anggota kelompok lainnya.
Ketiga kelompok itu adalah:
1. RCTI, SCTV, INDOSIAR dan TRANS TV
2. TPI dan GLOBAL TV
3. METRO TV, LATIVI, TV 7 dan ANTV
Pengelompokan ini didasarkan pada program acara yang ditayangkan.
Kemiripan antara stasiun televisi juga dapat dilihat dari jarak
(distance) antara dua stasiun televisi yang dibandingkan. Semakin kecil
jarak maka semakin mirip dua stasiun televisi yang dibandingkan. Dari
semua pasangan stasiun televisi yang mungkin ada dalam plot, terdapat
dua pasang stasiun televisi yang mempunyai jarak yang kecil. Pasangan
tersebut adalah TPI-GlobalTV dan RCTI-SCTV.
Tetapi jika dilihat lebih jelas lagi, jarak antara RCTI SCTV lebih
kecil daripada jarak TPI-GlobalTV ini berarti, dari sekian banyak
pasangan stasiun televisi yang dibandingkan, stasiun televisi SCTV
paling mirip dengan stasiun televisi RCTI.
RCTI sebagai stasiun televisi swasta favorit memiliki beberapa
kompetitor dalam hal program acara yang disenangi masyarakat yaitu
Indosiar, SCTV dan TransTV. Namun dari ketiga kompetitor tersebut,
SCTV merupakan kompetitor terberat RCTI karena program acaranya
yang paling mirip dengan RCTI

2.8 Tampilan-tampilan Data dan Penyajian-penyajian gambar
Seperti yang telah kita lihat pada bagian sebelumnya,
multidimensional scaling mencoba untuk menggambarkan observasi
dalam p-dimensi menjadi observasi dengan sedikit dimensi sedemikian
sehingga jarak asli antara pasangan observasi dipertahankan. Secara
umum jika obsrvasi multidimensional dapat digambarkan dalam dua


51

dimensi, maka outlier, keterhubungan, pengelompokan yang dapat
dibedakan kerap kali dapat dilihat oleh mata. Kita akan
mendiskusikan dan mengilustrasikan beberapa metode untuk
memperlihatkan data multivariat dalam dua dimensi.

2.8.1 Hubungan Perkalian Scatterplot Dua Dimensi
Contoh 12.15
Untuk mengilustrasikan keterhubungan scatterplot dua dimensi,
kita mengacu pada data kualitas kertas dalam tabel 1.2. data ini
menggambarkan ukuran variabel X
1
=kepadatan, X
2
=daya regang dalam
machine direction X
3
=daya regang dalam cross-direction. Gambar 12.17
menunjukkan scaterplot dua dimensi untuk pasangan variabel-variabel ini
yang disusun sebagai array 3 x 3. sebagai contoh, gambar pada sudut
sebelah kiri atas pada gambar merupakan scatterplot dari pasangan
(x
1
,x
3
) yaitu nilai x
1
diplot sepanjang sumbu horizontal dan nilai x
3

diplot sepanjang sumbu vertikal. Sedangkan scaterplot pada sudut
sebelah kanan bawah dari gambar merupakan observasi (x
3
,x
1
). Dengan
kata lain sumbu sumbunya berkebalikan. Perhatikan variabel-variabel
dan rentang tiga digitnya ditunjukkan dalam kotak sepanjang diagonal
SW-NE.




52

Operasi pemilihan outlier tertentudalam scatterplot (x
1
,x
3
) dari
gambar 12.17 menghasilkan 12.18 (a), dimana outlier ditandai sebagai
specimen 25 dan titik data yang sama disorot dalam scatterplot lain.
Specimen 25 juga terlihat sebagai outlier dalam scatterplot (x
1
,x
2
) tetapi
bukan pada scatterplot (x
2
,x
3
) . Operasi penghapusan specimen ini
mengantarkan pada scatterplot pada gambar 12.18(b)
Dari gambar 12.17, kita dapat lihat bahwa beberapa titik pada
contoh tersebut scatterplot (x
2
,x
3
) terlihat terhubung dengan scatterplot
lain. Pemilihan titik titik ini menggunakan bujur sangkar ( lihat halaman
612), menyoroti titik terpilih pada semua scatterplot dan dilihat pada
gambar 12.19(a). lagipula pengecekan specimen (contoh) 16-21, 34 dan
38-41 sesungguhnya adalah contoh dari gulungan kertas yang lebih lama
yang termasuk dalam urutan yang memiliki cukup lapisan dalam kardus
yang diproduksi. Pengoperasian poin-poin penyorotan yang sesuai
dengan suatu cakupan yang terpilih salah satu dari variabel-variabel
disebut Brushing. Brushing bisa mulai dengan suatu persegi panjang,
seperti di Gambar 12.19 (a), akan tetapi proses brushing tersebut bisa
dipindah ke penetapan suatu urutan dari poin-poin yang digaris bawahi.
Proses itu dapat dihentikan pada setiap waktu untuk menetapkan suatu
snapshot dari situasi yang ada.
Scatterplots seperti itu berada dalam contoh 12.15 adalah
bantuan-bantuan sangat bermanfaat di dalam analisis data. Teknik grafis
baru penting yang lain adalah dengan menggunakan perangkat lunak. Hal
ini bisa dilakukan secara dinamis dan secara terus-menerus sampai data
yang informatif dan bersaingan diperoleh.


53


Suatu strategi untuk analisa penyelidikan multivariate grafis
dalam garis, yang termotivasi oleh kebutuhan akan suatu prosedur yang
rutin untuk mencari-cari struktur di data multivariat, disampaikan dalam
contoh berikut.
Contoh 12.16
Empat pengukuran yang berbeda dari kekakuan kayu diberikan
dalam Table 4.3. Di Dalam Contoh 4.13, kita mengenali spesimen
(papan) 16 dan mungkin spesimen (papan) 9 sebagai pengamatan -
pengamatan yang tidak biasa. Gambar 12.20 (a), (b), dan (c) berisi
perspektif -perspektif dari data kekakuan di dalam ruang. Pandangan-
pandangan ini diperoleh oleh secara terus menerus berputar dan
memutar tiga koordinat dimensional. Memutar koordinat membiarkan
satu dan lainnya untuk mendapat suatu pemahaman yang lebih baik
tentang tiga aspek dimensional dari data. Gambar 12.20 (d ) adalah
gambar dari data kekakuan di x
2
, x
3
, x
4
ruang. Kenali bahwa Gambar
12.20 (a) dan (d) secara visual mengkonfirmasikan spesimen-
spesimen 9 dan 16 seperti pencilan.

Spesimen 9 sangat besar di
dalam ketiga koordinat tersebut. Perputaran yang berlawanan arah
jarum jam seperti perputaran di dalam Gambar 12.20 (a) hasilkan
Gambar 12.20 (b), dan kedua pengamatan-pengamatan yang tidak
biasadisembunyikan di dalam pandangan ini. Suatu penjabaran lebih


54

lanjut x
2
, x
3
memberi Gambar 12.20 (c); salah satu pencilan (16) kini
tersembunyi.

Kita sekarang berpindah kepada tiga penyajian-penyajian
bergambar yang populer data multivariat dalam dua dimensi yaitu stars,
Andrews plot, dan Chernoff faces.

2.8.1.1 Stars
Umpamakan masing-masing unit data terdiri dari
pengamatan-pengamatan tidak negatif di p2 variabel. Dalam
dua dimensi, kita dapat membangun lingkaran-lingkaran dari
suatu radius yang ditetapkan (menjadi acuan) den gan sinar
yang sama yang berasal dari pusat dari lingkaran. Panjang-
panjang dari sinar menunjukkan nilai-nilai dari variabel-variabel.
Akhir dari sinar itu dapat dihubungkan dengan garis lurus untuk
membentuk suatu bintang. Masing-masing bintang menunjukkan
suatu pengamatan multivariate dan bintang-bintang dapat
dikelompokkan menurut persamaan.
Metode stars sering san at membantu. Ketika akan
membuat bintang-bintang, sebaiknya untuk menstandardisasi
hasil pengamatan-pengamatan. Dalam hal ini mungkin sebagian
dari hasil pengamatan itu biasanya negatif. Pengamatan-pengamatan
itu kemudian bisa ditampilkan kembali setelah distandardisasi
sehingga pusat dari lingkaran menunjukkan nilai pengamatan paling
kecil dari seluruh data

2.8.1.2 Andrews Plot
Andrews sudah mengusulkan bahwa suatu vektor
dimensional dari p pengukuran-pengukuran [x
1
,x
2
,x
3
,..,x
p
]
diwakili oleh Deret Fourier yang terbatas




55


Lalu, pengukuran-pengukuran dijadikan koefisien-koefisien
dalam suatu grafik merupakan suatu fungsi periodik. Sebagai
contoh, pengamatan 4-dimensional [6,3, -1,2]' dikonversi menjadi
fungsi

dan plot sebagai suatu fungsi t.
Plot dari Penyajian-penyajian deret Fourier dari
pengamatan multivariat akan kurva-kurva yang kemudian bisa
secara visual dikelompokkan. Andrews plots dilakukan dengan
menukar koordinat-koordinat (koefisien-koefisien). Sebagai
konsekwensinya yaitu mencoba bermacam-macam tampilan sebelum
memutuskan satu-satunya yang terbaik untuk suatu data yang
diberikan. Pengalaman sudah menunjukkan bahwa data itu harus
distandardisasi sebelum membentuk Deret Fourier. Lebih dari


56

itu, jika banyaknya materi melembutkan kepada besar, Andrews
plot menjadi sulit. Banyaknya Andrews membengkok yang
dilapiskan di grafik perlu mungkin dibatasi sebanyak lima atau
enam.
Contoh 12.18
Perwakilan pengamatan-pengamatan 22 utilitas publik menurut
(12.21) di dalam Gambar 12.22. Kelompok perusahaan yang serupa
kebanyakan sulit untuk di lihat. Termotivasi oleh matriks jarak di
dalam Gambar 12.2 (lihat Contoh 12.1), kita memplot
kelompok terdiri dari perusahaan (4,10,13,20,22). Hasil itu
ditunjukkan di dalam Gambar 12.23. Catat bahwa perusahaan 22
(Virginia Electric dan Power Company) terlihat mempunyai bit
yang berbeda dari istirahat dan plot Andrews konsisten dengan
algoritma pengelompokan rata-rata keterhubungan hirarkis pada
ilustrasi 12.10 (lihat Gambar 12.11).

2.8.1.3 Chernoff faces
Orang-orang bereaksi dengan muka. Chernoff menggam-
barkan pengamatan-pengamatan dimensional p sebagai suatu muka
dimensional dengan karakteristik-karakteristik bentuk muka,
lengkungan mulut, panjang hidung, ukuran mata, posisi pupil,
dan sebagainya ditentukan oleh nilai pengukuran-pengukuran
dari variabel-variabel di p.
Seperti mula-mula merancang, Chernoff faces mampu
menangani sampai dengan 18 variabel. Tugas dari variabel-
variabel kepada fitur fasial dilaksanakan oleh eksperimen dan
aneka pilihan yang berbeda menghasilkan hasil-hasil yang
berbeda. Beberapa perkataan berulang-ulang adalah biasanya
perlu sebelum penyajian-penyajian yang memuaskan dicapai. J ika
penyelidik itu adalah [ secara] wajar pasti dua atau tiga variabel
terutama bertanggung jawab untuk seikat-seikat yang pembeda,


57

variabel-variabel ini dapat dihubungkan dengan karakteristik-
karakteristik fasial yang terkemuka. Menghubungkan satu "yang
penting" variabel dengan suatu karakteristik seperti panjangnya
hidung, dibanding suatu lebih sedikit karakteristik yang
terkemuka seperti posisi murid, mengizinkan[membiarkan] satu
untuk memilih pengelompokan-pengelompokan lebih siap.
Seperti Andrews plots, Chernoff faces bermanfaat karena
membuktikan (1) satu pengelompokan awal yang diusulkan oleh
pengetahuan pokok dan intuisi atau (2) pengelompokan akhir yang
dihasilkan oleh algoritma cluster.
Contoh 12.19
Dengan menggunakan data dalam table 12.5, perusahaan
fasilitas umum menggunakan Chernoff faces. Kita mengikuti aturan
berikut.




Membangun Chernoff faces adalah suatu tugas itu harus
dilakukan dengan bantuan komputer. Data itu biasanya
distandardisasi di dalam program komputer sebagai bagian dari
proses untuk menentukan lokasi-lokasi, ukuran-ukuran, dan


58

orientasi-orientasi karakteristik-karakteristik yang fasial. Dengan
beberapa pelatihan, Chernoff faces bisa merupakan suatu cara
yang efektif untuk komunikasi;kan persamaan atau perbedaan-
perbedaan.
Kesimpulan Akhir
Ada beberapa cara untuk menggambarkan data
multivariat dalam dua dimensi. Kita sudah menggambarkan
beberapa diantaranya. Efektivitas dari Stars, Andrews plots,dan
Chernoff faces disatukan. Kadang-kadang gambar tersebut dapat
lebih informatif; bagaimanapun, lebih sering daripada tidak,
mereka tidak akan menghilangkan ciri tiap kelompok.






















59

BAB III
STUDI KASUS

Dari penelitian yang dilakukan terhadap 12 kota, ingin diketahui
pengelompokan kota-kota tersebut berdasarkan instrumen 5 variabel yaitu :
1. Jumlah Pendapatan Kota (Trilyun Rp)
2. Jumlah Pinjaman Pemerintah Kota (Milyar Rp)
3. Jumlah Dana Hibah yang Dimiliki Kota (Milyar Rp)
4. Jumlah Konsumsi Pemerintah Kota (Milyar Rp)
5. Jumlah Penduduk Kota (Juta Jiwa).
Untuk itu data yang berhasil dikumpulkan sebagai berikut:
No Kota Pendapatan Pinjaman Dana Hibah Konsumsi Penduduk
1 A 55 5,6 9 50 25
2 B 61 8 7 62 41
3 C 58 3,9 7 60 32
4 D 67 5,5 7 64 51
5 E 71 5,7 6 70 42
6 F 76 7,6 8 80 29
7 G 81 8,7 9 80 57
8 H 56 7,1 6 86 29
9 I 84 7,6 7 82 46
10 J 88 6,5 8 86 52
11 K 84 6,8 9 88 61
12 L 90 8 9 90 66

Dalam melakukan analisis cluster terdapat dua metode yaitu metode
kelompok hiraki dan metode kelompok non hirarki. Dalam hal ini akan dilakukan
metode hirarki terlebih dahulu, kemudian dilakukan metode non hirarki.
Untuk menyelesaikan contoh kasus di atas dengan menggunakan aplikasi
program SPSS, perlu dilakukan penormalstandaran data:


60

Setelah di normal standarkan melalui Program SPSS, data menjadi:
No Kota ZPendapatan ZPinjaman ZDana Hibah ZKonsumsi ZPenduduk
1 A -1,35625 -0,83893 1,1547 -1,88970 -1,41834
2 B -0,89345 0,91188 -0,57735 -0,97656 -0,23946
3 C -1,12485 -2,07908 -0,57735 -1,12875 -0,90258
4 D -0,43066 -0,91188 -0,57735 -0,82437 0,49734
5 E -0,12213 -0,76598 -1,44338 -0,36779 -0,16578
6 F 0,26354 0,62008 0,28868 0,39316 -1,12362
7 G 0,6492 1,42253 1,1547 0,39316 0,93942
8 H -1,27911 0,25533 -1,44338 0,84973 -1,12362
9 I 0,8806 0,62008 -0,57735 0,54535 0,12894
10 J 1,18913 -0,18238 0,28868 0,84973 0,57102
11 K 0,8806 0,03648 1,1547 1,00192 1,23414
12 L 1,34339 0,91188 1,1547 1,15411 1,60254

Untuk selanjutnya, data yang digunakan untuk penclusteran adalah data
yang sudah dinormal standarkan.

3.1 Metode Hierarki
Metode Hierarchical Cluster (Hirarkis) Konsep dari metode hirarkis
ini dimulai dengan menggabungkan 2 obyek yang paling mirip, kemudian
gabungan 2 obyek tersebut akan bergabung lagi dengan satu atau lebih
obyek yang paling mirip lainnya. Proses clustering ini pada akhirnya akan
menggumpal menjadi satu cluster besar yang mencakup semua obyek.
Metode ini disebut juga sebagai metode aglomerativ yang digambarkan
dengan dendogram. Contoh kasus di atas akan dicoba untuk diselesaikan
pula dengan metode aglomerativ dan diolah dengan program SPSS.
Tabel 1 hasil output SPSS di bawah ini menunjukkan bahwa semua
data sejumlah 12 obyek telah diproses tanpa ada data yang hilang.



61

Tabel 1
Case Processi ng Summary
a

Cases
Valid Missing Total
N Percent N Percent N Percent
12 100,0% 0 ,0% 12 100,0%
a. Squared Euclidean Distance used

Tabel 2 di bawah menujukkan matrik jarak antara variabel satu
dengan variabel yang lain. Semakin kecil jarak euclidean, maka semakin
mirip kedua variabel tersebut sehingga akan membentuk kelompok
(cluster).
Tabel 2
Proximity Matri x
Case
Squared Euclidean Distance
1:A 2:B 3:C 4:D 5:E 6:F 7:G 8:H 9:I 10:J 11:K 12:L
1:A .000 8.503 5.437 8.667 12.163 10.801 19.906 15.545 18.456 19.122 21.167 28.744
2:B 8.503 .000 9.462 4.106 4.536 4.832 8.906 5.447 5.684 10.277 12.999 15.936
3:C 5.437 9.462 .000 3.897 4.602 12.328 24.118 10.186 15.174 15.788 20.603 29.525
4:D 8.667 4.106 3.897 .000 1.515 7.689 11.293 8.262 6.078 6.714 9.497 14.609
5:E 12.163 4.536 4.602 1.515 .000 6.566 13.935 4.782 4.597 7.085 12.235 17.156
6:F 10.801 4.832 12.328 7.689 6.566 .000 5.799 5.721 2.723 4.581 7.401 10.012
7:G 19.906 8.906 24.118 11.293 13.935 5.799 .000 16.295 4.378 3.961 2.432 1.761
8:H 15.545 5.447 10.186 8.262 4.782 5.721 16.295 .000 7.209 12.156 17.044 21.583
9:I 18.456 5.684 15.174 6.078 4.597 2.723 4.378 7.209 .000 1.777 4.771 5.841
10:J 19.122 10.277 15.788 6.714 7.085 4.581 3.961 12.156 1.777 .000 1.356 3.128
11:K 21.167 12.999 20.603 9.497 12.235 7.401 2.432 17.044 4.771 1.356 .000 1.139
12:L 28.744 15.936 29.525 14.609 17.156 10.012 1.761 21.583 5.841 3.128 1.139 .000
This is a dissimilarity matrix

Tabel 3 di bawah merupakan hasil proses clustering dengan metode
Between Group Linkage. Setelah jarak antar variabel diukur dengan jarak


62

euclidean, maka dilakukan pengelompokan, yang dilakukan secara
bertingkat.

Tabel 3

Aggl omerati on Schedul e
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 11 12 1.139 0 0 4
2 4 5 1.515 0 0 6
3 9 10 1.777 0 0 5
4 7 11 2.097 0 1 7
5 6 9 3.652 0 3 7
6 3 4 4.249 0 2 9
7 6 7 5.183 5 4 11
8 2 8 5.447 0 0 9
9 2 3 6.889 8 6 10
10 1 2 10.063 0 9 11
11 1 6 13.662 10 7 0

Stage 1 : terbentuk 1 cluster yang beranggotakan Kota K dan Kota L dengan
jarak 1,139 (perhatikan pada kolom Coefficients). Karena proses aglomerasi
dimulai dari 2 obyek yang terdekat, maka jarak tersebut adalah yang
terdekat dari sekian kombinasi jarak 12 obyek yang ada. Selanjutnya lihat
kolom terakhir (Next Stage), terlihat angka 4. Hal ini berarti clustering
selanjutnya dilakukan dengan melihat stage 4, dengan penjelasan berikut.
Baris ke-4 (stage 4) terlihat obyek ke-7 (Kota G) membentuk cluster
dengan Kota K. Dengan demikian, sekarang cluster terdiri dari 3
obyek yaitu Kota G, K, dan L. Sedangkan jarak sebesar 2,097
merupakan jarak rata-rata obyek terakhir yang bergabing dengan 2
obyek sebelumnya, seperti tampak dalam Proximity matrix dan dapat
dihitung sebagai berikut :
- Jarak Kota G dan K =2,432
- Jarak Kota G dan L =1,761


63

- Jarak rata-rata =(2,432 +1,761) / 2 =2,0965
Stage 2 : terjadi pembentukan cluster Kota D dan Kota E berjarak 1,515),
yang kemudian berlanjut ke stage 6.
Demikian seterusnya dari stage 3 dilanjutkan ke stage 5, sampai ke stage
terakhir.

Proses aglomerasi ini bersifat kompleks, khususnya perhitungan
koefisien yang melibatkan sekian banyak obyek dan terus bertambah. Proses
aglomerasi pada akhirnya akan menyatukan semua obyek menjadi satu
cluster. Hanya saja dalam prosesnya dihasilkan beberapa cluster dengan
masing-masing anggotanya, tergantung jumlah cluster yang dibentuk.
Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada
tabel output berikut ini :

Tabel 4


Cl uster Membership

Case 4 Clusters 3 Clusters 2 Clusters
1:A 1 1 1
2:B 2 2 1
3:C 3 2 1
4:D 3 2 1
5:E 3 2 1
6:F 4 3 2
7:G 4 3 2
8:H 2 2 1
9:I 4 3 2
10:J 4 3 2
11:K 4 3 2
12:L 4 3 2

Dari tabel diatas dapat dijabarkan bahwa :
Apabila diinginkan dibentuk 4 cluster, maka :
Anggota cluster 1 adalah Kota A
Anggota cluster 2 adalah Kota B dan Kota H


64

Anggota cluster 3 adalah C, D, dan E
Anggota cluster 4 adalah Kota F, G, I, J, K dan L.

Apabila ditentukan dibentuk 3 cluster, maka :
Anggota cluster 1 adalah Kota A
Anggota cluster 2 adalah Kota B, C, D, E dan H.
Anggota cluster 3 adalah Kota F, G, I, J, K dan L.
Apabila ditentukan dibentuk 2 cluster, maka :
Anggota cluster 1 adalah Kota A, B, C, D, E dan H
Anggota cluster 2 adalah Kota F, G, I, J, K dan L.

Dendogram berguna untuk menunjukkan anggota cluster yang ada jika
akan ditentukan berapa cluster yang seharusnya dibentuk. Sebagai contoh
yang terlihat dalam dendogram di bawah ini:


Apabila akan dibentuk 2 cluster, maka cluster 1 beranggotakan Kota
K sampai dengan Kota F (sesuai urutan dalam dendogram); dan cluster2
beranggotakan Kota D sampai dengan Kota A. Demikian seterusnya dapat


65

dengan mudah dilihat anggota tiap cluster sesuai jumlah cluster yang
diinginkan.

3.2 Metode K-Means Cluster (Non-Hierarki)
Sebagaimana telah dijelaskan sebelumnya bahwa metode K-Means
Cluster ini jumlah cluster ditentukan sendiri. Oleh karena itu, disini akan
ditentukan jumlah cluster adalah tiga kemudian data diolah melalui aplikasi
program SPSS. Perlu diingat bahwa bahan analisis bukan lagi data asli,
namun data hasil transformasi/standardisasi.
Tabel 5
Initial Cl uster Centers

Cluster
1 2 3
Zscore: Pendapatan 1,34339 -1,27911 -1,12485
Zscore: Pinjaman ,91188 ,25533 -2,07908
Zscore: Dana Hibah 1,15470 -1,44338 -,57735
Zscore: Konsumsi 1,15411 ,84973 -1,12875
Zscore: penduduk 1,60254 -1,12362 -,90258

Tabel 5 diatas merupakan tampilan pertama proses clustering data
sebelum dilakukan iterasi. Untuk mendeteksi berapa kali proses iterasi yang
dilakukan dalam proses clustering dari 12 obyek yang diteliti, dapat dilihat
dari tampilan output SPSS berikut ini :
Tabel 6
Iterati on Hi story
a

Iteration Change in Cluster Centers
1 2 3
dimensi o
n0
1 1,073 1,395 1,103
2 ,000 ,000 ,000
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center is
,000. The current iteration is 2. The minimum
distance between initial centers is 3,192.


66

Ternyata proses clustering yang dilakukan melalui 2 tahapan iterasi
untuk mendapatkan cluster yang tepat. Dari tabel diatas disebutkan bahwa
jarak minimum antar pusat cluster yang terjadi dari hasil iterasi adalah
3,192. Adapun hasil akhir dari proses clustering digambarkan berikut ini :

Tabel 7
Fi nal Cl uster Centers

Cluster
1 2 3
Zscore: Pendapatan ,98858 -,63634 -,75847
Zscore: Pinjaman ,56172 ,59576 -1,14896
Zscore: Dana Hibah ,63509 -,57735 -,36084
Zscore: Konsumsi ,78885 ,08878 -1,05265
Zscore: penduduk ,89521 -,82890 -,49734

Output Final Cluster Centers tersebut diatas masih terkait dengan
proses standardisasi data sebelumnya, yang mengacu pada z-score dengan
ketentuan sebagai berikut :
Nilai negatif (-) berarti data berada di bawah ratarata total.
Nilai positif (+) berarti data berada di atas ratarata total.
Rumus umum yang digunakan yaitu:
X =p +Z o
Dimana:
X : rata-rata sampel (variabel dalam cluster)
p : rata-rata populasi
Z : nilai standardisasi
o : standar deviasi

Sebagai contoh, apabila ingin diketahui rata-rata jumlah pendapatan
kota di cluster-1 yaitu :
(rata-rata pendapatan seluruh kota) +(0,98858 x standardeviasi rata-
rata pendapatan)


67

=72,58 +(0,98858 x 12,965)
=85,3969
Jadi rata-rata jumlah pendapatan kota yang berada di cluster-1 adalah
Rp 85,3969 trilyun.
Demikian seterusnya dapat diketahui rata-rata nilai masing-masing
variabel dalam tiap cluster.
Dari tabel output Final Cluster Centers, dengan ketentuan yang telah
dijabarkan diatas pula, dapat didefinisikan sebagai berikut :
Cluster-1
Dalam cluster-1 ini berisikan kota-kota yang mempunyai jumlah
pendapatan kota, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi,
dan jumlah penduduk yang lebih dari rata-rata populasi kota yang diteliti.
Hal ini terbukti dari nilai positif (+) yang terdapat pada tabel Final Cluster
Centers dalam keseluruhan variabel. Dengan demikian, dapat diduga bahwa
cluster-1 ini merupakan pengelompokan dari kota-kota besar.
Cluster-2
Karakteristik kota yang masuk dalam pengelompokan cluster-2 yaitu
memiliki rata-rata jumlah pinjaman dan jumlah konsumsi yang melebihi
rata-rata populasi kota yang diteliti. Untuk instrumen variabel yang lain
kota-kota di cluster-2 ini berada di atas ratarata populasi. Dengan demikian,
dapat diduga sekumpulan kota-kota menengah berada pada cluster-2.
Cluster-3
Sedangkan karakteristik kota-kota yang mengelompok pada cluster-3
adalah keseluruhan instrumen penilai berada pada posisi dibawah rata-rata
populasi kota yang diteliti. Sehingga dapat diduga bahwa cluster-3
merupakan pengelompokan kota-kota kecil.

Penamaan cluster atau penarikan kesimpulan sangat bersifat
subyektif dan bergantung pada tujuan penelitian.
Tahapan selanjutnya yang perlu dilakukan yaitu melihat perbedaan
variabel pada cluster yang terbentuk. Dalam hal ini dapat dilihat dari nilai


68

F dan nilai probabilitas (sig) masing-masing variabel, seperti tampak dalam
tabel berikut.
ANOVA

Cluster Error
F Sig. Mean Square Df Mean Square Df
Zscore: Pendapatan 4,201 2 ,289 9 14,556 ,002
Zscore: Pinjaman 3,961 2 ,342 9 11,587 ,003
Zscore: Dana Hibah 1,769 2 ,829 9 2,133 ,174
Zscore: Konsumsi 3,784 2 ,381 9 9,921 ,005
Zscore: penduduk 3,529 2 ,438 9 8,056 ,010
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

Rumus nilai F:
F =
HS Bctwccn
HS witin

Dimana dalam tabel ANOVA di atas MS Between ditunjukkan oleh
Means Square dalam kolom Cluster, sedangkan MS Within ditunjukkan
oleh Means Square dalam kolom Error.
Semakin besar nilai F dan (sig < 0,05), maka semakin besar
perbedaan variabel pada cluster yang terbentuk.
Dengan demikian hasil cluster yang didapat dalam penelitian ini
bahwa untuk instrumen jumlah pendapatan kota yang paling menunjukkan
adanya perbedaan diantara kota-kota pada ketiga cluster yang terbentuk. Hal
ini dengan ditunjukkannya nilai F =14,556 dan sig =0,002.
Dan untuk variabel yang lain pun dapat didefinisikan lebih lanjut.
Selanjutnya untuk mengetahui jumlah anggota masing-masing cluster yang
terbentuk dapat dilihat pada tabel output berikut ini :






69

Tabel 8
Number of Cases i n each
Cl uster
Cluster 1 5,000
2 3,000
3 4,000
Valid 12,000
Missing ,000

Nampak jelas bahwa cluster-1 beranggotakan 5 kota, cluster-2 berisi 3
kota, dan pada cluster-3 terdapat 4 kota yang mengelompok. Dan untuk
mengetahui kota-kota mana saja yang masuk dalam kategori tiap-tiap cluster
dapat kembali dibuka tampilan data view pada kolom terakhir akan
nampak seperti berikut ini:



Perhatikan 2 kolom terakhir pada tabel di atas. qcl_1 menunjukkan
nomor cluster dari keberadaan kota, dan qcl_2 merupakan jarak antara
obyek dengan pusat cluster. Dengan demikian, dapat ditafsirkan sebagai
berikut :


70

Cluster-1 : berisikan kota G, I, J, K, dan L dengan masing-masing jarak
terhadap pusat cluster-1 adalah 1,13345; 1,45998; 0,90703; 0,84724; dan
1,07342.
Cluster-2 : berisikan kota B, F, dan H, dengan masing-masing jarak
terhadap pusat cluster-2 adalah 1,28390; 1,31905; dan 1,39462.
Cluster-3 : berisikan kota A, C, D, dan E, dengan masing-masing jarak
terhadap pusat cluster-3 adalah 2,07346; 1,10283; 1,11895; dan 1,51738.

























71

BAB IV
KESIMPULAN DAN SARAN


3.1 Kesimpulan
1. Analisis cluster dilakukan untuk mengelompokan objek-objek yang
memiliki kemiripan (homogen). Berdasarkan karakteristik yang
dimiliki,dengan analisis cluster sekelompok objek dapat dikelompokkan.
2. Metode pengelompokan pada dasarnya ada dua, yaitu
pengelompokan hirarki (Hierarchical Clustering Method) dan pen
gelompokan non hirarki(Non Hierarchical Clustering Method).
3. Metode pengelompokan hirarki digunakan apabila belum ada
informasi jumlah kelompok. Sedangkan metode pengelompokan non
hirarki bertujuan mengelompokan n obyek ke dalam k kelompok
( k <n).
4. Salah satu prosedur pengelompokan pada non hirarki adalah
dengan menggunakan metode K-Means. Metode ini merupakan
metodepengelompokan yang bertujuan mengelompokan obyek sed
emikian hingga jarak tiap-tiap obyek ke pusat kelompok di dalam
satu kelompok adalah minimum.
3.2 Saran
Terdapat beberapa algoritma cluster yang dapat digunakan untuk
mengelompokkan objek-objek, baik itu dengan pengelompokan hirarki
ataupun pengelompokan non hirarki. Namun yang perlu diperhatikan adalah
stabilitas dari solusi yang diperoleh, oleh karena itu perlu di cek kembali
setiap algoritma cluster tersebut baik sebelum atau sesudah pengelompokkan.







72

Daftar Pustaka

Aji, Chandra.et al.Clustering.(Online).
Tersedia:http://file.upi.edu/Direktori/FPMIPA/JUR._PEND._MATEMATIKA/1968051119
91011-JARNAWI_AFGANI_DAHLAN/multivariat/Bab_12x.pdf (31 Mei 2013)
Hartini,Entin..Metode Clustering Hirarki.(Online).
Tersedia : http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf (31 Mei 2013)
Unknown. Clustering.(Online).
Tersedia : http ://www.bandmservices/ (31 Mei 2013)
Johnson, Richrd A dan Dean W. Wichern, Applied Multivariate Statistical
Analysis Third Edition.New Jersey:Pearson Education.Inc.
Johnson, Richrd A dan Dean W. Wichern,(2007) Applied Multivariate Statistical
Analysis Sixth Edition.New Jersey:Pearson Education.Inc.