(12-7)
mempunyai sifat jarak.
Kesamaan dan Assosiasi Ukuran untuk Pasangan-Pasangan
pada Variabel-variabel
Akan didiskusikan kesamaan ukuran untuk bentuk-bentuk yang di
atas. Dalam beberapa penerapan, variabel-variabel yang harus
dikelompokkan daripada bentuk-bentuknya. Kesamaan ukuran untuk
variabel-variabel sering mengambil bentuk-bentuknya dari koefisien
korelasi sampel. Selanjutnya, dalam beberapa penerapan clustering,
korelasi-korelasi negatif diganti dengan memutlakkan nilainya. Karena
22
variabel-variabel biner, datanya dapat disusun kembali dalam bentuk
suatu tabel kontingensi. Bagaimanapun, variabel-variabelnya, daripada
bentuk-bentuknya, menggambarkan kategori-kategorinya. Untuk setiap
pasangan pada variabel-variabel, terdapat n bentuk yang dikategorikan
dalam tabel, dengan pengkodean yang biasa 0 dan 1, tabelnya menjadi
sebagai berikut
(12-8)
Untuk lebih jelasnya variabel i sama dengan 1 dan variabel k
sama dengan 0 untuk b pada n bentuk. Perhitungan hasil korelasi momen
yang biasa diterapkan ke variabel biner dalam tabel kontingensinya pada
(12-8) memberikan (lihat latihan 12.3),
(12-9)
Bilangan ini dapat diambil sebagai suatu ukuran dari kesamaan
antara dua variabel. Koefisien korelasi dalam (12-9) direlasikan ke
chi-kuadrat statistik r
2
=
X
n
n
untuk pengujian kebebasan dari kategori dua
variabel. Untuk n yang sudah ditetapkan, besarnya suatu kesamaan (atau
korelasi) konsisten dengan ketidakbebasan.
Diketahui dalam tabel (12-8), ukuran dari assosiasi (atau
kesamaan) secara tepat menganalogikan satu daftar dalam tabel 12.2
yang dapat dikembangkan. Hanya mengubah yang diperlukan yaitu
pensubstitusian pada n (jumlah bentuk) dari p (jumlah variabel).
23
2.5 Hierarchical Clustering Methods ( Metode Pengelompokan Hierarki )
Tidak semua kemungkinan dalam pengelompokan (clustering)
dapat diselidiki secara keselu ruhan, meski dengan media pen ghitung
tercepat dan terbesar. Oleh karena itu, berbagai variasi dari algoritma
clustering muncul sehingga dapat menemukan kelompok yang cocok
tanpa menyelidiki semua bentuk yang mungkin. Teknik hierarchical
clustering yang dapat digunakan antara lain deret gabungan yang berturut-
turut (series of successive mergers) dan deret bagian yang berturut-turut
(series of successive divisions). Metode hirarki aglomeratif berawal dari
objek individual. Dengan demikian akan terdapat proses awal sebanyak
objek cluster (kelompok). Objek-objek yan g paling banyak memiliki
kesamaan adalah yang pertama dikelompokkan, dan ini sebagai grup
awal.
Akan tetapi, seiring berkurangnya kesamaan diantara objek-
objeknya, maka semua subgroup tergabung dalam suatu kelompok tunggal
single cluster. Metode hirarki yang terbagi (divisive hierarchical methods)
bekerja pada arah yang berlawanan. Objek-objek dalam grup tunggal awal
terbagi menjadi dua subgrup dimana objek-objek pada satu subgroup
terletak jauh dari objek-objek pada subgroup yang lain. Kedua subgroup
ini kemudian dibagi atas subgroup-subgrup yang tidak sama. Proses ini
berlanjut hingga terdapat banyak subgroup sebanyak objek, yakni hingga
setiap objek membentuk sebuah grup.
Hasil dari kedua metode (agglomerative dan divisive) dapat
digambarkan dalam diagram dua dimensi yang dinamakan dendogram.
Dendogram mengilustrasikan penggabungan ataupun pembagian yang telah
dibuat pada proses successive (berturut-turut).
Pada bagian ini akan lebih fokus pada prosedur hirarki
agglomerative dan bagiannya yaitu metode Linkage. Metode Linkage
cocok untuk item clustering, sebagaimana variabel. Namun hal ini tidak
untuk semua prosedur hirarki agglomerative. Harus diperhatikan beberapa
kemungkinan yaitu single linkage (jarak minimum atau tetangga
24
terdekat), complete linkage (jarak maksimum atau tetangga terjauh), serta
average linkage (jarak rata-rata). Gabungan dari kelompok-kelompok
dengan tiga kriteria linkage diilustrasikan sebagai berikut:
Dari gambar di atas dapat dilihat bahwa hasil single linkage
ketika grup tergabung berdasarkan jarak antara anggota-anggota yang
terdekat. Complete linkage terjadi ketika grup tergabung berdasarkan jarak
antar anggotanya yang paling berjauhan. Sedangkan untuk average
linkage, grup tergabung berdasarkan jarak rata-rata antara pasangan
anggota-anggotanya dalam masing-masing himpunan.
Berikut adalah langkah-langkah dalam algoritma pengelompokan
hirarki agglomeratif (agglomerative hierarchical clustering algorithm)
untuk mengelompokkan N objek (bagian atau variabel):
1. Dimulai dengan N kelompok, masing-masing mengandung kesatuan
yang tunggal dan matriks simetris N x N dari jarak (kesamaan),D={d
ik
}
2. Dicari matriks jarak untuk pasan gan kelompok terdekat (yang paling
banyak kesamaan). Dimisalkan jarak antara kelompok U dan V yang
paling sama dinotasikan dengan d
uv
3. Gabungkan kelompok U dan V. Gabungan tersebut dinotasikan
dengan (UV). Letakkan objek pada matriks jarak dengan:
a. menghapus baris dan kolom yang berkorespondensi dengan
kelompok U dan V
25
b. menambahkan baris dan kolom yang terdapat jarak antara
kelompok (UV) dan kelompok yang tertinggal.
4. Ulangi langkah 2 dan 3 sebanyak N-1 kali. (Semua objek akan berada
pada single cluster saat algoritma terakhir). Catat identitas dari
cluster yang tergabung dan levelnya (jarak atau kesamaannya)
dimana gabungannya ditempatkan.
(12-10)
2.5.1 Single Linkage
Input pada algoritma single linkage dapat berupa jarak atau
kesamaan antara pasangan-pasangan objek. Grup dibentuk dari
kesatauan individu dengan menggabungkan tetangga terdekatnya,
dimana kata tetangga terdekat mengandung arti jarak terkecil atau
kesamaan terbesar (terbanyak).
Sebagai langkah awal kita harus menemukan jarak terkecil pada
D={d
ik
} dan menggabungkan objek-objek yang saling berkorespondensi,
katakanlah U dan V, untuk mendapatkan kelompok (UV). Untuk
langkah ketiga pada algoritma umum (12-10), jarak antara di antara
(UV) dan kelompok yang lainnya, katakanlah W, dihitung dengan cara
Di sini, nilai d
uw
dan d
vw
adalah jarak antara tetangga terdekat dari
kelompok U
dan W
serta kelompok V dan W, begitupun sebaliknya .
Hasil dari pengelompokan single linkage dapat digambarkan secara
grafis melalui dendogram atau diagram pohon. Cabang-cabang pada
pohon melambangkan kelompok (clusters). Cabang-cabang tersebut
tergabung pada poros node (simpul) yang posisinya sepanjang jarak (atau
kesamaan) yang menunjukkan level dimana gabungan terjadi.
Dendogram untuk beberapa kasus spesifik diilustrasikan pada
contoh-contoh sebagai berikut:
26
Contoh 1
Untuk mengilustrasikan algoritma single linkage, kita misalkan
jarak antara pasangan dari lima objek diduga sebagai berikut:
Perlakukan setiap objek sebagai kelompok (cluster),
pengelompokan (clustering) dimulai dengan menggabungkan dua item
terdekat. Sehingga
Objek 5 dan 3 digabungkan untuk membentuk kelompok (35).
Alat untuk level selanjutnya dalam pengelompokan ini adalah
dibutuhkan jarak antara kelompok (35) dan objek sisa, 1, 2, 3 dan 4.
Jarak tetangga terdekat adalah
Hapus baris dan kolom dari D yang bekorespondensi dengan
objek # dan 5 dan tambahkan baris dan kolom untuk kelompok (35),
maka diperoleh matriks jarak yang baru berikut
Jarak terkecil antara pasangan-pasangan cluster (kelompok)
sekarang adalah dan gabungkan kelompok (1) dengan
27
kelompok (35) untuk mendapatkan kelompok berikutnya. Kemudian
dihitung
Matriks jarak untuk pengelompokan pada level selanjutnya adalah
Jarak minimum tetangga terdekat antara pasangan-pasangan
kelompok adalah dan kemudian gabungkan objek 4 dan 2
untuk mendapatkan kelompok (24).
Pada titik ini diperoleh dua kelompok yang berbeda, (135) dan
(24). Jarak tetangga terdekatnya adalah
Maka matriks jarak terakhir yang diperoleh adalah
Akibatnya, kelompok (135) dan (24) tergabung untuk
membentuk single cluster (kelompok tunggal) dari kelima objek,
(12345), dimana jarak tetangga terdekatnya adalah 6.
28
Dendogram di atas menggambarkan pengelompokan hirarki
(hierarchical clustering) telah disimpulkan. Pengelompokan, dan level
jarak yang terjadi, diiliustrasikan melalui dendogram tersebut.
Contoh 2
Misalkan barisan persetujuan pada tabel 12.4 menunjukkan
kedekatan antara nomor 1-10 dalam 11 bahasa. Untuk
mengembangkan matriks jaraknya, kita mendasarkan persetujuan dari
gambar persetujuan yang sempurna dari 10, dimana setiap bahasa
memiliki karakteristik masing-masing. Jarak selanjutnya adalah sebagai
berikut:
Langkah pertama adalah mencari jarak minimum antara
pasangan bahasa (kelompok). Jarak minimum adalah 1, terjadi antara
bahasa Denmark dan J erman, Italia dan Perancis, serta Italia dan
Spanyol. Penomoran bahasa dimana hal ini muncul melintasi puncak
barisan, diperoleh
Dengan maka yang dapat digabungkan hanya kelompok 8 dan
7 atau 76 kelompok 8 dan 7. Sedangkan kelompok 6, 7, dan 8 pada
level 1 tidak dapat digabungkan. Pertama, dipilih untuk
menggabungkan 8 dan 6, kemudian mengentri matriks jarak dan
29
menggabungkan 2 dan 3 untuk memperoleh kelompok (68) dan (23).
Penghitungan di atas menghasilkan dendogram sebagai berikut:
Dari dendogram dapat dilihat bahwa bahasa Norwegia dan
Denmark dan juga Perancis dan Italia, tergabung berdasarkan jarak
minimum (kesamaan maksimum). Ketika kemungkinan jarak
meningkat, bahasa Inggris ditambahkan ke grup Norwegia-Denmark
dan Spanyol tergabung dengan grup Perancis-Italia.Perhatikan bahwa
Hongaria dan Finlandia lebih banyak kesamaan diantara keduanya
dibanding kelompok bahasa lainnya. Akan tetapi, dua kelompok bahasa
ini tidak tergabung sampai jarak diantara tetangga terdekatnya
meningkat sepenuhnya. Pada akhirnya, semua kelompok bahasa
tergabung dalam single cluster (kelompok tunggal) dengan tetangga
terdekat yang terbesar yaitu 9.
2.5.2 Complete Linkage
Prosedur pengelompokan complete-linkage hampir sama dengan
single linkage, dengan satu pengecualian. Pada setiap tingkat, jarak
(kesamaan) antar kelompok ditentukan dengan jarak (kesamaan)
anatara dua elemen, satu dari setiap kelompok, yakni yang paling
30
jauh. Dengan demikian complete linkage menjamin bahwa dalam
seluruh item pada kelompok terdapat jarak maksimum (atau kesamaan
minimum).
Algoritma aglomeratif umum dimulai dengan menemukan entri
(elemen) dalam D={d
ik
} dan menggabungkan objek yang
berkorespondensi, misalkan U dan V, untuk membentuk kelompok
(UV). Pada langkah ketiga dalam algoritma umum (12-10), jarak
antara (UV) d an kelompok lainnya, misalkan W ditentukan sebagai
berikut:
Dimana d
uw
dan d
vw
merupakan jarak terjauh antara anggota
kelompok U dan W serta kelompok V dan W, begitupun sebaliknya.
Contoh 3
Misalkan matriks jarak berikut adalah matriks jarak pada Contoh
1. Dalam kasus ini
Pada tingkatan pertama, objek 3 dan 5 tergabung jika
diantaranya paling banyak kesamaan. Hal ini menghasilkan kelompok
(35). Pada tingkatan kedua, dapat dihitung
dan matriks jarak yang dimodifikasi sebagai berikut:
31
Penggabungan selanjutnya terjadi antara grup paling sama, 2
dan 4, untuk membentuk kelompok (24). Pada tingkatan ketiga
diperoleh
dan matriks jaraknya sebagai berikut:
Penggabungan berikutnya membentuk kelompok (124). Pada
tingkatan akhir, kelompok (35) dan (124) tergabung dalam kelompok
tunggal (single cluster) (12345) pada level
Dendogram dari kasus ini adalah sebagai berikut:
32
2.5.3 Average Linkage
Average Linkage didasarkan pada rata-rata jarak dari seluruh
objek pada suatu cluster dengan seluruh objek pada cluster lain.
Algoritma yang digunak an dalam Average Linkage hampir sama
dengan algoritma agglomerative hierarchical clustering. Kita mulai
dengan mencari jarak dari matrik D={d
ik
}. Untuk mencari objek
terdekat, sebagai contoh U dan V, objek ini digabung ke dalam
bentuk cluster (UV). Untuk tahap ketiga, jarak antara (UV) dan
cluster W adalah:
Dimana d
ik
adalah jarak antara objek I pada cluster (UV) dan objek
k pada cluster W , dan N
(UV)
dan N
w
adalah jumlah dari item-item pada
cluster (UV) dan W.
Contoh:
Misalkan kita ambil matrik di contoh 12.4
Pertama kita cari jarak min, yaitu
Objek 5 dan 3 digabung ke bentuk cluter (35). Lalu akan
dicari jarak antara cluster (35) terhadap 1, 2, dan 4.
33
Dengan menghapus baris dan kolom dari matrik korespondensi
D terhadap objek 3 dan 5 dan dengan menambahkan baris dan
kolom untuk cluster (35), kita akan memperoleh matrik baru.
Penggabungan berikutnya adalah antara 2 dan 4,
Dan matrik jaraknya
Penggabungan berikutnya menghasilkan cluster (124). Pada
tahap terakhir, grup (35) dan (124) akan digabung pada cluster
tunggal (12345) dimana
Dendogramnya adalah sebagai berikut:
34
2.6 Metode Pengelompokkan Nonhierarchical
Tipe Clustering
a. Metode pengelompokan pada dasarnya ada dua, yaitu Hierarchical
Clustering Method) dan Non Hierarchical Clustering Method).
b. Metode pengelompokan hirarki digunakan apabila belum ada
informasi jumlah kelompok. Sedangkan metode pengelompokan Non
Hirarki bertujuan mengelompokan n obyek ke dalam k kelompok
( k <n).
c. Salah satu prosedur pengelompokan pada non hirarki adalah dengan
menggunakan metode K-Means.
2.6.1 Metode K-means
Metode ini merupakan metode pengelompokan yang
bertujuan mengelompokan obyek sedemikian hingga jarak tiap-tiap
obyek ke pusat kelompok di dalam satu kelompok adalah minimum.
Pada metode ini banyaknya klaster secara pasti harus sudah diketahui.
Sebuah cara sederhana yang dapat digunakan untuk menentukan
banyak klaster yang akan digunakan adalah plot dari jumlah kuadrat
dalam klaster (within sum of squares) dengan banyak klaster yang
mana hasilnya mirip dengan screeplot dalam analisis faktor.
Dasar pengelompokan dalam metode k means adalah
menempatkan objek berdasarkan rata-rata (mean) klaster terdekat.
Oleh karena itu, metode ini bertujuan untuk meminimumkan error
35
akibat partisi n objek ke dalam k klaster. Error partisi disebut juga
sebagai fungsi objektif.
Secara umum algoritma K- Means dapat disusun sebagai berikut:
Algoritma K-Means
a. Tentukan Jumlah K cluster.
b. Cari data yang lebih dekat dengan pusat cluster. Hitung jarak
Euclidean masing-masing item dari pusat cluster. Tentukan
kembali pusat cluster.
c. Ulangi langkah 2 sampai tidak ada yang berpindah posisi.
Contoh 12.11
Misalkan kita mempunyai dua variable X
1
dan X
2
, dan
masing-masing terdiri dari 12 item A, B, C, D. data nya adalah
sebagai berikut.
36
Objek-objek diatas akan dibagi kedalam K = 2 cluster.
Dengan Metode K =2-means kita akan mempartisi kedalam dua
cluster, misalkan (AB) dan (CD), koordinat dari pusat cluster (rata-
rata) adalah sebagai berikut:
koordinat pusat cluster
Pada tahap kedua, kita menghitung jarak Euclidean masing-
masing item dari grup pusat dan kembali menentukan item ke
grup terdekat. Jika item dipindahkan dari posisi awal, pusat
cluster harus diperbarui sebelum diproses. Jarak kuadratnya adalah
sebagai berikut:
terdekat terhadap cluster (AB) daripada cluster (CD), proses berlanjut.
37
akibatnya, B kembali ditentukan terhadap cluster (CD)
sehingga diberikan cluster (BCD) dan koordinat pusat yang baru
adalah:
Kemudian masing-masing item di cek kembali. Hasil
penghitungan jarak kuadrat adalah sebagai berikut:
Masing-masing item telah ditentukan terhadap cluster
dengan pusat terd ekat dan proses dihentikan. Akhirnya, K=2
cluster adalah A dan (BCD).
2.7 Multidimensional Scaling
Teknik multidimensional scaling digunakan pada permasalahan
berikut : untuk kesamaan(jarak) himpunan obsevasi antara setiap
pasangan sebanyak N item, temukan gambaran dari item tersebut
dalam dimensi yang sedikit sedemikian sehingga kedekatan antar item
hampir sesuai (nearly match) dengan jarak aslinya.
Hal ini san gatlah mungkin untuk menyesuaikan secara tepat
urutan jarak asli.
38
Akibatnya, teknik scaling ini mencoba untuk menemukan
susunan dalam qN-1 dimensi sedemikian sehingga kecocokannya
sedekat mungkin. Ukuran numerik kedekatan tersebut dinamakan stress.
Kemungkinan untuk menyusun sebanyak N item dalam dimensi
yang rendah dalam suatu koordinat system hanya dengan menggunakan
urutan tingkatan dari N(N-1)/2 jarak aslinya dan bukan magnitudes-nya
(besarnya). Ketika informasi ordinal (nomor urutan) digunakan untuk
memperoleh gambaran secara geometris, maka prosesnya disebut dengan
nonmetric multidimensional scalling. J ika magnitudes sebenarnya dari
jarak asli digunakan untuk memperoleh gambaran dalam q-dimensi,
maka prosesnya dinamakan metric multidimensional scalling.[ ]
Teknik scaling ini dibangun oleh Shepard (lihat [18] untuk kilas
balik dari pekerjaan pertama), Kruskal [14,15,16 ] dan lain-lain.
Ringkasan sejarah, teori dan aplikasi multidimensional scaling tercakup
dalam[22]. Didalam multidimensional scaling selalu menggunakan
computer, dan beberapa program computer yang menyediakan untuk
tujuan ini.
Algoritma Dasar
Untuk N item, maka terdapat M=N(N-1)/2 kesamaan (jarak )
antara pasangan item yang berbeda. J arak ini merupakan data utama.
(dalam kasus dimana kesamaannya tidak dapat dengan mudah diukur,
contohnya kesamaan antara dua warna, urutan tingkatan dari suatu
kesamaan merupakan data utama).
Asumsikan no ties, maka kesamaannya dapat disusun dalam
urutan yang meningkat sebagai
(12-15)
Disini S
i1k1
adalah M kesamaan terkecil. Sedangkan subscript i
1
k
1
menunjukan pasangan item yang paling sedikit sama ; yaitu item
dengan rank 1 dalam urutan kesamaan. Begitupun dengan subscript yang
lain. Misalkan kita ingin menemukansusunan dalam q-dimensi dari N
39
item sedemikian sehingga jarak,J
k
(q)
, antar pasangan sesuai dengan
urutan dalam persamaan (12-15). J ika jaraknya dibuat dalam cara yang
berkorespondensi dengan persamaan (12-15), maka kesesuaian yang
sempurna terjadi ketika
(12-16)
Yakni, urutan menurun dari jarak dalam q-dimensi secara tepat
menganalogikan dengan susunan yang meningkat dari kesamaan awal.
Sepanjang urutan dalam persamaan (12-16) dipertahankan, magnitude
(besar) tidaklah penting. Untuk nilai q yang diberikan, tidaklah mungkin
untuk menemukan susunan titik-titik yang jarak pasangannya
dihubungkan secara monoton dengan kesamaan aslinya. Kruskal (14)
mengemukakan ukuran kedekatan (stress) yang didefinisikan sebagai :
(12-17)
J
`
k
q
dalam rumus di atas adalah jumlah yang tidak diketahui
untuk memenuhi persamaan (12-16); yaitu kesamaan yang dihubungkan
secara monoton. J
`
k
q
bukanlah jarak dalam pengertian ini yaitu mereka
yang memenuhi sifat-sifat jarak yang umum pada (1-25). Mereka hanya
sejumlah keterangan (reference) yang digunakan untuk menilai
ketidakmonotonan dari observasi J
`
k
q
.
Gagasan untuk menemukan gambaran item sebagai titik-titik
dalam q-dimensi sedemikian sehingga nilai stress (kedekatan) sekecil
mungkin. Kruskal (14) mengemukakan penafsiran secara informal menurut
garis pedoman berikut :
40
Stress Goodness of fit
20 % Tidak baik
10 % Kurang
5 % Baik
2.5 % Baik sekali
0 % Sempurna
Goodness of fit mengacu kepada hubungan kemonotonan antara
kesamaan dan jarak akhir.
Telah kita nyatakan bahwa ukuran stress sebagai suatu fungsi
q, jumlah dimensi untuk penggambaran secara geometri. Untuk setiap
q, susunan yang menghasilkan stress minimum dapat diperoleh.
Karena q akan meningkatkan stress minimum dalam rounding error,
meningkatkan dan akan sama dengan nol untuk q = N-1. pertama-tama
untuk q = 1, plot jumlah dari stress (q) melawan q dapat dikonstruksi.
Dari nilai q ini kita memilih dimensi yang paling baik yaitu kita
mencari siku (elbow) dalam plot dimensi stress.
Algoritma multidimensional scaling dapat diringkas melalui tiga tahapan :
1. Untuk N item, maka M=N(N-1)/2 kesamaan (jarak) antara pasangan-
pasangan itemnya. Susun kesamaan (jarak) seperti dalam persamaan
(12-15). (Jarak disusun dari yang terbesar hingga yang terkecil.
J ika kesamaannya (jarak) tidak dapat dihitung, maka susunan rank
harus ditentukan.)
2. Dengan menggunakan susunan percobaan dalam q-dimensi, tentukan
jarak antar item, J
k
q
dan J
`
k
q
jumlah yang kemudian memenuhi
persamaan (12-16) dan minimumkan stress dalam persamaan (12-17).
(J
`
k
q
biasanya ditentukan dengan menggunakan program komputer
menggunakan metode regresi yang dirancang untuk menghasilkan jarak
monoton yang fitted.
3. Dengan menggunakan J
`
k
q
, titik-titik dipindahkan untuk memperoleh
susunan yang baru. ( untuk q tetap, susunan yang baru ditentukan
oleh fungsi umum prosedur minimisasi yang diterapkan pada stress.
41
Dalam konteks ini stress dianggap sebagai fungsi dari koordinat
N x q dari N item.) susunan yang baru akan memiliki dan yang
baru, J
k
q
dan J
`
k
q
stress yang lebih kecil dari sebelumnya. Proses
tersebut diulang sampai diperoleh stress minimum terbaik.
4. Plot stress minimum dan pilih jumlah dimensi q* terbaik. Kita telah
mengasumsikan nilai kesamaan awal adalah simetri (S
ik
=S
ki
), maka
no ties, dan tidak ada observasi yang hilang. Kruskal menyarankan
suatu metode untuk menangani ketidaksimetrian ini, ties, dan
observasi hilang. Lagi pula sekarang terdapat program komputer
yang dapat menangani tidak hanya jarak euclid tetapi juga jarak
Minkowski. [lihat (12-3)]
Contoh berikut merupakan ilustrasi dari multidimensional scaling
dengan jarak sebagai ukuran kesamaan awal.
Contoh 12.13
Tabel 12.7 memperlihatkan jarak antara pasangan kota-kota terpilih di
Amerika. Karena kota-kota tersebut tentu saja terletak dalam jarak dua
dimensi. Perhatikan jika jarak pada tabel 12.7 diurut dari yang terbesar hingga
yang terkecil yaitu yang paling sedikit sama hingga yang paling banyak
kesamaannya, maka posisi pertama ditempati oleh
42
Gambaran geometris dari kota-kota yang dihasilkan oleh
multidimensional scaling
Fungsi stress jarak antar kota pada perusahaan penerbangan
43
Plot multidimensional scaling untuk q = 2 dimensi ditunjukkan
dalam gambar 12.13. sumbu yang terletak sepanjang scatterplot
principal components sampel. Plot dari stress(q) melawan q ditunjukan
dalam gambar 12.14. karena stress(1)x100% =12%, suatu gambaran
kota-kota dalam satu dimensi ( sepanjang sumbu tunggal) kurang pantas.
Siku (elbow) pada fungsi stress terjadi pada q =2. Disini stress(2) x
100% = 0.08% dan dilihat dari tabel Goodness of fitnya hampir
sempurna.
Plot pada gambar 12.14 menunjukkan q = 2 adalah pilihan terbaik
untuk dimensi. Perhatikan sesungguhnya untuk nilai stress meningkat
untuk q = 3. ini merupakan keanehan yang dapat terjadi untuk nilai
stress yang sangat kecil karena kesulitan untuk pencarian prosedur
numerik yang digunakan untuk meletakan stress minimum.
Contoh 12.14
Misalkan untuk menggambarkan 22 perusahaan keperluan umum
yang telah didiskusikan pada contoh 12.8 sebagai titik-titik dalam
dimensi kecil. Ukuran dis(similarrities) antara pasangan perusahaan
merupakan jarak euclid yang terdaftar dalam tabel 12.1.
multidimensional scaling dalam q = 1, 2, 3, ...,6 dimensi dihasilkan
fungsi stress dalam gambar 12.15 di bawah ini. Dalam gambar tersebut
terlihat tidak adanya siku (elbow) yang mencolok . nilai stressnya
adalah kurang lebih 5 % disekitar q = 4. sebuah penggambaran yang
baik dalam 4 dimensi dari suatu keperluan dapat dicapai akan tetapi
sulit untuk ditunjukkan. Kita menunjukkan plot suatu keperluan susunan
diperoleh dalam q =2 dimensi dalam gambar 12.16. sumbu yang terletak
sepanjang komponen utama sampe dari scatter akhir.
44
45
Meskipun stress untuk dua dimensi cukup tinggi (stress(2) x
100% = 195), jarak antar perusahaan dalam gambar 12.16 konsisten
dengan hasil pengelompokan dihadirkan dalam pembahasan sebelumnya.
Sebagai contoh keperluan bagian barat tengah, Commonwealth Edison,
Wisconsin Electric Power (WEPCO), Madison Gas and Electric
(MG&E), dan Northen State Power (NSP) berdekatan. Keperluan texas
dan Oklahoma gas dan Electric (Ok. G & E) juga sangat berdekatan.
Keperluan lainya cenderung kepada grup yang berdasarkan pada lokasi
geografi atau lingkungan yang sama. Keperluan tidak dapat diposisikan
dalam dua dimensi sedemikian sehingga jarak antar keperluan
J
k
(2)
secara keseluruhan konsisten dengan jarak asli pada tabel 12.1
kefleksibelan untuk memposisikan titik-titik diperlukan dan hal ini
hanya dapat diperoleh dengan memperkenalkan dimensi tambahan.
Untuk meringkaskan , sasaran utama dalam prosedur
multidimensional scaling adalah sebuah gambar dalam dimensi yang
rendah. Sewaktu-waktu data multivariat dapat digambarkan secara grafik
dalam dua atau tiga dimensi, inspeksi visual sangat dapat membantu
interpretasi. Ketika observasi multivariat merupakan data numerik, dan
jarak euclid dalam q-dimensi, J
k
(p)
dapat dihitung, kita dapat mencari
gambaran q <p dimensi dengan meminimumkan
(12-20)
Dalam pendekatan ini, jarak euclid dalam dimensi p dan q
dibandingkan secara langsung. Teknik-teknik untuk mendapatkan dimensi
yang mudah dengan meminimumkan E disebut nonlinear mapping
(pemetaan tidak linear). Goodness of fit akhir dari gambaran dimensi yang
rendah dapat diperoleh secara grafik dengan spanning tree minimal .
untuk lebih lanjut pembahasan topik ini dapat dilihat pada (8) dan (13).
46
2.7.1 Multidimensional Scaling Metrik
Multidimensional Scaling metrik digunakan jika skala datanya
interval atau rasio. Dalam prosedur MDS metrik tidak dipermasalahkan
apakah data input ini merupakan jarak yang sebenarnya atau tidak,
prosedur ini hanya menyusun bentuk geometri dari titik-titik objek yang
diupayakan sedekat mungkin dengan input jarak yang diberikan.
Sehingga pada dasarnya adalah mengubah input jarak atau metrik
kedalam bentuk geometrik sebagai outputnya.
2.7.2 Multidimensional Scaling Non Metrik
Multidimesional scaling nonmetrik mengasumsikan bahwa datanya
adalah kualitatif (nominal dan ordinal). Program Multidimensional
scaling nonmetrik menggunakan transformasi monoton. Transformasi
monoton akan memelihara urutan nilai ketidaksamaannya sehingga jarak
antara objek yang tidak sesuai dengan urutan nilai ketidaksamaan dirubah
sedemikian rupa sehingga akan tetap memenuhi urutan nilai
ketidaksamaan tersebut dan mendekati jarak awalnya. Hasil perubahan
ini disebut disparities.
Contoh
Analisis Positioning & Segmentasi Pemirsa Televisi Swasta
Nasional Berdasarkan Preferensinya Terhadap Program Acara.
Tujuan : untuk mengetahui kemiripan stasiun televisi swasta nasional
berdasarkan program acaranya. Variabel pengamatan ada 11.
VARIABEL PENGAMATAN
D1 : Tayangan informasi aktual termasuk news, dokumenter, dan
lainnya.
D2 : Tayangan olah raga, baik tayangan langsung maupun tidak
langsung.
D3 : Tayangan tentang musik pop,rock,jazz, informasi, pemutaran
perkembangannya
47
D4 : Tayangan musik dangdut serta informasi perkembangannya
D5 : Tayangan berbagai gosip; penayangan sisi kehidupan selebritis
dan rumornya.
D6 : Talk Show; diskusi/dialog menghadirkan tokoh yang membahas
suatu topik
D7 : Berbagai macam hiburan yang disajikan sekaligus bintang tamu,
kuis interaksi
D8 : Tayangan film produksi negara Asia (Mandarin, India, Indonesia)
D9 : Tayangan film barat
D10 : Tanyangan sinetron dan telenovela
D11 : Reality show, sosial, misteri beserta ajang pencarian bakat.
Rata rata positioning tiap stasiun televisi
Langkah langkah mengerjakan multidimensional scaling dengan
SPSS
1. Masukan data
48
2. Analyze Scale Multidimensional Scaling (ALSCAL)
3. Masukan objek kedalam kotak sebelah kanan.
49
4. Pilih Model, skala yang digunakan dan jarak euclid
Hasil Dari Output
ANALISA PEMBAHASAN
Stress
Stress values
For matrix
Stress =.16502 RSQ =.90932
Nilai stress adalah 0. 16502 berdasarkan garis pedoman kriteria
kedekatan masuk ke dalam kategori cukup. Dan nilai RSQ sebesar
0,90932 berdasarkan kriteria maka data yang ada terpetakan dengan
sempurna.
50
ANALISA PEMBAHASAN
Dilihat dari plot secara keseluruhan terdapat tiga kelompok stasiun
televisi yang memiliki kemiripan antar anggotanya tetapi berbeda dengan
anggota kelompok lainnya.
Ketiga kelompok itu adalah:
1. RCTI, SCTV, INDOSIAR dan TRANS TV
2. TPI dan GLOBAL TV
3. METRO TV, LATIVI, TV 7 dan ANTV
Pengelompokan ini didasarkan pada program acara yang ditayangkan.
Kemiripan antara stasiun televisi juga dapat dilihat dari jarak
(distance) antara dua stasiun televisi yang dibandingkan. Semakin kecil
jarak maka semakin mirip dua stasiun televisi yang dibandingkan. Dari
semua pasangan stasiun televisi yang mungkin ada dalam plot, terdapat
dua pasang stasiun televisi yang mempunyai jarak yang kecil. Pasangan
tersebut adalah TPI-GlobalTV dan RCTI-SCTV.
Tetapi jika dilihat lebih jelas lagi, jarak antara RCTI SCTV lebih
kecil daripada jarak TPI-GlobalTV ini berarti, dari sekian banyak
pasangan stasiun televisi yang dibandingkan, stasiun televisi SCTV
paling mirip dengan stasiun televisi RCTI.
RCTI sebagai stasiun televisi swasta favorit memiliki beberapa
kompetitor dalam hal program acara yang disenangi masyarakat yaitu
Indosiar, SCTV dan TransTV. Namun dari ketiga kompetitor tersebut,
SCTV merupakan kompetitor terberat RCTI karena program acaranya
yang paling mirip dengan RCTI
2.8 Tampilan-tampilan Data dan Penyajian-penyajian gambar
Seperti yang telah kita lihat pada bagian sebelumnya,
multidimensional scaling mencoba untuk menggambarkan observasi
dalam p-dimensi menjadi observasi dengan sedikit dimensi sedemikian
sehingga jarak asli antara pasangan observasi dipertahankan. Secara
umum jika obsrvasi multidimensional dapat digambarkan dalam dua
51
dimensi, maka outlier, keterhubungan, pengelompokan yang dapat
dibedakan kerap kali dapat dilihat oleh mata. Kita akan
mendiskusikan dan mengilustrasikan beberapa metode untuk
memperlihatkan data multivariat dalam dua dimensi.
2.8.1 Hubungan Perkalian Scatterplot Dua Dimensi
Contoh 12.15
Untuk mengilustrasikan keterhubungan scatterplot dua dimensi,
kita mengacu pada data kualitas kertas dalam tabel 1.2. data ini
menggambarkan ukuran variabel X
1
=kepadatan, X
2
=daya regang dalam
machine direction X
3
=daya regang dalam cross-direction. Gambar 12.17
menunjukkan scaterplot dua dimensi untuk pasangan variabel-variabel ini
yang disusun sebagai array 3 x 3. sebagai contoh, gambar pada sudut
sebelah kiri atas pada gambar merupakan scatterplot dari pasangan
(x
1
,x
3
) yaitu nilai x
1
diplot sepanjang sumbu horizontal dan nilai x
3
diplot sepanjang sumbu vertikal. Sedangkan scaterplot pada sudut
sebelah kanan bawah dari gambar merupakan observasi (x
3
,x
1
). Dengan
kata lain sumbu sumbunya berkebalikan. Perhatikan variabel-variabel
dan rentang tiga digitnya ditunjukkan dalam kotak sepanjang diagonal
SW-NE.
52
Operasi pemilihan outlier tertentudalam scatterplot (x
1
,x
3
) dari
gambar 12.17 menghasilkan 12.18 (a), dimana outlier ditandai sebagai
specimen 25 dan titik data yang sama disorot dalam scatterplot lain.
Specimen 25 juga terlihat sebagai outlier dalam scatterplot (x
1
,x
2
) tetapi
bukan pada scatterplot (x
2
,x
3
) . Operasi penghapusan specimen ini
mengantarkan pada scatterplot pada gambar 12.18(b)
Dari gambar 12.17, kita dapat lihat bahwa beberapa titik pada
contoh tersebut scatterplot (x
2
,x
3
) terlihat terhubung dengan scatterplot
lain. Pemilihan titik titik ini menggunakan bujur sangkar ( lihat halaman
612), menyoroti titik terpilih pada semua scatterplot dan dilihat pada
gambar 12.19(a). lagipula pengecekan specimen (contoh) 16-21, 34 dan
38-41 sesungguhnya adalah contoh dari gulungan kertas yang lebih lama
yang termasuk dalam urutan yang memiliki cukup lapisan dalam kardus
yang diproduksi. Pengoperasian poin-poin penyorotan yang sesuai
dengan suatu cakupan yang terpilih salah satu dari variabel-variabel
disebut Brushing. Brushing bisa mulai dengan suatu persegi panjang,
seperti di Gambar 12.19 (a), akan tetapi proses brushing tersebut bisa
dipindah ke penetapan suatu urutan dari poin-poin yang digaris bawahi.
Proses itu dapat dihentikan pada setiap waktu untuk menetapkan suatu
snapshot dari situasi yang ada.
Scatterplots seperti itu berada dalam contoh 12.15 adalah
bantuan-bantuan sangat bermanfaat di dalam analisis data. Teknik grafis
baru penting yang lain adalah dengan menggunakan perangkat lunak. Hal
ini bisa dilakukan secara dinamis dan secara terus-menerus sampai data
yang informatif dan bersaingan diperoleh.
53
Suatu strategi untuk analisa penyelidikan multivariate grafis
dalam garis, yang termotivasi oleh kebutuhan akan suatu prosedur yang
rutin untuk mencari-cari struktur di data multivariat, disampaikan dalam
contoh berikut.
Contoh 12.16
Empat pengukuran yang berbeda dari kekakuan kayu diberikan
dalam Table 4.3. Di Dalam Contoh 4.13, kita mengenali spesimen
(papan) 16 dan mungkin spesimen (papan) 9 sebagai pengamatan -
pengamatan yang tidak biasa. Gambar 12.20 (a), (b), dan (c) berisi
perspektif -perspektif dari data kekakuan di dalam ruang. Pandangan-
pandangan ini diperoleh oleh secara terus menerus berputar dan
memutar tiga koordinat dimensional. Memutar koordinat membiarkan
satu dan lainnya untuk mendapat suatu pemahaman yang lebih baik
tentang tiga aspek dimensional dari data. Gambar 12.20 (d ) adalah
gambar dari data kekakuan di x
2
, x
3
, x
4
ruang. Kenali bahwa Gambar
12.20 (a) dan (d) secara visual mengkonfirmasikan spesimen-
spesimen 9 dan 16 seperti pencilan.
Spesimen 9 sangat besar di
dalam ketiga koordinat tersebut. Perputaran yang berlawanan arah
jarum jam seperti perputaran di dalam Gambar 12.20 (a) hasilkan
Gambar 12.20 (b), dan kedua pengamatan-pengamatan yang tidak
biasadisembunyikan di dalam pandangan ini. Suatu penjabaran lebih
54
lanjut x
2
, x
3
memberi Gambar 12.20 (c); salah satu pencilan (16) kini
tersembunyi.
Kita sekarang berpindah kepada tiga penyajian-penyajian
bergambar yang populer data multivariat dalam dua dimensi yaitu stars,
Andrews plot, dan Chernoff faces.
2.8.1.1 Stars
Umpamakan masing-masing unit data terdiri dari
pengamatan-pengamatan tidak negatif di p2 variabel. Dalam
dua dimensi, kita dapat membangun lingkaran-lingkaran dari
suatu radius yang ditetapkan (menjadi acuan) den gan sinar
yang sama yang berasal dari pusat dari lingkaran. Panjang-
panjang dari sinar menunjukkan nilai-nilai dari variabel-variabel.
Akhir dari sinar itu dapat dihubungkan dengan garis lurus untuk
membentuk suatu bintang. Masing-masing bintang menunjukkan
suatu pengamatan multivariate dan bintang-bintang dapat
dikelompokkan menurut persamaan.
Metode stars sering san at membantu. Ketika akan
membuat bintang-bintang, sebaiknya untuk menstandardisasi
hasil pengamatan-pengamatan. Dalam hal ini mungkin sebagian
dari hasil pengamatan itu biasanya negatif. Pengamatan-pengamatan
itu kemudian bisa ditampilkan kembali setelah distandardisasi
sehingga pusat dari lingkaran menunjukkan nilai pengamatan paling
kecil dari seluruh data
2.8.1.2 Andrews Plot
Andrews sudah mengusulkan bahwa suatu vektor
dimensional dari p pengukuran-pengukuran [x
1
,x
2
,x
3
,..,x
p
]
diwakili oleh Deret Fourier yang terbatas
55
Lalu, pengukuran-pengukuran dijadikan koefisien-koefisien
dalam suatu grafik merupakan suatu fungsi periodik. Sebagai
contoh, pengamatan 4-dimensional [6,3, -1,2]' dikonversi menjadi
fungsi
dan plot sebagai suatu fungsi t.
Plot dari Penyajian-penyajian deret Fourier dari
pengamatan multivariat akan kurva-kurva yang kemudian bisa
secara visual dikelompokkan. Andrews plots dilakukan dengan
menukar koordinat-koordinat (koefisien-koefisien). Sebagai
konsekwensinya yaitu mencoba bermacam-macam tampilan sebelum
memutuskan satu-satunya yang terbaik untuk suatu data yang
diberikan. Pengalaman sudah menunjukkan bahwa data itu harus
distandardisasi sebelum membentuk Deret Fourier. Lebih dari
56
itu, jika banyaknya materi melembutkan kepada besar, Andrews
plot menjadi sulit. Banyaknya Andrews membengkok yang
dilapiskan di grafik perlu mungkin dibatasi sebanyak lima atau
enam.
Contoh 12.18
Perwakilan pengamatan-pengamatan 22 utilitas publik menurut
(12.21) di dalam Gambar 12.22. Kelompok perusahaan yang serupa
kebanyakan sulit untuk di lihat. Termotivasi oleh matriks jarak di
dalam Gambar 12.2 (lihat Contoh 12.1), kita memplot
kelompok terdiri dari perusahaan (4,10,13,20,22). Hasil itu
ditunjukkan di dalam Gambar 12.23. Catat bahwa perusahaan 22
(Virginia Electric dan Power Company) terlihat mempunyai bit
yang berbeda dari istirahat dan plot Andrews konsisten dengan
algoritma pengelompokan rata-rata keterhubungan hirarkis pada
ilustrasi 12.10 (lihat Gambar 12.11).
2.8.1.3 Chernoff faces
Orang-orang bereaksi dengan muka. Chernoff menggam-
barkan pengamatan-pengamatan dimensional p sebagai suatu muka
dimensional dengan karakteristik-karakteristik bentuk muka,
lengkungan mulut, panjang hidung, ukuran mata, posisi pupil,
dan sebagainya ditentukan oleh nilai pengukuran-pengukuran
dari variabel-variabel di p.
Seperti mula-mula merancang, Chernoff faces mampu
menangani sampai dengan 18 variabel. Tugas dari variabel-
variabel kepada fitur fasial dilaksanakan oleh eksperimen dan
aneka pilihan yang berbeda menghasilkan hasil-hasil yang
berbeda. Beberapa perkataan berulang-ulang adalah biasanya
perlu sebelum penyajian-penyajian yang memuaskan dicapai. J ika
penyelidik itu adalah [ secara] wajar pasti dua atau tiga variabel
terutama bertanggung jawab untuk seikat-seikat yang pembeda,
57
variabel-variabel ini dapat dihubungkan dengan karakteristik-
karakteristik fasial yang terkemuka. Menghubungkan satu "yang
penting" variabel dengan suatu karakteristik seperti panjangnya
hidung, dibanding suatu lebih sedikit karakteristik yang
terkemuka seperti posisi murid, mengizinkan[membiarkan] satu
untuk memilih pengelompokan-pengelompokan lebih siap.
Seperti Andrews plots, Chernoff faces bermanfaat karena
membuktikan (1) satu pengelompokan awal yang diusulkan oleh
pengetahuan pokok dan intuisi atau (2) pengelompokan akhir yang
dihasilkan oleh algoritma cluster.
Contoh 12.19
Dengan menggunakan data dalam table 12.5, perusahaan
fasilitas umum menggunakan Chernoff faces. Kita mengikuti aturan
berikut.
Membangun Chernoff faces adalah suatu tugas itu harus
dilakukan dengan bantuan komputer. Data itu biasanya
distandardisasi di dalam program komputer sebagai bagian dari
proses untuk menentukan lokasi-lokasi, ukuran-ukuran, dan
58
orientasi-orientasi karakteristik-karakteristik yang fasial. Dengan
beberapa pelatihan, Chernoff faces bisa merupakan suatu cara
yang efektif untuk komunikasi;kan persamaan atau perbedaan-
perbedaan.
Kesimpulan Akhir
Ada beberapa cara untuk menggambarkan data
multivariat dalam dua dimensi. Kita sudah menggambarkan
beberapa diantaranya. Efektivitas dari Stars, Andrews plots,dan
Chernoff faces disatukan. Kadang-kadang gambar tersebut dapat
lebih informatif; bagaimanapun, lebih sering daripada tidak,
mereka tidak akan menghilangkan ciri tiap kelompok.
59
BAB III
STUDI KASUS
Dari penelitian yang dilakukan terhadap 12 kota, ingin diketahui
pengelompokan kota-kota tersebut berdasarkan instrumen 5 variabel yaitu :
1. Jumlah Pendapatan Kota (Trilyun Rp)
2. Jumlah Pinjaman Pemerintah Kota (Milyar Rp)
3. Jumlah Dana Hibah yang Dimiliki Kota (Milyar Rp)
4. Jumlah Konsumsi Pemerintah Kota (Milyar Rp)
5. Jumlah Penduduk Kota (Juta Jiwa).
Untuk itu data yang berhasil dikumpulkan sebagai berikut:
No Kota Pendapatan Pinjaman Dana Hibah Konsumsi Penduduk
1 A 55 5,6 9 50 25
2 B 61 8 7 62 41
3 C 58 3,9 7 60 32
4 D 67 5,5 7 64 51
5 E 71 5,7 6 70 42
6 F 76 7,6 8 80 29
7 G 81 8,7 9 80 57
8 H 56 7,1 6 86 29
9 I 84 7,6 7 82 46
10 J 88 6,5 8 86 52
11 K 84 6,8 9 88 61
12 L 90 8 9 90 66
Dalam melakukan analisis cluster terdapat dua metode yaitu metode
kelompok hiraki dan metode kelompok non hirarki. Dalam hal ini akan dilakukan
metode hirarki terlebih dahulu, kemudian dilakukan metode non hirarki.
Untuk menyelesaikan contoh kasus di atas dengan menggunakan aplikasi
program SPSS, perlu dilakukan penormalstandaran data:
60
Setelah di normal standarkan melalui Program SPSS, data menjadi:
No Kota ZPendapatan ZPinjaman ZDana Hibah ZKonsumsi ZPenduduk
1 A -1,35625 -0,83893 1,1547 -1,88970 -1,41834
2 B -0,89345 0,91188 -0,57735 -0,97656 -0,23946
3 C -1,12485 -2,07908 -0,57735 -1,12875 -0,90258
4 D -0,43066 -0,91188 -0,57735 -0,82437 0,49734
5 E -0,12213 -0,76598 -1,44338 -0,36779 -0,16578
6 F 0,26354 0,62008 0,28868 0,39316 -1,12362
7 G 0,6492 1,42253 1,1547 0,39316 0,93942
8 H -1,27911 0,25533 -1,44338 0,84973 -1,12362
9 I 0,8806 0,62008 -0,57735 0,54535 0,12894
10 J 1,18913 -0,18238 0,28868 0,84973 0,57102
11 K 0,8806 0,03648 1,1547 1,00192 1,23414
12 L 1,34339 0,91188 1,1547 1,15411 1,60254
Untuk selanjutnya, data yang digunakan untuk penclusteran adalah data
yang sudah dinormal standarkan.
3.1 Metode Hierarki
Metode Hierarchical Cluster (Hirarkis) Konsep dari metode hirarkis
ini dimulai dengan menggabungkan 2 obyek yang paling mirip, kemudian
gabungan 2 obyek tersebut akan bergabung lagi dengan satu atau lebih
obyek yang paling mirip lainnya. Proses clustering ini pada akhirnya akan
menggumpal menjadi satu cluster besar yang mencakup semua obyek.
Metode ini disebut juga sebagai metode aglomerativ yang digambarkan
dengan dendogram. Contoh kasus di atas akan dicoba untuk diselesaikan
pula dengan metode aglomerativ dan diolah dengan program SPSS.
Tabel 1 hasil output SPSS di bawah ini menunjukkan bahwa semua
data sejumlah 12 obyek telah diproses tanpa ada data yang hilang.
61
Tabel 1
Case Processi ng Summary
a
Cases
Valid Missing Total
N Percent N Percent N Percent
12 100,0% 0 ,0% 12 100,0%
a. Squared Euclidean Distance used
Tabel 2 di bawah menujukkan matrik jarak antara variabel satu
dengan variabel yang lain. Semakin kecil jarak euclidean, maka semakin
mirip kedua variabel tersebut sehingga akan membentuk kelompok
(cluster).
Tabel 2
Proximity Matri x
Case
Squared Euclidean Distance
1:A 2:B 3:C 4:D 5:E 6:F 7:G 8:H 9:I 10:J 11:K 12:L
1:A .000 8.503 5.437 8.667 12.163 10.801 19.906 15.545 18.456 19.122 21.167 28.744
2:B 8.503 .000 9.462 4.106 4.536 4.832 8.906 5.447 5.684 10.277 12.999 15.936
3:C 5.437 9.462 .000 3.897 4.602 12.328 24.118 10.186 15.174 15.788 20.603 29.525
4:D 8.667 4.106 3.897 .000 1.515 7.689 11.293 8.262 6.078 6.714 9.497 14.609
5:E 12.163 4.536 4.602 1.515 .000 6.566 13.935 4.782 4.597 7.085 12.235 17.156
6:F 10.801 4.832 12.328 7.689 6.566 .000 5.799 5.721 2.723 4.581 7.401 10.012
7:G 19.906 8.906 24.118 11.293 13.935 5.799 .000 16.295 4.378 3.961 2.432 1.761
8:H 15.545 5.447 10.186 8.262 4.782 5.721 16.295 .000 7.209 12.156 17.044 21.583
9:I 18.456 5.684 15.174 6.078 4.597 2.723 4.378 7.209 .000 1.777 4.771 5.841
10:J 19.122 10.277 15.788 6.714 7.085 4.581 3.961 12.156 1.777 .000 1.356 3.128
11:K 21.167 12.999 20.603 9.497 12.235 7.401 2.432 17.044 4.771 1.356 .000 1.139
12:L 28.744 15.936 29.525 14.609 17.156 10.012 1.761 21.583 5.841 3.128 1.139 .000
This is a dissimilarity matrix
Tabel 3 di bawah merupakan hasil proses clustering dengan metode
Between Group Linkage. Setelah jarak antar variabel diukur dengan jarak
62
euclidean, maka dilakukan pengelompokan, yang dilakukan secara
bertingkat.
Tabel 3
Aggl omerati on Schedul e
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 11 12 1.139 0 0 4
2 4 5 1.515 0 0 6
3 9 10 1.777 0 0 5
4 7 11 2.097 0 1 7
5 6 9 3.652 0 3 7
6 3 4 4.249 0 2 9
7 6 7 5.183 5 4 11
8 2 8 5.447 0 0 9
9 2 3 6.889 8 6 10
10 1 2 10.063 0 9 11
11 1 6 13.662 10 7 0
Stage 1 : terbentuk 1 cluster yang beranggotakan Kota K dan Kota L dengan
jarak 1,139 (perhatikan pada kolom Coefficients). Karena proses aglomerasi
dimulai dari 2 obyek yang terdekat, maka jarak tersebut adalah yang
terdekat dari sekian kombinasi jarak 12 obyek yang ada. Selanjutnya lihat
kolom terakhir (Next Stage), terlihat angka 4. Hal ini berarti clustering
selanjutnya dilakukan dengan melihat stage 4, dengan penjelasan berikut.
Baris ke-4 (stage 4) terlihat obyek ke-7 (Kota G) membentuk cluster
dengan Kota K. Dengan demikian, sekarang cluster terdiri dari 3
obyek yaitu Kota G, K, dan L. Sedangkan jarak sebesar 2,097
merupakan jarak rata-rata obyek terakhir yang bergabing dengan 2
obyek sebelumnya, seperti tampak dalam Proximity matrix dan dapat
dihitung sebagai berikut :
- Jarak Kota G dan K =2,432
- Jarak Kota G dan L =1,761
63
- Jarak rata-rata =(2,432 +1,761) / 2 =2,0965
Stage 2 : terjadi pembentukan cluster Kota D dan Kota E berjarak 1,515),
yang kemudian berlanjut ke stage 6.
Demikian seterusnya dari stage 3 dilanjutkan ke stage 5, sampai ke stage
terakhir.
Proses aglomerasi ini bersifat kompleks, khususnya perhitungan
koefisien yang melibatkan sekian banyak obyek dan terus bertambah. Proses
aglomerasi pada akhirnya akan menyatukan semua obyek menjadi satu
cluster. Hanya saja dalam prosesnya dihasilkan beberapa cluster dengan
masing-masing anggotanya, tergantung jumlah cluster yang dibentuk.
Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada
tabel output berikut ini :
Tabel 4
Cl uster Membership
Case 4 Clusters 3 Clusters 2 Clusters
1:A 1 1 1
2:B 2 2 1
3:C 3 2 1
4:D 3 2 1
5:E 3 2 1
6:F 4 3 2
7:G 4 3 2
8:H 2 2 1
9:I 4 3 2
10:J 4 3 2
11:K 4 3 2
12:L 4 3 2
Dari tabel diatas dapat dijabarkan bahwa :
Apabila diinginkan dibentuk 4 cluster, maka :
Anggota cluster 1 adalah Kota A
Anggota cluster 2 adalah Kota B dan Kota H
64
Anggota cluster 3 adalah C, D, dan E
Anggota cluster 4 adalah Kota F, G, I, J, K dan L.
Apabila ditentukan dibentuk 3 cluster, maka :
Anggota cluster 1 adalah Kota A
Anggota cluster 2 adalah Kota B, C, D, E dan H.
Anggota cluster 3 adalah Kota F, G, I, J, K dan L.
Apabila ditentukan dibentuk 2 cluster, maka :
Anggota cluster 1 adalah Kota A, B, C, D, E dan H
Anggota cluster 2 adalah Kota F, G, I, J, K dan L.
Dendogram berguna untuk menunjukkan anggota cluster yang ada jika
akan ditentukan berapa cluster yang seharusnya dibentuk. Sebagai contoh
yang terlihat dalam dendogram di bawah ini:
Apabila akan dibentuk 2 cluster, maka cluster 1 beranggotakan Kota
K sampai dengan Kota F (sesuai urutan dalam dendogram); dan cluster2
beranggotakan Kota D sampai dengan Kota A. Demikian seterusnya dapat
65
dengan mudah dilihat anggota tiap cluster sesuai jumlah cluster yang
diinginkan.
3.2 Metode K-Means Cluster (Non-Hierarki)
Sebagaimana telah dijelaskan sebelumnya bahwa metode K-Means
Cluster ini jumlah cluster ditentukan sendiri. Oleh karena itu, disini akan
ditentukan jumlah cluster adalah tiga kemudian data diolah melalui aplikasi
program SPSS. Perlu diingat bahwa bahan analisis bukan lagi data asli,
namun data hasil transformasi/standardisasi.
Tabel 5
Initial Cl uster Centers
Cluster
1 2 3
Zscore: Pendapatan 1,34339 -1,27911 -1,12485
Zscore: Pinjaman ,91188 ,25533 -2,07908
Zscore: Dana Hibah 1,15470 -1,44338 -,57735
Zscore: Konsumsi 1,15411 ,84973 -1,12875
Zscore: penduduk 1,60254 -1,12362 -,90258
Tabel 5 diatas merupakan tampilan pertama proses clustering data
sebelum dilakukan iterasi. Untuk mendeteksi berapa kali proses iterasi yang
dilakukan dalam proses clustering dari 12 obyek yang diteliti, dapat dilihat
dari tampilan output SPSS berikut ini :
Tabel 6
Iterati on Hi story
a
Iteration Change in Cluster Centers
1 2 3
dimensi o
n0
1 1,073 1,395 1,103
2 ,000 ,000 ,000
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center is
,000. The current iteration is 2. The minimum
distance between initial centers is 3,192.
66
Ternyata proses clustering yang dilakukan melalui 2 tahapan iterasi
untuk mendapatkan cluster yang tepat. Dari tabel diatas disebutkan bahwa
jarak minimum antar pusat cluster yang terjadi dari hasil iterasi adalah
3,192. Adapun hasil akhir dari proses clustering digambarkan berikut ini :
Tabel 7
Fi nal Cl uster Centers
Cluster
1 2 3
Zscore: Pendapatan ,98858 -,63634 -,75847
Zscore: Pinjaman ,56172 ,59576 -1,14896
Zscore: Dana Hibah ,63509 -,57735 -,36084
Zscore: Konsumsi ,78885 ,08878 -1,05265
Zscore: penduduk ,89521 -,82890 -,49734
Output Final Cluster Centers tersebut diatas masih terkait dengan
proses standardisasi data sebelumnya, yang mengacu pada z-score dengan
ketentuan sebagai berikut :
Nilai negatif (-) berarti data berada di bawah ratarata total.
Nilai positif (+) berarti data berada di atas ratarata total.
Rumus umum yang digunakan yaitu:
X =p +Z o
Dimana:
X : rata-rata sampel (variabel dalam cluster)
p : rata-rata populasi
Z : nilai standardisasi
o : standar deviasi
Sebagai contoh, apabila ingin diketahui rata-rata jumlah pendapatan
kota di cluster-1 yaitu :
(rata-rata pendapatan seluruh kota) +(0,98858 x standardeviasi rata-
rata pendapatan)
67
=72,58 +(0,98858 x 12,965)
=85,3969
Jadi rata-rata jumlah pendapatan kota yang berada di cluster-1 adalah
Rp 85,3969 trilyun.
Demikian seterusnya dapat diketahui rata-rata nilai masing-masing
variabel dalam tiap cluster.
Dari tabel output Final Cluster Centers, dengan ketentuan yang telah
dijabarkan diatas pula, dapat didefinisikan sebagai berikut :
Cluster-1
Dalam cluster-1 ini berisikan kota-kota yang mempunyai jumlah
pendapatan kota, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi,
dan jumlah penduduk yang lebih dari rata-rata populasi kota yang diteliti.
Hal ini terbukti dari nilai positif (+) yang terdapat pada tabel Final Cluster
Centers dalam keseluruhan variabel. Dengan demikian, dapat diduga bahwa
cluster-1 ini merupakan pengelompokan dari kota-kota besar.
Cluster-2
Karakteristik kota yang masuk dalam pengelompokan cluster-2 yaitu
memiliki rata-rata jumlah pinjaman dan jumlah konsumsi yang melebihi
rata-rata populasi kota yang diteliti. Untuk instrumen variabel yang lain
kota-kota di cluster-2 ini berada di atas ratarata populasi. Dengan demikian,
dapat diduga sekumpulan kota-kota menengah berada pada cluster-2.
Cluster-3
Sedangkan karakteristik kota-kota yang mengelompok pada cluster-3
adalah keseluruhan instrumen penilai berada pada posisi dibawah rata-rata
populasi kota yang diteliti. Sehingga dapat diduga bahwa cluster-3
merupakan pengelompokan kota-kota kecil.
Penamaan cluster atau penarikan kesimpulan sangat bersifat
subyektif dan bergantung pada tujuan penelitian.
Tahapan selanjutnya yang perlu dilakukan yaitu melihat perbedaan
variabel pada cluster yang terbentuk. Dalam hal ini dapat dilihat dari nilai
68
F dan nilai probabilitas (sig) masing-masing variabel, seperti tampak dalam
tabel berikut.
ANOVA
Cluster Error
F Sig. Mean Square Df Mean Square Df
Zscore: Pendapatan 4,201 2 ,289 9 14,556 ,002
Zscore: Pinjaman 3,961 2 ,342 9 11,587 ,003
Zscore: Dana Hibah 1,769 2 ,829 9 2,133 ,174
Zscore: Konsumsi 3,784 2 ,381 9 9,921 ,005
Zscore: penduduk 3,529 2 ,438 9 8,056 ,010
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Rumus nilai F:
F =
HS Bctwccn
HS witin
Dimana dalam tabel ANOVA di atas MS Between ditunjukkan oleh
Means Square dalam kolom Cluster, sedangkan MS Within ditunjukkan
oleh Means Square dalam kolom Error.
Semakin besar nilai F dan (sig < 0,05), maka semakin besar
perbedaan variabel pada cluster yang terbentuk.
Dengan demikian hasil cluster yang didapat dalam penelitian ini
bahwa untuk instrumen jumlah pendapatan kota yang paling menunjukkan
adanya perbedaan diantara kota-kota pada ketiga cluster yang terbentuk. Hal
ini dengan ditunjukkannya nilai F =14,556 dan sig =0,002.
Dan untuk variabel yang lain pun dapat didefinisikan lebih lanjut.
Selanjutnya untuk mengetahui jumlah anggota masing-masing cluster yang
terbentuk dapat dilihat pada tabel output berikut ini :
69
Tabel 8
Number of Cases i n each
Cl uster
Cluster 1 5,000
2 3,000
3 4,000
Valid 12,000
Missing ,000
Nampak jelas bahwa cluster-1 beranggotakan 5 kota, cluster-2 berisi 3
kota, dan pada cluster-3 terdapat 4 kota yang mengelompok. Dan untuk
mengetahui kota-kota mana saja yang masuk dalam kategori tiap-tiap cluster
dapat kembali dibuka tampilan data view pada kolom terakhir akan
nampak seperti berikut ini:
Perhatikan 2 kolom terakhir pada tabel di atas. qcl_1 menunjukkan
nomor cluster dari keberadaan kota, dan qcl_2 merupakan jarak antara
obyek dengan pusat cluster. Dengan demikian, dapat ditafsirkan sebagai
berikut :
70
Cluster-1 : berisikan kota G, I, J, K, dan L dengan masing-masing jarak
terhadap pusat cluster-1 adalah 1,13345; 1,45998; 0,90703; 0,84724; dan
1,07342.
Cluster-2 : berisikan kota B, F, dan H, dengan masing-masing jarak
terhadap pusat cluster-2 adalah 1,28390; 1,31905; dan 1,39462.
Cluster-3 : berisikan kota A, C, D, dan E, dengan masing-masing jarak
terhadap pusat cluster-3 adalah 2,07346; 1,10283; 1,11895; dan 1,51738.
71
BAB IV
KESIMPULAN DAN SARAN
3.1 Kesimpulan
1. Analisis cluster dilakukan untuk mengelompokan objek-objek yang
memiliki kemiripan (homogen). Berdasarkan karakteristik yang
dimiliki,dengan analisis cluster sekelompok objek dapat dikelompokkan.
2. Metode pengelompokan pada dasarnya ada dua, yaitu
pengelompokan hirarki (Hierarchical Clustering Method) dan pen
gelompokan non hirarki(Non Hierarchical Clustering Method).
3. Metode pengelompokan hirarki digunakan apabila belum ada
informasi jumlah kelompok. Sedangkan metode pengelompokan non
hirarki bertujuan mengelompokan n obyek ke dalam k kelompok
( k <n).
4. Salah satu prosedur pengelompokan pada non hirarki adalah
dengan menggunakan metode K-Means. Metode ini merupakan
metodepengelompokan yang bertujuan mengelompokan obyek sed
emikian hingga jarak tiap-tiap obyek ke pusat kelompok di dalam
satu kelompok adalah minimum.
3.2 Saran
Terdapat beberapa algoritma cluster yang dapat digunakan untuk
mengelompokkan objek-objek, baik itu dengan pengelompokan hirarki
ataupun pengelompokan non hirarki. Namun yang perlu diperhatikan adalah
stabilitas dari solusi yang diperoleh, oleh karena itu perlu di cek kembali
setiap algoritma cluster tersebut baik sebelum atau sesudah pengelompokkan.
72
Daftar Pustaka
Aji, Chandra.et al.Clustering.(Online).
Tersedia:http://file.upi.edu/Direktori/FPMIPA/JUR._PEND._MATEMATIKA/1968051119
91011-JARNAWI_AFGANI_DAHLAN/multivariat/Bab_12x.pdf (31 Mei 2013)
Hartini,Entin..Metode Clustering Hirarki.(Online).
Tersedia : http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf (31 Mei 2013)
Unknown. Clustering.(Online).
Tersedia : http ://www.bandmservices/ (31 Mei 2013)
Johnson, Richrd A dan Dean W. Wichern, Applied Multivariate Statistical
Analysis Third Edition.New Jersey:Pearson Education.Inc.
Johnson, Richrd A dan Dean W. Wichern,(2007) Applied Multivariate Statistical
Analysis Sixth Edition.New Jersey:Pearson Education.Inc.