ANALISIS CLUSTER
Pendahuluan
ikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang paling dekat
kesamaannya dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang
terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang
tinggi. Berbeda dengan teknik multivariat lainnya, analisis ini tidak mengestimasi set
vaiabel secara empiris sebaliknya menggunakan setvariabel yang ditentukan oleh peneliti
itu sendiri. Fokus dari analisis cluster adlah membandingkan objek berdasarkan set
variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel sebagai
tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabel yang
adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap
penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa solusi yang
berbeda dapat diperoleh dengan mengubah satu elemen atau lebih. Solusi cluster secara
Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja analisis
cluster, yaitu :
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu ukuran korelasi,
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas alam cluster
Sebagaimana teknik multivariat lain proses analisis cluster dapat dijelaskan dalam
Tujuan utama analisis cluster adalah mempartisi suatu set objek menjadi dua kelompok
analisis cluster dapat diterapkan secara luas. Meskipun secara empiris merupakan teknik
a. Penyederhanaan Data
selanjutnya.
yang terbentuk merefleksikan struktur yang melekat pada data seperti yang
dan konsep yang umum digunakan dan harus rasional. Rasionalitas ini didasarkan
dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan
Tiga hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan,
A. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya. Outlier
dapat digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili
Outlier menyebabkan menyebabkan struktur yang tidak benar dan cluster yang
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster. Kesamaan
antar objek merupakan ukuran korespondensi antar objek. Ada tiga metode yang
dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
a. Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik, namun
jarang digunakan karena titik bertnya pada nilai suatu pola tertentu,
antar objek dapat dilihat dari koefisien korelasi antar pasangan objek
b. Ukuran Jarak
Ada beberapa tipe ukuran jarak antara lain jarak Euklidian, jarak city-
garis lurus yang menghubungkan antar objek. Misalkan ada dua objek
c. Ukuran Asosiasi
C. Standarisasi Data
a. Standarisasi Variabel
b. Standarisasi Data
6
Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi.
sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili
populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif.
Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin
B .Pengaruh Multukolinieritas
keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan
substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan
Algoritma Cluster
variasi dalam cluster. Dua metode paling umum dalam algoritma cluster adalahmetode
hirarkhi dan metode non hirarkhi. Penentuan metode mana yag akan dipakai tergantung
kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan
hirarkhi adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun
kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan
untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki
keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada
data outlier, ukuran jarak yang digunakan, dan termasuk variabel tak relevan atau
variabel yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal
nonrandom, penggunaan metode non hirarkhi untuk titik bakal random secara nyata
A. Metode Hirarkhi
Tipe dasar dalam metode ni adalah aglomerasi dan pemecahan. Dalam metode
aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga
8
terdapat cluster sebyak jumlah observasi. Kemudian dua cluster yang terdekat
kesamaannya digabung menjadi suatu cluster babru, sehingga jumlah cluster berkurang
satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar
sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga
Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek
yang dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan
pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama
maksimum. Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu
sama lain pada suatu jarak maksimuma atau dengan kesamaan minimum.
dari tengan atau pasangan observasi dengan jarak paling mendekati jarak rata-
rata.
9
Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara
dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk
e. Metode Centroid
Jarak antara dua cluster adalah jarak antar centroid cluster tersebut.
Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set
bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil
akhir analisis cluster. Bakal cluster pertama adalah observasi pertama dalam set
data tanpa missing value. Bakal kedua adalah observasi lengkap berikutnya (tanpa
missing data) yang dipisahkan dari bakal pertama oleh jarak minimum khusus.
a. Sequential threshold
seluruh objek dalam jarak tertentu. Jika seluruh objek dalam jarak tersebut
b. Parallel Threshold
terdekat.
c. Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali pada
Hal penting lain dalam tahap keempat adalah menentukan jumlah cluster yang
Karena tidak ada kriteria statistik internal digunakan untuk inferensia, seperti
Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan
menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster.
Proes ini dimulai dengan suatu ukuran yang sering digunakan yaitu centroid cluster.
Membuat profil dan interpretasi cluster tidak hanya tidak hanya untuk memoeroleh suatu
korespondensi pada cluster yang terbentuk, kedua, profil cluster memberikan araha bagi
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis
cluster dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini
membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak dapat
dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan ibjek untuk
cluster tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada
karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota
Secara keseluruhan proses analisis cluster berakhir setelah keenam tahap ini dilalui. Hasil
analisis cluster dapat digunakan untuk berbagai kepentingan sesuai dengan materi yang
dianalisis.
12
Contoh:
Berdasarkan data BPS pada laporan Sosial Indonesia dari Supas dan Sakernas
BPS pada tahun 2005 penduduk lansia cenderung bertambah atau ada perubahan struktur
dari struktur penduduk muda ke struktur penduduk tua. Maka dari itu perlu adanya
dengan membentuk wilayah konsentrasi berdasarkan data pada tabel 1. Model analisis
Tabel. 1
makan makan
tidak
makanan lauk pauk bila
tidak pernah memiliki mempunyai
pokok berprotein sakit
PROPINSI sekolah/tamat pakaian tempat
<21X tinggi<4X tidak
SD <4 stel tetap untuk
dalam dalam diobati
tidur
seminggu seminggu
SUMATERA
63,13 38,67 35,70 16,79 2,48 3,33
UTARA
SUMATERA
57,48 48,23 17,48 20,60 0,90 4,05
BARAT
RIAU 67,72 50,59 18,43 9,95 1,58 3,34
JAMBI 75,99 44,10 29,77 27,94 1,76 2,55
SUMATERA
65,69 58,39 27,90 24,67 5,57 5,18
SELATAN
BENGKULU 71,37 52,02 35,60 30,64 2,17 4,29
LAMPUNG 80,64 35,59 41,56 34,15 1,48 2,78
DKI JAKARTA 37,80 56,38 12,28 87,24 1,45 6,78
JAWA BARAT 70,84 70,48 31,37 17,17 1,82 5,32
JAWA 79,30 35,99 16,25 19,36 1,89 3,97
13
TENGAH
D.I.
76,05 46,27 11,35 17,45 1,17 4,72
YOGYAKARTA
JAWA TIMUR 82,76 30,86 15,13 30,77 2,01 3,55
BALI 77,96 42,28 6,28 25,74 0,34 4,87
NUSA
TENGGARA 86,92 33,09 23,48 48,28 3,20 4,64
BARAT
NUSA
TENGGARA 87,36 56,75 58,67 49,77 1,42 9,31
TIMUR
KALIMANTAN
83,48 54,34 38,60 29,46 3,87 7,51
BARAT
KALIMANTAN
60,37 50,29 18,78 28,13 6,69 2,68
TIMUR
KALIMANTAN
76,93 38,72 16,65 29,37 2,77 7,07
SELATAN
KALIMANTAN
73,43 52,45 18,18 12,72 1,11 1,01
TENGAH
SULAWESI
51,30 58,14 25,58 11,08 1,84 2,89
UTARA
SULAWESI
66,01 54,47 16,29 32,81 2,47 8,66
TENGAH
SULAWESI
77,62 58,74 10,93 24,03 3,70 6,89
SELATAN
SULAWESI
74,65 72,91 3,19 17,78 1,07 8,78
TENGGARA
IRIAN JAYA 52,32 70,04 30,37 16,84 6,58 18,62
Dalam melakukan analisis cluster terdapat dua metode yaitu metode kelompok
Dalam hal ini metode yang digunakan adalah metode hiraki karena paling banyak
digunakan oleh para peneliti dan memiliki keunggulan tersendiri, yaitu pengelompokan
Sumatera Utara mempunyai jarak 2,241. sedang propinsi Jambi dengan Sumatera Selatan
berjarak 7,830. Jadi karakteristik lansia terlantar di propinsi Jambi dengan Sumatera
Utara lebih mirip bila dibandingkan dengan propinsi Jambi dengan Sumatera Selatan.
Dari tabel 3., kita bisa melihat bahwa aglomerasi melakukan pengelompokkan
secara satu demi satu. Pada tahap 1 (stage 1) kasus nomor 3 (propinsi ke 3) dan 19
(propinsi ke 19) adalah yang paling mirip, maka mereka menjadi kelompok terlebih
dahulu. Kemudian lihat kolom next stage pada baris pertama, yang merupakan kelanjutan
stage untuk cluster. Terlihat stage 14 yang berarti stage dilanjutkan ke stage 14.
Pada stage 14 terlihat bahwa angka 3 (propinsi 3) dan 11 (propinsi 11) hal ini
berarti bahwa propinsi 11 masuk pada kelompok 1 yang terbentuk yaitu 3 dan 19. dengan
demikian sudah diketahui bahwa ada 3 anggota yang sudah diketahui clusternya.
Kemudian lihat next stage pada baris ke 14. dimana cluster terakhir dilakukan. Terlihat
angka 17, yang berarti proses cluster dilanjutkan ke stage 17. demikian selanjutnya
Tabel 3.
Agglomerasion Schedule
Agglomeration Schedule
Bila melihat keanggotaan kluster, terdapat perubahan letak propinsi dalam cluster,
seperti propinsi Irian jaya yang semula berada dalam kelompok 4 manjadi kelompok 2
dalam cluster 3. Sedang untuk jumlah cluster 2 terdapat perubahan cluster untuk propinsi
Tabel 4
Keanggotaan Kluster
Cluster Membership
Secara visual hasil pengelompokan dapat dilihat pada dendogram di tabel 5..
Pengelompokan propinsi propinsi untuk lansia terlantar dapat dibagi atas beberapa
Sumatera Utara, Sumatera Barat, Riau, Jambi, Bengkulu, Lampung, Jawa Tengah,
DI yokyakarta, Jawa Timur, Bali, NTB, Kal Teng, Kal Sel, Sulutdan kelompok
kedua meliputi propinsi Sumatera Selatan, DKI jakarta, Jawa Barat, NTT, Kal
Sumatera Utara, Sumatera Barat, Riau, Jambi, Bengkulu, Lampung, Jawa Tengah,
DI yokyakarta, Jawa Timur, Bali, NTB, Kal Teng, Kal Sel, Sulut dan kelompok
kedua meliputi propinsi Sumatera Selatan, Jawa Barat, NTT, Kal bar, Kal Tim,
Sulteng, Sultra dan Irian jaya. Untuk Kelompok ketiga adalah propinsi DKI
Jakarta.
Sumatera Utara, Sumatera Barat, Riau, Jambi, Bengkulu, Lampung, Jawa Tengah,
DI yokyakarta, Jawa Timur, Bali, NTB, Kal Teng, Kal Sel, Sulut dan kelompok
kedua meliputi propinsi Sumatera Selatan,Jawa Barat, NTT, Kal bar, Kal Tim,
Sulteng, Sultra. Kelompok Ketiga adalad DKI jakarta dan kelompok keempat
pada karakteristik propinsi DKI Jakarta pada kelompok tiga berbeda dengan propinsi
lainnya, juga perbedaan karakteristik untuk propinsi Irian Jaya pada kelompok keempat.
19