Analisis klaster tidak menunjukkan tingkatan (ordinal) tetapi hanya menunjukkan perbedaan sifat objek
(nominal)
Dalam terminologi SPSS, analisis klaster merupakan perlakuan terhadap baris
Regresi Logistik
Analisis
Dependensi Diskriminan
Analisis Konjoin
Analisis
Multivariat Analisis Kanonikal
Analisis varian
Analisis Faktor
Interdependensi
Analisis klaster
PERBEDAAN ANALISIS KLASTER DAN
ANALISIS FAKTOR
Analisi Klaster : Analisi Faktor :
- Mengelompokkan objek ANALISIS - Mengelompokkan objek
atau data berdasarkan berdasarkan pola dari
MULTIVARIAT
ukuran jarak (proximity) variasi (correlation)
- Pengelompokkan dilakukan INTERDEPENDENSI - Pengelompokkan dilakukan
pada BARIS (objek) pada KOLOM (variabel)
Tujuan Analisis klaster
Tujuan utama analisis klaster menururt Sutanto (2009:681) adalah mengelompokkan objek (elemen)
seperti orang, produk (barang), toko, atau organisasi, ke dalam kelompok-kelompok yang relatif
homogen, berdasarkan pada suatu set variabel yang dipertimbangkan untuk diteliti.
Heterogenitas (perbedaan) yang tinggi antar-klaster yang satu dengan klaster yang lainnya (between
klaster)
UKURAN KEMIRIPAN OBJEK
Pengukuran Jarak (Distance-Type Measures)
Digunakan untuk data metrik (interval-rasio)
Jarak yang besar menunjukkan sedikit kesamaan, jarak kecil menunjukkan bahwa suatu objek semakin mirip
dengan objek lain
Klaster berdasarkan jarak memiliki kesamaan nilai meski pola berbeda
Ukuran jarak terbagi atas jarak euklidian, jarak city block, dan jarak mahalanobis
d(x,y) =
d2ij = 1
Keterangan:
dxy = kuadrat jarak euklidian antara objek X dan Y
Keterangan:
= nilai pada objek X
dij = kuadrat jarak mahalanobis
= nilai j pada objek Y
= vektor dari nilai objek i dan j
S = matriks kovarian
Pertanyaan yang harus Bagaimana mengukur
dijawab dalam analisis tingkat kesamaan
klaster (similarity)?
Metode Non Hirarki: metode pengelompokkan diawali dengan menentukan terlebih dahulu jumlah klaster yang diinginkan
(dua, tiga, atau yang lain). Setelah jumlah klaster ditentukan, maka proses klaster dilakukan dengan tanpa mengikuti proses
hirarki.
METODE ANALISIS KLASTER
METODE HIRARKI METODE NON HIRARKI
Kelompok terbentuk secara alami secara Proses Pengelompokkan Dikenal dengan metode k-means
bertahap Jumlah klaster ditentukan terlebih
Proses pembentukan klaster melihat dahulu
jarak tiap dua objek terdekat Membentuk klaster dengan melakukan
Jumlah klaster ditentukan kemudian pengujian (trial and error, dalam SPSS
dikenal dengan istilah proses iterasi
Hasil dapat dibaca menggunakan Hasil Pengelompokkan Klaster yang terbentuk berupa
dendogram dan icycle vertical karakteristik nominal (perbedaan sifat)
Klaster yang terbentuk berupa bukan ordinal (tingkatan)
karakteristik nominal (perbedaan sifat) Interpretasi hasil klaster menggunakan
bukan ordinal (tingkatan) rumus rata-rata sampel:
X=+Z.
Keterangan:
X = rata-rata sampel (dalam hal ini rata-rata
variabel pada klaster tertentu)
= rata-rata populasi
= standar deviasi
Z = nilai standardisasi
Metode Hirarki
Aglomeratif Divisif
Davg Ci , C j
Jarak antara dua klaster dianggap sebagai jarak rata-rata antara 1
semua anggota dalam satu klaster dengan semua anggota klaster lain Ci C j
d ( x, y)
xCi , yC j
Wards Method
Jarak antara dua klaster yang terbentuk adalah jumlah kuadrat (sum Dw Ci , C j x ri x rj x rij
2 2 2
Centroid Method
Jarak antara dua cluster adalah jarak antar centroid kluster tersebut
Dcentroids Ci , C j d (ri , rj )
Centroid kluster adalah nilai tengah observasi pada variabel dalam
suatu set variabel cluster
Outlier hanya sedikit berpengaruh jika dibandingkan dengan
metode lain
Aplikasi Metode Hirarki: Aglomeratif A Metode Single Linkage
Nilai Pelajaran
Nama Nilai Pelajaran Fisika
Biologi 1. Mencari objek dengan jarak minimum
Idham (A) 90 85
Tri (B) 75 60 B dan D memiliki jarak minimum
Aisyah (C) 80 80
yaitu 7,07 sehingga membentuk
Rina (D) 70 65
klaster 1
Berdasarkan data di atas, dapat dilakukan
pengelompokkan (clustering) melalui tahap berikut 2. Menghitung jarak klaster BD dengan objek lainnya dengan
terlebih dahulu: metode single linkage (jarak terdekat)
Menghitung jarak euclidian: D(BD)A = Min (DBA , DDA) = Min (29,15 ; 28,28 ) = DDA = 28,28
1 D(BD)C = Min (DBC , DDC) = Min (20,62; 18,03) = DDC = 18,03
= 90 75 2 + (85 60) 2 = 850 = 29,15
1. Mencari objek dengan jarak minimum 1. Mencari objek dengan jarak minimum
2. Menghitung jarak klaster BD dengan objek lainnya dengan 2. Menghitung jarak klaster BD dengan objek lainnya dengan
metode complete linkage (jarak terjauh) metode average linkage (jarak rata-rata)
D(BD)A = Max (DBA , DDA) = Max (29,15 ; 28,28 ) = DDA = 29,15 D(BD)A = (DBA , DDA) = (29,15 ; 28,28 ) = DDA = 28,27
D(BD)C = Max (DBC , DDC) = Max (20,62; 18,03) = DDC = 20,62 D(BD)C = (DBC , DDC) = (20,62; 18,03) = DDC = 19,33
Dengan demikian, klaster 1 (BD) akan bergabung dengan klaster 2 Dengan demikian, klaster 1 (BD) akan bergabung dengan klaster
(AC) menjadi klaster tunggal. 2 (AC) menjadi klaster tunggal.
Aplikasi Metode Hirarki: Divisif
1. Menghitung jarak rata-rata antarobjek:
Objek A mempunyai jarak terjauh yaitu 22,87, maka A dipisahkan dari grup utama dan membentuk grup
splinter
2. Menghitung jarak rata-rata objek dengan grup induk dan grup splinter
Objek C mempunyai jarak lebih dekat ke grup
splinter dari pada grup utama, maka C bergabung
dengan A di grup splinter
Tujuan analisis klaster: Deskripsi klasifikasi, Penyederhanaan data, dan Identifikasi hubungan,
Desain penelitian: Pendeteksian outlier (objek yang sangat berbeda dengan objek lainnya),
mengukur kesamaan objek (similarity), dan standardisasi data dengan Z-Score (jika terdapat
variasi satuan)
Asumsi-asumsi: sampel yang diambil harus representatif atau mewakili populasi dan tidak
terjadi multikolinearitas antarvariabel
Proses mendapatkan klaster: dilakukan dengan memilih metode klaster terlebih (metode
hirarki atau non hirarki)
Interpretasi terhadap klaster: interpretasi terhadap hasil klaster dilakukan dengan melihat nilai
rata-rata objek dalam tiap klaster. Hasil klaster dari metode hirarki maupun non hirarki
memiliki karakteristik nominal (menunjukkan perbedaan sifat) bukan ordinal (tingkatan)
Validasi dan pembuatan profil klaster: memastikan bahwa solusi dari analisis klaster dapat mewakili
populasi dan dapat digeneralisasi untuk objek yang lain
STUDI KASUS
Kabupaten Takalar memiliki 9 kecamatan yang Kepadatan Penduduk Jumlah Luas lahan
No Kecamatan
selanjutnya akan diklasterkan berdasarkan 3 variabel (jiwa/km2) fasilitas (unit) terbangun (Ha)
1 Mangarabombang 379 108 379,88
yaitu:
2 Mappakasunggu 348 68 48,56
Objek: merupakan kumpulan populasi (bukan sampel) 3 Sanrobone 469 48 12,06
terdiri atas 9 kecamatan Polombangkeng
Variabel 4 316 87 101,13
Selatan
V1 = Kepadatan penduduk 5 Pattallassang 1471 192 66,73
V2 = Jumlah fasilitas 6 Polombangkeng Utara 227 150 149,41
V3 = Luas lahan terbangun 7 Galesong Selatan 1016 77 12,08
Proses klaster (pengelompokkan) akan dilakukan 8 Galesong 1524 96 62,76
dengan metode hirarki (aglomeratif dengan 9 Galesong Utara 2529 100 119,30
pendekatan average linkage) dan metode non hirarki. Sumber: Takalar dalam Angka (2015)
1 2
SUB BWP SUB BWP
A A
Melakukan standardisasi data Menentukan ukuran kemiripan (similarity)
Standardisasi dilakukan karena adanya perbedaan Ukuran kemiripan antar dua objek dihitung dengan menggunakan
satuan dari tiap-tiap variabel. Standardisasi rumus jarak euklidian:
menggunakan z_score
= d2xy = 1( ) 2
A
Menyusun matriks similarity
Berdasarkan perhitungan kemiripan dengan Euklidian, maka disusun matriks similarity, seperti yang ditunjukkan
pada tabel di bawah:
4
SUB BWP
A
Memilih metode pengelompokkan
Metode klaster yang digunakan yaitu metode hirarki. Metode tersebut secara bertahap membentuk klaster dari
dua objek yang memiliki similaritas yang tinggi dan seterusnya hingga, semua objek memiliki klaster.
Proses clustering dimulai dengan melihat dua objek dengan jarak terkecil (similaritas yang tinggi), yaitu
d(2,3) = 0,337 sehingga terbentuk klaster pertama.
5
SUB BWP
A
Proses Pengelompokkan (Clustering)
Proses clustering menggunkan metode average linkage, yaitu clustering berdasarkan jarak rata-rata semua antar
pasangan objek. Proses clustering ditunjukkan pada stage-stage berikut:
Stage 1:
Terbentuk cluster yang beranggotakan Kecamatan
Mappakasunggu (2) dan Sanrobone (3) dengan nilai koefisien
0,337 yang menunjukan jarak terdekat kedua objek.
Selanjutnya pada kolom next stage, terlihat angka 3. Hal ini
berarti clustering selanjutnya melihat stage 3.
Stage 3
Kecamatan Mappakasunggu bergabung dengan
Polongbangkeng Selatan. Dengan demikian, klaster sudah
terdiri 3 anggota. Jarak 0,931 merupakan jarak rata-rata objek
terakhir yang baru bergabung dengan 2 objek sebelumnya.
A
Menentukan jumlah klaster dan anggota klaster
Proses pengelompokkan menghasilkan beberapa klaster dan masing-masing anggotanya, perincian ditunjukkan
pada tabel berikut:
Berdasarkan icicle di atas, jika ditentukan 3 Hasil klaster yang ditunjukkan dengan dendogram menggunakan
klaster, maka anggota yang terbentuk yaitu: berdasarkan jarak objek. Untuk anggota klaster pada jarak 10 yaitu:
Klaster Anggota Klaster Klaster Anggota Klaster
Klaster 1 Kecamatan Mangarabombang Klaster 1 Kecamatan Mangarabombang
Kecamatan Mappakasunggu, Sanrobone, Kecamatan Mappakasunggu, Sanrobone,
Klaster 2
Klaster 2 Polombangkeng Selatan, Galesong Selatan, Polombangkeng Selatan, Galesong Selatan, Galesong.
Galesong, Galesong Utara
Klaster 3 Kecamatan Pattallassang dan Polongbangkeng Utara
Kecamatan Pattallassang dan Polongbangkeng
Klaster 3 Klaster 4 Kecamatan Galesong Utara
Utara
7
SUB BWP
A
Interpretasi hasil klaster
Interpretasi klaster dilakukan dengan memberikan label yang dapat menjelaskan kealamian klaster. Pada kasus di
atas, interpretasi klaster kecamatan dihitung berdasarkan rata-rata variabel pada tiap klaster:
Klaster Anggota Klaster Rata-Rata Variabel Klaster 1 berisi kecamatan yang memiliki rata-rata
Klaster 1 Mangarabombang 288,97 variabel (kepadatan penduduk, jumlah fasilitas,
)
Rata-rata ( 288,97 dan luas lahan terbangun) yaitu 288,97
Mappakasunggu 154,88
Sanrobone 176,31 Klaster 2 berisi kecamatan dengan rata-rata
Polombangkeng Selatan 168,09 variabel (kepadatan penduduk, jumlah fasilitas,
Klaster 2 dan luas lahan terbangun) yaitu 390,79
Galesong Selatan 368,49
Galesong 561,02 Klaster 3 berisi kecamatan dengan rata-rata
Galesong Utara 915,94 variabel (kepadatan penduduk, jumlah fasilitas,
)
Rata-rata ( 390,79 dan luas lahan terbangun) yaitu 376,01
Pattallassang 576,46
Klaster 3
Polombangkeng Utara 175,55
)
Rata-rata ( 376,01
dari klaster yang terbentuk dapat diinterpretasikan bahwa kecamatan yang berada dalam satu
klaster memiliki kemiripan berdasarkan ketiga variabel (kepadatan penduduk, jumlah fasilitas,
dan luas lahan terbangun)
Hasil analisis klaster kecamatan di Kabupaten
Takalar secara spasial
METODE NON HIRARKI (K-MEANS)
1 2
SUB BWP
SUB BWP
A
Melakukan standardisasi data
A
Proses Trial and Error (Iterasi)
Standardisasi dilakukan karena adanya perbedaan satuan Tahapan selanjutnya adalah menentukan jumlah klaster.
dari tiap-tiap variabel. Standardisasi menggunakan z_score Misalnya ditentukan 3 klaster, selanjutnya dimulai proses
pembentukan klaster dengan mengubah-ubah klaster yang
=
ada (trial and error) sehingga menjadi lebih tepat dalam
pengelompokkan. Pada proses pengelompokkan terjadi 2
tahapan iterasi.
Z _ Kepadatan
Z _ Jumlah Z _ Luas lahan
No Kecamatan Penduduk
fasilitas (unit) terbangun (Ha)
(jiwa/km2)
1 Mangarabombang -0.68868 0.11651 2.43413
2 Mappakasunggu -0.72815 -0.79532 -0.50801
3 Sanrobone -0.57409 -1.25124 -0.83213
Polombangkeng
4 Selatan -0.76889 -0.36220 -0.04118
5 Pattallassang 0.70169 2.03137 -0.34666
Polombangkeng
6 Utara -0.88221 1.07394 0.38755
7 Galesong Selatan 0.12237 -0.59016 -0.83195
8 Galesong 0.76917 -0.15704 -0.38191
9 Galesong Utara 2.04878 -0.06585 0.12017
3
SUB BWP
A
Hasil akhir clustering
A
Interpretasi hasil clustering
Klaster 1: berisi kecamatan yang mempunyai kepadatan Rata-rata Rata-rata Rata-rata Luas
penduduk di bawah rata-rata, jumlah fasilitas di atas rata- Kepadatan Jumlah Lahan
rata, dan jumlah luas lahan terbangun di atas rata-rata Penduduk Fasilitas Terbangun
populasi. Mean 919.89 102.89 105.77
Klaster 2: berisi kecamatan yang mempunyai kepadatan Klaster 1 378.99 108 379.56
penduduk, jumlah fasilitas, dan jumlah luas lahan terbangun
di atas rata-rata populasi. Klaster 2 1408.99 147.33 111.81
Klaster 3: berisi kecamatan yang mempunyai kepadatan Klaster 3 734.60 75.20 217.86
penduduk dan jumlah fasilitas di bawah rata-rata serta luas
Di bawah rata-rata
lahan terbangun di atas rata-rata.
REFERENSI
Dillon, William R., and Matthew Goldstein. 1984. Multivariate analysis:
methods and applications. New York: John Wiley & Sons.
Everitt, Brian. 2011. klaster Analysis. Hoboken: Wiley.
Kachigan, Sam Kash. 1991. Multivariate statistical analysis: a conceptual
introduction. New York: Radius Press.
Gunawan, Imam. 2016. Pengantar Statistika Inferensial. Jakarta: Rajawali Pers.
TERIMA KASIH