1 - Analisis Cluster

ANALISIS CLUSTER
MIKE PRASTUTI
Pendahuluan
 Tujuan dari analisis cluster :
Menggabungkan beberapa objek ke dalam kelompok-
kelompok berdasarkan sifat kemiripan atau sifat
ketidakmiripan antar objek
Objek dalam kelompok lebih mirip dibandingkan dengan

objek antar kelompok
Ketakmiripan antar objek diukur dengan jarak tertentu

jarak Euclid, dll
Hal yang perlu diperhatikan dalam
membuat peng-cluster-an :
 Tujuan dari peng-cluster-an

 Kemiripan atau ketakmiripan seperti apa yang
diharapkan berhubungan dengan pemilihan variabel
 Mengkuantifikasi ukuran kemiripan antar objek
Metode Pengclusteran
 Metode Grafik
 Metode Pengclusteran Berhirarki
 Metode Pengclusteran tak Berhirarki

Plot Profil
 Plot profil dari setiap pengamatan
 Pembakuan data sangat membantu
 Kelemahan : tidak efektif untuk data yang terlalu banyak
pengamatan.
 Ilustrasi : Diperoleh hasil ujian untuk 7 mata ajaran yaitu
Matematika, Fisika, Biologi, Sejarah Nasional, Pendidikan
kewiraan, dan Kesenian. Ada 6 mahasiswa yang terlibat.
Tabel datanya sebagai berikut :
Plot Profilnya sebagai berikut
9
8
Nilai
5
Mat Fis Bio Sej Kew Sos Seni
Mata Ajaran
Andi Benny Budi Ika Maya Ana
Interpretasi
 ANDI dan MAYA mempunyai profil yang mirip, keduanya
mempunyai kemampuan yang tinggi di bidang IPA
 BENNY, BUDI, dan ANNA, keduanya pencinta ilmu sosial
 IKA mempunyai kearekteristik sendiri
Plot Andrews
Fungsi Andrews didefinisikan sebagai berikut :
fx(t) = x1/2 + x2 sin(t) + x3 cos(t) +x4 sin(2t) + x5 cos(2t)
+…, untuk -  t 
40
30
20
10
-10
-20
-4 -3 -2 -1 0 1 2 3 4
Andi Benny Budi
Ika Maya Ana
Plot Andrews Termodifikasi
gx(t) = (1/2) { x1 + x2[sin(t) + cos(t) + x3[sin(t) – cos(t)]
+ x4[sin(2t) + cos(2t)] + x5[sin(2t) – cos(2t)] + … },
untuk -  t  
35
25
15
-5
-15
-25
-4 -3 -2 -1 0 1 2 3 4
Andi Benny Budi Ika Maya Ana

Ukuran Kemiripan dan Ketakmiripan
Syarat jarak yang digunakan untuk mengukur
ketakmiripan antar 2 objek a dan b, dinotasikan
dengan d(a,b), :
 d(a, b)  0
 d(a, a) = 0
 d(a, b) = d(b, a)
 d(a, b) meningkat seiring semakin tidak mirip kedua
objek a dan b
 d(a,c)  d(a,b) + d(b,c)
Asumsi : semua pengukuran bersifat numerik
Beberapa konsep jarak yang digunakan :
2. Metode Pengclusteran berhirarki
1. Metode aglomeratif (penggabungan)
2. Metode berhirarki divisif (pemisahan)
 Pendekatan aglomeratif menggabungkan satu
persatu objek menjadi cluster-cluster baru yang
telah ditentukan kedekatan antar clusternya.
Proses penentuan kedekataan dilakukan dengan
menghitung jarak antar cluster.
ALGORITMA :
 Anggap mula-mula terdapat n buah cluster, sehingga masing-
masning memiliki satu anggota
 Menggabungkan dua gerombol paling dekat, kemudian
mennetukan kembali criteria kedekatan berdasarkaan jarak
antaar (n – 1) cluster tersisa
 Mengulangi langkah (b) samapai diperoleh satu cluster yang
merupakan gabungan seluruh objek.
 Pendekatan devisif merupakan kebalikan dari
pendekatan aglomeratif, yaitu dengan memulai
banyaknya cluster sebanyak satu cluster beranggotakan
seluruh objek. Kemudian cluster dipisahkan menjadi dua
berdasarkan criteria kedekatan.
 Beberapa ukuran ketakmiripan antar cluster
:
1. Pautan tunggal (single linkage) atau nearest
neighbor,
2. Pautan lengkap (complete linkage),
3. Pautan centroid (centroid linkage),
4. Pautan median (median linkage),
5. Pautan rataan (average linkage).
Lanjutan
 Pautan Tunggal (Single Linkage = Nearest

Neighbor)
Jarak antar dua cluster diukur dengan jarak terdekat

antara sebuah objek dalam cluster yang satu dengan
sebuah objek dalam cluster yang lain.
h(Br, Bs) = min { d(xi, xj); xi anggota Br, dan xj
anggota Bs }
Lanjutan
 Pautan Lengkap (Complete Linkage = Farthest
Neighbor)
Jarak antar dua cluster diukur dengan jarak terjauh antara

sebuah objek dalam cluster yang satu dengan sebuah objek
dalam cluster yang lain.
h(Br, Bs) = max { d(xi, xj); xi anggota Br, dan xj anggota Bs }

Lanjutan
 Pautan Centroid (Centroid Linkage)
Jarak antara dua buah cluster diukur sebagai jarak

Euclidean antara kedua rataan (centroid) cluster.
Jika x rdan x s adalah vektor rataan (centroid) dari cluster
Br dan Bs, maka jarak kedua cluster tersebut
didefinisikan sebagai :
Jarak yang baru didefinisikan sebagai :

nr x r  n s x s
nr  n s
Lanjutan
 Pautan Median (Median Linkage)
Jarak antar cluster didefinisikan sebagai jarak antar

median, dan cluster-cluster dengan jarak terkecil akan
digabungkan.
Median untuk cluster yang baru adalah
Mbaru = m r  m s
2
Lanjutan
 Pautan Rataan (Average Linkage)
Jarak antara dua buah cluster, Br dan Bs didefinisikan

sebagai rataan dari nrns jarak yang dihitung antara xi
anggota Br dan xj anggota Bs
Ilustrasi :
 Dari ilustrasi sampel sebelumnya, digunakan konsep jarak
Euclidian dan diperoleh matriks jarak sbb :
Dengan menggunakan konsep Single lingkage
diperoleh hasil dalam bentuk dendogram
sebagai berikut :
3. Metode Pengclusteran tak berhirarki
 Metode K rataan (k-means)
Algoritmanya sbb :
1. Tentukan besarnya k, yaitu banyaknya cluster,
dan tentukan juga centroid di tiap cluster.
2. Hitung jarak antara setiap objek dengan setiap
centroid.
3. Hitung kembali rataan (centroid) untuk cluster
yang baru terbentuk.
4. Ulangi langkah 2 sampai tidak ada lagi
pemindahan objek antar cluster.
Ilustrasi
 Misalkan ada dua variabel X1 dan X2 yang
tiap objeknya diberi nama A, B, C dan D.
Datanya sebagai berikut:
Langkah yang dilakukan :
1. Dikelompokkan ke dalam 2 kelompok. Centroid dipilih secara
acak : c1 = (2, 2) dan c2 = (-1, -2).
2. Jarak yang digunakan jarak Euclidian. Memasukkan objek ke
cluster berpatokan pada jarak terdekat
Diperoleh matriks jarak sbb :
Lanjutan
3. Hitung centroid baru, rataan dari vektor masing-masing
unsur.
c1 = (5, 3)
c2 = [(-1, 1) + (1, -2) + (-3, -2)]/3 = (-1, -1)
Diperoleh matriks yang sbb :
Diperoleh 2 cluster : G1 = {A} dan G2 = {B, C, D}.

Analisis clustering menggunakan
SPSS
 Hierarchical clustering
Contoh kasus diambil dari

ilustrasi data 22 perusahaan
utilitas dengan empat variabel
bebas. Permasalahan yang
harus diselesaikan yaitu untuk
mengetahui penggerombolan
(clustering) dari perusahaan-
perusahaan tersebut
Untuk menampilkan keanggotaan observasi terhadap cluster, terdapat tiga pilihan:
None (tidak akan menampilkan keanggotaan), Single solution (menampilkan
keanggotaan berdasarkan banyak cluster tertentu, untuk menentukan banyaknya
cluster ini tentu memerlukan informasi terutama daari dendogram yang
dihasilkan dari analisis yang sama), dan range of solution (sangat disarankan,
karenaa dapat mengakomodasi keanggotaan berdasarkan plot dendogram).
Non-hierarchical clustering
Output yang dihasilkan adalah sebagai berikut.
Tabel pertama adalah centroid awal atau inisial
yang dipilih secara acak dari 4 observasi.

1 - Analisis Cluster

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 - Analisis Cluster

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS CLUSTER

Objek dalam kelompok lebih mirip dibandingkan dengan

Ketakmiripan antar objek diukur dengan jarak tertentu

 Tujuan dari peng-cluster-an

 Metode Pengclusteran Berhirarki

 Metode Pengclusteran tak Berhirarki

Andi Benny Budi Ika Maya Ana

 Pautan Tunggal (Single Linkage = Nearest

Jarak antar dua cluster diukur dengan jarak terdekat

Jarak antar dua cluster diukur dengan jarak terjauh antara

h(Br, Bs) = max { d(xi, xj); xi anggota Br, dan xj anggota Bs }

Jarak antara dua buah cluster diukur sebagai jarak

Jarak yang baru didefinisikan sebagai :

 Pautan Median (Median Linkage)

Jarak antar cluster didefinisikan sebagai jarak antar

Median untuk cluster yang baru adalah

Jarak antara dua buah cluster, Br dan Bs didefinisikan

Diperoleh matriks yang sbb :

Diperoleh 2 cluster : G1 = {A} dan G2 = {B, C, D}.

Contoh kasus diambil dari

Anda mungkin juga menyukai