Anda di halaman 1dari 36

ANALISIS CLUSTER

MIKE PRASTUTI
Pendahuluan
 Tujuan dari analisis cluster :
Menggabungkan beberapa objek ke dalam kelompok-
kelompok berdasarkan sifat kemiripan atau sifat
ketidakmiripan antar objek

Objek dalam kelompok lebih mirip dibandingkan dengan


objek antar kelompok

Ketakmiripan antar objek diukur dengan jarak tertentu


jarak Euclid, dll
Hal yang perlu diperhatikan dalam
membuat peng-cluster-an :

 Tujuan dari peng-cluster-an


 Kemiripan atau ketakmiripan seperti apa yang
diharapkan berhubungan dengan pemilihan variabel
 Mengkuantifikasi ukuran kemiripan antar objek
Metode Pengclusteran
 Metode Grafik

 Metode Pengclusteran Berhirarki

 Metode Pengclusteran tak Berhirarki


Plot Profil
 Plot profil dari setiap pengamatan
 Pembakuan data sangat membantu
 Kelemahan : tidak efektif untuk data yang terlalu banyak
pengamatan.
 Ilustrasi : Diperoleh hasil ujian untuk 7 mata ajaran yaitu
Matematika, Fisika, Biologi, Sejarah Nasional, Pendidikan
kewiraan, dan Kesenian. Ada 6 mahasiswa yang terlibat.
Tabel datanya sebagai berikut :
Plot Profilnya sebagai berikut
9

8
Nilai

5
Mat Fis Bio Sej Kew Sos Seni
Mata Ajaran
Andi Benny Budi Ika Maya Ana
Interpretasi
 ANDI dan MAYA mempunyai profil yang mirip, keduanya
mempunyai kemampuan yang tinggi di bidang IPA
 BENNY, BUDI, dan ANNA, keduanya pencinta ilmu sosial
 IKA mempunyai kearekteristik sendiri
Plot Andrews
Fungsi Andrews didefinisikan sebagai berikut :
fx(t) = x1/2 + x2 sin(t) + x3 cos(t) +x4 sin(2t) + x5 cos(2t)
+…, untuk -  t 
40

30

20

10

-10

-20
-4 -3 -2 -1 0 1 2 3 4
Andi Benny Budi
Ika Maya Ana
Plot Andrews Termodifikasi
gx(t) = (1/2) { x1 + x2[sin(t) + cos(t) + x3[sin(t) – cos(t)]
+ x4[sin(2t) + cos(2t)] + x5[sin(2t) – cos(2t)] + … },
untuk -  t  
35

25

15

-5

-15

-25
-4 -3 -2 -1 0 1 2 3 4

Andi Benny Budi Ika Maya Ana


Ukuran Kemiripan dan Ketakmiripan
Syarat jarak yang digunakan untuk mengukur
ketakmiripan antar 2 objek a dan b, dinotasikan
dengan d(a,b), :

 d(a, b)  0
 d(a, a) = 0
 d(a, b) = d(b, a)
 d(a, b) meningkat seiring semakin tidak mirip kedua
objek a dan b
 d(a,c)  d(a,b) + d(b,c)
Asumsi : semua pengukuran bersifat numerik
Beberapa konsep jarak yang digunakan :
2. Metode Pengclusteran berhirarki
1. Metode aglomeratif (penggabungan)
2. Metode berhirarki divisif (pemisahan)
 Pendekatan aglomeratif menggabungkan satu
persatu objek menjadi cluster-cluster baru yang
telah ditentukan kedekatan antar clusternya.
Proses penentuan kedekataan dilakukan dengan
menghitung jarak antar cluster.
ALGORITMA :
 Anggap mula-mula terdapat n buah cluster, sehingga masing-
masning memiliki satu anggota
 Menggabungkan dua gerombol paling dekat, kemudian
mennetukan kembali criteria kedekatan berdasarkaan jarak
antaar (n – 1) cluster tersisa
 Mengulangi langkah (b) samapai diperoleh satu cluster yang
merupakan gabungan seluruh objek.
 Pendekatan devisif merupakan kebalikan dari
pendekatan aglomeratif, yaitu dengan memulai
banyaknya cluster sebanyak satu cluster beranggotakan
seluruh objek. Kemudian cluster dipisahkan menjadi dua
berdasarkan criteria kedekatan.
 Beberapa ukuran ketakmiripan antar cluster
:
1. Pautan tunggal (single linkage) atau nearest
neighbor,
2. Pautan lengkap (complete linkage),
3. Pautan centroid (centroid linkage),
4. Pautan median (median linkage),
5. Pautan rataan (average linkage).
Lanjutan

 Pautan Tunggal (Single Linkage = Nearest


Neighbor)

Jarak antar dua cluster diukur dengan jarak terdekat


antara sebuah objek dalam cluster yang satu dengan
sebuah objek dalam cluster yang lain.
h(Br, Bs) = min { d(xi, xj); xi anggota Br, dan xj
anggota Bs }
Lanjutan
 Pautan Lengkap (Complete Linkage = Farthest
Neighbor)

Jarak antar dua cluster diukur dengan jarak terjauh antara


sebuah objek dalam cluster yang satu dengan sebuah objek
dalam cluster yang lain.

h(Br, Bs) = max { d(xi, xj); xi anggota Br, dan xj anggota Bs }


Lanjutan
 Pautan Centroid (Centroid Linkage)

Jarak antara dua buah cluster diukur sebagai jarak


Euclidean antara kedua rataan (centroid) cluster.
Jika x rdan x s adalah vektor rataan (centroid) dari cluster
Br dan Bs, maka jarak kedua cluster tersebut
didefinisikan sebagai :

Jarak yang baru didefinisikan sebagai :


nr x r  n s x s
nr  n s
Lanjutan

 Pautan Median (Median Linkage)

Jarak antar cluster didefinisikan sebagai jarak antar


median, dan cluster-cluster dengan jarak terkecil akan
digabungkan.

Median untuk cluster yang baru adalah

Mbaru = m r  m s
2
Lanjutan
 Pautan Rataan (Average Linkage)

Jarak antara dua buah cluster, Br dan Bs didefinisikan


sebagai rataan dari nrns jarak yang dihitung antara xi
anggota Br dan xj anggota Bs
Ilustrasi :
 Dari ilustrasi sampel sebelumnya, digunakan konsep jarak
Euclidian dan diperoleh matriks jarak sbb :
Dengan menggunakan konsep Single lingkage
diperoleh hasil dalam bentuk dendogram
sebagai berikut :
3. Metode Pengclusteran tak berhirarki
 Metode K rataan (k-means)
Algoritmanya sbb :
1. Tentukan besarnya k, yaitu banyaknya cluster,
dan tentukan juga centroid di tiap cluster.
2. Hitung jarak antara setiap objek dengan setiap
centroid.
3. Hitung kembali rataan (centroid) untuk cluster
yang baru terbentuk.
4. Ulangi langkah 2 sampai tidak ada lagi
pemindahan objek antar cluster.
Ilustrasi
 Misalkan ada dua variabel X1 dan X2 yang
tiap objeknya diberi nama A, B, C dan D.
Datanya sebagai berikut:
Langkah yang dilakukan :
1. Dikelompokkan ke dalam 2 kelompok. Centroid dipilih secara
acak : c1 = (2, 2) dan c2 = (-1, -2).
2. Jarak yang digunakan jarak Euclidian. Memasukkan objek ke
cluster berpatokan pada jarak terdekat
Diperoleh matriks jarak sbb :
Lanjutan
3. Hitung centroid baru, rataan dari vektor masing-masing
unsur.
c1 = (5, 3)
c2 = [(-1, 1) + (1, -2) + (-3, -2)]/3 = (-1, -1)

Diperoleh matriks yang sbb :

Diperoleh 2 cluster : G1 = {A} dan G2 = {B, C, D}.


Analisis clustering menggunakan
SPSS
 Hierarchical clustering

Contoh kasus diambil dari


ilustrasi data 22 perusahaan
utilitas dengan empat variabel
bebas. Permasalahan yang
harus diselesaikan yaitu untuk
mengetahui penggerombolan
(clustering) dari perusahaan-
perusahaan tersebut
Untuk menampilkan keanggotaan observasi terhadap cluster, terdapat tiga pilihan:
None (tidak akan menampilkan keanggotaan), Single solution (menampilkan
keanggotaan berdasarkan banyak cluster tertentu, untuk menentukan banyaknya
cluster ini tentu memerlukan informasi terutama daari dendogram yang
dihasilkan dari analisis yang sama), dan range of solution (sangat disarankan,
karenaa dapat mengakomodasi keanggotaan berdasarkan plot dendogram).
Non-hierarchical clustering
Output yang dihasilkan adalah sebagai berikut.
Tabel pertama adalah centroid awal atau inisial
yang dipilih secara acak dari 4 observasi.

Anda mungkin juga menyukai