Anda di halaman 1dari 21

CLUSTER DATA ANALYSIS

Fallen Wicaksono - 041141047

Definisi
Analisis cluster adalah analisis yang dilakukan untuk mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek objek tersebut. Diharapkan dengan terbentuknya kelompok-kelompok tersebut akan lebih mudah dalam menganalisa dan lebih tepat pengambilan keputusan yang sehubungan dengan masalah tersebut. Perbedaan analisis cluster dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok variabel.

Tujuan Analisis Cluster


1. Menyederhanakan data dan untuk menyajikan nya ke dalam bentuk grafik atau dendogram. 2. Mengelompokkan obyek-obyek menjadi kelom pok-kelompok yang mempunyai sifat yang homogen atau variasi obyek yang terbentuk sekecil mungkin. 3. Digunakan untuk membedakan dengan jelas antara satu kelompok cluster dengan kelompok yang lain.

CLUSTER ANALYSIS
(1) Ukuran kemiripan Ukuran jarak yang sering digunakan adalah jarak euclidean (d)

d (P1, P2 ) ( X12 X11 )2 ( X 22 X 21 )2 d (y, x) (y1 x1)2 (y 2 x2 )2 ...... (y x)' (y x)


(2) Asumsi Analisis Gerombol Data antar pengamatan (case) independen Sampel diambil secara random Antar variabel saling bebas (tidak berkorelasi) Data untuk seluruh variabel minimal memiliki skala interval (terutama bila ukuran kemiripan yang digunakan adalah jarak)

Contoh
Klaster 3

Data utama apa yg digunakan untuk mengelompokkan?


Data tentang kesamaan (similarity) nilai. Untuk mengukur kesamaan tersebut sering digunakan jarak antar titik data yang diukur dengan Eucledian distance:

D ( X ik X jk )
2 ij k 1

Jenis analisis klaster


Hirarkikal
Nearest neighbor Farthest neighbor Average linkage Centroid Ward Median Clustering

Nonhirarkikal
K-means

Nearest neighbor Vs. Farthest neighbor

Ilustrasi: nearest neighbor (single linkage) method

Langkah 1: hitung dulu jaraknya (similarity). Inilah hasilnya

Catatan: Tabel ini sengaja dipotong agar tidak panjang

Langkah 2: lakukan pengelompokkan dg memilih dua titik data yg jaraknya paling dekat. Dalam hal ini kita memilih obyek 1 dan 2 sbb

Memilih antara 117 atau 130

Langkah 3: Lakukan lagi penggabungan antara obyek 3 dan 4 (yang memiliki jarak terdekat)

Langkah 4, dst: ulang terus langkah pengelompokkan sesuai jarak terdekat tsb. Sehingga akhirnya mendapatkan tabel ini.

Akhirnya kita bisa membuat 3 kelompok. Tapi sebetulnya masih bisa dilanjutkan terus (lihat dendrogram)

Contoh Hasil Pengelompokan secara Visual

Ingat..bila dikehendaki kita masih bisa terus membuat pengelompokkan. Oleh sebab itu perlu dipikirkan: kapan kita berhenti mengelompokkan

Dendrogram untuk data di tabel 1

Contoh batas cut-off kapan kita berhenti melakukan klasterisasi

Metode WARD
Sering dianggap sebagai metode terbaik Dalam metode Ward kita memakai ESS (error sum square) menunjukkan homoginitas dalam klaster Dalam metode Ward kita ingin memaksimalkan homoginitas dlm klaster ESS hanya dapat diukur jika ada > 1 item
ESS ( X i X ) 2
i 1 k

Beberapa isu penting


Pemahaman mengenai ukuran jarak. Ada beberapa alternatif untuk mengukur jarak dalam rangka menemukan kesamaan, yaitu:
Eucledian distance Manhatan distance Mahalanobis distance

Metode seperti nearest neighbor sensitif terhadap outliers. Oleh sebab itu perlu dicek dulu dan bila ada harus dihilangkan.

Kekuatan pembagian kelompok


Seberapa tinggi mutu klasterisasi? Ada beberapa cara mengestimasi
ANOVA Jarak antar klaster R-Squared (R2) Root mean square total sample standard 2 2 p p deviation (RMSSTD) (n 1) j 1 s j j 1 s j RMSSTD
p (n 1) p

Hasil output dari analisis cluster terdapat beberapa tabel. Yaitu Case Processing Summary, matrix priority, average linkage between group, Cluster membership, dan bagan dendogram. Dari masing masing tabel dapat ditarik kesimpulannya sesuai dengan jenis analisisnya. Setelah itu diambil keputusannya berdasarkan ketentuan yang digunakan. Dengan tabel-tabel hasil output, maka didapatkan cluster cluster yang telah memiliki anggota masing-masing sesuai dengan kesamaan karakteristiknya. Dari output analisis yang dilakukan dapat dilihat pembagian clusternya, ada yang terbagi menjadi 2, terbagi menjad 3 atau terbagi menjadi 4. Masing-masing data salon telah menjadi anggota dari cluster -cluster yang terbentuk. Hasil output analisis pun didapat sebuah dendogram. Dengan dendogram ini, dapat diketahui juga kelompok kelompok atau cluster cluster yang terbentuk. Hanya, pada dendogram bentuknya berupa garis garis, agar lebih mudah memahami. Dari data yang didapat dari dendogram, maka tampak bahwa dari data data yang dianalisis akan tergabung menajdi satu cluster.

Anda mungkin juga menyukai