Anda di halaman 1dari 4

https://www.slideshare.

net/jordansitorus/analisis-klaster

1. 1. Analisis Klaster (Cluster Analysis)


2. 2. Pengertian • Metode statistik yang digunakan untuk mengelompokkan subjek atau
objek penelitian dalam jumlah banyak menjadi kelompok-kelompok dalam jumlah kecil
yang bersifat homogen dan mutually exclusive, yang disebut klaster.
3. 3. Karakteristik • Analisis klaster meneliti seluruh hubungan interdependensi antara
seluruh set variabel sehingga tidak ada pembedaan variabel bebas dan variabel tidak
bebas. • Suatu kelompok (klaster) terdiri atas subjek atau objek yang mempunyai
karakteristik homogen, sedangkan subjek atau objek antar kelompok mempunyai
karakteristik yang heterogen.
4. 4. • Cluster analysis juga disebut dengan classification analysis atau numerical
taxonomy. • Baik analisis diskriminan maupun analisis klaster berkenaan dengan
penanganan klasifikasi. • Klasifikasi grup dalam analisis diskriminan sudah ditentukan
terlebih dahulu, sedangkan dalam analisis klaster grup ditentukan berdasarkan data.
5. 5. Tujuan Analisis Klaster • Mengelompokkan objek-objek berdasarkan kesamaan
karakteristik di antara objek-objek tertentu berdasarkan pada suatu set variabel yang
dipertimbangkan untuk diteliti. • Suatu objek dapat berupa produk, benda, perusahaan,
orang, atau kesempatan pertumbuhan (growth opportunity). • Objek tersebut akan
diklasifikasikan ke dalam satu atau lebih klaster sehingga objek-objek yang berada
dalam satu klaster akan mempunyai kemiripan satu dengan yang lain.
6. 6. Analisis Klaster vs Analisis Faktor • Analisis faktor (R Factor Analysis) bertujuan untuk
mereduksi variabel. Dalam SPSS analisis faktor adalah perlakuan terhadap KOLOM. •
Analisis klaster (Q Factor Analysis) bertujuan untuk mengelompokkan isi variabel. Dalam
SPSS analisis klaster adalah perlakuan terhadap BARIS.
7. 7. Proses Dasar Analisis Klaster • Mengukur kesamaan antar objek. Metode yang
digunakan adalah: 1. Mengukur korelasi antar sepasang objek pada beberapa variabel.
2. Mengukur jarak antara dua objek jika datanya adalah data metrik. Metode yang paling
populer adalah Euclidean Distance, yaitu akar dari jumlah kuadrat perbedaan/deviasi di
dalam nilai untuk setiap variabel. 3. Mengukur asosiasi antar objek jika datanya adalah
data non metrik.
8. 8. • Membuat klaster yang dilakukan dengan metode: 1. HIRARCHICAL METHOD.
Metode ini memulai pengelompokkan dengan dua atau lebih objek yang mempunyai
kesamaan paling dekat. Kemudian, proses diteruskan ke objek lain yang mempunyai
kedekatan kedua, ketiga, dan seterusnya sehingga klaster akan membentuk semacam
pohon dengan hirarki yang jelas antar objek. Pada umumnya, dendogram digunakan
untuk membantu memperjelas proses hirarki tersebut.
9. 9. 2. NON-HIRARCHICAL METHOD. Metode ini dimulai dengan menentukan terlebih
dahulu jumlah klaster yang diinginkan. Setelah itu, baru proses klaster dilakukan tanpa
mengikuti proses hirarki. Metode ini biasanya disebut dengan K-Means Cluster. • Setelah
klaster terbentuk, kemudian dilakukan interpretasi terhadap klaster- klaster tersebut dan
memberi nama spesifik untuk menggambarkan isi klaster tersebut.
10. 10. • Melakukan Validasi dan Profiling Cluster. Klaster yang terbentuk diuji validitasnya.
Kemudian, dilakukan proses profilling untuk menjelaskan karakteristik setiap klaster
berdasarkan profil tertentu. Data dari profilling tersebut bisa dilakukan analisis lanjutan,
seperti analisis diskriminan.
11. 11. Asumsi dan Model Analisis Klaster • Sample harus representatif. • Bebas
multiklinearitas. • Tidak ada variabel dependen maupun variabel independen sehingga
tidak ada model definitif untuk klaster analisis.
12. 12. Metode Proses Clustering Secara Hirarki • Single Linkage Metode ini akan
mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu. • Complete
Linkage Metode ini merupakan kebalikan dari metode Single Linkage.
13. 13. • Average Linkage Metode ini mengelompokkan objek berdasarkan jarak rata-rata
yang didapat dengan mencari rata-rata semua jarak antar objek terlebih dahulu. • Ward’s
Method Jarak antara dua klaster yang terbentuk adalah jumlah kuadrat di antara dua
klaster tersebut.
14. 14. • Centroid Method Jarak antara dua klaster adalah jarak di antara dua centroid
klaster-klaster tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah klaster,
yang didapat dengan melakukan rata- rata semua anggota suatu klaster tertentu.
15. 15. K-MEANS CLUSTER • Dalam metode ini, semua objek (kasus) diproses secara
serentak (sekaligus). Proses dimulai dengan penentuan jumlah klaster yang diinginkan
terlebih dahulu, misalnya 2 klaster, 3 klaster, atau jumlah klaster yang lainnya.
16. 16. KASUS 1 • Tujuan penelitian adalah untuk mengelompokkan konsumen berdasarkan
profil konsumen. • Buka file Cluster • Variabel-variabel yang digunakan dalam Analisis
Klaster adalah variabel-variabel yang diukur dengan data metrik (interval atau rasio).
17. 17. • Perhatikan isi data setiap variabel. Jika satuan data sangat bervariasi, akan
menyebabkan bias dalam Analisis klaster. Oleh karena itu, data asli harus ditransformasi
(standarisasi) terlebih dahulu sehingga berbentuk z skor. • Setelah data diubah menjadi z
skor, kemudian dilakukan analisis dengan metode K-MEANS CLUSTER atau NON-
HIERARCHICAL CLUSTER.
18. 18. Standarisasi Data Dengan Z-Score • Data metrik dalam file cluster sangat bervariasi.
• Oleh karena itu, perlu dibakukan (standardized) terlebih dahulu. • Caranya pilih menu
Analyze, Descriptives Statistics, dan Descriptive. • Masukkan variabel usia, anak,
income, koran, tv, motor, k_kredit, beli, konsumsi, kerja, dan shopping ke dalam kolom
Variable(s). • Kemudian, contreng pilihan Save Standadized values as variables. • Klik
OK untuk menjalankan SPSS.
19. 19. Langkah-langkah K-MEANS CLUSTER • Dari menu Analyze, pilih submenu Classify,
kemudian K-Means Cluster. • Masukkan semua variabel yang diawali dengan Zscore: ke
dalam bagian Variables: • Pada bagian Label Cases by: masukkan variabel tinggal. •
Bagian Number of Clusters: masukkan angka 3, yang berarti nanti diharapkan akan
terbentuk 3 klaster. • Buka kotak Saves dan aktifkan Cluster membership dan Distance
from cluster center.
20. 20. • Buka kotak Options. Kemudian pada bagian Statistics, aktifkan ANOVA table. • Klik
tombol OK untuk proses data. Output: • Tabel Final Cluster Centers Tabel ini
menunjukkan hasil akhir dari proses pengklasteran. Angka-angka dalam tabel tersebut
digunakan untuk menghitung rerata variabel tertentu pada klaster tertentu.
21. 21. Final Cluster Centers Cluster 1 2 3 Zscore: Usia .57272 -.02356 -.36218 Zscore:
Jumlah Anak .04507 -.09015 .04507 Zscore: Penghasilan rata-rata per bulan 1.36091 -
.23081 -.71494 Zscore: Jumlah Jam membaca Koran per minggu 1.08448 .07182 -
.78283 Zscore: Jumlah Jam menonton TV per minggu -.03950 .32998 -.24865 Zscore:
Jumlah Motor yang dipunyai .99200 -.13139 -.55184 Zscore: Jumlah Mobil yang dipunyai
.95887 .05148 -.68215 Zscore: Jumlah Kartu Kredit/ATM yang dipunyai 1.25712 .08381 -
.90792 Zscore: Tingkat Pembelian Barang per minggu 1.16063 .13654 -.88754 Zscore:
Tingkat Pengeluaran Bulanan 1.33411 -.22874 -.69879 Zscore: Jumlah Jam Kerja per
minggu 1.24930 .03479 -.86186 Zscore: Jumlah Jam Berbelanja per minggu 1.21304 -
.07377 -.74721
22. 22. • Rerata suatu variabel dalam suatu klaster dihitung dengan rumus berikut: X = µ +
zσ Keterangan: X = rerata data variabel pada klaster tertentu. µ = rerata populasi σ =
standar deviasi z = angka tabel FCC
23. 23. • Nilai rerata dan standar deviasi yang digunakan dalam rumus di atas diperoleh
dengan menggunakan data awal (bukan data standarisasi). • Tanda positif dan negatif
dalam tabel memiliki arti sebagai berikut: – Angka negatif berarti data di bawah rata-rata
total. – Angka positif berarti data di atas rata-rata total.
24. 24. Contoh: • Rerata Usia seluruh populasi adalah 29,88 tahun. • Standar deviasi Usia
adalah 5,66 tahun. • Rerata Usia klaster 1 = 29,88 + (0,57 x 5,66) = 33,12 th. • Rerata
Usia klaster 2 = 29,88 - (0,24 x 5,66) = 28,54 th. • Rerata Usia klaster 3 = 29,88 - (0,36 x
5,66) = 27,83 th. • Jadi, rerata Usia pada klaster 1 > rerata Usia populasi.
25. 25. • Tabel ANOVA Tabel ini menunjukkan apakah variabel- variabel yang telah
membentuk klaster tersebut mempunyai perbedaan pada setiap klaster. Untuk
menentukan apakah suatu variabel sangat membedakan karakteristik seluruh klaster
yang terbentuk, digunakan angka Sig. dengan kriteria berikut: – Jika Sig. > 0,05, variabel
tidak membuat berbeda. – Jika Sig. < 0,05, variabel membuat berbeda.
26. 26. ANOVA 4,204 2 ,888 57 4,736 ,013 ,122 2 1,031 57 ,118 ,889 21,483 2 ,281 57
76,371 ,000 16,814 2 ,445 57 37,775 ,000 1,843 2 ,970 57 1,899 ,159 11,700 2 ,625 57
18,732 ,000 12,966 2 ,580 57 22,349 ,000 22,605 2 ,242 57 93,435 ,000 20,416 2 ,319
57 64,049 ,000 20,622 2 ,312 57 66,199 ,000 21,412 2 ,284 57 75,447 ,000 18,526 2
,385 57 48,114 ,000 Zscore: Usia Zscore: Jumlah Anak Zscore: Penghasilan rata-rata
per bulan Zscore: Jumlah Jam membaca Koran setiap Zscore: Jumlah Jam menonton
TV setiap m Zscore: Jumlah Motor yang dipunyai Zscore: Jumlah Mobil yang dipunyai
Zscore: Jumlah Kartu Kredit/ATM yang di Zscore: Tingkat Pembelian Barang setiap
Zscore: Tingkat Pengeluaran Bulanan Zscore: Jumlah Jam Kerja setiap minggu Zscore:
Jumlah Jam Berbelanja setiap mi Mean Square df Cluster Mean Square df Error F Sig.
The F tests should be used only f or descriptive purposes because the clusters have
been chosen to maximize the diff erences among cases in dif ferent clusters. The
observed signif icance lev els are not corrected f or this and thus cannot be interpreted
as tests of the hy pothesis that the cluster means are equal.
27. 27. Tugas K-Means Cluster • Buka file HATCO. • Lakukan Analisis klaster terhadap
variabel-variabel X1 s.d. X7 dengan metode K-Means Cluster. • Jumlah klaster
ditentukan sebanyak 2. • Gunakan X11 untuk input bagian Label Cases by. • Hitung
rerata setiap variabel dalam setiap klaster. • Variabel apa saja yang tidak membuat beda
antar klaster. • Beri nama setiap klaster. • Simpan hasilnya dengan nama “K-Means
Cluster”
28. 28. HIERARCHICAL CLUSTER • Proses pengklasteran dengan metode ini didasarkan
pada konsep struktur mirip pohon (treelike structure). • Konsep ini dimulai dengan
menggabungkan dua objek yang paling mirip, kemudian gabungan tersebut akan
bergabung lagi dengan satu atau lebih objek yang paling mirip lainnya. • Proses
pengklasteran pada akhirnya akan menggumpal menjadi satu klaster besar yang
mencakup semua objek. • Proses tersebut lazim disebut sebagai “agglomerative
methods”, yang akan digambarkan dengan Dendogram.
29. 29. Contoh Klaster Hirarki • Tujuan penelitian Membuat profil beberapa produk
berdasarkan kandungan (content) produk tersebut. • Buka file cluster hierarki. •
Perhatikan isi datanya. Jika satuan data sangat bervariasi, lakukan standarisasi data
dengan mengubah isi data menjadi bentuk z-score. • Proses pengubahan tersebut dapat
dilakukan secara otomatis dengan menggunakan menu Method.
30. 30. Langkah-langkah Hierarchical Cluster • Dari menu Analyze, pilih submenu Classify,
kemudian pilih Hierarchical Cluster. • Masukkan variabel-variabel lemak, karbohidrat,
mineral, dan energi ke dalam bagian Variables, sedangkan variabel susu dimasukkan ke
dalam bagian Label Cases by: • Munculkan menu Statistics, kemudian aktifkan
Agglomeration Schedule dan Proximity matrix.
31. 31. • Pada bagian Cluster membership, aktifkan Range of solutions, dan isikan angka 2
dalam kotak From dan 4 dalam kotak Through. Artinya, nanti akan ditampilkan susunan
2, 3, dan 4 klaster. • Buka menu Plots, kemudian aktifkan Dendogram. Pada bagian
Icicle, pilih None. • Tampilkan menu Method. Pada bagian Transform Values, pilih Z
scores. • Tekan tombol OK untuk proses data.
32. 32. Analisis Output • Tabel Proximity Matrix Tabel tersebut menunjukkan jarak antara
dua buah variabel berdasarkan ukuran Euclidean.Semakin kecil angka jarak antar dua
variabel, makin mirip satu sama lain. Contoh: Jarak antara variabel 1 (Oat Quaker)
dengan variabel 2 (Nestle Carnation) adalah 15,758, sedang jarak antara variabel 1 (Oat
Quaker) dengan variabel 3 (Ligo Havermout) adalah 0,608. Artinya, Oat Quaker lebih
mirip dalam karakteristiknya dengan Ligo Havermout, tetapi berbeda jauh dengan Nestle
Carnation.
33. 33. • Tabel Agglomeration Schedule Tabel tersebut menunjukkan (1) hasil proses
pengklasteran dengan metode BETWEEN GROUP LINKAGE dan (2) banyaknya kasus
atau klaster yang akan digabung pada setiap tahap.
34. 34. Agglomeration Schedule Stage Cluster Combined Coefficients Stage Cluster First
Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 7 12 .003 0 0 3 2 8 13 .008
0 0 3 3 7 8 .058 1 2 8 4 6 10 .352 0 0 8 5 5 14 .376 0 0 9 6 1 17 .594 0 0 11 7 3 4 .640 0
0 11 8 6 7 .803 4 3 14 9 5 9 .855 5 0 13 10 15 16 1.075 0 0 12 11 1 3 1.774 6 7 13 12 15
18 2.031 10 0 14 13 1 5 3.056 11 9 15 14 6 15 4.340 8 12 15 15 1 6 6.611 13 14 16 16 1
11 17.896 15 0 17 17 1 2 22.576 16 0 0
35. 35. • Kolom Coefficient merupakan jarak eucledean yang dikuadratkan antara kasus
pada baris tertentu. • Kolom Stage Cluster First Appears menunjukkan tahapan pada
saat suatu klaster pertama dibentuk. • Kolom Next Stage menunjukkan tahapan pada
saat kasus atau klaster lainnya digabung dengan klaster yang baru saja dibentuk.
36. 36. • Tabel Cluster Membership Tabel tersebut menunjukkan rincian anggota suatu
klaster tertentu sesuai dengan jumlah klaster yang ditentukan. • Dendogram merupakan
suatu alat grafis untuk menyajikan hasil pengklasteran. Garis vertikal mewakili klaster
yang digabung bersama. Posisi garis pada skala menunjukkan jarak untuk mana klaster
digabung. Dendogram harus dibaca dari kiri ke kanan.
37. 37. Tugas Klaster Hirarki • Majamen Hatco ingin mengelompokkan profil konsumennya
berdasarkan variabel X1 s.d. X7 dan menetapkan jumlah klaster berkisar antara 2 s.d. 4
klaster. • Lakukan analisis terhadap output SPSS dan simpan hasilnya dengan nama
“Klaster Hirarki”.