0% menganggap dokumen ini bermanfaat (0 suara)

713 tayangan25 halaman

Makalah Cluster

Teks tersebut membahas tentang analisis cluster, yaitu teknik statistika untuk mengelompokkan data berdasarkan kesamaan. Terdapat dua jenis metode analisis cluster, yaitu hierarki dan non-hierarki. Metode hierarki mengelompokkan data secara bertahap dari satu kelompok ke kelompok yang lebih besar, sedangkan metode non-hierarki menentukan jumlah kelompok sebelumnya. Contoh kasus mendemonstrasikan pengelompokkan data s

Diunggah oleh

FAJRIANTI

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

713 tayangan25 halaman

Makalah Cluster

Diunggah oleh

FAJRIANTI

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

A.

PENDAHULUAN
Cluster analysis adalah analisis statistika yang bertujuan untuk mengelompokkan data
sedemikian sehingga data yang berada dalam kelompok yang sama mempunyai sifat yang
relatif homogen daripada data yang berada dalam kelompok yang berbeda. Ditinjau dari hal-
hal yang dikelompokkan, cluster analysis dibagi menjadi dua macam, yaitu :
1. Pengelompokkan observasi
2. Pengelompokkan variabel
Tujuan dari Analisis Cluster adalah mengelompokkan obyek berdasarkan kesamaan
karakteristik di antara obyek-obyek tersebut. Dengan demikian, ciri-ciri suatu cluster yang
baik yaitu mepunyai :

1. Homogenitas internal (within cluster); yaitu kesamaan antar anggota

dalam satu cluster.
2. Heterogenitas external (between cluster); yaitu perbedaan antara cluster yang satu
dengan cluster yang lain.

Asumsi yang harus dipenuhi dalam Analisis Cluster yaitu :

1. Sampel yang diambil benar-benar dapat mewakili populasi yang ada
(representativeness of the sample)

2. Multikolinieritas.

Secara umum, cluster analysis memiliki dua metode, yaitu :

1. Metode hierarki.
2. Metode non hierarki

Beberapa macam jarak yang biasa dipakai di dalam cluster analysis, antara lain :
1. Jarak Euclidean
Rumusnya :

2
= ( )
=1

2. Jarak Manhattan
Rumusnya :

= | |
=1

3. Jarak Pearson
Rumusnya :

2
( )
=
( )
=1

4. Jarak Korelasi
Rumusnya :
= 1
5. Jarak Mutlak Korelasi
Rumusnya :
= 1 | |

B. METODE HIERARKI
Metode hierarki digunakan untuk mencari struktur pengelompokkan dari objek-objek.
Jadi, hasil pengelompokkannya disajikan secara hierarki atau berjenjang. Metode hierarki ini
terdiri dari dua cara,yaitu :
1. Agglomerative (penggabungan)
Cara ini digunakan jika masing-masing objek dianggap satu kelompok
kemudian antar kelompok yang jaraknya berdekatan bergabung menjadi satu
kelompok.
2. Divise (pemecahan)
Cara ini dgunakan jika pada awalnya semua objek berada dalam satu gerombol.
Setelah itu, sifat paling beda dipisahkan dan membentuk satu gerombol yang lain.
Proses tersebut berlanjut sampai semua objek tersebut masing-masing membentuk satu
gerombol.
Metode-metode pengelompokkan hierarki dibedakan berdasarkan konsep jarak antar
kelompok, penentuan jarak antar kelompok untuk metode-metode tersebut adalah sebagai
berikut.
1. Metode single linkage
Metode ini mengelompokkan dua objek yang mempunyai jarak terdekat terlebih
dahulu.
Jarak antar kelompok (i,j) dengan k adalah
d(i,j)k = min(dik, djk)
2. Metode complete linkage
Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh
terlebih dahulu.
Jarak antar kelompok (i,j) dengan k adalah
d(i,j)k = max(dik, djk)
3. Metode average linkage
Metode ini akan mengelompokkan objek berdasarkan jarak rata-rata yang
didapat dengan melakukan rata-rata semua jarak objek terlebih dahulu.
Jarak antar kelompok (i,j) dengan k adalah
d(i,j)k = average(dik, djk)
4. Metode median linkage
Pada metode ini, jarak antara dua cluster adalah jarak dia antara centroid cluster
tersebut. Centroid adalah rata-rata jarak yang ada pada sebuah cluster yang didapat
dengan melakukan rata-rata pada semua anggota suatu cluster tertentu. Dengan metode
ini, setiap terjadi cluster baru, akan terjadi perhitungan ulang centroid hingga terbentuk
cluster tetap.
Jarak antar kelompok (i,j) dengan k adalah
d(i,j)k = median(dik, djk)
Hasil dari analisis akan disajikan dalam bentuk struktur pohon yang disebut
dendogram. Pemotongan dendogram dapat dilakukan pada selisih jarak penggabungan yang
terbesar. Akar pohon terdiri dari cluster tunggal yang berisi semua pengamatan, dan daun
sesuai dengan pengamatan individu.
Algoritma untuk mengelompokkan hierarki pada umumnya menggunakan cara
agglomerative, yaitu dimulai dari daun dan secara berurutan menggabungkan cluster bersama,
atau pemecahan yang dimulai dari akar dan dibagi secara rekursif.
Tahap-tahap pengelompokkan data dengan menggunakan metode hierarki adalah
sebagai berikut.
1. Tentukan matriks jarak antar data yang dikelompokkan.
2. Tentukan dua data yang mempunyai jarak terkecil kemudian gabungkan dua data ini ke
dalam satu kelompok.
3. Modifikasi matriks jarak sesuai aturan jarak antar kelompok yang sesuai dengan metode
pengelompokan yang dipakai.
4. Lakukan langkah 2 dan 3 sampai matriks jarak berukuran 22.
C. METODE NON HIERARKI
Metode non hierarki digunakan apabila jumlah kelompok yang diinginkan diketahui
dan biasanya dipakai untuk mengelompokkan data yang ukurannya besar. Salah satu metode
yang merupakan metode non hierarki adalah metode k-means. Algoritma k-means memberikan
poin pada cluster dengan pusat yang terdekat. Pusat ini adalah rata-rata dari semua titik dalam
cluster.
Contohnya, kumpulan data memiliki tiga dimensi dan cluster ini memiliki dua titik
yaitu = (1 , 2 , 3 ) dan = (1 , 2 , 3 ). Kemudian Z centroid menjadi = (1 , 2 , 3 ),
dimana
1 + 1 2 + 2 3 + 3
1 = , 2 = , dan 3 =
2 2 2
Keuntungan utama dari algoritma ini adalah kesederhanaan dan kecepatan yang
memungkinkan untuk pengoperasian di dataset yang besar.
Tahap-tahap pengelompokkan data dengan menggunakan metode non hierarki k-means
adalah sebagai berikut.
1. Mulai
2. Tentukan k buah pusat awal.
3. Tentukan jarak setiap data ke tiap pusat.
4. Lakukan pengelompokkan setiap data ke pusat terdekat.
5. Tentukan nilai pusat baru sebagai rata-rata data dalam kelompok.
6. Lakukan langkah 3-5 sampai nilai pusat kelompok tak berubah lagi.
7. Selesai

D. ANALISIS CLUSTER DENGAN CARA MANUAL

Contoh Kasus :

Dari data dibawah, diketahui sampel sebanyak 6 yaitu dari A sampai F. Jumlah variabel ada 3
yaitu matematika, fisika, dan kimia. Kita akan melakukan cluster analysis siswa sebuah kelas
berdasarkan nilai-nilai ujian seperti dibawah ini.

Sampel Matematika Fisika Kimia

A 70 61 87
B 99 80 70
C 85 63 60
D 70 79 55
E 69 69 78
F 68 64 86

1. Analisis Cluster Hirarki

Contoh permasalahan yang akan diberikan diatas adalah contoh yang sederhana
mengenai pengelompokan suatu himpunan bagian menjadi suatu kesatuan. Pengelompokan
akan dilakukan berdasarkan sifat-sifatnya apakah setiap elemen ekivalen dengan elemen
lainnya. Jika terdapat elemen yang memiliki kesamaan terdekat, maka elemen-elemen tersebut
akan digabungkan dalam suatu kelompok.
Langkah awal cluster analysis metode hierarki adalah membentuk matriks jarak antar
obeservasi. Untuk menghitung matriks jarak kita akan menggunakan kuadrat jarak Euclidean,
sebagai berikut.

d2 (A, B) = (70 99)2 + (61 80)2 + (87 70)2 = 1491

d2 (A, C) = (70 85)2 + (61 63)2 + (87 60)2 = 958

d2 (A, D) = (70 70)2 + (61 79)2 + (87 55)2 = 1348

d2 (A, E) = (70 69)2 + (61 69)2 + (87 78)2 = 146

d2 (A, F) = (70 68)2 + (61 64)2 + (87 86)2 = 14

d2 (B, C) = (99 85)2 + (80 63)2 + (70 60)2 = 585

d2 (B, D) = (99 70)2 + (80 79)2 + (70 55)2 = 1067

d2 (B, E) = (99 69)2 + (80 69)2 + (70 78)2 = 1085

d2 (B, F) = (99 68)2 + (80 64)2 + (70 86)2 = 1473

d2 (C, D) = (85 70)2 + (63 79)2 + (60 55)2 = 506

d2 (C, E) = (85 69)2 + (63 69)2 + (60 78)2 = 616

d2 (C, F) = (85 68)2 + (63 64)2 + (60 86)2 = 966

d2 (D, E) = (70 69)2 + (79 69)2 + (55 78)2 = 630

d2 (D, F) = (70 68)2 + (79 64)2 + (55 86)2 = 1190

d2 (E, F) = (69 68)2 + (69 64)2 + (78 86)2 = 90

A B C D E F
A 0 1491 958 1348 146 14
B 1491 0 585 1067 1085 1473
C 958 585 0 506 616 966
D 1348 1067 506 0 630 1190
E 146 1085 616 630 0 90
F 14 1473 966 1190 90 0
Tabel 2

Setelah matriks jarak sudah terbentuk, maka langkah berikutnya adalah menentukan
dua observasi yang mempunyai jarak terdekat dan kemudian digabung dalam satu kelompok.
Dari tabel 2 dapat dilihat bahwa sampel yang jaraknya paling dekat adalah sampel A dengan
F. Oleh karena itu, pada tabel baru yang akan dibuat sampel A dan F digabung dalam satu sel
(satu kelompok).

(A, F) B C D E
(A, F) 0 ... ... ... ...
B ... 0 585 1067 1085
C ... 585 0 506 616
D ... 1067 506 0 630
E ... 1085 616 630 0
Tabel 3

Selanjutnya, untuk mengisi titik-titik pada tabel 3 kita menggunakan metode single
linkage sebagai berikut.

min(d2 (B, A), d2 (B, F) ) = min(1491, 1473) = 1473

min(d2 (C, A), d2 (C, F) ) = min(958, 966) = 958

min(d2 (D, A), d2 (D, F) ) = min(1348, 1190) = 1190

min(d2 (E, A), d2 (E, F) ) = min(146, 90) = 90

(A, F) B C D E
(A, F) 0 1473 958 1190 90
B 1473 0 585 1067 1085
C 958 585 0 506 616
D 1190 1067 506 0 630
E 90 1085 616 630 0
Tabel 4

Setelah itu dapat dilihat pada tabel 4 bahwa observasi yang mempunyai jarak paling
dekat adalah sampel E dengan A dan F, sehingga ketiga sampel ini digabung dalam satu sel
(satu kelompok).

(A, F, E) B C D
(A, F, E) 0 ... ... ...
B ... 0 585 1067
C ... 585 0 506
D ... 1067 506 0
Tabel 5

Kemudian dengan memperhatikan tabel 4 dan menggunakan metode single linkage

diperoleh :

min(d2 (B, (A, F)), d2 (B, E) ) = min(1473, 1085) = 1085

min(d2 (C, (A, F)), d2 (C, E) ) = min(958, 616) = 616

min(d2 (D, (A, F)), d2 (D, E) ) = min(1190, 630) = 630

(A, F, E) B C D
(A, F, E) 0 1085 616 630
B 1085 0 585 1067
C 616 585 0 506
D 630 1067 506 0
Tabel 6

Pada tabel 6 terlihat bahwa observasi yang mempunyai jarak paling dekat adalah
sampel C dengan D, sehingga kedua sampel ini digabung dalam satu sel (satu kelompok).

(A, F, E) B (C, D)
(A, F, E) 0 1085 ...
B 1085 0 ...
(C, D) ... ... 0
Tabel 7
Kemudian dengan memperhatikan tabel 6 dan menggunakan metode single linkage
diperoleh :

min(d2 ((A, F, E), C), d2 ((A, F, E), D) ) = min(616, 630) = 616

min(d2 (B, C), d2 (B, D) ) = min(585, 1067) = 585

(A, F, E) B (C, D)
(A, F, E) 0 1085 616
B 1085 0 585
(C, D) 616 585 0
Tabel 8

Pada tabel 8 terlihat bahwa observasi yang mempunyai jarak paling dekat adalah
sampel B dengan C dan D, sehingga ketiga sampel ini digabung dalam satu sel (satu kelompok).

(A, F, E) (C, D, B)
(A, F, E) 0 ...
(C, D, B) ... 0
Tabel 9

Kemudian dengan memperhatikan tabel 8 dan menggunakan metode single linkage

diperoleh :

min(d2 ((A, F, E), (C, D)), d2 ((A, F, E), B) ) = min(616, 1085) = 616

(A, F, E) (C, D, B)
(A, F, E) 0 616
(C, D, B) 616 0
Tabel 10

Kemudian penggabungan terakhir adalah (A, F, E) dengan (C, D, B) pada jarak

penggabungan 616. Dengan demikian, diperoleh pengelompokkan dengan menggunakan
metode single linkage sebagai berikut.

Tahap Jarak Yang digabung Banyaknya Kelompok

Penggabungan Cluster 1 Cluster 2 Kelompok
0 - - - 6 (A)
(B)
(C)
(D)
(E)
(F)
1 14 A F 5 (A, F)
(B)
(C)
(D)
(E)
2 90 A, F E 4 (A, F, E)
(B)
(C)
(D)
3 506 C D 3 (A, F, E)
(B)
(C, D)
4 585 C, D B 2 (A, F, E)
(C, D, B)
5 616 A, F, E C, D, B 1 (A, F, E, C, D, B)
Tabel 11

Berdasarkan kriteria loncatan, jarak penggabungan terbesar adalah jarak dari 90 ke 506.
Oleh karena itu, dapat diketahui banyaknya kelompok adalah 4 yaitu (A, F, E) (B) (C) (D).

2. Analisis Cluster Non Hirarki

E. ANALISIS CLUSTER DENGAN SPSS

Contoh Kasus :

Dari data dibawah, diketahui sampel sebanyak 12 kota, ingin diketahui pengelompokan kota-
kota tersebut berdasarkan instrumen 5 variabel yaitu :

Jumlah pendapatan kota (trilyun Rp)

Jumlah pinjaman pemerintah kota (milyar Rp)
Jumlah dana hibah yang dimiliki kota (milyar Rp)
Jumlah konsumsi pemerintah kota (milyar Rp)
Jumlah penduduk kota (juta jiwa).
Untuk itu data yang berhasil dikumpulkan sebagai berikut:
Kota Pendapatan Pinjaman Dana Konsumsi Penduduk
Hibah
A 55 5.6 9 50 25
B 61 8 7 62 41
C 58 3.9 7 60 32
D 67 5.5 7 64 51
E 71 5.7 6 70 42
F 76 7.6 8 80 29
G 81 8.7 9 80 57
H 56 7.1 6 86 29
I 84 7.6 7 82 46
J 88 6.5 8 86 52
K 84 6.8 9 88 61
L 90 8 9 90 66
Untuk menyelesaikan contoh kasus di atas dengan menggunakan aplikasi program
SPSS, perlu dilakukan beberapa langkah berikut ini.

Langkah 1 : Standardisasi/Transformasi

Mengingat data yang terkumpul mempunyai variabilitas satuan, maka perlu dilakukan
langkah standardisasi atau transformasi terhadap variabel yang relevan ke bentuk zscore,
sebagai berikut :

1) Setelah keseluruhan data yang dikumpulkan tersebut diatas dientry dalam program
SPSS, selanjutnya klik menu analyze dan pilih sub menu Descriptives Statistics lalu
Descriptives hingga muncul tampilan berikut ini :
2) Masukkan ke dalam kotak VARIABLES seluruh variabel instrumen penilai, yaitu
variabel jumlah pendapatan, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi, dan
jumlah penduduk. (dalam hal ini variabel kota tidak dimasukkan karena data bertipe
string).
3) Kemudian aktifkan bagian Save standardized values as variables. Abaikan bagian
yang lain lalu tekan OK untuk menampilkan output aplikasi program SPSS. Output yang
didapat yaitu deskripsi dari keseluruhan variabel yang meliputi nilai maksimum, nilai
minimun, rataan, dan standar deviasi dari masing-masing variabel, sebagai berikut :

Namun, deskripsi tersebut diatas digunakan sebagai dasar perhitungan z-score yang
diperoleh. Selanjutnya buka tampilan data view dari tabel data. Hal yang akan dijumpai
sebagai berikut :
Untuk selanjutnya, hasil z-score inilah yang akan dipakai dasar analisis cluster.
Namun apabila data yang terkumpul tidak mempunyai variabilitas satuan, maka proses
analisis cluster dapat langsung dilakukan tanpa terlebih dahulu melakukan transformasi atau
standardisasi. Langkah 2 : Analisis Cluster terbagi atas :

1. Analisis Cluster Hirarki

Konsep dari metode hirarkis ini dimulai dengan menggabungkan 2 obyek yang paling
mirip, kemudian gabungan 2 obyek tersebut akan bergabung lagi dengan satu atau lebih obyek
yang paling mirip lainnya. Proses clustering ini pada akhirnya akan menggumpal menjadi
satu cluster besar yang mencakup semua obyek. Metode ini disebut juga sebagai metode
aglomerativ yang digambarkan dengan dendogram. Contoh kasus di atas akan dicoba untuk
diselesaikan pula dengan metode aglomerativ. Untuk itu, langkah-langkah yang harus
dilakukan dalam aplikasi program SPSS sebagai berikut :

1) Masih dengan data yang merupakan hasil standardisasi, buka menu Analyze lalu pilih
sub menu Classify kemudian Hierarchical Cluster hingga muncul tampilan seperti
berikut ini :
2) Masukkan seluruh variabel yang telah distandardkan (Z-score) ke dalam bagian
Variable(s). Untuk bagian Label Cases by isi dengan variabel kota; sedangkan untuk
bagian Cluster pilih Cases; pada bagian Display pilih keduanya yaitu Statistics dan
Plots.
3) Kemudian klik mouse pada kotak Statistics hingga muncul tampilan berikut ini :

Selain kotak Agglomeration Schedule, aktifkan pula kotak Proximity matrix untuk
menampilkan jarak antar variabel. Pada bagian Cluster Membership klik mouse pada
pilihan Range of Solutions lalu ketik 2 pada FROM dan 4 pada THROUGH (berarti
nantinya akan ditampilhan susunan 2, 3, dan 4 cluster). Kemudian tekan tombol
Continue untuk kembali ke menu utama.

4) Selanjutnya klik mouse pada kotak Plots hingga muncul tampilan seperti berikut ini :

Aktifkan pilihan Dendogram; kemudian pada bagian Icicle pilih None. Abaikan
bagian yang lain lalu tekan tombol Continue untuk kembali ke menu utama.

5) Berikutnya klik mouse pada kotak Method hingga muncul tampilan :

Pada bagian Cluster Method pilih Between groups linkage. Kemudian buka kotak
combo Square Euclidean distance pada Measure; dan pada Transform Values buka
kotak combo pada pilihan Z-score. Abaikan bagian yang lain lalu tekan tombol
Continue untuk kembali ke menu utama. Dari tampilan menu utama, tekan tombol OK
untuk menampilkan output aplikasi program SPSS. Setelah kita melakukan analisis
cluster maka kita harus menginterprestasikan hasilnya sebagai berikut:

a. Proximities

Tabel output di atas menunjukkan bahwa semua data sejumlah 12 obyek telah
diproses tanpa ada data yang hilang

b. Matrix Proximities

Tabel diatas menujukkan matrik jarak antara variabel satu dengan variabel yang
lain. Semakin kecil jarak euclidean, maka semakin mirip kedua variabel tersebut
sehingga akan membentuk kelompok ( cluster ).

c. Average Linkage
Tabel di atas merupakan hasil proses clustering dengan metode Between Group
Linkage. Setelah jarak anatar varaiebl diukur dengan jarak euclidean, maka dilakukan
pengelompokan, yang dilakukan secara bertingkat.

Stage 1 : terbentuk 1 cluster yang beranggotakan Kota K dan Kota L dengan jarak
1,139 ( perhatikan pada kolom Coefficients). Karena proses aglomerasi dimulai dari 2
obyek yang terdekat, maka jarak tersebut adalah yang terdekat dari sekian kombinasi
jarak 12 obyek yang ada. Selanjutnya lihat kolom terakhir (Next Stage), terlihat angka
4. Hal ini berarti clustering selanjutnya dilakukan dengan melihat stage 4, dengan
penjelasan berikut.

Baris ke-4 (stage 4) terlihat obyek ke-7 (Kota G) membentuk cluster dengan Kota K.
Dengan demikian, sekarang cluster terdiri dari 3 obyek yaitu Kota G, K, dan L.
Sedangkan jarak sebesar 2,097 merupakan jarak rata-rata obyek terakhir yang
bergabing dengan 2 obyek sebelumnya, seperti tampak dalam Proximity matrix dan
dapat dihitung sebagai berikut :
- Jarak Kota G dan K = 2,432
- Jarak Kota G dan L = 1,761
- Jarak rata-rata = (2,432 + 1,761) / 2
= 2,0965

Stage 2 : terjadi pembentukan cluster Kota D dan Kota E berjarak 1,515), yang
kemudian berlanjut ke stage 6.
Demikian seterusnya dari stage 3 dilanjutkan ke stage 5, sampai ke stage terakhir.

d. Aglomeratif
Proses aglomerasi ini bersifat kompleks, khususnya perhitungan koefisien yang
melibatkan sekian banyak obyek dan terus bertambah. Proses aglomerasi pada
akhirnya akan menyatukan semua obyek menjadi satu cluster. Hanya saja dalam
prosesnya dihasilkan beberapa cluster dengan masing-masing anggotanya, tergantung
jumlah cluster yang dibentuk.

e. Cluster membership
Perincian jumlah cluster dengan anggota yang terbentuk dapat dilihat pada
tabel output berikut ini :

Dari tabel diatas dapat dijabarkan bahwa :

Apabila diinginkan dibentuk 4 cluster, maka :

- Anggota cluster 1 adalah Kota A
- Anggota cluster 2 adalah Kota B dan Kota H
- Anggota cluster 3 adalah C, D, dan E
- Anggota cluster 4 adalah Kota F, G, I, J, K, dan L.
Apabila ditentukan dibentuk 3 cluster, maka :
- Anggota cluster 1 adalah Kota A
- Anggota cluster 2 adalah Kota B, C, D, E, dan H.
- Anggota cluster 3 adalah Kota F, G, I, J, K dan L
Apabila ditentukan dibentuk 2 cluster, maka :
- Anggota cluster 1 adalah Kota A, B, C, D, E dan H
- Anggota cluster 2 adalah Kota F, G, I, J, K dan L

f. Dendogram

Dendogram berguna untuk menunjukkan anggota cluster yang ada jika akan
ditentukan berapa cluster yang seharusnya dibentuk. Sebagai contoh yang terlihat dalam
dendogram, apabila akan dibentuk 2 cluster, maka cluster 1 beranggotakan Kota K
sampai dengan Kota F (sesuai urutan dalam dendogram); dan cluster2 beranggotakan
Kota D sampai dengan Kota A. Demikian seterusnya dapat dengan mudah dilihat
anggota tiap cluster sesuai jumlah cluster yang diinginkan.
2. Analisis Cluster Non Hirarki
Sebagaimana telah dijelaskan sebelumnya bahwa metode KMeans Cluster ini
jumlah cluster ditentukan sendiri. Oleh karena itu, berikut ini langkah-langkah yang
harus dilakukan dalam menggunakan metode K-Means Cluster dalam aplikasi program
SPSS. Perlu diingat bahwa bahan analisis bukan lagi data asli, namun data hasil
transformasi/standardisasi.

1) Dari tampilan data yang tertera ( hasil standardisasi/transformasi), buka

menu Analyze, lalu pilih sub menu Classify dan pilih K-Means Cluster
hingga tampak pada layar sebagai berikut :

2) Masukkan seluruh variabel Z-Score ke dalam kotak VARIABLES. Kemudian variabel

Kota dimasukkan dalam kotak Label Cases by... Number of Clusters dalam hal ini
diisi menurut jumlah cluster yang akan dibentuk dalam penelitian yang dimaksud.
Dalam hal ini diisi 3, berarti diharapkan akan dibentuknya 3 cluster.
3) Kemudian klik mouse pada kotak Save hingga muncul tampilan seperti berikut ini:
Kotak dialog SAVE memungkinkan hasil cluster disimpan dalam bentuk
variabel baru. Hal ini berguna untuk proses profiling cluster, yang akan dilakukan pada
tahapan akhir analisis cluster.

4) Aktifkan kedua kotak dalam menu Save, yaitu Cluster membership dan Distance
from cluster center. Selanjutnya tekan tombol Continue untuk kembali ke menu
utama.

5) Kemudian klik mouse pada kotak Options hingga tampak tampilan berikut ini :

Pada bagian Statistics, aktifkan Initial cluster centers dan ANOVA table. Abaikan
bagian yang lain, lalu tekan Continue untuk kembali ke menu utama.

Dari tampilan menu utama cluster, abaikan bagian yang lain lalu tekan tombol
OK untuk dapat menampilkan output aplikasi program SPSS seperti berikut ini. Setelah
kita melakukan analisis cluster maka kita harus menginterprestasikan hasilnya sebagai
berikut:

a. Initial Cluster
Tabel diatas merupakan tampilan pertama proses clustering data sebelum
dilakukan iterasi.

b. Iterasi Analisis Cluster

Untuk mendeteksi berapa kali proses iterasi yang dilakukan dalam proses
clustering dari 12 obyek yang diteliti, dapat dilihat dari tampilan output berikut ini :

Ternyata proses clustering yang dilakukan melalui 3 tahapan iterasi untuk

mendapatkan cluster yang tepat. Dari tabel diatas disebutkan bahwa jarak minimum
antar pusat cluster yang terjadi dari hasil iterasi adalah 3.192.

c. Output Analisis Cluster dengan SPSS

Hasil akhir dari proses clustering dapat anda lihat seperti di bawah ini:

Output Final Cluster Centers tersebut diatas masih terkait dengan proses
standardisasi data sebelumnya, yang mengacu pada z-score dengan ketentuan sebagai
berikut :
Nilai negatif (-) berarti data berada di bawah ratarata total.
Nilai positif (+)berarti data berada di atas ratarata total.

Rumus umum yang digunakan yaitu :

Di mana:

X = Rata-rata sampel dalam cluster

= Rata-rata populasi

Z = Nilai standardisasi

= Standar Deviasi

d. Interpretasi analisis cluster non hirarki

Dari tabel output Final Cluster Centers, dengan ketentuan yang telah dijabarkan
diatas pula, dapat didefinisikan sebagai berikut :

Cluster-1
Dalam cluster-1 ini berisikan kota-kota yang mempunyai jumlah pendapatan
kota, jumlah pinjaman, jumlah dana hibah, jumlah konsumsi, dan jumlah penduduk
yang lebih dari rata-rata populasi kota yang diteliti. Hal ini terbukti dari nilai positif
(+) yang terdapat pada tabel Final Cluster Centers dalam keseluruhan variabel. Dengan
demikian, dapat diduga bahwa cluster-1 ini merupakan pengelompokan dari kota-kota
besar.

Cluster-2
Karakteristik kota yang masuk dalam pengelompokan cluster-2 yaitu memiliki
rata-rata jumlah pinjaman dan jumlah konsumsi yang melebihi rata-rata populasi kota
yang diteliti. Untuk instrumen variabel yang lain kota-kota di cluster-2 ini berada di
atas ratarata populasi. Dengan demikian, dapat diduga sekumpulan kota-kota
menengah berada pada cluster-2
Cluster-3
Sedangkan karakteristik kota-kota yang mengelompok pada cluster-3 adalah
keseluruhan instrumen penilai berada pada posisi dibawah rata-rata populasi kota yang
diteliti. Sehingga dapat diduga bahwa cluster-3 merupakan pengelompokan kota-kota
kecil.

Penamaan cluster atau penarikan kesimpulan sangat bersifat

subyektif dan bergantung pada tujuan penelitian.

Tahapan selanjutnya yang perlu dilakukan yaitu melihat perbedaan variabel

pada cluster yang terbentuk. Dalam hal ini dapat dilihat dari nilai F dan nilai
probabilitas (sig) masing-masing variabel, seperti tampak dalam tabel berikut.

e. Rumus ANOVA

Rumus nilai F :

Dimana dalam tabel ANOVA di atas MS Between ditunjukkan oleh Means Square
dalam kolom Cluster, sedangkan MS Within ditunjukkan oleh Means Square dalam kolom
Error.

Semakin besar nilai F dan (sig < 0,05), maka semakin besar perbedaan variabel pada
cluster yang terbentuk.
f. Kesimpulan Analisis Cluster

Dengan demikian hasil cluster yang didapat dalam penelitian ini bahwa untuk
instrumen jumlah pendapatan kota yang paling menunjukkan adanya perbedaan diantara
kota-kota pada ketiga cluster yang terbentuk. Hal ini dengan ditunjukkannya nilai F = 45,
999 dan sig = 0,000. Untuk variabel yang lain pun dapat didefinisikan lebih lanjut.

Selanjutnya untuk mengetahui jumlah anggota masing-masing cluster yang

terbentuk dapat dilihat pada tabel output berikut ini :

g. Pembagian cluster
Nampak jelas bahwa cluster-1 beranggotakan 5 kota, cluster-2 beranggotakan 3
kota dan pada cluster-3 terdapat 4 kota yang mengelompok. Dan untuk mengetahui kota-
kota mana saja yang masuk dalam kategori tiap-tiap cluster dapat kembali dibuka tampilan
data view pada kolom terakhir akan nampak seperti berikut ini :

Perhatikan 2 kolom terakhir pada tabel di atas. qcl_1 menunjukkan nomor cluster
dari keberadaan kota, dan qcl_2 merupakan jarak antara obyek dengan pusat cluster.
Dengan demikian, dapat ditafsirkan sebagai berikut :
Cluster-1 : berisikan kota G, I, J, K, dan L dengan masing-masing jarak terhadap pusat
cluster-1 adalah 1,13345; 1,45998; 0,90703; 0,84724; dan 1,07342.
Cluster-2 : berisikan kota B, F, dan H, dengan masing-masing jarak terhadap pusat
cluster-2 adalah 1,28390; 1,31905; dan 1,39462.
Cluster-3 : berisikan kota A, C, D, dan E, dengan masing-masing jarak terhadap pusat
cluster-3 adalah 2,07346; 1,10283; 1,11895; dan 1,51738.

Anda mungkin juga menyukai

Analisis Cluster Kelompok 3
Belum ada peringkat
Analisis Cluster Kelompok 3
44 halaman
Analisis Klaster Makro Ekonomi Sulsel
Belum ada peringkat
Analisis Klaster Makro Ekonomi Sulsel
23 halaman
Laporan Penelitian Algoritma K-Means
100% (1)
Laporan Penelitian Algoritma K-Means
20 halaman
Koefisien Variasi Dan Skor Baku
Belum ada peringkat
Koefisien Variasi Dan Skor Baku
18 halaman
Panduan K-Means Clustering
Belum ada peringkat
Panduan K-Means Clustering
23 halaman
Peran Matematika Komputasi dalam Informatika
Belum ada peringkat
Peran Matematika Komputasi dalam Informatika
20 halaman
Analisis Klaster
Belum ada peringkat
Analisis Klaster
39 halaman
Contoh Soal
100% (2)
Contoh Soal
3 halaman
Teknik Evaluasi Interaksi Manusia-Komputer
Belum ada peringkat
Teknik Evaluasi Interaksi Manusia-Komputer
10 halaman
Analisis Big Data Dalam Keputusan Bisnis
Belum ada peringkat
Analisis Big Data Dalam Keputusan Bisnis
68 halaman
Ukuran Gejala Pusat
Belum ada peringkat
Ukuran Gejala Pusat
17 halaman
Operator Aritmatika dalam MySQL
Belum ada peringkat
Operator Aritmatika dalam MySQL
7 halaman
PPT-Data Mining-Pertemuan 12 (K-Means) Z
Belum ada peringkat
PPT-Data Mining-Pertemuan 12 (K-Means) Z
30 halaman
"Pengantar Matriks: Determinan dan Invers"
Belum ada peringkat
"Pengantar Matriks: Determinan dan Invers"
19 halaman
Tugas 6
Belum ada peringkat
Tugas 6
4 halaman
IMK 12 - Visualisasi Informasi
Belum ada peringkat
IMK 12 - Visualisasi Informasi
18 halaman
Tugas Divisive Hierarchical Clustering
Belum ada peringkat
Tugas Divisive Hierarchical Clustering
5 halaman
Serangan Kriptografi: Metode dan Jenis
Belum ada peringkat
Serangan Kriptografi: Metode dan Jenis
13 halaman
Ukuran Pemusatan Data dalam Statistik
Belum ada peringkat
Ukuran Pemusatan Data dalam Statistik
14 halaman
Algoritma K-Medoids dalam Clustering Data
Belum ada peringkat
Algoritma K-Medoids dalam Clustering Data
31 halaman
Ukuran Kemiripan dan Ketidakmiripan Data
Belum ada peringkat
Ukuran Kemiripan dan Ketidakmiripan Data
31 halaman
Membangkitkan Bilangan Acak dengan LCG
Belum ada peringkat
Membangkitkan Bilangan Acak dengan LCG
12 halaman
Algoritma K-Means: Panduan dan Contoh
Belum ada peringkat
Algoritma K-Means: Panduan dan Contoh
13 halaman
Panduan Lengkap Indeks Harga
Belum ada peringkat
Panduan Lengkap Indeks Harga
17 halaman
Penyajian Data: Histogram dan Ogive
Belum ada peringkat
Penyajian Data: Histogram dan Ogive
16 halaman
Makalah Chi Square Independensi
Belum ada peringkat
Makalah Chi Square Independensi
7 halaman
Makalah Mesin Inferensi
Belum ada peringkat
Makalah Mesin Inferensi
8 halaman
Ancaman Program Jahat dan Solusinya
0% (1)
Ancaman Program Jahat dan Solusinya
4 halaman
Pengaruh Ukuran Blok dan Pemetaan Cache
Belum ada peringkat
Pengaruh Ukuran Blok dan Pemetaan Cache
11 halaman
Makalah Tentang Perancangan Sistem Informasi
Belum ada peringkat
Makalah Tentang Perancangan Sistem Informasi
30 halaman
PAPER Graf Algoritma
33% (3)
PAPER Graf Algoritma
33 halaman
Laporan Data Mining MENGELOMPOKAN MATAKULIAH BERDASARKAN NILAI YANG SAMA DENGAN METODE CLUSTERING MENGGUNAKAN ALGORITMA K-MEANS
0% (1)
Laporan Data Mining MENGELOMPOKAN MATAKULIAH BERDASARKAN NILAI YANG SAMA DENGAN METODE CLUSTERING MENGGUNAKAN ALGORITMA K-MEANS
15 halaman
Pengantar Sistem Terdistribusi Model Sistem Terdistribusi
Belum ada peringkat
Pengantar Sistem Terdistribusi Model Sistem Terdistribusi
12 halaman
Analisis Dan Perancangan Infrastruktur Keamanan Jaringan (Studi Kasus Universitas Negeri Manado)
Belum ada peringkat
Analisis Dan Perancangan Infrastruktur Keamanan Jaringan (Studi Kasus Universitas Negeri Manado)
32 halaman
Template Penulisan JAMIKA 2023
Belum ada peringkat
Template Penulisan JAMIKA 2023
4 halaman
Tugas Statistik 5 Quis.
Belum ada peringkat
Tugas Statistik 5 Quis.
9 halaman
Penerapan Turunan: Ukuran Persegi Panjang
Belum ada peringkat
Penerapan Turunan: Ukuran Persegi Panjang
2 halaman
Makalah Implementasi Basisdata
Belum ada peringkat
Makalah Implementasi Basisdata
15 halaman
Pengertian Key dalam Basis Data
Belum ada peringkat
Pengertian Key dalam Basis Data
4 halaman
Interaksi Manusia
Belum ada peringkat
Interaksi Manusia
7 halaman
Studi Kasus Microsoft Access
Belum ada peringkat
Studi Kasus Microsoft Access
25 halaman
Visualisasi Informasi
Belum ada peringkat
Visualisasi Informasi
17 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Panduan Tugas Akhir Teknik Informatika
Belum ada peringkat
Panduan Tugas Akhir Teknik Informatika
73 halaman
Ratu Felisah Tugas Pemodelan Sistem Review Jurnal
Belum ada peringkat
Ratu Felisah Tugas Pemodelan Sistem Review Jurnal
8 halaman
Modul Praktikum Statistik Matematika
Belum ada peringkat
Modul Praktikum Statistik Matematika
66 halaman
Asumsi Analisis Faktor Dengan SPSS
Belum ada peringkat
Asumsi Analisis Faktor Dengan SPSS
10 halaman
Frontend Website Si-RETA untuk Rekrutmen IT
Belum ada peringkat
Frontend Website Si-RETA untuk Rekrutmen IT
58 halaman
Jurnal Keamanan Komputer
Belum ada peringkat
Jurnal Keamanan Komputer
13 halaman
Ukuran Gejala Pusat dalam Statistik
Belum ada peringkat
Ukuran Gejala Pusat dalam Statistik
19 halaman
Kel C Data Mining Dan Kasus Amazon
Belum ada peringkat
Kel C Data Mining Dan Kasus Amazon
14 halaman
Makalah Proses RAD Dan RUP
0% (1)
Makalah Proses RAD Dan RUP
18 halaman
Panduan Lengkap Data Mining dan Korelasi
Belum ada peringkat
Panduan Lengkap Data Mining dan Korelasi
24 halaman
"Algoritma Merge Sort Efisien"
Belum ada peringkat
"Algoritma Merge Sort Efisien"
8 halaman
Gaji Pegawai Menggunakan Array dan Loop
Belum ada peringkat
Gaji Pegawai Menggunakan Array dan Loop
11 halaman
Praktikum Relasi & Join SQL
Belum ada peringkat
Praktikum Relasi & Join SQL
15 halaman
Metode Pengelompokan Hierarkis Aglomeratif
Belum ada peringkat
Metode Pengelompokan Hierarkis Aglomeratif
14 halaman
10 - Normalisasi & ERD
Belum ada peringkat
10 - Normalisasi & ERD
23 halaman
Pengelompokan Negara Berdasarkan Rekor Lari
Belum ada peringkat
Pengelompokan Negara Berdasarkan Rekor Lari
28 halaman
Modul Analisis Cluster
Belum ada peringkat
Modul Analisis Cluster
22 halaman