ANALISIS MULTIVARIAT
MODUL 4
Oleh:
Marita Qori’atunnadyah 06211640000001
Niam Zuhdi Yuliarto 06211640000061
Asisten Dosen :
Sri Hidayati
Dosen:
Dr. Bambang Widjanarko Otok., S.Si., M.Si.
i
ABSTRAK
Sektor peternakan memiliki peluang pasar yang sangat baik, dimana pasar domestik akan terus meningkat
seiring dengan pertumbuhan penduduk yang semakin pesat. Keberhasilan suatu usaha peternakan sangat
dipengaruhi oleh baik tidaknya tatalaksana pemeliharaan. Tatalaksana pemeliharaan ternak sapi dimulai dari
pemilihan bibit sapi, pemberian pakan dan suplemen, pencegahan penyakit, tenaga kerja, dan lain-lain.
Dikarenakan beberapa observasi memiliki karakteristik yang sama maka perlu dilakukan pengelompokan
observasi tersebut sehingga terbentuk kluster atau kelompok baru yang mewakili variabilitas observasi-
observasi yang ada. Sebelum melakukan analisis cluster terlebih dahulu data harus memenuhi asumsi
independen. Pada praktikum ini akan dilakukan analisis cluster untuk mengelompokkan ternak sapi
berdasarkan faktor-faktor yang mempengaruhi berat sapi ketika dijual. Metode hierarki yang paling baik
untuk mengelompokkan ternak sapi berdasarkan faktor-faktor yang mempengaruhi berat sapi ketika dijual
adalah metode single linkage dengan jumlah cluster optimum yang dapat terbentuk yaitu sebanyak 6 cluster.
Metode non-hierarki yang digunakan adalah K-Means dengan 6 cluster. Metode cluster yang paling sesuai
untuk mengelompokkan ternak sapi berdasarkan faktor-faktor yang mempengaruhi berat sapi ketika dijual
adalah metode K-Means dengan 6 cluster.
Kata Kunci : Analisis Cluster, Complete Linkage, K-Means, Single Linkage
ii
DAFTAR ISI
iii
DAFTAR TABEL
iv
DAFTAR GAMBAR
v
DAFTAR LAMPIRAN
vi
BAB I
PENDAHULUAN
1
cluster terlebih dahulu data harus memenuhi asumsi independen (Hair, 2010). Pada
praktikum ini akan dilakukan analisis cluster untuk mengelompokkan ternak sapi
berdasarkan faktor-faktor yang mempengaruhi berat sapi ketika dijual. Diharapkan dalam
pembuatan laporan praktikum ini, mahasiswa dapat mengetahui dan memahami tahapan-
tahapan dalam analisis cluster.
1.2 Rumusan Masalah
Permasalahan yang digunakan sebagai acuan analisis pada penelitian ini adalah sebagai
berikut.
1. Bagaimana analisis cluster data pemeliharaan ternak sapi menggunakan metode hierarki
(single linkage dan complete linkage)?
2. Bagaimana analisis cluster data pemeliharaan ternak sapi dengan menggunakan metode
non-hierarki (K-means)?
3. Bagaimana menentukan metode cluster terbaik untuk data pemeliharaan ternak sapi?
1.3 Tujuan
Tujuan yang akan dicapai berdasarkan rumusan masalah adalah sebagai berikut.
1. Mengetahui analisis cluster data pemeliharaan ternak sapi menggunakan metode
hierarki (single linkage dan complete linkage).
2. Mengetahui analisis cluster data pemeliharaan ternak sapi dengan menggunakan metode
non-hierarki (K-means).
3. Mengetahui metode cluster terbaik untuk data pemeliharaan ternak sapi.
1.4 Manfaat
Manfaat yang didapatkan dari praktikum kali ini, khususnya bagi penulis adalah dapat
memahami penggunaan ilmu tentang analisis pengelompokan atau clustering, pengerjaan
laporan ini dapat meningkatkan pemahaman mengenai penerapan analisis clustering dalam
kasus atau persoalan nyata. Sedangkan bagi pembaca, hasil praktikum ini diharapkan dapat
menjadi salah satu referensi penerapan analisis clustering dalam bidang peternakan.
2
BAB II
TINJAUAN PUSTAKA
Metode Complete Linkage merupakan metode cluster yang menggunakan jarak terjauh
dan dirumuskan dengan
d (ij ) k max(dik , d jk ) (2.2)
2. Metode non-hierarki
Metode Non hirarki yang sering digunakan adalah metode K-Means. Metode K-Means
merupakan salah satu metode analisis cluster nonhierarki yang dapat digunakan untuk
mempartisi objek kedalam kelompok-kelompok berdasarkan kedekatan karakteristik,
sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam satu cluster
yang sama dan objek yang mempunyai karakteristik yang berbeda dikelompokan kedalam
cluster yang lain (Johnson & Wicherin, 2007). Tujuan pengelompokan adalah untuk
meminimalkan objective function yang di set dalam proses pengelompokan, yang pada
dasarnya berusaha untuk meminimalkan variasi dalam satu cluster dan memaksimalkan
3
variasi antar cluster (Suliyanto, 2005). Kelebihan metode K-Means adalah efisien untuk data
yang besar. Kelemahan metode K-Means adalah jumlah/ banyaknya cluster dapat ditentukan
di awal oleh peneliti.
Algoritma K-Means dapat dilakukan sebagai berikut:
a. Menentukan besarnya k (banyaknya cluster yang akan dibentuk) serta centroid awal
di tiap cluster. Penentuan centroid awal dapat dilakukan secara acak dari k buah
observasi.
b. Menghitung jarak antara setiap objek dengan centroid awal, kemudian memasukkan
objek-objek ke suatu cluster berdasarkan jarak terdekat dengan centroid yang
bersesuaian. Umumnya perhitungan jarak dilakukan berdasarkan jarak euclidean.
c. Menghitung kembali centroid dari cluster yang baru dibentuk.
d. Mengulangi langkah (b) dan (c) sampai tidak ada lagi objek yang berpindah cluster.
dimana
SST SSW
R2 (2.4)
SST
p
SST xijk x j
n c
2
(2.5)
i 1 j 1 k 1
p
SSW xijk x jk
n c
2
(2.6)
i 1 j 1 k 1
Keterangan:
SST = Total jumlah dari kuadrat jarak sampel terhadap rata-rata keseluruhan
SSW = Total jumlah dari kuadrat jarak sampel terhadap rata-rata kelompoknya
n = banyaknya sampel
c = banyaknya variabel
p = banyaknya kelompok
xijk = sampel ke-i pada variabel ke-j kelompok ke-k
4
x jk = rata-rata sampel pada variabel ke-j dan kelompok ke-k
Nilai Pseudo Fstatistics tertinggi menunjukkan bahwa jumlah kelompok yang digunakan
untuk memartisi data telah optimal (Orpin, 2006).
2.4 Dendogram
Dendrogram merupakan suatu grafik pohon yang terstruktur yang digunakan untuk
memetakan atau memvisualisasi hasil perhitungan cluster. Hasil pengelompokan akan
disajikan dalam bentuk diagram, sebagai jarak atau kesamaan antara baris atau kolom
tergantung pada ukuran jarak yang dipilih (Johnson & Wicherin, 2007).
5
BAB III
METODOLOGI PENELITIAN
6
3. Melakukan analisis cluster dengan menggunakan metode hierarki (single linkage dan
complete linkage).
4. Melakukan analisis cluster dengan menggunakan metode non-hierarki (K-means).
5. Menentukan model cluster terbaik berdasarkan nilai icdrate.
6. Menarik kesimpulan dan memberikan saran.
Mulai
Mengumpulkan Data
Selesai
7
BAB IV
ANALISIS DAN PEMBAHASAN
8
Berdasarkan Gambar 4.1, jumlah cluster yang mungkin terbentuk yaitu 3 cluster, 6
cluster dan 9 cluster. Berikut merupakan perbandingan untuk masing-masing jumah cluster
yang mungkin terbentuk dilihat dari nilai Pseudo Fstatisticsnya.
Tabel 4. 1 Perbandingan Jumlah Cluster yang Mungkin Terbentuk pada Metode Single Linkage
Jumlah Cluster yang Mungkin
Nilai
Terbentuk Berdasarkan
Pseudo
Dendrogram
3 Cluster 26,5358
6 Cluster 51,9516
9 Cluster 50,4147
Berdasarkan Tabel 4.1 diatas dapat diketahui bahwa jumlah cluster optimum yang dapat
terbentuk menggunakan metode single linkage yaitu sebanyak 6 cluster, sebab dengan 6
cluster dihasilkan nilai Pseudo Fstatistics paling tinggi dibandingkan cluster yang lainnya.
Adapun hasil pengelompokan ternak sapi dengan 7 cluster pada metode single linkage
disajikan pada Tabel 4.2.
Tabel 4. 2 Hasil Pengelompokan Menggunakan Metode Single Linkage dengan 7 Cluster (Optimum)
Jumlah Cluster Cluster ke- Anggota Cluster (Observasi)
1 1 – 14
2 15
3 16 – 27
6
4 28 – 35
5 36 – 42
6 43 – 45
Tabel 4.2 memberikan informasi bahwa jumlah anggota masing-masing cluster pada
pengelompokan 6 cluster memiliki jumlah anggota yang tidak seimbang. Dimana cluster ke-
1 pada pengelompokan 6 cluster memiliki anggota paling banyak daripada yang lainnya
yaitu sebanyak 14 ternak sapi, sedangkan anggota paling sedikit terdapat pada cluster ke-2
yaitu 1 ternak sapi.
2. Complete Linkage
Pengelompokan pada metode complete linkage ini dilakukan dengan menggunakan
jarak terkecil square euclidean. Dalam menentukan kemungkinan jumlah cluster yang
terbentuk dapat dilihat melalui dendrogram yang telah disajikan pada Gambar 4.2.
9
Gambar 4. 2 Dendogram dengan Single Linkage
10
Berdasarkan Tabel 4.3 diatas dapat diketahui bahwa jumlah cluster optimum yang dapat
terbentuk menggunakan metode complete linkage yaitu sebanyak 3 cluster, sebab dengan 3
cluster dihasilkan nilai Pseudo Fstatistics paling tinggi dibandingkan cluster yang lainnya.
Adapun hasil pengelompokan ternak sapi dengan 3 cluster pada metode complete linkage
disajikan pada Tabel 4.4.
Tabel 4. 4 Hasil Pengelompokan Menggunakan Metode Complete Linkage dengan 3 Cluster (Optimum)
Jumlah Cluster Cluster ke- Anggota Cluster (Observasi)
1 1 – 10 dan 16 – 27
7 2 11 – 15 dan 28 – 39
3 40 – 45
Tabel 4.4 memberikan informasi bahwa jumlah anggota masing-masing cluster pada
pengelompokan 3 cluster memiliki jumlah anggota yang tidak seimbang. Dimana cluster ke-
1 pada pengelompokan 7 cluster memiliki anggota paling banyak daripada yang lainnya
yaitu sebanyak 22 ternak sapi, sedangkan anggota paling sedikit terdapat pada cluster ke-3
yaitu masing-masing dengan 6 ternak sapi.
3. Perbandingan Single linkage dan Complete linkage
Dari hasil analisis sebelumnya telah diketahui bahwa jumlah cluster optimum untuk
metode single linkage yaitu 7 cluster, sedangkan jumlah cluster optimum untuk metode
complete linkage yaitu 3 cluster. Langkah selanjutnya yaitu menentukan metode terbaik
dengan meninjau nilai R2 dan nilai icdrate yang disajikan pada Tabel 4.5 berikut.
Tabel 4. 5 Perbandingan Metode Single Linkage dan Complete Linkage
Jumlah Cluster Optimum
Metode Nilai R2 Nilai icdrate
yang terbentuk
Single Linkage 6 Cluster 0,86946 0,13054
Complete Linkage 3 Cluster 0,76242 0,23758
Hasil perbandingan pada Tabel 4.5 memberikan kesimpulan bahwa metode hierarki
yang paling baik untuk mengelompokkan ternak sapi berdasarkan faktor-faktor yang
mempengaruhi berat sapi ketika dijual adalah metode single linkage dengan jumlah cluster
optimum yang dapat terbentuk yaitu sebanyak 6 cluster. Dipilihnya single linkage sebagai
metode terbaik daripada complete linkage sebab metode single linkage memiliki nilai R2
lebih tinggi (0,88012) dan nilai icdrate lebih kecil (0,11988) daripada metode complete
linkage.
12
Tabel 4. 9 Jumlah Observasi tiap Cluster pada K-Means 6 Cluster
Cluster Jumlah
1 12
2 10
3 5
4 8
5 4
6 6
Valid 45
Missing 0
Berdasarkan Tabel 4.9 dapat diketahui bahwa cluster ke-1 memiliki anggota terbanyak
yaitu 12 ternak sapi (observasi) sedangkan cluster yang memiliki anggota paling sedikit
adalah cluster ke-5 dengan 4 ternak sapi (observasi). Selain itu pula dilakukan pengujian
ANOVA dan didapatkan hasil sebagai berikut.
Tabel 4. 10 ANOVA
Cluster Error F Sig
Mean Squae df Mean Squae df
Zscore(X1) 8,066 5 0,094 39 85,664 0,000
Zscore(X2) 7,464 5 0,171 39 43,578 0,000
Zscore(X3) 8,108 5 0,089 39 91,358 0,000
Zscore(X4) 8,416 5 0,049 39 171,113 0,000
Zscore(X5) 8,409 5 0,050 39 167,834 0,000
Zscore(X6) 7,924 5 0,112 39 70,544 0,000
Zscore(X7) 6,879 5 0,246 39 27,923 0,000
Pada tabel ANOVA diatas diperoleh informasi bahwa nilai p-value untuk semua
variabel sebesar 0,000 dimana nilai tersebut kurang dari taraf signifikan 0,05 yang artinya
bahwa semua variabel berpengaruh signifikan terhadap pengelompokan. Berikut merupakan
hasil pengelompokan dengan menggunakan metode k-means 6 cluster.
Tabel 4. 11 Hasil Pengelompokan Menggunakan Metode Single Linkage dengan 7 Cluster (Optimum)
Jumlah Cluster Cluster ke- Anggota Cluster (Observasi)
1 28 – 39
2 1 – 10
3 11 – 15
6
4 20 – 27
5 16 – 19
6 40 – 45
Tabel 4.11 memberikan informasi mengenai anggota dari tiap cluster. Jumlah dari
anggota tiap cluster tersebut sudah sama dengan hasil yang didapatkan pada Tabel 4.9.
13
metode. Adapun tabel perbandingan untuk menentukan metode terbaik disajikan pada Tabel
4.12.
Tabel 4. 12 Perbandingan Metode Single Linkage dan K-Means
Jumlah Cluster Optimum
Metode Nilai R2 Nilai icdrate
yang terbentuk
Single Linkage 6 Cluster 0,86946 0,13054
K-Means 6 Cluster 0,87495 0,12505
Berdasarkan Tabel 4.12 dapat diketahui bahwa nilai R2 tertinggi yaitu sebesar 0,87495
dan nilai icdrate yang paling kecil adalah 0,12505. Dimana nilai R2 tertinggi dan nilai icdrate
terkecil tersebut dimiliki oleh metode K-Means sehingga dapat disimpulkan bahwa metode
cluster yang paling sesuai untuk mengelompokkan ternak sapi berdasarkan faktor-faktor
yang mempengaruhi berat sapi ketika dijual adalah metode K-Means dengan 6 cluster.
14
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil analisis dapat diperoleh kesimpulan sebagai berikut.
1. Metode hierarki yang paling baik untuk mengelompokkan ternak sapi berdasarkan
faktor-faktor yang mempengaruhi berat sapi ketika dijual adalah metode single linkage
dengan jumlah cluster optimum yang dapat terbentuk yaitu sebanyak 6 cluster dimana
cluster ke-1 pada pengelompokan 6 cluster memiliki anggota paling banyak daripada
yang lainnya yaitu sebanyak 14 ternak sapi, sedangkan anggota paling sedikit terdapat
pada cluster ke-2 yaitu 1 ternak sapi.
2. Metode non-hierarki yang digunakan adalah K-Means dengan 6 cluster dimana cluster
ke-1 memiliki anggota terbanyak yaitu 12 ternak sapi (observasi) sedangkan cluster
yang memiliki anggota paling sedikit adalah cluster ke-5 dengan 4 ternak sapi
(observasi) serta semua variabel berpengaruh signifikan terhadap pengelompokan.
3. Metode cluster yang paling sesuai untuk mengelompokkan ternak sapi berdasarkan
faktor-faktor yang mempengaruhi berat sapi ketika dijual adalah metode K-Means
dengan 6 cluster.
5.2 Saran
Saran yang dapat diberikan kepada penelitian selanjutnya, khususnya untuk peneliti
adalah agar melakukan pre-processing data dan menguji asumsi normal multivariate serta
uji independensi terlebih dahulu, agar proses analisis cluster lebih efisien dan hasil dari
analisis cluster lebih sesuai dengan kondisi kasus nyata sehingga hasil analisis cluster dapat
diterapkan dalam menyelesaikan masalah nyata yang bersangkutan.
15
DAFTAR PUSTAKA
16
LAMPIRAN
1 20 22 .072 0 0 12
2 17 18 .294 0 0 11
3 44 45 .310 0 0 38
4 23 27 .318 0 0 12
5 1 6 .333 0 0 7
. . . . . . .
. . . . . . .
. . . . . . .
39 36 40 1.362 35 32 41
40 1 15 1.457 36 0 43
41 36 43 1.516 39 38 42
42 28 36 1.525 25 41 44
43 1 16 1.635 40 37 44
44 1 28 1.687 43 42 0
17
Lampiran 4. Output SPSS untuk Anggota Cluster Single Linkage
Cluster Membership
9 8 7 6 5 4 3 2
Case 10 Clusters Clusters Clusters Clusters Clusters Clusters Clusters Clusters Clusters
1:Case 1 1 1 1 1 1 1 1 1 1
2:Case 2 1 1 1 1 1 1 1 1 1
3:Case 3 1 1 1 1 1 1 1 1 1
4:Case 4 1 1 1 1 1 1 1 1 1
5:Case 5 1 1 1 1 1 1 1 1 1
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
40:Case 40 8 7 6 6 5 4 4 3 2
41:Case 41 8 7 6 6 5 4 4 3 2
42:Case 42 8 7 6 6 5 4 4 3 2
43:Case 43 9 8 7 7 6 5 4 3 2
44:Case 44 10 9 8 7 6 5 4 3 2
45:Case 45 10 9 8 7 6 5 4 3 2
1 20 22 .072 0 0 14
2 17 18 .294 0 0 8
3 44 45 .310 0 0 31
4 23 27 .318 0 0 21
5 1 6 .333 0 0 13
. . . . . . .
. . . . . . .
. . . . . . .
39 40 43 2.280 34 31 44
40 11 15 2.729 30 0 42
41 1 16 3.228 36 37 43
42 11 28 4.591 40 38 43
43 1 11 5.783 41 42 44
44 1 40 8.359 43 39 0
18
Lampiran 6. Output SPSS untuk Anggota Cluster Complete Linkage
Cluster Membership
Case 8 Clusters 7 Clusters 6 Clusters 5 Clusters 4 Clusters 3 Clusters 2 Clusters
1:Case 1 1 1 1 1 1 1 1
2:Case 2 1 1 1 1 1 1 1
3:Case 3 1 1 1 1 1 1 1
4:Case 4 1 1 1 1 1 1 1
5:Case 5 1 1 1 1 1 1 1
. . . . . . . .
. . . . . . . .
. . . . . . . .
39:Case 39 6 5 5 4 3 2 1
40:Case 40 7 6 6 5 4 3 2
41:Case 41 7 6 6 5 4 3 2
42:Case 42 7 6 6 5 4 3 2
43:Case 43 8 7 6 5 4 3 2
44:Case 44 8 7 6 5 4 3 2
45:Case 45 8 7 6 5 4 3 2
1 2 3 4 5 6
Iteration Historya
Change in Cluster Centers
Iteration 1 2 3 4 5 6
19
a. Convergence achieved due to no or small change in cluster centers. The maximum absolute
coordinate change for any center is .000. The current iteration is 3. The minimum distance
between initial centers is 1.861.
ANOVA
Cluster Error
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this
and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
2 10.000
3 5.000
4 8.000
5 4.000
6 6.000
Valid 45.000
Missing .000
20