Uji data pada prinsipnya bertujuan untuk memastikan bahwa berbagai metode
multivariat (analisis gerombol, analisis faktor, dan analisis lainnya) dapat digunakan pada
data tertentu. Dengan demikian, hasil proses multivariat dapat diinterpretasikan dengan
tepat. Pengabaian uji data dapat berakibat biasnya kesimpulan yang diambil, atau bahkan
metode multivariat tidak dapat diproses. Seperti jika data (yang terdiri atas banyak variabel)
mempunyai banyak missing value (data yang hilang). Jika data tersebut dipaksa untuk tetap
diproses, output yang dihasilkan dapat sangat berbeda dibandingkan jika tidak terdapat
missing value. Pada beberapa jenis data yang sangat banyak mengandung missing value,
proses multivariat bahkan tidak dapat dilakukan.
Dari kasus tersebut, apakah missing value yang terjadi bersifat acak (random) atau tidak?
Terkait dengan permasalahan pertama, bagaimana seharusnya perlakuan terhadap data yang
mengandung missing value tersebut?
Langkah-langkah:
Jika diperhatikan pada kolom N, terlihat angka bervariasi pada setiap variabel , tergantung
data yang hilang pada setiap variabel. Pada variabel USIA, dari 30 konsumen yang didata,
ada 26 data Usia Konsumen yang terisi, sehingga ada 4 (dari 30-26) data yang missing.
Demikian seterusnya untuk variabel yang lain. Hal ini dapat juga dilihat pada kolom
MISSING, pada bagian Count untuk jumlah nyata, dan percent untuk menghitung persentase
(dimana untuk variabel USIA, persentase adalah 4/30*100% atau 13,3%).
Kolom Mean dan Standard Deviation menunjukkan nilai statistik dasar, yakni rata-rata dan
standar deviasi untuk setiap variabel, yang dihitung dari jumlah data yang valid (tidak
missing).
Olahraga
Income
jam_krj
Tinggi
Berat
Usia
Listwise 31.2778 59.8333 155.7222 628.8889 5.2128 3.2278
All Values 31.8077 57.3077 157.1111 638.6207 5.2530 3.3143
EM 31.9908 56.8385 157.1787 643.8727 5.2530 3.3161
Tabel ini merupakan perluasan dari perhitungan rata-rata dari tabel diatas, dimana terdapat
tiga ukuran:
Jika digunakan metode Listwise , rata-rata Usia menjadi 31,2 tahun, berat badan
menjadi 59,83 Kg, dan seterusnya.
Jika digunakan ALL VALUE, nilai sama dengan tabel sebelumnya. Perhatikan pada
ALL VALUE jumlah data dapat bervariasi, sedang pada Listwise (lihat penjelasan
dibawah) jumlah data akan tetap sama untuk semua variabel sehingga ada perbedaan
rata-rata.
Jika digunakan metode EM, rata-rata USIA menjadi 31,99 tahun, berat badan
menjadi 56.84 Kg, dan seterusnya.
Tabel Silang untuk Data Kategorik.
Minum
B any ak
S e d ik it
Tota l
Untuk variabel USIA, dari 26 data yang valid, 9 data ada pada kategori minum Banyak,
dan sisanya (17 data) ada pada kategori minum Sedikit. Sedangkan dari komposisi data
missing, 18,2% data yang missing ada pada usia konsumen yang termasuk peminum air
mineral kategori BANYAK, sedangkan 10,5% berasal dari mereka yang termasuk
peminum air mineral kategori SEDIKIT. Perhatikan angka 13,3% merupakan rata-rata
dari 18,2% dengan 10,5%.
Demikian seterusnya untuk variabel lainnya. Perhatikan hanya ada empat variabel yang
ditampilkan dari enam variabel yang diuji. Hal ini disebabkan variabel (MINUM,
INCOME, dan JAM KERJA) hanya mempunyai sedikit data missing (kurang dari 5%
dari total 30 data) sehingga tidak ditampilkan pada output.
a
Patterns
Olahraga
Income
jam_krj
Minum
Tinggi
Berat
Usia
Case
LITA 1 14.3 S
RUDI 1 14.3 S
JIMY 1 14.3 S
WILDA 2 28.6 S S
IVANT 1 14.3 S
ROS 1 14.3 S
INTAN 2 28.6 S S
PARLIN 1 14.3 S
LISNA 1 14.3 S
KIKI 1 14.3 S
ICAL 1 14.3 S
LILI 1 14.3 S
- indicates an extreme low value, while + indicates an extreme
high value. The range used is (Q1 - 1.5*IQR, Q3 + 1.5*IQR).
a. Cases and variables are sorted on missing patterns.
Tabel di atas menggambarkan penyebaran data yang hilang hanya untuk konsumen yang
memang datanya tidak lengkap (Ada data yang Missing) , dan bukannya seluruh
konsumen.
Tabulated Patterns
b
Complete if ...
a
Missing Patterns
Olahraga
Income
jam_krj
Minum
Tinggi
Berat
Usia
Number of Cases
18 18
3 X 21
1 X X 24
2 X 20
1 X X 23
2 X 20
2 X 20
1 X 19
a. Variables are sorted on missing patterns.
b. Number of complete cases if variables missing in
that pattern (marked with X) are not used.
Tabel di atas menunjukkan sisi lain dari missing value, dimana missing value dinyatakan
per variabel. Pada baris pertama, angka 18 menyatakan terdapat 18 data (konsumen)
Olahraga
jam_krj
Income
Tinggi
Berat
Usia
Usia 1
Berat .047 1
Tinggi .095 .113 1
Income .939 .116 .119 1
jam_krj .064 .250 -.179 .255 1
Olahraga .662 -.184 .014 .751 .235 1
Metode ini akan menyebabkan dihilangkannya semua kasus (konsumen) yang tidak
lengkap datanya. Selanjutnya dapat diketahui korelasi antar variabel. Angka 0,047
menyatakan besar korelasi antara variabel BERAT dan USIA. Demikian seterusnya.
Sebagai contoh, angka korelasi antara variabel INCOME dan USIA sebesar 0,939.
Angka yang besar ini menyatakan bahwa terjadinya missing value dari variabel
INCOME berpengaruh kuat pada terjadinya missing value pada variabel USIA. Hal ini
menunjukkan rendahnya keacakan missing value. Sebaliknya angka korelasi yang rendah
(di bawah 0,5) menunjukkan tinggkat keacakan yang tinggi pada missing value, karena
pengaruh antar variabel lemah.
Analisis Metode Pairwise
Pairwise Frequencies
Olahraga
jam _k rj
Inc om e
M inum
Tinggi
B erat
Us ia
Usia 26
Berat 23 26
Tinggi 24 23 27
Income 25 25 26 29
jam_krj 26 26 27 29 30
Olahraga 24 24 25 27 28 28
Minum 26 26 27 29 30 28 30
Metode ini akan memasangkan (pair) variabel yang mempunyai data lengkap, dan tidak
menghilangkan sebuah baris begitu saja. Dengan demikian, jumlah data dapat berbeda-
beda tergantungan kelengkapan data dua variabel yang dipasangkan. Sebagai contoh, jika
dipasangkan variabel USIA dengan BERAT, akan ada 23 data yang valid, sedangkan
sisanya tidak valid. Namun jika dipasangkan USIA dengan TINGGI, akan ada 24 data
yang valid. Demikian seterusnya.
Olahraga
Income
jam_krj
Tinggi
Berat
Usia
Usia 1
Berat -.049 1
Tinggi .315 -.055 1
Income .927 -.010 .219 1
jam_krj .089 -.035 .085 .222 1
Olahraga .585 -.189 .231 .718 .184 1
Tabel ini mempunyai tafsiran yang sama dengan analisis korelasi pada analisis Listwise.
Analisis Metode EM
EM Correlationsa
Olahraga
Income
jam_krj
Tinggi
Berat
Usia
Usia 1
Berat -.143 1
Tinggi .190 -.035 1
Income .924 -.057 .282 1
jam_krj .033 -.079 .074 .167 1
Olahraga .623 -.204 .314 .762 .181 1
a. Little's MCAR test: Chi-Square = 33.225, DF =
33, Sig. = .456
Angka korelasi diatas mempunyai pola yang mirip dengan dua metode korelasi yakni
Listwise dan Pairwise.
Selain besar angka korelasi, kelebihan metode ini adalah tersedianya alat uji MCAR
(lihat bagian bawah tabel), dengan ketentuan:
Angka signifikansi MCAR (Prob) > 0,05 , missing value adalah Random.
Angka signifikansi MCAR (Prob) < 0,05 , missing value tidak Random.
Terlihat bahwa angka MCAR yang ditampilkan dengan alat analisis Chi-Square
adalah 33.225 dengan sig. = 0,456. Oleh karena angka sig. (0,456) > 0,05 maka
missing value dari data diatas adalah random.
Kesimpulan.
Dengan demikian, karena missing value yang terjadi bersifat acak (random), maka perlu
dilakukan berbagai perlakuan lanjutan.
Missing
Result Values First Last Valid Creating
Variable Replaced Non-Miss Non-Miss Cases Function
Usia_1 4 1 30 30 SMEAN(Usia)
Berat_1 4 1 30 30 SMEAN(Berat)
Tinggi_1 3 1 30 30 SMEAN(Tinggi)
Income_1 1 1 30 30 SMEAN(Income)
Jam_krj_1 0 1 30 30 SMEAN(Jam_krj)
Olahraga_1 2 1 30 30 SMEAN(Olahraga)
Dengan demikian, dengan adanya proses pengujian dari missing value kemudian dilanjutkan
dengan penanganan missing value maka proses multivariat ( seperti diskriminan, faktor, dan
lainnya) dapat diselesaikan.
1.5 Tugas Praktikum 1
Data penelitian pengaruh perubahan lingkungan terhadap tekanan darah. Objek
penelitian adalah 35 pria. Ada 6 variabel yang diteliti, yaitu Usia (dalam tahun), Berat badan
(dalam Kg), tinggi badan (dalam cm) , detak nadi per menit, tekanan darah sistolik dan
diastolik.
No. USIA Berat Tinggi Nadi Sistolik Diastolik No. USIA Berat Tinggi Nadi Sistolik Diastolik
Obs. Badan Badan Obs. Badan Badan
1 21 71 162 88 170 76 19 57 147 72 114 80
2 22 56.5 156 64 120 60 20 38 58 153 64 124 64
3 24 56 68 125 75 21 151 80 114
4 24 67 161 148 22 61 165 78
5 25 65 156 72 78 23 38 57 156 126 72
6 27 62 72 106 72 24 39 55 64 124 64
7 53 149 64 120 25 74 164 64 128 75
8 28 156 77 108 26 39 72 162 92
9 31 65 154 76 70 27 41 163 76 112
10 57 60 134 64 28 68 152 60 128 82
11 33 162 68 76 29 41 164 76 92
12 33 59.1 148 114 74 30 42 68 160 88 128
13 34 64 157 88 130 80 31 69 60 140 72
14 40 164 60 118 32 43 73 161 74 138 74
15 35 64 138 78 33 43 164 72 66
16 36 152 72 134 86 34 65 161 110
17 36 57 154 84 120 70 35 71 157 64 142 84
18 37 55 64 76
PRAKTIKUM 2
ANALISIS KOMPONEN UTAMA (AKU)
1 2 L p 0 .
= a1' X
a '2 X
Selanjutnya untuk komponen utama ke-i ( i 3, 4, L , p ) diperoleh dari kombinasi linier p
dengan i 1, 2, L , p .
Proporsi keragaman yang dapat diterangkan oleh komponen utama ke-i sebesar:
i
P p
i 1
i
Banyaknya komponen utama yang digunakan untuk analisis selanjutnya dapat diperoleh
dengan menggunakan kriteria persentase keragaman kumulatif, dan dituliskan:
k
Keragaman kumulatif 100% untuk k 1, 2, L , p .
1 2 L p
Banyaknya komponen utama dianggap cukup mewakili jika telah dapat menerangkan
keragaman kumulatif 80% atau lebih dari total keragaman data (Johnson & Wichern,
1982).
Data lima peubah sosioekonomi hasil sensus dari 14 blok sensus yang tergabung dalam
satu wilayah di daerah Madisun, Winconsin sebagai berikut:
Health Median
Median Total Services Value
Total Population School Employments Employments Home
(thousands) years (thousands) (hundreds) ($10.000s)
5.935 14.2 2.265 2.27 2.91
1.523 13.1 0.597 0.75 2.62
2.599 12.7 1.237 1.11 1.72
4.009 15.2 1.649 0.81 3.02
4.687 14.7 2.312 2.5 2.22
8.044 15.6 3.641 4.51 2.36
2.766 13.3 1.244 1.03 1.97
6.538 17 2.618 2.39 1.85
Ada 5 variabel yang diambil, yakni jumlah populasi di suatu daerah (X1), median lama
pendidikan (X2), jumlah tenaga kerja (X3), jumlah pekerja yang mendapat pelayanan
kesehatan (X4), dan median harga rumah penduduk di daerah tersebut (X5). Kelima variabel
tersebut akan dibuat variabel dengan jumlah lebih kecil dan menggunakan metode
komponen utama.
Sebelum dilakukan analisis, terlebih dahulu dilihat deskripsi dari masing-masing
peubah.
Langkah-langkah:
Tahap analisis komponen utama (AKU)
Dari menu Stat, pilih submenu Multivariate Principant Component, sehingga
tampak dilayar
Eigenvalue 6.9311 1.7851 0.3896 0.2295 0.0142 Akar ciri dari matriks
Proportion 0.741 0.191 0.042 0.025 0.002 covariance serta besarnya
Cumulative 0.741 0.932 0.974 0.998 1.000
keragaman yang dapat
diterangkan oleh masing-
Variable Penuntun
PC1 Praktikum
PC2 Analisis
PC3 PC4DataPC5 masing akar ciri. Dua
Multivariat
Total population -0.781 -0.071 0.004 0.542 -0.302 akar ciri pertama mampu
Laboratorium Komputasi Vokasi 14
Median School years -0.306 -0.764 -0.162 -0.545 -0.009 menerangkan keragaman
Total employments -0.334 0.083 Program
0.015 Pendidikan
0.051 0.937 Vokasi
sebesar 93,2%
Health Services -0.426 0.579 0.220 -0.636 -0.172
Median Value Home 0.054 -0.262 0.962 0.051 0.025
Koefisien dari masing-masing peubah
pada komponen utama pertama
Plot dari akar cirinya, digunakan untuk menentukan berapa komponen yang akan digunakan.
2.4 Interpretasi:
Pada output diatas, dapat diketahui bahwa analisis untuk memperoleh akar ciri pada
komponen utama dengan menggunakan matriks kovarians. Selanjutnya, pada bagian awal
output menunjukkan hasil analisis eigen yang meliputi eigenvalue (nilai eigen/ akar ciri),
persentase, dan persentase kumulatif setiap komponen utama. Eigenvalue merupakan nilai
varian komponen utama. Terlihat bahwa akar ciri untuk komponen utama pertama (PC1) dan
komponen utama kedua (PC2) adalah 6,9311 dan 1,7851. Akar ciri kedua komponen tersebut
mewakili 74,1% dan 19,1% dari seluruh variabilitas sehingga bila diakumulasikan kedua
komponen utama tersebut menyatakan 93,2% dari total variabilitas. Hal ini berarti, apabila
kelima variabel (populasi, pendidikan, tenaga kerja, kesehatan, dan tempat tinggal) direduksi
menjadi 2 variabel, maka kedua variabel baru tersebut dapat menjelaskan 93,2% dari total
variabilitas kelima variabel.
Analisis komponen utama menunjukkan apabila 5 variabel dipadatkan menjadi 2
komponen, maka 93,2% variabilitas kelima variabel akan dijelaskan 2 variabel baru. Apabila
1. Data berikut ini merupakan data rataan persentase jenis berita dari 20 Surat Kabar
Harian di Jakarta tahun 1995. Dengan menggunakan analisis komponen utama akan
dilakukan pereduksian variabel dengan jumlah variabel yang lebih kecil. Adapun
variabel yang diteliti meliputi 6 jenis berita yakni POLKAM (X1), EKBANG (X2),
KESRA (X3), Olahraga (X4), Opini (X5), dan Luar Negeri (X6). Datanya disajikan
sebagai berikut:
Jenis Berita
Surat Kabar Harian Kode
X1 X2 X3 X4 X5 X6
Angkata Bersenjata AB 29.40 32.43 9.09 9.09 9.09 10.91
Berita Buana BB 20.33 28.31 25.59 7.97 7.97 9.83
Berita Yuda BY 24.50 24.50 26.76 15.90 9.54 9.94
Bisnis Indonesia BI 3.82 68.53 4.92 7.65 7.65 7.42
Harian Indonesia HI 5.23 10.44 12.18 15.66 1.71 56.52
Harian Ekonomi Neraca HEN 8.87 30.30 21.82 4.55 9.09 6.82
Harian Terbit HT 9.37 23.08 35.54 9.37 9.37 13.27
Indonesia Observer IO 10.00 33.33 10.00 13.33 13.33 20.00
The Indonesia Times IT 8.15 22.96 14.81 33.21 14.81 28.15
The Jakarta Post TJP 9.19 28.10 18.22 10.48 8.10 10.00
Jayakarta JYKT 14.26 40.33 18.58 18.58 8.57 8.57
Kompas KMPS 12.14 38.99 19.51 9.88 10.17 9.31
Media Indonesia MI 11.34 44.19 13.86 11.28 6.20 5.96
Merdeka MDK 19.05 24.62 24.03 15.15 7.45 9.32
Pelita PLT 13.85 29.65 24.76 13.19 7.89 11.09
Pos Kota PK 20.29 18.97 46.38 8.69 2.18 2.18
Republika RPBK 8.49 25.99 41.14 9.56 7.00 7.81
Sinar Pagi SP 13.33 34.08 17.03 17.78 8.89 8.89
Suara Karya SK 10.10 19.28 33.93 10.36 10.36 8.22
Suara Pembaruan SPMB 9.32 30.30 27.94 16.32 6.45 9.68
2. Carilah satu kasus yang berhubungan dengan analisis komponen utama dan lakukan
pengujian dengan menggunakan analisis komponen utama. Berikan kesimpulan!
(Sumber data atau rujukan disertakan dalam soal)
Langkah-langkah:
1. Analisis faktor tahap awal.
Dari menu Stat, pilih submenu Multivariate Factor Analysis, sehingga tampak
dilayar :
Gambar.
Principal Component Factor Analysis of3.4
thePlot loading Matrix
Correlation
menjelaskan
Variance hasil rotasi yang dilakukan dengan
3.0289 loading varimax.
1.2911 4.3200Melalui loading varimax
% Var 0.606 0.258 0.864
(rotasi), dapat mengelompokkan kelima variabel menjadi 2 variabel. Pada faktor 1, variabel
tenaga kerja,Factor
Rotated populasi, dan kesehatan
Loadings memiliki korelasi sangat besar, sedangkan pada faktor
and Communalities
Varimax Rotation
2, variabel tempat tinggal dan pendidikan berkorelasi kuat.
Variable Factor1 Factor2 Communality
Populasi total 0.979 0.085 0.967
Median lama pendidikan 0.591 0.677 0.808
Jumlah tenaga kerja 0.987 -0.060 0.978
Pelayanan kesehatan pekerja 0.822 -0.406 0.841
Median harga tempat tinggal -0.251 0.815 0.726
Hasil pengolahan data menunjukkan 2 faktor yang tidak dirotasi dapat menjelaskan 86,4%
dari variabilitas data dan setelah dilakukan rotasi (dengan loading varimax), variabilitas
untuk 2 faktor tetap menunjukkan nilai yang sama yaitu sebesar 86,4%. Variabilitas untuk
faktor 1 dan faktor 2 setelah dilakukan rotasi berubah menjadi 60,4% dan 26%. Selanjutnya
terlihat hasil rotasi diurutkan dari yang bernilai loading tertinggi hingga terendah. Output
menunjukkan, untuk faktor 1, urutan variable adalah tenaga kerja (0.987), ukuran populasi
(0.979), kesehatan (0.822), tempat tinggal (-0.251), dan pendidikan (0.591).
Sales X1 X2 X3 X4 X5 X6 X7 Sales X1 X2 X3 X4 X5 X6 X7
1 93 96 97.8 9 12 9 20 26 93.3 102 97.8 10 15 7 23
2 88.8 91.8 96.8 7 10 10 15 27 106.8 118 107.3 14 16 12 39
3 95 100.3 99 8 12 9 26 28 106.8 120 104.8 10 16 11 49
4 101.3 103.8 106.8 13 14 12 29 29 92.3 90.8 99.8 8 10 13 17
5 102 107.8 103 10 15 12 32 30 106.3 121 104.5 9 17 11 44
6 95.8 97.5 99.3 10 14 11 21 31 106 119.5 110.5 18 15 10 43
7 95.5 99.5 99 9 12 9 25 32 88.3 92.8 96.8 13 11 8 10
8 110.8 122 115.3 18 20 15 51 33 96 103.3 100.5 7 15 11 27
9 102.8 108.3 103.8 10 17 13 31 34 94.3 94.5 99 15 12 9 32
10 106.8 120.5 102 14 18 11 39 35 106.5 121.5 110.5 18 17 10 42
11 103.3 109.8 104 12 17 12 32 36 106.5 115.5 107 8 13 14 47
12 99.5 111.8 100.3 10 18 8 31 37 92 99.5 103.5 18 16 8 18
13 103.5 112.5 107 16 17 11 34 38 102 99.8 103.3 13 12 14 28
14 99.5 105.5 102.3 8 10 11 34 39 108.3 122.3 108.5 15 19 12 41
15 100 107 102.8 13 10 8 34 40 106.8 119 106.8 14 20 12 37
16 81.5 93.5 95 7 9 5 16 41 102.5 109.3 103.8 9 17 13 32
17 101.3 105.3 98 11 12 11 32 42 92.5 102.5 99.3 13 15 6 23
18 103.3 110.8 89 11 14 11 35 43 102.8 113.8 106.8 17 20 10 32
19 95.3 104.3 103 5 14 13 30 44 83.3 87.3 96.3 1 5 9 15
20 99.5 105.3 106.3 17 17 11 27 45 94.8 101.8 99.8 7 16 11 24
21 88.5 95.3 95.8 10 12 7 15 46 103.5 112 110.8 18 13 12 37
22 99.3 115 104.3 5 11 11 42 47 89.5 96 97.3 7 15 11 14
23 87.5 92.5 100 8 9 9 16 48 84.3 89.8 99 8 8 8 9
24 105.3 114 105.3 12 15 12 37 49 104.3 109.5 106.5 14 12 12 36
25 107 121 109 16 19 12 39 50 106 118.5 105 12 16 11 39
2) Carilah satu kasus yang berhubungan dengan analisis faktor dan lakukan pengujian
dengan menggunakan analisis faktor. Berikan kesimpulan! (Sumber data atau rujukan
disertakan dalam soal)
gerombol ke-k, maka d k i , j merupakan ukuran ketakmiripan antara gerombol ke-k dengan
gerombol (i,j). Jika gerombol (i,j) merupakan penggabungan antara gerombol ke-i dengan
gerombol ke-j, maka ada beberapa metode yang sudah umum dikenal dan digunakan untuk
memperbaharui jarak antar gerombol, yaitu:
Output:
Case Processing Summarya
Cases
Valid Missing Total
N Percent N Percent N Percent
18 100.0% 0 .0% 18 100.0%
a. Squared Euclidean Distance used
Tabel pada output pertama menjelaskan bahwa data yang ada (valid) sebanyak 18 yang telah
diproses tanpa ada data yang hilang.
Tabel di atas adalah perincian anggota tergantung jumlah cluster yang terbentuk:
Jika ditentukan 4 kelompok yang akan dibentuk, maka diperoleh:
o Anggota kelompok 1 adalah merk susu dengan tanda 1, yakni OAT, LIGO, Ovaltine,
Milo, Frisian Flag Cokelat, Indomilk Cokelat, dan Tropicana Slim.
o Anggota kelompok 2 adalah merk susu dengan tanda 2, yakni susu Nestle Carnation.
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
* * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Frisian 7
Dancow F 12
Frisian 8
Indomilk 13
Dancow B 6
Frisian 10
Prosteo 15
Anlene K 16
Protifar 18
Milo 5
Indomilk 14
Frisian 9
OAT Quak 1
Tropican 17
LIGO hav 3
Ovaltine 4
Dancow C 11
Nestle C 2
2. Berdasarkan hasil analisis komponen utama pada soal tugas praktikum 2 no. 2, lakukan
analisis gerombol untuk mengelompokkan data variabel yang ada.
PRAKTIKUM 5
ANALISIS GEROMBOL (2)
Langkah-langkah:
Tahapan pada analisis gerombol non-berhierarki:
Dari menu Stat, pilih submenu Multivariat, lalu pilih Cluster K-Means seperti
tampak dilayar
Output:
Cluster Centroids
Grand
Variable Cluster1 Cluster2 centroid
X1 -0.1341 0.1117 -0.0000
X2 0.2957 -0.2464 0.0000
X3 -0.2885 0.2404 -0.0000
X4 -0.3805 0.3170 0.0000
X5 0.0343 -0.0286 0.0000
X6 0.8034 -0.6695 -0.0000
X7 -0.5806 0.4839 0.0000
X8 -0.5771 0.4809 0.0000
Cluster1 Cluster2
Cluster1 0.0000 2.3551
Cluster2 2.3551 0.0000
Pada output diatas, dapat diketahui bahwa analisis dilakukan dengan melakukan standarisasi
variabel dengan jumlah kelompok yang dibentuk sebanyak 2 kelompok. Banyaknya objek
untuk kelompok 1 adalah 10 dengan jumlah kuadrat 55,036, rata-rata jarak masing-masing
anggota kelompok terhadap titik pusat sebesar 2,264 serta jarak maksimum objek dengan
titik pusatnya sebesar 3,353. Demikian halnya untuk kelompok 2, banyaknya objek adalah
12 dengan jumlah kuadrat 82,711, rata-rata jarak masing-masing anggota kelompok terhadap
titik pusat sebesar 2,455 serta jarak maksimum objek dengan titik pusatnya sebesar 4,939.
Selanjutnya, pada output terlihat titik tengah masing-masing kelompok dan matriks jarak
antar titik pust kelompok. Titik tengah kelompok 1 untuk variabel X1 adalah -0,1341 dan
kelompok 2 adalah 0,1117, demikian seterusnya. Sedangkan matriks jarak antar titik pusat
kelompok 1 dan kelompok 2 sebesar 2,3551. Pada output yang menampilkan Worksheet,
terlihat pada kolom C9 menunjukkan pengelompokkan perusahaan-perusahan berdasarkan 8
variabel tersebut. Adapun hasil pengelompokkan:
o Kelompok 1 terdiri dari 10 perusahaan yakni perusahaan A, C, F, H, I K, N, P, R, dan
S.
o Kelompok 2 terdiri dari 12 perusahaan yakni perusahaan B, D, E, G, J, L, M, O, Q, T,
U, dan V.
5.4 Tugas Praktikum
1. Berdasarkan soal praktikum 2 pada soal no.1, Lakukan pengelompokkan 20 Surat
Kabar Harian di Jakarta tahun 1995 kedalam 2 kelompok berdasarkan rataan
persentase jenis berita yang dimuat oleh Surat Kabar Harian tersebut.
Interpretasikan dan berikan Kesimpulan.
2. Berdasarkan data contoh kasus pada praktikum 6 yakni data hasil penelitian
pengaruh perubahan lingkungan terhadap tekanan darah dengan 10 variabel yang
diteliti, lakukan pengelompokkan 35 pria tersebut dengan metode K-Means ke
dalam 2 kelompok berdasarkan variabel-variabel tersebut. Interpretasikan dan
berikan Kesimpulan.
Dari hasil penelitian pengaruh perubahan lingkungan terhadap tekanan darah dengan
10 variabel yang diteliti diperoleh hasil pengelompokkan sebagaimana tertera pada kolom 12
data di bawah ini. Selanjutnya akan dilakukan analisis diskriminan untuk mengetahui apakah
ada kesalahan dalam penempatan kelompok pengamatan. Kelompok yang dibentuk sebanyak
2 kelompok dan datanya disajikan sebagai berikut:
No. USIA Umur Berat Tinggi Dagu Lengan Betis Nadi Sistolik Diastolik K
Langkah-langkah:
Tahapan pada analisis diskriminan:
Dari menu Stat, pilih submenu Multivariat, lalu pilih Discriminant Analysis
seperti tampak dilayar
Output:
Group 1 2
Count 17 18
Summary of classification
True Group
Put into Group 1 2
1 16 1
2 1 17
Total N 17 18
N correct 16 17
Proportion 0.941 0.944
1 2
1 0.0000 11.2013
2 11.2013 0.0000
1 2
Constant -2044.1 -1852.0
Usia -3.5 -3.2
Umur Migrasi 11.2 10.5
Berat Badan -14.8 -14.3
Tinggi Badan 2.4 2.3
Dagu 14.3 13.6
Lengan Bawah -2.3 -1.7
Betis 4.8 4.5
Nadi 2.5 2.4
Sistolik 3.9 3.7
Diastolik 3.2 3.0
Pada output diatas, dapat diketahui pada bagian pertama output memberikan informasi
metode analisis yang digunakan yakni metode linier dengan variabel responnya adalah
kelompok dan variabel prediktornya adalah usia, lama migrasi, berat, tinggi badan, dagu,
o d2= -1852,0 3,2 usia + 10,5 umur migrasi 14,3 berat badan + 2,3 tinggi badan + 13,6
dagu 1,7 lengan bawah + 4,5 betis + 2,4 nadi + 3,7 sistolik + 3,0 diastolik.
Output pada bagian terakhir menujukkan pengamatan yang penempatannya salah. Terlihat
terdapat pengamatan 11 dan pengamatan 15 yang kurang tepat. Penempatan yang benar
terlihat untuk pengamatan 11 berada pada kelompok 1 dengan probability sebesar 0,502
sedangkan untuk pengamatan 15, penempatan yang benar berada pada kelompok 2 dengan
probability sebesar 0,870.
1. Dari hasil contoh kasus analisis gerombol non-berhierarki pada praktikum 5, lakukan
analisis diskriminan untuk mengetahui apakah ada kesalahan dalam penempatan
kelompok pengamatan pada kasus 22 perusahaan yang bergerak di bidang jasa
penyewaan di Amerika tahun 1975. Interpretasikan!
2. Dari hasil tugas praktikum 5, lakukan analisis diskriminan untuk mengetahui apakah
ada kesalahan dalam penempatan kelompok pengamatan pada kasus 20 Surat Kabar
Harian di Jakarta tahun 1995 (soal no. 1 untuk stambuk ganjil; catatan: variabel X6
tidak dimasukkan) dan data hasil penelitian pengaruh perubahan lingkungan terhadap
PRAKTIKUM 8
ANALISIS KORESPONDENSI (1)
Dalam penelitian bidang sosial seperti penelitian pemasaran, data yang telah
dikumpulkan sering ditampilkan dalam bentuk tabel kontingensi dwi arah (cross
tabulation) yang berisi informasi tentang frekuensi atau persentase dari kategori-kategori
penyusunnya. Dari tabel tersebut, salah satu informasi yang ingin diketahui pada umumnya
adalah ada tidaknya keterkaitan antar kategori. Untuk menguji kebebasan ini statistik uji
yang sering digunakan adalah Khi-Kuadrat (Chi-Square). Bila antar kategori tersebut tidak
saling terkait (bebas), dapat diartikan besarnya frekuensi (nilai) profit pada satu kategori
tidak dipengaruhi oleh profil pada kategori lainnya. Akan tetapi bila kebebasan antar
kategori tersebut tak dapat dibuktikan, maka hal yang selalu ingin diketahui adalah profil-
profil mana yang saling terkait tersebut. Untuk mengetahui hal ini diperlukan analisis
lanjutan guna membandingkan antar profil.
Analisis koespondensi yang tergolong dalam analisis eksplorasi data peubah ganda
(exploratory multivariate data analysis), di samping dapat digunakan untuk melihat secara
visual ada tidaknya ketergantungan antar kategori tersebut, juga sekaligus dapat membantu
melihat kedekatan (keterkaitan) suatu profil dari satu kategori terhadap profil dari kategori
lainnya. Dalam prosesnya, analisis korespondensi akan menguraikan struktur data tabel
kontingensi, menjadi komponen baris dan kolom. Hasil dari analisis ini kemudian akan
Pengolahan data:
1. Data disiapkan dalam workshet sebagai berikut:
Simple Correspondence Analysis: Sangat Tidak Puas; Tidak Pas; Puas; Sangat Puas
Contingency Table
Row Profiles
Chi-Square Distances
Relative Inertias
Row Contributions
Column Contributions
Kontribusi keragaman
masing-masing baris dan
kolom terhadap masing-
masing komponen
1. Tabel kontingensi berikut ini memperlihatkan keterkaitan antara bidang pekerjaan dan
jenjang pendidikan seseorang:
Bidang Jenjang Pendidikan
Total
Pekerjaan SD SMP SMA PT
Pertanian 1200 500 400 200 2300
Industri 400 400 700 400 1900
Jasa 600 300 600 1000 2500
Properti 400 400 300 700 1800
Listrik 300 400 350 450 1500
Total 2900 2000 2350 2750 10000
PRAKTIKUM 10
ANALISIS MULTIVARIAT ANOVA (MANOVA)
Multivariat ANOVA atau sering disebut MANOVA digunakan apabila ada lebih dari
1 variabel respons. Tujuan MANOVA adalah menyelidiki kesamaan rata-rata suatu populasi
atau ingin mengetahui apakah ada perbedaan yang nyata pada variabel-variabel dependen
antar anggota variabel independen. Analisis ini bermanfaat untuk menganalisis variabel-
variabel tergantung lebih dari dua yang berskala interval atau rasio.
Dari ketiga variable yaitu lokasi, gaji kepala keluarga, dan pendapatan keluarga, kita
ingin mengetahui apakah ada hubungan antara lokasi tempat tinggal dengan gaji kepala
keluarga dan pendapatan anggota keluarga.
Langkah-langkah:
1. Tahap input data.
1) Beri nama kolom C1 dengan Lokasi, kolom C2 Replikasi, kolom C3 Gaji KK
dan kolom C4 Pendapatn Keluarga.
2) Masukkan data dalam kolom C1, caranya ketikkan:
MTB > set C1 [enter]
DATA> (1:4)3 [enter]
DATA> end. [enter]
4) Masukkan data dalam kolom C3 dan kolom C4 secara langsung melalui window
data.
2. Tahap analisis MANOVA
Gambar
General Linear 10.2Gaji
Model: KotakKK,
dialog General MANOVA-
Pendapatan Results
Keluarga versus Lokasi
Beri tandaType
Factor ceklistLevels
di bawah Display of Results pada Univariate analysis of
Values
Lokasi fixed 4 1, 2, 3, 4
variance, kemudian klik OK.
Layar monitor
Analysis of akan memperlihatkan
Variance kembali
for Gaji KK, using kotak dialog
Adjusted SSGeneral MANOVA.
for Tests
Selanjutnya
Source DFOK Seq
, sehingga
SS muncul
Adj SS output
Adj sebagai
MS berikut:
F P
Lokasi 3 24621402 24621402 8207134 0.73 0.562
Error 8 89826753 89826753 11228344
Total 11 114448155
Pendapatan
Obs Keluarga Fit SE Fit Residual St Resid
9 26007.0 11639.0 3941.0 14368.0 2.58 R
Test DF
Criterion Penuntun
Statistic Praktikum Analisis Data
F Num Denom P Multivariat
Wilks' Laboratorium
0.67822 0.500 6 Komputasi
14 0.798 Vokasi 56
Lawley-Hotelling 0.43197 0.432 Program Pendidikan Vokasi
6 12 0.844
Pillai's 0.35058 0.567 6 16 0.751
Roy's 0.28062
10.4 Tugas Praktikum
1. Suatu perusahaan sedang menganalisa media iklan yang digunakan untuk promosi
produk perusahaan-perusahaan pesaingnya. Ada tiga media yang digunakan yaitu
media 1, media 2, serta media 3. Ada tiga respon yang diamati yaitu tingkat
pengetahuan yang diperoleh, ketertarikan akan iklan tersebut, serta harga iklan. Data
yang diperoleh sebagai berikut:
PRAKTIKUM 11
ANALISIS KONJOINT
Pada dasarnya analisis konjoint digunakan untuk mengetahui bagaimana persepsi seseorang
terhadap suatu obyek yang terdiri atas satu atau banyak bagian. Hasil utama konjoint adalah
suatu bentuk (desain) produk barang atau jasa atau obyek tertentu yang diinginkan oleh
sebagian besar responden.
Hal penting yang harus dilakukan dalam analisis ini adalah menentukan faktor, dan level
serta mendesain stimuli (kombinasi antara faktor dan level). Namun demikian akan timbul
pertanyaan, bagaimana jika jumlah faktor dan level banyak, bukankah jumlah stimuli juga
menjadi sangat banyak?
PT HARUM ingin mengetahui keinginan konsumen akan sebuah produk Sabun Mandi.
Untuk itu, kepada dua orang responden diberikan pertanyaan tentang:
BENTUK SABUN MANDI, apakah:
- Berbenuk Padat
- Berbentuk Cair
Arti:
Untuk responden 1, produk yang paling tidak disukai terdapat pada baris 7, karena kolom
RESP.1 untuk angka 1 terletak pada baris tersebut. Hal ini berarti Responden paling tidak
suka Sabun Mandi yang berbentuk padat, untuk kulit normal dan berwarna putih. Sedangkan
produk paling disukai ada pada baris 8. hal ini berarti Responden 1 paling suka Sabun Mandi
Kemudian ketik :
Logika PenulisanSyntax:
Command Syntax untuk Pembuatan Stimuli adalah:
ORTHOPLAN, yang merupakan command pembuatan stimuli.
FAKTORS, untuk mendeskripsikan faktor-faktor yang akan dibuat stimuli. Dalam kasus ini,
faktor adalah atribut, yang berjumlah tiga. Penulisan selanjutnya adalah nama ketiga faktor
secara berurutan, dengan tiap faktor disertai subfaktor (subatribut). Beberapa hal yang perlu
diperhatikan :
Nama faktor bersifat bebas (boleh bernama BENTUK atau FORM atau yang lain), asal
tidak melebihi delapan karakter.
Penulisan label untuk faktor (seperti BENTUK Sabun Mandi ) bersifat bebas, asal
dimulai dan diakhiri dengan tanda kutip ().
Penulisan label untuk setiap subfaktor juga bersifat bebas, asal dimulai dan diakhiri
dengan tanda kutip ().
HOLDOUT. Holdout stimuli atau biasa disebut validation stimuli adalah stimuli yang dibuat
SPSS sebagai penguji hasil yang didapat nanati (validasi), apakah proses conjoint yang
menggunakan sampel tersebut bisa selaras jika digunakan pada populasi. Pada kasus ini,
Holdout diberi angka 0, yang berarti tidak ada stimuli untuk penguji. Sebagai contoh, jika
penulisan adalah /HOLDOUT =2, maka nanti akan tampak 10 baris di SPSS DATA
EDITOR, yakni 8 dari kombinasi atribut, serta 2 dari holdout.
SAVE OUTFILE. Perintah ini akan menyimpan hasil pembuatan stimuli pada file tertentu ,
dalam kasus ini diberi nama CONJOINTI.
Langkah eksekusi Syntax:
Dari tampilan SPSS SYNTAX EDITOR di atas, buka menu Run, lalu klik mouse
pada submenu All.
Setelah beberapa saat, tampak Output seperti yang tersimpan pada file
CONJOINTI.sav, ditampilkan sebagian.
PERHATIKAN! Tidak harus setiap kali proses stimuli, hasil harus sama persis
dengan output di atas. Susunan kedelapan stimuli bias saja berbeda-beda, namun isi stimuli
tetap sama.
Analisis:
Telihat kombinasi atribut pada tiga kolom pertama, yang sebenarnya telah dibahas pada tabel
pertama kasus ini, hanya ada perbedaan pada susunan stimuli.
Dari proses Orthogonal, dihasilkan delapan cards (stimuli), yang bias dilihat dari nomor
Card 1 sampai 8. Isi stimuli sama dengan kasus di atas (lihat tabel kedua), hanya cara
pengurutan yang berbeda, seperti setelah BENTUK cair, lalu ke padat, bukannya 4 baris
cair semua. Namun perbedaan ini tidak berpengaruh pada proses Conjoint, karena hanya
masalah penempatan data stimuli saja.
Untuk tampilan kolom STATUS, yang berisi angka 0, hal ini disebabkan tidak adanya
pembuatan (generating) Holdout Sample sehingga kode untuk Holdout, yakni kode 1, tidak
ditampilkan. Yang ditampilkan adalah kedelapan kombinasi, yang oleh SPSS secara otomatis
diberi kode 0 pada kolom STATUS.
Secara otomatis, SPSS akan menampilkan dua variabel (kolom) tambahan, yakni:
STATUS. Jika dilihat pada VARIABLE VIEW (dengan menekan CTRL+T dan buka
kolom VALUES pada variable Status tersebut), maka ada tiga kode yang secara otomatis
Demikian seterusnya pengisian angka pada proses conjoint (dibahas dibawah) harus
mengikuti urutan CARD dari SPSS. Hal ini perlu diperhatikan karena hasil pembuatan
CARD SPSS mempunyai urutan logika stimuli yang telah dibuat secara manual seperti yang
ada di tabel partama pada kasus ini. Hal ini perlu diperhatikan, karena setiap kali proses
pembuatan (pembangkitan) stimuli, hasil yang didapat TIDAK SELALU SAMA dengan
hasil semula. Ada kemungkinan terjadi perubahan susunan pada isian card-card.
File Syntax diatas bias dilihat pada disket kerja dengan nama CONJOINT_1_PROSES.sps.
Angka 101. Menjelaskan KODE RESPONDEN. Oleh karena Syntax tidak bisa menerima
karakter (tipe string) huruf, maka jika responden bernama Ali, ia akan diberi kode
katekanlah - 101.
Angka input 3.00 lalu 7.00 dan seterusnya pada kode 101. Menjelaskan pemasukan pendapat
responden, yang sebelumnya telah ada pada kolom RESP 1 pada tabel kedua kasus di atas.
PERHATIKAN! Urutan pengisian harus disesuaikan dengan urutan CARD yang telah
dibuat SPSS pada file CONJOINT1.sav, baik untuk Responden 1 maupun Responden 2.
Urutan ranking berasal dari file CONJOINT1.sav mempunyai format menurun ke bawah,
yang pada pengisian di Syntax diubah menjadi menyamping ke kanan.
Angka 102 dan input datanya. Penjelasan sama dengan sebelumnya, hanya hal ini berlaku
untuk kode responden kedua dan pendapat responden tersebut, yang tertulis pada kolom
RESP2 di tabel kedua kasus di atas, dengan urutan disesuaikan isian file CONJOINT1.sav.
END DATA. Menjelaskan akhir penulisan data untuk proses Conjoint. Perhatikan adanya
tanda titik (.) di akhir tulisan END.
FAKTORS Menjelaskan Faktor yang ada, yang telah dijelaskan pada syntax pertama.
UTILITY. Menjelaskan pembuatan file baru sebagai pelengkap file hasil proses conjoint,
yang berisi perhitungan utility dari masing-masing responden, namun dalam bentuk data
bertipe sav.
Output yang berupa teks, agar lebih jelas akan diubah ke bentuk Word dengan proses
copy-paste biasa, yang hasilnya bisa dilihat di file
CONJOINT_1_OUTPUT_WORD.
NB: Untuk penjelasan lengkap proses pemindahan format Output teks dengan
ekstensi spo ke file Doc dari Word, lihat modul CANONICAL CORRELATION.
Angka ini menjadi dasaruntuk mencari besaran Utility dari faktor BENTUK, MANFAAT
dan WARNA. Pada dasarnya Utility adalah selisih antara rata-rata faktor tertentu dengan
konstant-nya. Jika selisih adalah negatif, responden kurang suka dengan stimuli produk
tersebut. Sebaliknya, jika selisih adalah positif, responden suka dengan stimuli produk
tersebut. Hal ini disebabkan urutan angka dari 1 (tidak disukai) ke 8 (sangat disukai). Jika
urutan angka terbalik (dari 1 yang adalah disukai ke 8 yang adalah tidak disukai), penafsiran
tanda negatif dan positif juga harus diubah.
PERHITUNGAN IMPORTANCE
Untuk menghitung Importance, dilakukan proses perhitungan sebagai berikut :
Proses Perhitungan :
Kolom DEVIASI adalah besar deviasi yang telah dihitung atau didapat dari proses
Conjoint.
Kolom DEV^ adalah hasil dari kuadrat besar deviasi. Misal intuk bentuk
CAIR, angka 1 berasal dari -1 x -1. Demikian seterusnya untuk data yang lain. Kemudian
Pengukuran korelasi, baik secara Pearson ataupun Kendall, menghasilkan angka korelasi
yang relatif kuat, yakni di atas 0,5. Hal ini membuktikan adanya hubungan yang kuat antara
Estimates dengan Actual, atau ada Predictive Accuracy yang tinggi pada proses Conjoint.
Terlihat bahwa kedua tabel di atas mempunyai korelasi yang tinggi (di atas 0,5), dan kedua
korelasi tersebut adalah signifikan, karena angka Signifikansi keduanya jauh dibawah 0,005.
Dengan demikian bisa disimpulkan bahwa (lihat hasil utility SUBFILE SUMMARY):
Responden benar-benar menghendaki Sabun Mandi yang berbentuk padat, digunakan untuk
Kulit Normal dan berwarna Hijau Muda.
Langkah-Langkah:
Pada dasarnya dalam SPSS 13 tidak terdapat suatu fasilitas yang secara khusus dapat
digunakan untuk melakukan analisis biplot. Namun, untuk melakukan analisis ini dapat
dilakukan dengan melalui kombinasi beberapa fasilits yang ada. Adapun tahapan yang akan
dilakukan dalam analisis ini adalah:
Descriptive Statistics
Berdasarkan pada Tabel Descriptive Statistics, dapat diketahui nilai rata-rata (Mean), Standar
deviasi dn jumlah data yang dianalisis pada setiap variable yang digunakan.
Pada Tabel Correlation Matrix menunjukkan korelasi antar jenis berita. Terlihat bahwa jenis
berita OPINI dan Luar Negeri memiliki korelasi yang paling tinggi, sementara itu KESRA
dan POLKAM memiliki korelasi yang paling rendah, demikian juga EKBANG dan OPINI,
dan seterusnya.
Selanjutnya pada Tabel Total Variance Explained diatas, memberikan informasi mengenai
akar ciri dari matriks covariance (koragam) serta kumulatif persentasenya. Terlihat bahwa
dua akar cirri dari matriks tersebut secara kumulatif bernilai sebesar 82.307%. Hal ini berarti
pengambilan dua komponen utama pertama dapat menjelaskan sebesar 82.307% dari total
keragaman data. Berarti hasil ini dikatakan sangat memadai.
Raw Rescaled
Component Component
1 2 3 4 5 6 1 2 3 4 5 6
POLKAM -1.911 2.480 -5.681 -.749 -.120 .014 -.293 .380 -.870 -.115 -.018 .002
EKBANG 10.795 -4.498 -.421 -.304 -.135 .014 .922 -.384 -.036 -.026 -.012 .001
KESRA -9.759 -5.181 .903 -.390 -.082 .014 -.880 -.467 .081 -.035 -.007 .001
Olanhrga -.278 1.399 .356 3.320 -.075 .014 -.077 .385 .098 .914 -.021 .004
Opini .683 1.753 1.401 -.648 1.017 .014 .259 .665 .531 -.245 .386 .005
215500 S
c
r
eP
l
ot
Luar_ngeri .476 4.035 3.450 -1.248 -.598 .014 .087 .733 .626 -.227 -.109 .003
Extraction Method: Principal Component Analysis.
a. 6 components extracted.
Pada Tabel tersebut diatas, dapat diketahui informasi tentang vector cirri dari matriks
koragam, yang menunjukkan koefisien masing-masing komponen utama. Dalam analisis
Biplot akan diambil dua vector cirri pertama yaitu component 1 dan component 2, yang
Elu
a
v
ige
akan mewakili koordinat atribut (segmen pembaca).
n
5012C
e
o
m
p
3n
etN
u
4m
b
er56
Gambar 13.6 Output dari Skor analisis faktor
Pada gambar diatas, terlihat skor komponen yang merupakan informasi mengenai koordinat
objek (SKH) ditampilkan dalam DATA EDITOR. Data ini selanjunya akan dilakukan
3. Pembuatan Plot.
Dengan menggunakan SPSS, untuk membuat plot dua dimensi yang merupakan
penumpangtindihan (overlay) dari matriks G dan matriks H ada beberapa hal yang perlu
diperhatikan yaitu matriks G akan diplot dengan menggunakan titik dan matriks H akan
diplot menggunakan vektor yang berpusat pada pusat koordinat.
Untuk membuat plot, matriks G dan H pada DATA EDITOR disusun dalam format
berikut:
1) Matriks G terdiri dari skor komponen utama pertama.
2) Matriks H terdiri dari vektor ciri.