Statistik Multivariat
Tentang Sanksi Pelanggaran Undang-Undang Nomor 6 Tahun 1982 tentang HAK CIPTA,
sebagaimana telah diubah dengan Undang-Undang No.7 Tahun 1987 jo. Undang-Undang No.
12 Tahun 1997, bahwa: 1. Barangsiapa dengan sengaja dan tanpa hak mengumumkan atau
memperbanyak suatu ciptaan atau memberi izin untuk itu, dipidana dengan pidana
penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp.l 00.000.000,-
(seratus juta rupiah). Barangsiapa dengan sengaja menyiarkan, memamerkan,
mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran
Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara
paling lama 5 (lima) tahun dan/atau denda paling banyak Rp.50.000.000,- (lima puluh
juta rupiah).
2.
Statistik Multivariat
Singgih Santoso
Singgih Santoso
© 2002, PI Elex Media Komputindo, Jakarta Hak cipta dilindungi undang-undang
Diterbitkan pertama kali oleh PI Elex Media Komputindo Kelompok Gramedia, Anggota
lKAPI, Jakarta 2002
Dilarang keras menerjemahkan, memfotokopi, buku ini tanpa izin tertulis dari
Penerbit.
atau memperbanyak
Dicetak oleh Percetakan PI Gramedia, Jakarta lsi di luar tanggung jawab percetakan
Pertama-tama Penulis mengucapkan puji dan syukur kepada Tuhan, yang dengan
anugerahNY a telah memberi kesempatan kepada Penulis untuk menyelesaikan satu buah
buku lagi bagi para Pembaca. Buku ini pada dasarnya merupakan kelanjutan dari 'BUKU
LATIHAN SPSS: STATISTIK PARAMETRIK' dan 'BUKU LATIHAN SPSS: STATISTIK NON
PARAMETRIK' (keduanya terbitan PT Elex Media Komputindo). Seri Buku Latihan SPSS
dimaksudkan sebagai pelengkap dari buku SPSS yang telah terbit sebelurnnya, dengan
harapan agar pembaca bisa lebih menguasai SPSS lewat berbagai aplikasi praktis.
Perbedaan dengan Buku Latihan SPSS Statistik Parametrik dan SPSS Non Parametrik
terdahulu adalah pada metode ilmu Statistik, yang karena ciri tertentu tidak hanya
melibatkan satu atau dua variabel, namun menggunakan banyak variabel yang diproses
secara bersama-sama. Seperti jika akan diteliti faktor apa saja yang mempengaruhi
seorang konsumen membeli sebuah Mobil? Pada kenyataannya, banyak faktor atau
variabel yang mempengaruhi konsumen tersebut, seperti Promosi dari Perusahaan,
Diskon yang ditawarkan, Kebutuhan riil dari Konsumen, Pendapatan Konsumen, Sistem
Kredit yang ditawarkan, Pengaruh dari Keluarga, Status Sosial dan sebagainya. Semua
faktor ini harus dianalisis bersama-sama, dan metode statistik parametrik atau non
pararnetrik tidak bisa digunakan karena hanya dapat menganalisis dua variabel. Oleh
karena itu, metode Multivariat harus digunakan pada kasus seperti diatas (Regresi
berganda, Factor Analysis atau lainnya). Perkembangan Software Statistik yang pesat
membuat penggunaan metode Multivariat yang sangat kompleks menjadi mudah dan
praktis. Oleh karena itu, aplikasi metode Multivariat dengan SPSS sebagai software
Statistik terpopuler semakin luas, dan karena buku yang khusus membahas aplikasi
Statistik Multivariat dengan bantuan komputer masih sedikit, kehadiran Buku Latihan
ini diharapkan mampu meningkatkan penggunaan Statistik Multivariat di berbagai
bidang.
Agar mudah dipahami, buku ini disusun dalam bentuk modul-modul, Setiap modul
membahas persoalan statistik tertentu atau penggunaan tools SPSS tertentu yang
dikaitkan dengan sebuah kasus Multivariat. Hal ini untuk memudahkan pemahaman akan
topik atau tools tersebut, tanpa dikacaukan dengan topik atau tools yang lain. Para
mahasiswa dan dosen dapat menggunakan buku latihan ini sebagai bahan pelengkap
kuliah Statistik atau Praktikum Statistik di Perguruan Tinggi. Selain itu, kalangan
peneliti, pengusaha dan pengguna awam yang terlibat dalam proses data statistik
merupakan kalangan yang tepat untuk menggunakan modul-modul pada buku ini dalam
praktek sehari-hari. Buku ini dilengkapi dengan disket kerja yang memuat data-data
statistik serta jawaban latihan. Dengan adanya kasus yang bersifat integratif namun
sederhana, pengguna dapat segera memaharni bagaimana SPSS secara praktis bisa
membantu mengambil keputusan atas berbagai masalah statistik yang melibatkan
penggunaan metode Multivariat. Dua seri Buku Latihan SPSS serta satu Buku Pedoman
SPSS versi 10 yang mendapat sambutan bagus di kalangan pembaca, juga disertai
dengan banyaknya email yang masuk ke Penulis. Topik yang ditanyakan dernikian
beragam, dari pembahasan skripsi atau thesis seorang mahasiswa, sampai permasalahan
pada sebuah perusahaan, Dari persoalan di bidang marketing sampai penggunaan
statistik di bidang kelautan. Penulis sungguh mengucapkan terima kasih atas
pertanyaan-pertanyaan dan terlebih kritik membangun dari para Pembaca, yang membuat
penulis sadar betapa luasnya aplikasi ilmu statistik pada berbagai bidang. Juga
Penulis merninta maaf kepada para Pembaca yang telah mengirim email namun belum
sempat dibalas karena kesibukan Penulis, atau yang mendapatkan jawaban yang kurang
memuaskan. Itulah keterbatasan Penulis, sesuatu yang mendorong Penulis untuk terus
belajar dan belajar, agar Pembaca tetap mendapatkan nilai tambah (value added) dari
setiap Buku Penulis. Jika pada buku ini ditemui kesalahan-kesalahan, baik itu dalam
pengoperasian SPSS, interpretasi output SPSS, penyusunan modul, atau bahkan konsep
statistik, silakan melontarkan berbagai pertanyaan maupun saran yang membangun ke
alamat email: singgih santoso@yahoo.com atau singgih@mailexcite.com
Atas terbitnya buku ini, ucapan terima kasih Penulis tujukan kepada PT ELEX MEDIA
KOMPUTINDO, khususnya kepada lbu Aristiawati beserta staf (lbu Elizabeth), yang
masih memberikan kesempatan berharga kepada Penulis untuk dapat menyampaikan sebuah
karyanya yang lain ke tangan para pembaca.
vi
Terima kasih juga ditujukan kepada para mahasiswa yang telah Penulis bimbing dalam
pembuatan Skripsi dan Penelitian, khususnya kepada saudara Agus Gianto, yang
memberi sumbangan data penelitian yang telah dilakukan di sebuah supermarket di
Yogyakarta. Juga terima kasih kepada Pimpinan dan staf PT MULTI AGUNG PERKASA,
sebuah Perusahaan Konsultan Sistem Informasi, dan PT MAGNA INTI DATA, sebuah
perusahaan Market Research. Semua itu telah memperkaya wawasan Penulis dalam
praktek pengolahan data statistik dengan SPSS, lewat kegiatan konsultasi di
berbagai perusahaan di Indonesia. Rasa terima kasih akhimya Penulis sampaikan
kepada istri Penulis, Priscilia Setian, yang selalu mendukung dan mengingatkan
Penulis untuk segera menyelesaikan buku ini. Dan kepada Putra Penulis, Alvin, yang
sekarang sedang lucu-lucunya. Kehadiran mereka sungguh menyadarkan Penulis betapa
berartinya sebuah keluarga, sebuah titipanNya.
Penulis
vii
PENGANTAR
ANALISIS
MULTIVARIAT
TEORI UJI DATA MODUL 1 MODUL2 MODUL3 MODUL4 MODUL5 MODUL6 Uji Data (1) Missing
Value Analysis Uji Data (2) Perlakuan Terhadap Missing Value Uji Data (3) Outlier
Uji Data (4) Normalitas Uji Data (5) Homoskedastisitas Uji Data (6) Linieritas
MODUL 10: Analisis Faktor (1) Menilai Variabel yang Layak MODUL 11: Analisis Faktor
(2) Factoring dan Rotasi MODUL 12: Analisis Faktor (3) Validasi Faktor. MODUL 13:
Analisis Faktor (4) Membuat Faktor Scores DISCRIMINANT ANALYSIS
MODUL 14: Analisis Diskriminan Dua Faktor (1) Uji Variabel MODUL 15: Analisis
Diskriminan Dua Faktor (2) MODUL 16: Analisis Diskriminan Tiga Faktor
ix
TEORI MANOVA
••....•••........•.......•.....•.•..............•....•.................... MODUL
17: General Linear Model (Univariat) MODUL 18: Manova (GLM Multivariat) MODUL 19:
Manova 2 (Factorial Design) MODUL 20: Manova 3 (Custom Tables) TEORI CANONICAL
CORRELATION
195 199 208 221 231 239 242 253 261 264 287 300 306 313 333 340 342
MODUL 21: Canonical Correlation MODUL 22: Canonical Correlation (2) TEORI CONJOINT
ANALYSIS MODUL 23: Analisis Conjoint (1) MODUL 24: Analisis Conjoint (2) MODUL 25:
Analisis Conjoint (3) SOALLATIHAN LAMPIRAN DATA
LAM PIRAN SITUS INTERNET MUL TIVARIAT LAM PI RAN SERI BUKU SPSS DAFT AR PUSTAKA
,C
Vvl.HUUU111","c"
Variat bisa didefinisikan sebagai suatu kombinasi Hiller dari variabel- variabel
dengan bobot variabel yang ditentukan secara empiris. Sebagai contoh, ada persamaan
regresi berganda: Nilai variat=w l.XI +w2.x2+w3.x3+ ... +wn.Xn
Di sini Xn adalah variabel yang telah ditentukan oleh sedang wn adalah hasil dari
proses multivariat. Nilai variat adalah hasil dari proses p" •• dan w dan yang
menghasilkan suatu nilai variat tertentu.
'-<A1"4U
Data? Data yang secara statistik bisa dibagi menjadi Data metrik dan non metrik
dilakukan pada analisis multivariat. Hal ini disebabkan IHt.,LV,-',multivariat yang
rnengharuskan ciri-ciri data tertentu,
desimal, atau 178,45 em ~U',"HHaJlJo interval atau data rasio, data non metrik
adalah data yang desimal serta dilakukan yang diberi kode 1 untuk 'Pria' dan 2
'Wanita'. metrik akan data nominal atau data ordinal.
n,VUJHHH,
data
Analisis Univariat/Bivariat? Uni atau Bivariat lebih dan dua variabel, sernua
variabel tersebut dianalisis secara simultan atau bersamaan. Perbedaan tersebut
disebabkan Multivariat, Hal ini
Sistem Kualitas Rumah pertumbuhan sebuah tanaman, yang melibatkan pupuk yang Curah
keasaman Intensitas Sinar Matahari dan sebagainya. Kedua eontoh di atas tidak bisa
diselesaikan analisis univariat atau karena keterbatasan kedua analisis tersebut.
"V'~~'6M, alternatif
Oleh karena waktu itu (Software) belum taraf ""_'--'.'hll'uau sekarang, di lain
sisi hampir semua perhitungan Multivariat tidak bisa atau sulit sekali dilakukan
secara manual. Dengan kualitas Software, seperti sekarang metode Multivariat dalam
statistik,
tersebut,
naik Pesawat
n.V'UAun
pernu.ursgue»
karena
metode
UaLH.HJllb~.aH
Data untuk analisis Multivariat? Uji Data pada prinsipnya metode rnultivariat
(cluster "HE,uu,,,,,,",,,,, pada data tertentu. rl;int"rn,.pt,,~i dengan terlebih
dahulu? Pengabaian Data bisa berakibat biasnya kesimpulan yang atau bahkan metode
multivariat tidak bisa diproses, Seperti jika Data (yang terdiri atas banyak
variabel) mempunyai banyak missing value (data yang hilang atau tidak ada isinya).
Jika data tersebut dipaksa untuk diproses, yang dihasilkan bisa sangat berbeda data
tidak ada yang hilang (missing). Pada beberapa jenis data yang sangat banyak
'H~.H5aH'HU'"5 missing value, proses multivariat bahkan tidak bisa dilakukan. bahwa
berbagai dan bisa ,,'vU,.u'UUH, hasil proses multivariat bisa tidak dilakukan untuk
memastikan
Llv.u",om
Kendala adalah banyaknya waktu dan tenaga yang terbuang untuk proses Uji Data, yang
bisa sebuah pemborosan. Sementara di lain sisi, jika memang Data tidak untuk lebih
lanjut, tidak ada jaminan adanya proses pengobatan' (remedies) data tersebut hingga
Ada macam Data?
..
Grafik, seperti untuk menguji bentuk .... "."','"""sebaran dua variabel untuk data
yang tidak data secara
Pengujian Outlier yang sangat yang keberadaan data Outlier akan mengganggu
keseluruhan data. asumsi metode-metode Uji Linieritas dan sebagainya. dilakukan
..
Missing Data atau Missing V alue adalah informasi yang tidak tersedia untuk sebuah
subyek (kasus), Dalam SPSS, missing data adalah adanya sel-sel kosong pada satu
atau variabel, Data terjadi karena informasi untuk sesuatu tidak diberikan, sulit
diem atau memang informasi tersebut tidak ada. Sebagai contoh, pada Data Responden
atau Usia Responden, bisa saja ada Responden yang karena alasan pribadi tidak mau
menyebutkan Gaji ataupun Usianya, Hal iniberakibat adanya data yang kosong pada
kolom atau Usia. Missing Data pada dasarnya tidak bermasalah bagi keseluruhan data,
apalagi jika jumlahnya hanya sedikit, misal hanya sekitar 1% dari seluruh data.
Namun jika persentase data yang tersebut cukup besar, maka dilakukan pengujian
apakah data yang mengandung banyak missing tersebut masih layak diproses lebih
lanjut ataukah tidak. Pada kasus berikut akan bagaimana perlakuan terhadap missing
data, yang meliputi pengujian keacakan Missing serta upaya penanganan terhadap
Missing Data.
Perhatikan isi file MISSING VALUE.sav yang isinya sama persis dengan file
DISKRIMINANT.sav (akan dibahas di rnodul lain). File MISSING berdasarkan VALUE
berisi data 75 konsumen yang air minum mineral yang dikonsumsinya, digolongkan
SEDIKIT: konsumen termasuk sedikit mengkonsumsi untuk tipe ini adalah O. BANY AK:
konsumen termasuk Kode untuk tipe ini adalah 1.
banyak mengkonsumsi
NB: Kode untuk data kategori bisa dilihat dengan menekan lihat bagian (kolom)
VALVES.
Sedang data lain adalah data bertipe rasio, seperti Usia konsumen, Berat dan Tinggi
badan konsumen, Income konsumen, Jam Kerja konsumen dalam sehari, serta kegiatan
Olahraga konsumen (jam) dalam sehari. Jika diperhatikan isi seluruh data, terlihat
ada beberapa sel yang tidak terisi, atau disebut sebagai MISSING VALUE (data yang
Sebagai contoh, untuk kasus pertarna, dengan konsumen bernama RUSDI, variabel Berat
badan Rusdi tidak tertera, Demikian pula untuk baris dengan konsumen bernama Lanny,
variabel Tinggi badan tidak tercantum. Di sini bisa dikatakan bahwa pada kasus 1
dan 3 terdapat satu missing value, sedang pada kasus 2 tidak ada missing value.
Namun dilihat pada kasus 11, konsumen bernama Bambang mempunyai dua missing value,
yakni Usia dan Tinggi badannya. Sedang jika dilihat dari sudut kolom (variabel),
terlihat variabel USIA mempunyai sembilan missing value, namun variabel INCOME
hanya terdapat dua missing value. Demikian seterusnya bisa dilihat dari sudut kasus
dari variabel- missing value yang ada pada data konsumen air mineral tersebut, Dari
kasus di atas, akan dilihat apakah:
9
bisa dikatakan bersifat random, karena seharusnya data yang missing usia, selain
ditemukan pada mereka yang minum air mineral juga ditemukan pada mereka yang minum
air mineral BANY AK. Proses
@
"
NB: Listwise berarti hanya kasus yang semua datanya ada yang ditampilkan. Jika ada
kasus salah satu data missing, maka tidak akan disertakan. Sebagai contoh, kasus
nomor 2 yang lengkap
datanya akan dinamakan satu list. Ciri yang diproses sama. Pairwise berarti data
ditampilkan. Dengan bervariasi, dihubungkan.
ini adalah
data
U<:OJLAllJU"U,
lengkap
tidaknya
Pengisian: Pada bagian DISPLAY, aktifkan dua Tabulated cases ... dan Cases with
misstng Abaikan bagian dialog utama, yakni
Pengisian:
Pada bagian INDICATOR VARIABLE STATISTICS, aktifkan dua pilihan, yakni Percent
mismatch dan Cresstabulations of ... Abaikan bagian lain, dan tekan CONTINUE untuk
kembali ke kotak utama, berikut. lain dan tekan OK untuk proses pada file MISSING
PERHATlKAN. TIDAK SEMUA BAGlAN OUTPUT DITAMPILKAN. HANYA BAGlAN OUTPUT YANG RELEV
AN YANG AKAN DIBAHAS. Deskripsi variabel dengan adanya Missing value
Univariate
Missina N USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM Mean Std. Deviation
Count Percent
66 69 71 73 73 73 75
9 6 4 2 2 2 0
0 0 0 0 0 0
0 0 7 0 0 0
N, terlihat angka bervariasi pada setiap pada setiap variabel, Pada variabel USIA,
dari 75 konsumen yang ada 66 data Usia konsumen yang sehingga ada 75-66) data yang
missing. Demikian seterusnya untuk variabel yang catatan semua data variabel MINUM
lengkap terisi atau ada Hal ini bisa juga dilihat pada kolom MISSING, pada Count
untuk nyata, dan bagian Percent untuk menghitung persentase mana untuk variabel
USIA, persentase adalah 9175*100% atau 12%). Kolom Mean dan Standard Deviation
menunjukkan nilai statistik dasar, rata-rata dan standar deviasi untuk setiap
variabel, yang dihitung dari jumlah data yang valid (tidak missing). Untuk variabel
USIA, rata-rata usia 66 10
standar deviasi
tahun. Dernikian
Means w 2: 0
iii
«
:::l
f0::
W
«
III
a 0
Z
« -,
0::
W
<
CJ
0:: I
1=
~
2:
« -a
52478 5.2630 5.2640
« -'
EM
rata-rata ukuran: Jika " Jika rata-rata Usia memacn dan ,,~'v"A".']
dad
tabel
Jika badan
HH,HIUUJ.
UL\,HIU\.H
berat
MINUM
~
f-
2 '6 :Jl
a a 33 86.8 13.2 34 89.5 10.5 35 92.1 7.9
are not
.x:
_Q
'" c '" a
»,
,-
USIA
Present
Count Percent
% SysMis
11
Untuk vatiabel USIA, dati 66 data yang valid, 33 data ada pada kategori minum dan
sisanya (33 data) ada pada minum BANY AK. Sedang dari komposisi data yang missing,
13,2% data yang missing ada pada usia konsumen yang termasuk air mineral kategori
SEDIKIT, sedang 10,8% berasal dari mereka yang termasuk air mineral kategori BANY
AK. Perhatikan angka 12% yang rata-rata dati 13,2% dengan Demikian seterusnya untuk
variabel yang lain. Perhatikan ada tiga variabel yang ditampilkan dari enam
variabel yang diuji, Hal ini disebabkan variabel (MlNUM, INCOME, JAM KERJA dan
OLAHRAGA) mempunyai sedikit data yang missing (kurang dari 5% dari total 75 data)
sehingga tidak pada Bahkan untuk variabel tidak ada data yang Dari terlihat
penyebaran data yang missing dalam arti ada data hilang setiap kategori dan
variabel. Hal ini sudah menggambarkan keacakan data yang
-".Vll"UIU'-'U,
Penyebaran Missing Data
12
Missing
Patterns
values)
Ol
'w
Ol
'w
0
':?;
(f)
':?;
:f!.
(f)
'"
Case RUSDI LUSI ERNI KRISTANTO NINIK ELI DINA ESTI RINA RULLY ROSSY AGNES BAM BANG
L1NA LANNY SUSANA L1TA SUSAN KARIM TATIK LENNY SULASTRI 1 1 1 1 1 2
':?;
14.3 14.3 14.3 14.3 14.3 28.6 14.3 14.3 14.3 14.3 14.3 14.3 28.6 14.3 14.3 14.3
14.3 14.3 14.3 14.3 14.3 28.6
::J Z
::;;;
2 0
ill
ill
::;; -c -,
cc :.::
« -.,
-c a: I «
« (9
(9 (9
-' 0
i=
CD
a:
I-
:::J
S S S S S S S S S S S S S S S S S S S S S S S S + S
1 1
1 1 1 1 2 1 1 1 1 1 1 1 1 2
- indicates an extreme low value, while + indicates an extreme high value. The
range used is (01 - 1.5*IOR, 03 + 1.5*IOR). a. Cases and variables are sorted on
missing patterns.
untuk dan
Pada bans 1, konsumen bernama Rusdi mempunyai satu missing data kolom #Missing)
pada variabel BERAT (lihat tanda Spada kolom BERAT). Oleh karena missing ada pada 1
dan 7 variabel, persentase missing adalah 117 x 100% atau 14,3%.
13
Sedang untuk baris 6, konsumen bernama Eli mempunyai dua missing data pada variabel
BERAT dan USIA. Oleh karena missing ada pada 2 dari 7 variabel, persentase missing
adalah 217 x 100% atau 28,6%.
Tabulated Patterns
.0
Missinc Patterns
2 Q)
::J
~
Number of Cases
0 0
~ ~
UJ
UJ
~ ~ « -,
-c -, a:
« o
I
-c a:
(3
(')
l-
«
UJ
«
0
_j
1=
a:
co
CiS
is. E 0 0
::J
53 5
1
X X X X X X X X X X X X
6
1
3
2 2 1 1
53 58 65 59 63 56 55 55 54
61
Patterns with less than 1% cases (0 or fewer) are not displaved. a. Variables are
sorted on missing patterns. b. Number of complete cases if variables missing in
that pattern (marked with X) are not used.
Tabel di atas sisi lain dari penyebaran missing di mana missing value dinyatakan
per variabel. Pada baris pertama, angka 53 menyatakan ada 53 data (konsumen) yang
valid, dalam arti tidak terdapat missing value pada semua Hal inilah yang
dimaksudkan pengukuran dilakukan secara listwise. Sedang angka 5 baris kedua
berarti adanya lima data yang missing hanya variabel BERAT. Jika dilihat tabel
sebelumnya, konsurnen yang mempunyai data missing pada variabel BERAT adalah Rusdi,
Kristanto dan Ninik,
14
Sedang angka 1 pada bans ketiga berarti adanya satu data yang "'-"''''''15 variabel
BERAT dan USIA. Jika dilihat pada tabel sebelumnya, konsurnen yang data missing
variabel BERA T dan USIA adalah ELI. Demikian seterusnya untuk penjelasan bans
Untuk kolom terakhir:
III
Seandainya 5 data yang missing di variabel BERAT diperbaiki sehingga memaui tidak
missing, maka semua data yang tidak missing menjadi: 53+5=58 data yang
<"'11,5"""1-"
III
Baris 2 BERAT dan USIA. Seandainya 5 data yang missing di variabel BERAT sehingga
menjadi tidak missing, demikian 7 data pada variabel USIA tabel sebelumnya untuk
kolom maka semua data yang tidak "'-"NaIF, menjadi: 53+5+7=65 data yang lengkap.
NB: Perhatikan data dengan nama perhitungan di atas, karena terkait dan bukannya
USIA dan BERAT. Bambang tidak masuk dalam variabel USIA dan TINGGI,
Ui
:::l
I-
a: w
(D
<5
« -,
a: w
rn
2 0
1=
« -,
« <5 « a: I -c ...J
0
1,000 .168 -,021 .829 -,168 ,505 1.000 ,230 .138 .144 ,048 1.000 -.072 .220 -.219
1,000 -.038 .704 1.000 -,110 1,000
di atas, metode listwise akan kasus yang tidak lengkap Dengan metode 53 data dan 75
data mula-mula yang karena tidak ada satu pun data 11ll""'''F,. semua
UWHtsiS"P
15
selanjutnya menghitung korelasi antar variabel untuk 53 data. 0,168 pada tabel di
atas menyatakan besar korelasi antara variabel BERAT dengan variabel USIA. Demikian
untuk korelasi antar variabel yang lain. Sebagai pedoman, jika angka korelasi di
bawah 0,5, pengaruh missing data suatu variabel terhadap '_<.'__ ~'.1 variabel
Sebaliknya untuk korelasi di atas 0,5. ada sedikit missing data dati
Sebagai contoh, korelasi antara variabel INCOME dengan USIA sebesar 0,829. Angka
korelasi yang besar ini menyatakan bahwa terjadinya missing value dari variabel
INCOME berpengaruh kuat missing value pada variabel USIA. Hal ini tidak bagus,
karena menandakan rendahnya keacakan missing value. Sebaliknya angka korelasi
variabel BERAT dengan USIA sebesar 0,168 yang di bawah Hal ini berarti adanya
tingkat keacakan yang tinggi pada missing karena pengaruh antar variabel lemah.
Jika dilihat pada tabel di atas, terlihat hanya ada dua korelasi yang cukup kuat,
yakni antara variabel INCOME-USIA dan INCOME-OLAHRAGA. Sedang korelasi termasuk
OLAHRAGA-USIA tidak menunjukkan korelasi yang kuat, Analisis metode Pairwise
Pairwise Frequencies
I0:
W
~
(J)
«
co
CJ
C)
::J
::;;; 0
« -, 0:
W
C)
i=
~
:2;
« « « ..J
::;;;
::J
0:
:c
0
« ...,
66 61 63 65 64 64 66
69 65 67 67 67 69
71 69 69 69 71 73 71 71 73 73 71 73 73 73 75
Metode pairwise akan memasangkan (pair) variabel yang mempunyai data lengkap, dan
tidak menghilangkan sebuah bans begitu saja. Dengan demikian data bisa berbeda-beda
tergantung kelengkapan data dua variabel yang dipasangkan. Sebagai contoh, jika
yang dipasangkan variabel USIA dengan BERAT, akan ada 61 data yang valid, sedangkan
14 data (75-61) tidak valid. Namun, jika 16
dipasangkan variabel USIA dengan TINGGI, akan ada 63 data sedangkan 12 data (75-63)
tidak valid. Demikian kombinasi variabel lainnya.
Pairwise Correlations
iiJ
::J
«
a: w
co
I-
o
Z
r=
:2' 0
a: w
-,
<
~
:2'
a:
I
« o «
-' 0
«
-,
Tabel di atas mempunyai tafsiran yang sama dengan analisis korelasi antar variabel
dengan metode listwise yang telah U!1'A<ti,,,"aH '''vU'~'UUllL Sarna dengan
analisis listwise angka korelasi yang di alas 0,5 sangat sedikit sehingga bisa
dikatakan pola missing value adalah acak (random). Analisis metode EM
EM corretanonss
::J
iiJ
co
a:
I-
r=
a o
w :2' 0
« -a
w :2' « -,
a:
a:
I
« o -c
:)
1.000 .069 .016 .815 -.117 .493 1.000 .154 .060 .067 .030 1.000 -.012 .204 -.107
1.000 .011 .707 df 1.000 -.007 Prob 1.000
= 42,
"-VH_"a~, '''''''''at''uu.
U,",'.HHUal!l,
korelasi di atas yang dua metode yakni rnetode Listwise dan Pairwise. Terlihat
hanya ada korelasi yang di atas 0,5, dan Dengan bisa dikatakan value adalah random
IPT',,",,"mnl"
alat
17
signifikansi MCAR (Frob) > 0,05, missing value adalah random Angka signifikansi
MCAR (Prob) < 0,05, missing value adalah tidak random
Jika dilihat bagian bawah terlihat angka MCAR yang unampuxan alat analisis Chi-
Square 32,33 0,859. Oleh karena angka probabilitas (signifikansi) jauh di atas maka
missing value dari data di atas adalah random. Kesimpulan Dengan demikian, terkait
dengan awal Kasus ini:
value yang terjadi, acak tidak memiliki pola tertentu; Perlakuan untuk missing
value akan dibahas pada modul selanjutnya.
18
Jika pada modul Missing Data (Value) bagian pertama dijelaskan pengujian kerandoman
Missing Data yang ada, modul berikut melanjutkan penanganan yang missing dan
ternyata bersifat random. Jika missing value terbukti random, dalam arti missing
value yang terjadi tidak disengaja dan tidak mengacu keadaaan tertentu (misal
missing hanya pada variabel usia), maka berbagai perlakuan bisa dilakukan pada
data-data yang missing. Penanganan terhadap Missing Value bisa bervariasi, seperti
membuang baris (kasus) yang mengandung missing value, menghapus variabel (kolom)
yang mengandung missing value dan sebagainya. Salah satu cara yang populer adalah
bukan menghilangkan barisatau kolom yang mengandung data missing, namun mengisi sel
(data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan
data terisi. Hal ini lebih baik dan rasional daripada membuang satu baris karena
usia konsumen tidak terdata, atau bahkan satu variabel hanya karena satu dua sel
tidak terisi. Cara mengisi data yang bisa bermacam-macam, dan yang populer adalah
mengisi dengan rata-rata keseluruhan data. Sebagai contoh, akan data usia yang cari
rata-rata usia konsumen secara keseluruhan, kemudian mengisi setiap data missing
dari variabel usia angka rata-rata tersebut,
19
1:
Modul ini terkait dengan kasus sebelumnya, yang ada file MISSING VALUE.SA V, dengan
penjelasan penggunaan metode pengisian berdasarkan Means data.
Pengisian: variabel dan ke bagian NEW (new) karena akan ada enam variabel bam atau
enam kolom tambahan, Perhatikan di sini dimasukkan enam variabel yang memang
mengandung data missing setiap variabel tersebut. NAME AND METHOD Perhatikan bagian
NAME yang otomatis nama variabel bam, USIA_l untuk pengganti variabel usia. Tentu
nama tersebut bisa misal UMUR atau yang lain.
AU"U<UUpJlU'-'lU lJ'~AUab'll
Masukkan
Series Mean.
NB: buka kotak combo di MEAN OF NEARBY
20
dna data yang berdekatan. Seperti data atas 50, data tengah kosong dan data bawah
maka dengan metode ini, data tengah akan diisi rata-rata 50 dan 60, 55. Abaikan
bagian lain dan tekan OK untuk proses, dengan berikut, (Disimpan value i5a.u a,
i~"'"
me
sebagai
NB: Sebetulnya ada input yakni bertipe spo yang muncul terlebih dahulu setelah
proses selesai. Namun bertipe spo tidak disket kerja, walaupun dibahas berikut ini.
Deskri12si !)enggantian Missing value Output bertipe spo dan Missing Result
Variable USIA_l 9 6
4
dilayar:
Values
First Non-Miss
Last Non-Miss 75 75 75 75 75 75
1 1 1 1 1 1
2
2
2
75 SMEAN(OLAHRAG)
Dari tabel output ill atas, terlihat ada 9 data untuk variabel USIA yang diganti, 6
variabel BERAT yang diganti dan seterusnya, Metode penggantian berdasarkan rata-
ratanya, Seperti untuk variabel USIA, karena rata-rata adalah 30,14 tahun (lihat
tabel output MISSING VALUE.spo bagian pertama modul sebelumnya), maka setiap data
yang kosong pada variabel USIA akan dengan angka 30,14. Dernikian untuk variabel
BERAT. Oleh karena rata-rata Berat badan adalah 54,91 kilogram (lihat tabel output
MISSING VALUE.spo bagian pertama pada modul sebelumnya), maka data yang kosong
variabel BERAT akan dengan angka 54,9.
21
Demikian seterusnya sehingga didapat hasil (hanya tambahan dan sebagian data):
,u":uuiinu.u,,,
enam kolom
Dari file diatas terlihat pada baris ke-5 dan 11 untuk variabel USIA, terdapat
pengisian angka 30,14 sebagai pengganti data yang kosong, Demikian untuk baris 1
dari variabel BERAT, yang sekarang terisi dengan angka Demikian seterusnya untuk
pengisian data yang mengacu pada rata-rata keseluruhan dari sebuah variabel.
Kesimpulan: Dengan adanya proses pengujian dati Missing Value kemudian pengisian
data pengganti, maka pada berbagai proses analisis multivariat (seperti
diskriminant, factor dan lainnya), data yang akan digunakan
Ii>
Data Pengganti, yakni keenam variabel bam tersebut Menggunakan metode Listwise
Menggunakan metode Pairwise
'"
Ii>
Jika menggunakan metode Listwise atau Pairwise, yang digunakan keenam variabel yang
lama. Pemilihan data mana yang akan digunakan, tentu tergantung !-'v""",.,..U.H
yang akan
U'GdmH.
pada tujuan
22
Data Outlier adalah data yang secara berbeda data-data yang lain. data dati 100
tinggi badan orang Asia, ada data tinggi badan 210 centimeter. Tinggi badan
tersebut 'ekstrim' rata-rata badan orang asia umumnya, rnisal sekitar 160
centimeter. Data 210 centimeter inilah yang disebut data outlier. Data Outlier bisa
1.
2.
Terkait dengan contoh di alas, Badan adalah para Basket badan mereka di alas rata-
rata. data-data Terkait tidak bisa dihindarkan atas, memang ada Badan 210
centimeter. sebuah Data atau Variabel
3.
1:
data sama data yang
23
menyimpang (outlier) pada file tersebut? Dan jika memang ada data apakah tindakan
yang akan diambil?
Uji keberadaan Outlier bisa dilakukan membuat nilai z menampilkan Scatter Plot
serta penyajian Box Plot. 1, STANDARDISASI DATA
Deteksi Data dengan standardisasi pnnsipnya mengubah nilai data semula dalarn
bentuk z; kemudian menafsirkan nilai z tersebut,
o e
NB: Di sini tentu saja variabel MINUM tidak relevan untuk diuji, karena variabel
tersebut bertipe kategori (nominal). Aktifkan save standardizedvalues mengklik
mouse pada kotak tersebut, at variables, sebagai
Abaikan bagian lain dan tekan OK untuk proses, dengan berikut, (Disimpan pada file
outlier
NB: Sebetulnya ada input yakni spo yang justru muncul terlebih dahulu setelah
proses selesai. Namun output bertipe spo tidak disimpan pada disket kerja, dibahas
berikut ini.
24
Perhatikan kolom MEAN (Nilai Rata-rata) untuk setiap variabel. Sebagai adalah 30,42
tahun standar deviasi rata-rata adalah 55,59 kilogram Demikian seterusnya untuk
data yang lain. Standardisasi dengan nilai z:
dan STD. DEVIATION (Standar contoh, rata-rata usia konsumen 6,27 tahun. Berat tubuh
konsumen standar deviasi 13,8
x == nilai rata-rata
() == standar deviasi sebagai contoh, usia Rusdi (data nomor 1) adalah 40 maka:
sedangkan jika berat Rusdi adalah 65 kilogram, maka:
25
untuk data dan variabel Demikian secara lengkap bisa dilihat file outlier
Jika sebuah data maka nilai z yang +2,5 atau lebih kecil dan - 2,5. Gambar:
Jika dilihat tabel z; nilai sama luas daerah di bawah kurva normal sebesar Hal ini
berarti dari seluruh nilai data adalah data yang normal. Atau data tersebut
bervariasi dari variasi tersebut rnasih dalam batas normal. data
26
data yang menyimpang secara (outlier). Atau melewati batasan 2,5, data tersebut
dianggap data ekstrim
UiUH5i~UP
sebuah data
tersebut bisa berbeda pada kasus yang lain. Sebagian kurva normal 97,5%) batas yang
yang kurang dari batas yang berarti batasan makin diperketat, Jika mengacu
ill
Pada variabel kasus 5 (Dina), terlihat angka z adalah Hal ini berarti income dati
Dina adalah data outlier, yang dilihat income Dina variabel sebesar 1.000 maka
nilai income tersebut sangat berbeda dari income rata-rata konsumen yang (lihat
tabel di atas), Tanda + berarti income di atas nilai rata-rata, dan tanda -,
berarti nilai konsumen di bawah nilai rata-rata. Pada variabel BERAT, pada kasus 12
dan 19 terlihat angka z adalah di atas Hal ini berarti berat badan dati Yunus dan
LUis jauh dati berat rata-rata konsumen lainnya. Pada variabel rnelebih 2,5 atau
tidak ada data yang nilai z dari -2,5. Hal ini berarti semua konsumen olahraga yang
per hari rata-rata jam v.a'H"~5a'J.
HV,CUHU,
2.
'-'''''",~mu
pencar plot) menampilkan dan secara visual akan bisa dideteksi data dari data. Oleh
karena scatter
>~~U~~~~6~~"~H
sekian
Tampak di layar:
Mernasukkan variabel dengan cara click and arahkan pointer pada variabel INCOME
(contoh), kemudian sambil tetap menahan tombol mouse, geser variabel tersebut ke
sumbu X Tentu penempatan variabel pada sumbu X atau bersifat bebas, dalam arti
boleh variabel INCOME diletakkan di sumbu yang berarti daripada ill sumbu X.
Abaikan bagian lain dan tekan tombol OK.
(Disimpan Lihat
income
28
Dati output di atas, terlihat ada beberapa data yang bisa outlier. Dua data pertama
ada di bagian kanan atas, di mana Usia konsumen sudah sekitar 40 namun mempunyai
income mendekati 1000 (Rp. per bulan. Dari Data Editor, terlihat ada tiga data yang
ber-income 900 dan 1000. Sedang data outlier ketiga ada di bagian tengah di mana
usia konsumen bam sekitar 20-an tahun, namun income sudah mendekati 800. Sedang
data yang 'bergerombol' pada kiri bawah sampai kanan tengah. N amun demikian, data
outlier secara visual dilengkapi dengan z untuk memastikan tingkat selain dengan
bantu an Box Plot pengerjaan selanjutnya). Scatter Plot antara variabel BERAT
dengan INCOME ~ .. Buka file outlier Dari menu submenu lalu Scatter Plot
Tampak eli layar kotak dialog GRAPH. Pengisian: Masukkan variabel income pada sumbu
X dan variabel berat sumbu Y. Abaikan bagian lain dan tekan tombol OK. pada
income
29
Dari output di atas, terlihat ada dua data outlier yang terletak ill atas. Dua data
tersebut, dati sumbu variabel BERAT terlihat 100 kilogram dan 120 kilogram. Selain
income 1000 Ul'-'.'U"I",v'lfi.<Ul outlier karena terpisah cukup jauh di kanan
bawah.
bisa
Demikian seterusnya bisa dilakukan scatter plot antar variabel. Jika diarnbil dua
scatter ill atas, maka dapat data income 1000 bisa dikategorikan demikian berat 100
dan 120. Namun sekali kelengkapan nilai z tetap harus dilakukan dikehendaki
'''''''~'''''''AU.u
3. BOXPLOT
Cara untuk mendeteksi adanya outlier adalah mernbuat sebuah Box Plot untuk sebuah
variabel tertentu, yang dalam kasus berikut akan variabel USIA dan BERAT.
30
Tampak
berbagai
CONTINUE
Abaikan semua bagian lain dan tekan tombol OK untuk proses data.
(Disimpan Lihat
50,_--------------,
40
30
10.1---
-,,-
--'
USIA
Terlihat tidak ada sam pun data Usia konsumen yang ada di luar BoxPlot. Dengan
demikian bisa dikatakan tidak ada data outlier ataupun ekstrem pada variabel ini,
Lihat BAGIAN KEDUA (variabel BERAT):
31
140
120
100
0'
80
60
40
20
,~
BERAT
Pada BoxPlot untuk variabel terlihat ada dua data yang bisa rnkategonxan outlier
dan ekstrim. Data nomor tanda bulatan adalah data outlier. data nomor tanda *,
adalah data ekstrim.
yang
kotak merah (BoxPlot), dengan data Berat konsumen ada batasan 25 75 n ..,'opr,,, 47
62 Garis horizontal yang ada di atas dan bawah kotak adalah batas atas dan bawah
dati data yang masih. tidak outlier ataupun ekstrim. Jib dilihat batas atas adalah
80 kilogram, Berat badan konsumen di bawah 80 kilogram masih tidak dianggap outlier
ekstrim. NB: Median dan sekelompok data bisa dicari dari menu submenu DESCRIPTIVE
lalu pilihan FREQUENCIES. Kemudian dati kotak dialog, buka kotak STATISTICS, dan
aktifkan Median serta isi Percentile,
'"
Jika sebuah data melebihi 1,5 kali garis batas atas atau bawah, data dianggap
p"'Jllj<lHl'S, hal itu disebut ekstrim, Pada kasus di alas, yang pada kasus lain
bisa saja ada (misal berat seseorang hanya 15 untuk kasus
BoxPlot yang dimulai dari outlier. Jika melebihi 3 kali ini kebetulan data outlier
ada di bawah batas bawah sesuatu yang jarang
32
4.
PENANGANAN
Setelah diketahui pada sebuah file sam atau lebih data data outlier tersebut bisa
dilakukan beberapa penanganan:
o
Data Outlier dihilangkan, karena dianggap tidak mencerminkan sebaran data yang
sesungguhnya. Atau mungkin data outlier tersebut karena kesalahan kesalahan pada
komputer dan sebagainya, Jika hal ini maka -sebagai contoh- konsumen dengan income
1000 akan dihilangkan, sehingga konsumen berkurang sam. Atau pada herat badan 120
kilogram bisa saja dari data. Data Outlier tetap dipertahankan (retensi), dan tidak
Hal ini bisa disebabkan ada data outlier atau H"-''''blUU ada konsumen yang atas.
Atau tidak bisa dikatakan ada kesalahan proses sampling maupun inputing data. Jika
ini dilakukan, maka -sebagai contoh- income 1000 ada di dan tidak dihapus, Atau
kasus BoxPlot, walaupun data 120 adalah ekstrim, namun berat tersebut tetap
dipertahankan pada data.
U'~'H5HUUUiSA'-"'H
..
tentu tergantung
33
Uji Normalitas adalah ingin distribusi sebuah data atau mendekati distribusi
distribusi data bentuk lonceng (ben Data yang 'baik' adalah data yang mempuny
distribusi distribusi data terse but tidak menceng kekiri atau menceng kekanan.
data file OUTLIER.sav, di mana isi data secara soma pada MISSING VALUE, akan
variabel-variabel ada memenuhi asumsi normalitas? Dan jika memang ada variabel yang
memenuhi aumsi normalitas, tindakan yang akan diambil? normalitas variabel USIA dan
BERAT.
34
1.
un NORMAUTAS
dilakukan grafik dan melihat besaran
..
Pengisian: Masukkan variabel usia dan berat Pada bagian DISPLAY kotak DEPENDENT
LIST kotak Plots
UHJ".5'Ufi.cm
Oleh
karena
1. 2.
bagian
35
3.
Abaikan semua bagian lain dan tekan tombol OK untuk proses data.
Lihat
tabel:
Tests of Normality
USIA ". This is a lower bound of the true significance. a. Lilliefors Significance
Correction
Kriteria pengujian:
6
01>
Angka
'ne,HHU',,,.H~' (SIG)
Angka signifikansi (SIG) <0,05, maka data tidak berdistribusi normal bisa dilihat
NB: Keterangan lengkap tentang Kolmogorov-Smirnov BUKU LATIHAN SPSS NON PARAMETRIK.
Analisis:
<II
Untuk variabel USIA, karena angka SIG. adalah 0,2 yang jauh di atas 0,05, maka
distribusi data untuk Usia Konsumen adalah normal atau bisa dianggap normal, Untuk
variabel BERAT, karena angka SIG. adalah 0,000 yang di bawah 0,05, maka distribusi
data untuk Berat Badan Konsumen adalah tidak normal atau tidak bisa normal. berikut
ini.
ID
36
/~
/:c ,oy • ,V'
."
,,/
lye
20 Observed Value 30 40 ,0
Terlihat sebaran data dari variabel usia di sekitar 'U'-,H5,,-,Q'H ke kanan atas,
dan tidak ada data yang terletak ~~U"'"UR demikian, data tersebut bisa dikatakan
HW.E'''''. Lihat Plot BAGlAN KEDUA
Normal Q-Q Plot of BERAT
c--
c.
il
",."
.".0'
Observed Value
Terlihat sebaran data dari variabel Berat di sekitar garis yang mengarah ke kanan
atas, namun ada data yang terletak jauh dati sebaran data (perhatikan dua data
dengan berat badan 100 dan demikian, data tersebut bisa dikatakan TIDAK normal.
Keterangan: Selain dengan melihat Normal normal tidaknya data bisa dilihat pada
plot DETRENDED NORMAL Pada data sebaran data plot DETRENDED NORMAL Q-Q tidak
membentuk suatu tertentu, atau secara acak. Hal inilah yang terlihat DETRENDED
NORMAL untuk variabel Usia. Sedang pada variabel BERAT, plot DETRENDED NORMAL Q-Q
pola tertentu, dari kanan bawah kemudian menaik ke demikian, data variabel BERAT
bisa dikatakan tidak normal. 37
2.
PENANGANAN
Jika sebuah variabel mempunyai sebaran data yang tidak yang agar normal adalah: •
perlakuan
Menambah data. Seperti kasus, bisa dicari 20 atau 30 atau data baru untuk menambah
ke 75 data Berat Badan konsumen yang sudah ada. Kemudian dengan jumlah data yang
baru, dilakukan pengujian sekali lagi. Menghilangkan data yang dianggap penyebab
tidak normalnya data. Seperti pada variabel BERAT, dua data yang outlier dibuang,
yakni berat 100 dan 120, kemudian diulang proses pengujian, data bisa menjadi
normal. Jika belum normal, ulangi pengurangan data yang dianggap penyebab
ketidaknormalan data. Namun pengurangan data hams apakah tidak mengaburkan
1-'101.1<0'-''''''11 karena hilangnya data yang seharusnya ada. Dilakukan
transformasi misal mengubah data ke logaritma atau ke bentuk natural (LN) atau
bentuk kemudian dilakukan pengujian ulang. Data diterima apa adanya, memang
dianggap tidak normal dan tidak dilakukan berbagai treatment. Untuk alat analisis
yang hams diperhatikan, seperti untuk multivariat mungkin factor analysis tidak
begitu mementingkan asumsi kenormalan, Atau pacta kasus statistik univariat, bisa
dilakukan alat analisis non parametrik.
®
III
NB: Proses pengujian dan transformasi bisa dilihat pada BUKU LATIHAN SPSS
PARAMETRIK dan BUKU LATIHAN SPSS NON PARAMETRIK.
38
Uji Homoskedastisitas pada prinsipnya ingin menguji apakah sebuah grup (data
kategori) mempunyai varians yang sama di antara anggota grup tersebut, Jika varians
sama, dan ini yang seharusnya maka dikatakan ada Homoskedastisitas, Sedangkan jika
varians tidak sama, dikatakan terjadi Heteroskedastisitas. Alat untuk menguji
Homoskedastisitas bisa dibagi dua, yakni dengan alat analisis Levene Test, atau
dengan Analisis Residual yang berupa grafik. Kasus berikut akan membahas pengujian
Homoskedastisitas dengan menggunakan Levene Test.
1:
Dari data file HOMOSKEDASTISITAS.sav, di mana isi data secara prinsip sama dengan
data pada MISSING VALUE dan OUTLIER yang telah digunakan pada modul terdahulu, akan
diuji apakah data yang ada memenuhi asumsi homoskedastisitas? Dan jika memang ada
variabel yang tidak memenuhi homoskedastisitas, apakah tindakan yang akan diambil?
• •
39
Masukkan variabel LIST Masukkan variabel mlnum NB: Pemasukan Pada Kemudian buka
kotak variabel
both
Pada bagian SPREAD VS LEVEL WITH LEVENE TEST, power estimation. Kemudian tekan
tombol Utama JUAiIJAV.'" CONTINUE untuk kembali ke Menu
Abaikan semua bagian lain dan tekan tombol OK untuk proses data.
40
\SJ'~"U'''pU'H
HANYA DITAMPILKAN
Test of Homogeneity
df1 1 1 1 1 1 1 1 1
TINGGI
Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed
mean
JAMKERJA
Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed
mean
Menentukan Hipotesis: Ho: kedua varians populasi adalah identik Hi: kedua varians
populasi adalah tidak identik NB: Yang dimaksud dua populasi adalah populasi
konsumen yang minum SEDIKIT, dan mereka yang minum BANY AK. Dengan U'Aj,llAjW.U,
populasi disesuaikan kategori data yang ada dimasukkan pada bagian FACTOR LIST.
Jika Probabilitas (SIG) > 0,05, maka Ho diterima Jika Probabilitas (SIG) < 0,05,
maka Ho ditolak Keputusan: Pada baris TINGGI dari tabel di atas, dan dengan dasar
angka SIG adalah 0,043. Oleh karena SIG. < 0,05 maka Ho ditolak, Hal ini berarti
varians dari data Tinggi Konsumen yang minum sedikit air mineral berbeda secara
dengan data Tinggi Konsumen yang minum air mineral. disimpulkan, telah terjadi
heteroskedastisitas variabel TINGGI dengan dasar grup MlNUM.
41
NB: Jika dilihat dasar terlihat angka SIG. penenmaan Ho, karena angka SIG. adalah
0,055. Dengan untuk kasus ini, diterima tidaknya Ho tergantung dasar yang
digunakan. Selain kasus, kriteria pengujian bisa tidak batas namun pada batas 0,01.
Proses sama seperti uji variabel TINGGI sebelumnya, Keputusan: Pada baris JAM KERJA
dari tabel di atas, dan dengan dasar Mean, SIG adalah 0,097. karen a angka SIG. >
0,05 maka Ho diterima. Hal ini berarti varians dari data Jam Kerja Konsurnen yang
minum sedikit air mineral relatif sama data Jam Kerja Konsumen yang minum banyak
air mineral. Dapat telah homoskedastisitas variabel JAM KERJA dasar grup MINUM.
Jika ada variabel yang pada variabel dilakukan transformasi data, seperti data
dalam bentuk logaritma, natural (LN) atau yang lain. Kemudian dengan Levene Test
dilakukan sekali
Hi~'H5uU<<H
42
antara variabel dalam range variabel antara Lari "aJiiLULHlS pada Usia orang
tersebut dikatakan bahwa makin tinggi usia seseorang, maka lari semakin yang ke
kanan atas. Namun hal itu benar range usia tertentu, misal antara 17 tahun 40
tahun. Di atas 40 tahun lari seseorang terbalik dengan makin tinggi usia orang
makin lambat
LvL0vC'UL,
Linieritas bisa yang garis regresi, Oleh karena scatter variabel saja, maka
dilakukan dengan dua data.
1:
di mana isi data secara MISSING VALUE dan OUTLIER yang telah ",,"'-'CU.lU"'", akan
apakah data yang ada memenuhi linieritas? Dan memang ada variabel yang tidak
memenuhi tindakan yang akan diambil?
43
Kasus berikut akan menguji asumsi Iinieritas untuk variabel USIA-INCOME dan
OLAHRAGA-BERAT.
1.
~ ~
Pengisian: Masukkan variabel usia pada sumbu X (sumbu datar) dan variabel pada
sumbu Y(kotak vertikal). Klik mouse pada icon FIT atas), tampak di
Kotak dialog di atas, nrinQ,'nn,,,, menentukan metode apa yang akan diberikan
scatter Untuk itu, buka kotak combo bagian METHOD, dan Abaikan bagian lain dan
tekan tombol OK.
44
Linear Repression
usia
2.
ill
SCATTER
PLOT VARIABEL
BERAT-OLAHRAGA
Buka file homeskedastisitas Dari menu Tampak di Pengisian: Masukkan variabel berat
pada sumbu X dan variabel surnbu Y combo Abaikan bagian lain dan tekan tombol OK.
bagian kotak submenu GRAPH. Scatter Plot
45
Lihat
BAGIAN KEDUA:
Linear
Regression
'53.0
',"
ctahraga-e "A-5quare
3.07 '" 0.00
... -C.OO·
beret
beret
Terlihat garis regresi di atas yang cenderung mendatar. Kemudian, jika dilihat pada
persamaan regresi, koefisien regresi adalah o (-0,00). Hal ini membuktikan tidak
adanya linieritas pada hubungan dua variabel tersebut, yang berarti semakin besar
atau kecil berat badan seseorang, tidak ada hubungannya dengan banyaknya ia
berolahraga hari. Demikian seterusnya bisa dilakukan scatter antar dua variabel.
Jika hubungan dua data tidak atau terjadi non-linieritas, maka bisa dilakukan
transformasi data pada salah sam variabel. Pada kasus ini bisa dilakukan
transformasi data pada variabel BERAT atau variabel OLAHRAGA. Transformasi bisa
dilakukan secara logaritma (log X), akar (-Y X) dan sebagainya. Kemudian variabel
hasil transformasi tersebut diuji ulang, apakah sudah bisa dikatakan mempunyai
hubungan yang linier dengan variabellainnya.
46
(keiompok)
Gvl.HH,SIS"
baik?
di atas, secara duster yang baik adalah cluster
47
seperti:
atau
Ii>
ill
Berikan contoh Analisis Cluster! diketahui Konsumen yang membeli Rumah di Real
Estate tertentu. Untuk itu, sekian Responden diminta memberi pendapat mereka
berbagai variabel sebuah nu.,uwu, seperti Lingkungan yang aman, Lingkungan yang
nyaman dan bebas banjir, Fasilitas Umum dan Sosial yang memadai, Letak Perumahan
yang strategis, dekat dengan pasar dan sekolah, Harga terjangkau, sistem pembayaran
yang fleksibel dan sebagainya. Dengan Analisis Cluster diketahui bahwa ternyata ada
3 kelompok (cluster) Konsumen pembeli Rumah tersebut, yakni Cluster yang
Lingkungan, Cluster yang mengutamakan sistem Kredit dan Cluster yang mengutamakan
Mutu Rumah terse but. Bagaimana proses dasar Proses Cluster:
e
Mengukur kesamaan antar obyek (similarity). Sesuai prinsip dasar Cluster yang
mengelompokkan obyek yang mempunyai kemiripan, maka proses pertarna adalah mengukur
seberapa jauh ada kesamaan antar obyek. Ada 3 metode yang digunakan:
2.
Mengukur Jarak (distance) antara dua obyek, Pengukuran ada bermacam-macam, yang
paling populer adalah metode Euclidean Distance. Mengukur Asosiasi antar obyek,
3.
NB: Korelasi dan Distance digunakan jika data adalah metrik, sedangkan Asosiasi
digunakan jika data adalah non metrik.
48
metode Euclidean
Sebelum melangkah lebih lanjut, diperhatikan data (variabel) yang ada mempunyai
perbedaan yang besar, Seperti jika variabel Penghasilan mempunyai satuan (000.000),
sedangkan usia seseorang hanya mempunyai satuan puluhan maka perbedaan yang
rnencolok ini akan membuat perhitungan distance dan menjadi tidak valid. Untuk itu,
semua data harus dilakukan proses standardisasi dengan mengubah ke Z-Score. Membuat
Cluster. Proses ini dati Cluster adalah pengelompokan yang bisa dilakukan dengan
dua metode: 1. data,
HIRARCHICAL METHOD. Metode ini memulai pengelompokan dengan dua atau lebih obyek
yang mempunyai kesamaan dekat, Kemudian proses diteruskan ke obyek lain yang
mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk
semacam di mana ada hierarki (tingkatan) yang jelas antar obyek, dari yang sampai
paling tidak Secara sernua pada hanya akan membentuk sebuah cluster. biasanya
digunakan untuk rnembantu memperjelas proses hierarki tersebut, NON-HIRARCHICAL
METHOD. Berbeda dengan metode hierarki, metode ini justru dimulai dengan menentukan
terlebih dahulu cluster yang cluster, tiga cluster atau yang lain). Setelah jumlah
cluster barn proses cluster dilakukan rnengikuti proses hierarki. Metode ini biasa
disebut dengan K-Means Cluster.
2.
<l>
Setelah Cluster terbentuk, entah dengan metode hierarki atau nonhierarki, langkah
selanjutnya melakukan terhadap duster yang telah yang pada intinya memberi nama
spesifik untuk menggambarkan isi cluster tersebut. Misal kelompok konsumen yang
memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai Cluster
LINGKUNGAN. Melakukan Validasi dan Profiling Cluster. Cluster yang terbentuk
kemudian apakah hasil tersebut valid. Kemudian dilakukan proses profiling untuk
menjelaskan karateristik cluster berdasar tertentu usia konsumen pembeli tingkat
penghasilannya dan sebagainya). Dati data profiling tersebut bisa dilakukan
analisis seperti Analisis Diskriminan.
49
Analisis Cluster?
adanya
Metode yang
UlU'U!U:f€
proses
secara hierarki:
metode Hierarkit
Ada
UClJU"p"
Linkage Metode ini akan mengelompokkan dua terdekat terlabih dahulu, Jika A dan B
mempuny (misal A dan C maka proses hierarki adalah mengeiompokxan
'2>
Complete Linkage Metode ini justru akan mengelompokkan jarak terlebih dahulu. dua
obyek yang mempunyai
Average
'-''',HU'F,''
Metode ini akan mengelompokkan berdasar jarak rata-rata yang melakukan rata-rata
semua jarak antar obyek terlebih Ward's Method Pada Metode jarak antara dua cluster
yagn terbentuk adalah sum of squares di antara dua cluster tersebut,
@
Centroid Method Pada Metode antara dua cluster adalah centroid cluster-cluster
tersebut. Centroid adalah rata-rata yang melakukan UH,f,F,'uCU suatu cluster
tertentu. ~'''"'''.uu di antara dna yang ada
50
Baeatmana
Oleh karena Cluster termasuk berarti tidak ada variabel ataupun variabel mdependen,
ada sebuah model definitif untuk Cluster Analysis. Discriminant atau model
Dependence yang lain.
51
Modul ini akan membahas proses clustering dari sekelornpok data dengan metode K-
Means, yakni memproses semua secara sekaligus. Proses ini dimulai dengan cluster
terlebih dahulu, misal ditentukan akan ada 2 cluster, atau 3 atau angka
Manajer Pemasaran Kacang LEZAT konsumen kacang LEZAT berdasar konsumen, yakni
(lihat file cluster.sav):
@
Usia Konsumen Jumlah Anak dari Konsumen (orang) Income (penghasilan) Konsumen
(dalam Rupiah/bulan) Kegiatan Konsumen mernbaca koran setiap minggu Kegiatan
Konsumen menonton Televisi Jumlah Motor yang dimiliki Konsumen (buah) Jumlah Mobil
yang dimiliki Konsumen (buah) Jumlah Kartu Kredit IATM yang dimiliki Konsumen
(buah) Pembelian dalarn seminggu) dari Konsumen minggu (berapa kali minggu (jam)
.,
@
..
@
'" '"
II>
II>
52
Konsumsi
e
<l>
seorang
Konsumen
dalam
membeli
apapun
Jumlah jam kerja seorang Konsumen dalam seminggu Jumlah kegiatan seminggu (jam)
berbelanja (shopping) seorang Konsumen dalarn
NB: Tiga variabel pertama, TINGGAL, dan STATUS, tidak digunakan pada analisis
cluster, karena data bersifat string (untuk variabel TINGGAL) dan data bersifat
nominal variabel DAERAH dan STATUS). Contoh interpretasi data: Pada baris pertama,
Konsumen yang tinggal di Jakarta Utara, yang termasuk Kota Besar, mempunyai status
belum menikah, usia 25 tidak mempunyai anak, income Rp.2.000.000,-lbulan, membaca
koran rata-rata 10 jam per minggu, menonton Televisi rata-rata 20 per minggu, satu
Motor dan satu Mobil, mempunyai 3 macam Kartu Kredit atau rata-rata 4 kali membeli
barang dalam seminggu, konsumsi rata-rata Rp.600.000,-lbulan, bekerja rata-rata 40
per minggu dan melakukan kegiatan shopping rata-rata 10 per rninggu. Demikian
seterusnya untuk baris data yang lain. Dari file CLUSTER yang berisi Profil
pernbeli Kacang LEZAT tersebut, akan dilakukan analisis Cluster untuk tersebut.
53
STANDARDISASI
<II
Pengisian:
III
Masukkan
ke kotak VARIABLE(S),
variabel dan
NB: Perhatikan variabel DAERAH dan STATUS tidak karena data adalah dan tidak
relevan kasus ini. Sedangkan variabel TINGGAL otomatis tidak masuk karena data
string
III
mouse
Save Standardized
Abaikan
sebagian,
lihat file
54
NB:
II>
Selain tampilan di atas, sebenarnya ada Output lain yang menginformasikan data
deskriptif dari variabel-variabel di atas, yang akan digunakan saat penafsiran
basil cluster.
Descriptive Statistics
N USIA ANAK rata-rata Usia Jumlah Anak Minimum Maximum Mean Std. Deviation
60 60 60 60
20 0 225000 2
42 4 2000000 11
5.66
1.11
INCOME
444094.97
2.32
KORAN Jumlah Jam membaca Koran setiap minggu TV Jumlah Jam menonton TV setiap
60 60 60 60 60 60 60 60 60
10 0 0 0
1
24 2 2 5 9 600000 75 25
16.77
minggu
MOTOR MOBIL Jumlah Motor Jumlah Mobil Jumlah Kartu yang dipunyai minggu
Tingkat Pembelian
setae
256
132609.78 16.77
KONSUMSI Pengeluaran KERJA Kerja setiap
70000 10 3
Jumlah Jam
5.02
II>
Perhatikan munculnya 12 variabel barn dengan imbuhan kata 'z' di depan masing-
masing variabel.
2. ANAUSIS CLUSTER
Di sini akan dilakukan analisis dengan metode CLUSTER atau K-MEANS CLUSTER.
Langkah:
II>
NON-HIERARCHICAL
Buka file NB: Perhatikan nama file yang telah disesuaikan standardisasi data. Dari
menu submenu lalu dengan file hasil K-Means
Cluster",
di layar:
55
Pengisian:
NB: Ada beberapa variabel yang tidak lengkap seperti KONSUMSI menjadi ZKONSUMS. Hal
ini disebabkan SPSS hanya menampung maksimal 8 karakter sehingga otomatis huruf
terakhir akan dihilangkan jika melebihi 8 karakter,
@
LABEL CASES
NUMBER OF CLUSTER atau jumlah cluster yang akan dibentuk, Di sini pengisian jumlah
cluster bebas, dan untuk keseragaman ketik 3. NB: Angka 3 berarti nanti akan
terbentuk 3 cluster (kelompok). Pengisian pada umumnya antara 2 sampai 5 cluster,
walaupun hal itu tetap tergantung pada tujuan penelitian dan faktor subyektif.
Kemudian klik mouse pada kotak Saves ... , hingga tampak di layar:
Kotak dialog SAVE memungkinkan hasil duster disimpan dalam bentuk variabel bam di
SPSS DATA EDITOR. Hal ini berguna untuk proses profiling cluster, yang akan
dilakukan pada tahapan akhir analisis Cluster. Untuk itu, aktifkan kotak Cluster
membership dan Distance from duster center, kemudian tekan tombol CONTINUE untuk
kembali ke menu utama. hingga tampak di layar:
56
Kotak dialog OPTIONS berisi berbagai pilihan (option) untuk proses analisis Cluster
yang bukan rnerupakan proses inti clustering. Ada dua option, yakni statistik yang
berhubungan dengan hasil cluster, dan perlakuan terhadap data yang missing (tidak
lengkap). Untuk STATISTICS, biarkan kotak INITIAL CLUSTER CENTER tetap aktif, dan
aktifkan kotak Anova Table. Untuk MISSING VALUES, karena semua data lengkap abaikan
pilihan tersebut, Kemudian tekan tombol CONTINUE untuk kembali ke menu utama, Dari
tampilan menu utarna cluster, abaikan juga bagian yang lain, dan tekan OK untuk
proses data.
cluster membership,
ada
OUTPUT berupa tambahan dua variabel pada file CLUSTER_Z_SCORE, yakni variabel yang
berisi nomor cluster untuk setiap kasus, dan variabel yang berisi jarak antara
kasus cluster (cluster center):
57
silang (crosstab) dan grafik yang relevan, yang akan dibahas pada modul lain.
®
K=MEANS.spo.
3.
ANALISIS
ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca
Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah
Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore:
Jumlah Kartu KrediVATM yang di ZBELI Zscore: Tingka! Pembelian Barang setiap
ZKONSUMS Zscore: Tingkal Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap
minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi
Output ini adalah pertama (initial) proses clustering data sebelum dilakukan
iterasi. Oleh karena nand akan dihasilkan proses clustering sesudah iterasi yang
justru adalah hasil akhir cluster, maka output ini tidak dianalisis. 58
PROSES ITERASI
Iteration HistorY'
Tampilan ini adalah proses iterasi yang mencoba mengubah-ubah yang ada sebelumnya
(initial) sehingga menjadi lebih tepat mengelompokkan 60 kasus tersebut. Setelah
terjadi delapan tahapan (proses pengulangan dengan ketepatan lebih tinggi dati
sebelumnya), hasil final cluster berikut ini. HASIL AKHIR PROSES CLUSTERING
59
Final Cluster Centers Cluster ZUSIA Zscore: Usia ZANAK Zscore: Jumlah Anak ZINCOME
Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam mernbaca Koran
setlap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang
dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu
KrediVATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap ZKONSUMS Zscore:
Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap minggu ZSHOPPIN
Zscore: Jumlah Jam Berbelanja setiap mi 1 .57272 .04507 1.36091 2 -.02356 -.09015
-.23081 3 -.36218 .04507 -.71494
Output ini adalah akhir dari proses clustering, berikut, ARTIANGKA: Angka di atas
terkait dengan proses standardisasi mengacu pada angka z; dengan ketentuan:
II>
dengan
analisis
sebagai
data sebelumnya,
yang
Angka negatif berarti data di bawah rata-rata total Angka positif berarti data di
atas rata-rata total rata-rata
..
Sebagai contoh, angka 0,57272 pada variabel ZUSIA usia responden cluster 1,
Ix = j1 + z.al
di mana:
x == rata-rata
60
sampel
cluster tertentu)
~ = rata-rata populasi
(J
= standar
deviasi
Demikian seterusnya untuk tafsiran data yang lain, tentunya dengan mengacu rata-
rata dan standar deviasi variabel yang bersangkutan, seperti angka untuk variabel
ZANAK dikaitkan dengan rata-rata anak dan standar deviasinya, CONTOH T AFSIRAN
ANGKA PADA CLUSTER: Dari proses cluster, terjadi 3 cluster atau 3 kelompok
responden yang masingmasing kelompok tentunya mempunyai ciri yang berbeda satu
dengan yang lain. Perbedaan bisa ditelusuri per variabel, dengan dasar interpretasi
berdasar tanda + dan - serta besaran angka itu sendiri. Sebelum menafsir isi setiap
cluster, terlebih dahulu contoh penafsiran sebuah variabel, yakni variabel ZUSIA.
Oleh karena pada cluster 1, angka adalah positif, sedangkan eli cluster 2 dan 3
angka negatif, maka dapat dikatakan: Rata-rata Usia responden pada cluster 1 lebih
tinggi (dalam hal ini secara logika dikatakan 'lebih tua') dibandingkan rata-rata
usia responden keseluruhan, Untuk menghitung rata-rata usia setiap cluster, bisa
dilakukan dengan rumus di atas dan berdasar pada Output CLUSTER_Z_SCORE.spo, eli
mana terlihat: "
@
Mean (Rata-rata) Usia seluruh responden (populasi) adalah 29,88 tahun Standar
Deviasi Usia adalah 5,66 tahun
61
Dengan demikian: ..
@
tahun tahun
"
seterusnya bisa dengan variabel ZANAK untuk rata-rata jumlah anak di setiap
cluster, kemudian variabel ZINCOME untuk rata-rata income responden di setiap
cluster, dan variabel yang lainnya, Sekali lagi, penjabaran angka setiap variabel
tentunya mengacu pada Mean dan Standar Deviasi yang relevan untuk setiap variabel,
seperti untuk variabel ZANAK yang acuan adalah Mean sebesar 0,7 dan standar deviasi
Walaupun dapat diuraikan secara rind satu demi satu namun untuk penafsiran umum,
sudah memadai jika dikatakan 'lebih dari rata-rata' atau 'kurang dari rata-rata',
yang akan dilakukan bagian berikut untuk rnenggambarkan isi setiap cluster yang
terbentuk, T AFSIRAN SETIAP CLUSTER:
Demikian
..
Cluster 1:
Cluster 1 berisi responden yang mempunyai Usia lebih tua dati rata-rata, mempunyai
anak di atas rata-rata populasi, mempunyai income di atas rata-rata, rnembaca koran
lebih lama dari rata-rata populasi, namun menonton Televisi lebih sedikit dati
rata-rata. Kelompok ini juga mempunyai motor, mobil dan kartu kredit atau ATM yang
lebih dari rata-rata, lebih tinggi dari rata-rata. Juga mereka Tingkat Pengeluaran
per frekuensi bell dan Jam berbelanja yang lebih banyak dibanding rata-rata
populasi, Dari ciri-ciri di atas, bisa mereka kebanyakan adalah orang sibuk bekerja
dan relatif sudah mapan dalam segi serta usia termasuk golongan dewasa,
..
Cluster 2: responden yang Usia lebih muda dari ratarata, anak di bawah rata-rata
income di bawah rata-rata, namun mernbaca koran dan menonton Televisi lebih sering
dati rata-rata. u .... ".v.u!-'Vfi. dan kartu kredit atau ATM yang lebih dari rata-
rata, mempunvai motor lebih sedikit dari rata-rata, dan mempunyai lebih dari rata-
rata. mereka
62
Pengeluaran per bulan serta Jam berbelanja yang lebih sedikit dibanding rata-rata
populasi, namun mereka mempunyai frekuensi beli barang lebih banyak dibanding rata-
rata populasi. Dari ciri-ciri di atas, bisa diduga mereka kebanyakan adalah
golongan menengah, sibuk bekerja dan relatif sudah mapan dalam segi materi, serta
usia termasuk golongan muda, Dalarn berbelanja, mereka efisien dalam menggunakan
waktu untuk membeli barang.
®
Cluster 3: Cluster 3 berisi responden yang mempunyai Usia lebih muda dari ratarata,
mempunyai jumlah anak di atas rata-rata populasi, mempunyai income di bawah rata-
rata, juga membaca koran dan menonton Televisi lebih sedikit dari rata-rata.
Kelompok ini juga mempunyai motor, mobil dan kartu kredit atau ATM yang lebih
sedikit dari rata-rata, mempunyai jam lebih rendah dari rata-rata. Dalam perilaku
beli, selain Tingkat Pengeluaran per bulan serta Jam berbelanja lebih sedikit
dibanding ratarata populasi, juga frekuensi beli barang mereka lebih sedikit
dibanding rata-rata populasi, Dari ciri-ciri di atas, bisa diduga mereka kebanyakan
adalah golongan bawah, kurang ban yak bekerja dan relatif tidak mapan dalam segi
materi, serta usia termasuk golongan muda. Oleh karena itu, dalam berbelanja,
mereka jarang pergi berbelanja dan juga jarang membeli barang.
Dari ciri-ciri ketiga Cluster di atas, Cluster 1 boleh disebut Golongan Alas,
Cluster 2 Golongan Menengah dan Cluster 3 Golongan Bawah. Namun sekali lagi,
penamaan Cluster maupun penarikan kesimpulan isi cluster pada dasarnya bersifat
subyektif dan tergantung tujuan penelitian. Dengan demikian, bisa saja cluster 1
dinamakan Golongan Dewasa yang Mapan dan Giat Bekerja, sedang cluster 3 dinamakan
Golongan Muda yang Miskin dan Daya Belinya rendah, atau penamaan lainnya.
VARIABEL
PADA CLUSTER
YANG
63
ANOVA Cluster Mean Square ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah dl Error
Mean §guare dl
2 2 2
57 57 57
Si9_.
ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca
Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah
Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore:
Jumlah Kartu Kreditl ATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap
ZKONSUMS Zscore: Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja seliap
minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi
2 2 2 2 2 2 2 2 2
57 57 57 57 57 57 57 57 57
The F tests should be used only for descriptive purposes because the clusters have
been chosen to maximize the differences among cases in different clusters. The
observed significance levels are not corrected for this and thus cannot be
interpreted as tests of the hypothesis that the cluster means are equal.
Kolom CLUSTER menunjukkan besaran between cluster mean, sedangkan kolom ERROR be
saran within cluster mean sehingga kolom F adalah:
Betweenbieans
= BetweenMeansZUSIA
WithinM eansZUSIA
atau: 4,202/0,888=4,736 64
Perhatikan bahwa semakin besar angka F, semakin menunjukkan perbedaan yang tajam
antar cluster. Sebaliknya, makin kecil angka F, makin kecil perbedaan tersebut,
hingga sampai angka tertentu, perbedaan itu bahkan sudah tidak ada lagi (angka SIG
sudah di atas 0,05). Namun demikian, di sini tidak berarti variabel yang tidak
signifikan akan dikeluarkan! Analisis hanya ingin mengetahui mana variabel yang
signifikan perbedaannya, dan mana yang tidak,
JUMLAH ANGGOTA
m SETIAP CLUSTER
Number of Cases in each Cluster Cluster 2 3 Valid Missing 16.000 20.000 24.000
60.000 .000
Dati tabel di atas, terlihat bahwa responden terbanyak ada di cluster 3, sedangkan
responden paling sedikit ada di duster 1, dengan tidak ada variabel yang hilang
(missing). Dengan semua kasus (responden), sejumlah 60 orang, lengkap terpeta pada
ketiga cluster. Dengan komposisi seperti di atas, karena cluster 3 merupakan
cluster terbesar, bisa saja strategi merebut pelanggan diarahkan ke cluster 3,
yakni mereka yang bisa disebut Golongan Bawah dan mungkin ban yak tinggal di kota
kecil. Sedangkan cluster 1, walaupun kebanyakan ada di kota besar dan termasuk
Golongan Kaya, namun karena jumlahnya relatif kecil, mungkin tidak potensial untuk
digarap, Atau bisa dikembangkan berbagai alternatif lainnya, Modul selanjutnya akan
menggambarkan profil yang ada, beserta dengan grafiknya. komposisi tiap cluster
berdasar
PADA
FILE
(TIDAK SEMUA
66
Terlihat eli layar tampilan per responden (tempat tinggal) dan variabel qcl_l dan
Contoh penafsiran:
@
Responden 1, yang tinggal eli Jakarta Utara, temyata termasuk pada cluster 1, dan
posisi nilai cluster responden tersebut berjarak 3,80877 dari pusat cluster 1.
Responden 2, yang tinggal eli Bandung, ternyata juga termasuk pada cluster 1, namun
posisi nilai cluster responden 2 tersebut hanya berjarak 3,026 dari pusat cluster
1. Jadi, posisi responden 2 lebih dekat ke pusat cluster 1, dibanding responden 1.
Responden 3, yang tinggal di Tegal, ternyata termasuk pada cluster 3, dan posisi
nilai cluster responden 3 tersebut berjarak 1,63 dati pusat cluster 3. Oleh karena
pusat cluster 1 dengan cluster 3 berbeda, tentu tidak bisa dibandingkan seperti
responden 1 dan responden 2 yang mempunyai kesamaan cluster.
Demikian seterusnya untuk penafsiran data lainnya, dengan catatan bahwa tampilan
variabel QCL_l dan QCL_2 akan lebih berarti jika ditampilkan dalam bentuk crosstab
dan grafik scatter plot.
67
Berbeda dengan K-Means Cluster yang dibahas pada modul sebelumnya, proses
Clustering dengan menggunakan prosedur hierarki didasari konsep 'treelike
structure'. Konsep ini dimulai dengan menggabungkan dua obyek yang paling mirip,
kemudian gabungan dua obyek tersebut akan bergabnng lagi dengan satu atau lebih
obyek yang paling mirip lainnya. Demikian seterusnya sehingga ada semacam hierarki
(urutan) dari obyek yang membentuk cluster. Urut-urutan tersebut bisa dianalogikan
seperti pohon (treelike) yang dimulai dari akar, batang, dahan, daun dan
seterusnya, yang bercabang-cabang. Secara logika, proses clustering tersebut pada
akhirnya akan 'menggumpal' menjadi satu cluster besar yang semua obyek. Metode ini
disebut sebagai 'agglomerative methods', yang pacta kasus berikut akan digambarkan
dengan Dendogram.
1:
Sebuah perusahaan Susu Bubuk melakukan identifikasi terhadap 18 merk susu bubuk
atau minuman energi yang selama ini dijual, dengan spesifikasi terdapat pada file
duster hierarkl.sav. Keterangan tiap variabel:
liD
SUSU,
..
liD
LEMAK, yakni Kandungan Lemak (gr) per 100 gram Susu KARBOHID, yakni Karbohidrat
(gr) per 100 gram Susu MINERAL, yakni Mineral (gr) per 100 gram Susu
..
68
Sebagai contoh pengartian pada baris nPrt<lrr". untuk setiap 100 gram OAT QUAKER,
ada lemak 11 gram, 57 gram 0,96 gram Mineral dan 370 kilo kalori Demikian
seterusnya untuk data yang lain. Dari file CLUSTER HIERARKI yang berisi 18 merk
susu bubuk tersebut, akan dilakukan analisis Cluster untuk profil tersebut.
analisis Cluster:
Pada me CLUSTER terlihat isi data sangat bervariasi dalam satuan, ill mana ada
variabel (data) dengan satuan Ratusan (Energi), namun ada data dengan satuan di
bawah 10 (Mineral). Dengan demikian, dilakukan transformasi variabel ke bentuk z
score. Hanya berbeda dengan proses K-MEANS CLUSTER, proses pembuatan z-score pada
Hierarchichal Cluster bisa dilakukan secara otomatis lewat menu METHOD (lihat
penjelasan proses analisis Cluster di bawah).
2.
ANALISIS CLUSTER
dilakukan analisis dengan metode HIERARCHICAL
hierarki.sav Hierarchical
III
Dari menu Analyze, pilih submenu Classify, lalu Cluster ... Tampak ill layar:
69
Pengisian:
®
VARIABLES. Sesuai kasus, masukkan semua variabel, yakni karbohid, mineral dan
energi, LABEL CASES masukkan variabel susu.
CLUSTER atau akan dilakukan cluster untuk kasus (baris) atau variabel (kolom). Oleh
karena akan dilakukan cluster berdasar kasus (merk susu), biarkan pilihan pada
cases. .. DISPLAY atau tampilan yang akan ditayangkan pada output, yang meliputi
pilihan Statistik yang relevan dan Plot (grafik). Untuk keseragaman, (aktifkan)
keduanya. hingga tampak di layar:
Untuk keseragaman, selain kotak AGGLOMERATION yang telah diaktifkan, aktifkan pula:
SCHEDULE
Kotak Proximity matrix. Pilihan ini berfungsi untuk menampilkan jarak antar
variabel. Pada bagian CLUSTER MEMBERSHIP, klik mouse pada pilihan RANGE OF
SOLUTIONS, dan ketik 2 pada FROM serta 4 untuk THROUGH. Hal ini berarti nanti akan
ditampilkan susunan 2, 3 dan 4 cluster. Pilihan angka range cluster pada dasarnya
adalah bebas, walaupun 4 cluster pada banyak kasus adalah pilihan paling optimal.
Kemudian tekan tombol CONTINUE untuk kembali ke menu utama. " Kemudian klik mouse
pada kotak hingga tampak di layar:
70
Kotak dialog PLOTS berisi berbagai pilihan grafik apa yang akan ditampilkan, Untuk
keseragaman, aktifkan pilihan '''j;;A
"-"O ....
Kernudian untuk bagian ICICLE, bagian ini tidak akan ditampilkan pada output,
sehingga None. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama, '"
Kemudian klik mouse pada kotak Method ... , hingga tampak di layar:
Kotak Dialog METHOD adalah inti dad proses clustering, yang meliputi cara
pengukuran jarak antar variabel (measure), transformasi data ke z-score atau yang
lain (jika diperlukan) dan metode clustering.
group
Untuk keseragaman,
NB: Transformasi dilakukan karena ada perbedaan besar pada satuan data. Tentu saja,
jika pada data tidak ada perbedaan yang besar, transformasi tidak perlu dilakukan,
dan pilih NONE. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama,
Dan tampilan menu utama cluster, abaikan juga bagian yang tekan OK untuk proses
data.
dan
71
(Lihat file CLUSTER. .."..""n~A'~""'""i""" HasH OUTPUT akan satu per satu dengan
analisis
3.
Proximities
Case Processing Cases Valid Summarj'
N
18
I Percent I
100,0%
Missinq
a, Squared
Euclidean
°I
I Percent I
,0%
Total
N
18
I Percent
I
100,0%
Distance
used
Proximity
Matrix
S uared Euclidean
Quak Ca have 15.758 .608 1.464 2.857 B 4.860 7.890 8.141 2.059 4.280 18.954 8.069
4.015 10.064 4.920
5_758 1.134 6.051 2.605 1.997 4.322 4.699 6.130 2.993 1.555 4.571 5.266 0.707 4.708
.608 U34 .640 3.993 7.445 1.189 1.458 2.197 6.412 0.645 1.388 1.771 5.443 3.838
7.985 2.078 6.007
Danca .Frisia .Frisia 'Frisla :Frisi :Dane valtl :Mi! Ballta glnstaQFuH Cokao Ma
Coktat 464857 4.860 7.890 8.141 2.059 4.28018.954 .051 605 1.997 4.322 4.699
6409937.445 356 6.416 .356 ,416 .724 .119 .807 871 2.666 9.724 4.305 .383 383 .445
3.142 .352 3.953 426 519 1.440 4.808 3.335 4.509 2E-02 5.347 989 4.697 7E-03 2.496
4.619 4.203 7.081 3.946 5.718 1.251 4.549 3E-02 2.927 5.436 4.867 7.458 4.420 1.892
5.814 5.404 6.062 .975 7.442 4.546 2.964 0.812 4.477 .995 1.412 3.494 2.315 3.891
4.722 0.119 4.874 .445 2E-02 6.1302.993 807 .735 3.142 5.347 5.718 4.871 1.555
9.122 1.189 1.458 2.1976.412
d,
Distance .Ante .Danc :Indom .tndorn .Proste alsiun :Tropica ll Crea u orea Coklat
dahle llOQq Slim :Proti 8.069 8.340 4.015 10.064 4.920 .594 897 4.571 24.357~5.266
5.443 3.436 .376 1.440 2.496 2.927 .975 ,388 15.076 2.476 3.193 3.193 5.557 4.973
7.583 4.299 3.557 2.409 3.875 6.382 1.075 7.252 1.932 2.815 2.129 7.382 9.846 4.297
.426 7E~03 3E.{}2 5.404 .995 4.724 10.519 5.174 .519 1E-02 SE-03 6.062 1.412 14.843
1E-02 1E-02 2.476 4.480 4.174 7.226 3.899 20.707 4.708 13.838 7.985 11.615 3.683
4.808 4.619 5.436 7.442 3.494 23.062 4,480 5.557 3.557 7.102 1.925 3.335 4.203
4.867 4.546 2.315 1.464 4.174 4.973 2.409 1.075 12.320 2.078 2.948 2.675 4.509
7.081 7.458 2.964 3.891 22.441 7.226 7.583 3.875 7.252 2.815 .617 .007 .365 .018 .
578 .946 .420 .812 .722 .222 .899 .299 .382 .932 .129 .382
0.64511.38811.771
4:0valtine
1.201 16.293 .352 13.953 .989 14.697 1.251 1.892 4.549 5.814 14.477 4.724
e.nancow
666
305 874 735 201 297 174 376 925
.122 293
,846
.519 .436 .102 .385
8.340 ~357
1E-D2 5E-03
.615 683 .948 675
018 4.578
1""
4.843 3.062 1.464 2.441 6.222
Tabel berikut menyatakan matrik dengan angka yang tertera adalah jarak (distance)
antara dua buah variabeL Seperti diketahui, langkah pertama Cluster adalah
melakukan pengukuran terhadap kesamaan (similarity) antar variabel, sesuai tujuan
cluster untuk mengelompokkan variabel yang sama (similar). Dati kotak dialog
METHOD, pilih SQUARED EUCLIDEAN DISTANCES 72
matrik
berdasar
ukuran
Sebagai contoh, jarak antara variabel 1 (OAT QUAKER) dengan variabel 2 (NESTLE
CARNATION) adalah 15,758. Sedang jarak antara variabel 1 (OAT QUAKER) dengan
variabel 3 (LIGO HAVERMOUT) 0,608. Hal ini berarti susu OAT QUAKER lebih mirip
(similar) dalam karakteristiknya (lemak, energi dan seterusnya) dengan susu LIGO,
namun berbeda jauh dengan susu NESTLE. Demikian seterusnya untuk penafsiran data
yang lain, dengan acuan semakin kecil angka antar dua variabel, makin satu sama
lain. Namun demikian, dengan banyaknya kombinasi jarak dari 18 variabel tersebut,
diperlukan proses dengan metode tertentu agar ke 18 susu tersebut berkelompok
sesuai kemiripan masing-masing, basil seperti di bawah.
Agglomeration
Cluster 1 0 0 1 0 0 0 0 4 5 0 6 10 11 8 13 15 16
Cluster 2 0 0 2 0 0 0 0 3 0 0 7 0 9
12
Next Stage 3 3 8 8 9 11 11 14 13 12 13 14 15 15 16 17 0
14 0 0
terbentuknya cluster yang ban yak, pelan-pelan jumlah cluster berkurang sehingga
akhirnya semua menjadi satu cluster saja, Cam pembuatan duster yang dimulai dari
dua atau lebih variabel yang paling rnirip membentuk satu cluster, kemudian cluster
memasukkan lagi sam variabel yang paling mirip, dinamakan dengan AGGLOMERASI.
e
Seperti pada tahap atau stage 1 (lihat baris 1), terbentuk sam duster dengan
anggota variabel 7 (FRISIAN FLAG INST AN) dengan variabel 12 (DANCOW FULL CREAM).
Perhatikan kolom koefisien yang berisi angka 3,237E-03 atau 0,003237, yang
menyatakan jarak antara variabel susu Frisian Flag Instan dengan variabel susu
Dancow Full Cream, seperti yang terlihat pada matrik proximity sebelumnya. Karena
proses agglomerasi dimulai dengan dua variabel yang terdekat, maka j arak kedua
variabel tersebut adalah yang terdekat dari sekian banyak kombinasi jarak dari 18
variabel yang ada. Kemudian jika dilihat pada kolom terakhir untuk baris 1 tersebut
(NEXT STAGE), terlihat angka 3. Hal ini berarti langkah clustering selanjutnya
dilakukan dengan melihat stage 3 atau baris ke 3, dengan penjelasan berikut ini.
Pada baris 3, terlihat variabel 7 (FRISIAN FLAG INST AN) membentuk cluster dengan
variabel 8 (FRISIAN FLAG FULL CREAM). Dengan demikian, sekarang cluster terdiri
dati 3 variabel, yakni FRISIAN FLAG INSTAN, DANCOW FULL CREAM dan FRISIAN FLAG FULL
CREAM. Angka pada kolom COEFFICIENT adalah jarak rata-rata yang terjadi antara
variabel terakhir yang bergabung FRISIAN FULL CREAM dengan dua variabel terdahulu,
yakni variabel 7 (FRISIAN FLAG INS TAN) dan variabel 12 (DANCOW FULL CREAM), yang
bisa dilihat jarak pada Output PROXIMITY MATRIX: Jarak antara variabel 8 dengan
variabel 7 adalah 0,03552 Jarak antara variabel S dengan variabel IZ adalah 0,05313
Jarak rata-rata= (0,03552+0,05313)/2=0,04432 Akan tetapi, jika dilihat pada stage 2
(baris 2), terjadi pembentukan cluster lain, antara variabel 8 dengan variabel 13,
yang kemudian juga dilanjutkan ke (NEXT STAGE pada baris 2) baris 3. Jika dilihat
dari stage 2 ke stage 3, terjadi penambahan variabel 7 ke cluster yang sudah ada
(yakni antara variabel 8 dengan 13). Dengan demikian, jarak rata-rata: Jarak antara
variabel 7 dengan variabel 8 adalah 0,03552 Jarak antara variabel 8 dengan variabel
13 adalah 0,08225
74
Jarak 0,057 inilah yang tampak di kolom Koefisien. Namun, jika stage 3 tidak
(kebetulan) terkait langsung dengan stage 2, maka angka 0,004432 atau 4,432E-02
yang ditampilkan, Demikian seterusnya dari stage 3 proses dilanjutkan ke stage 8,
dari stage 8 ke stage 14 dan selanjutnya sampai ke stage terakhir, yakni stage 17.
Jika angka pada NEXT STAGE adalah 0, berarti proses cluster untuk jalur tersebut
sudah selesai, dan cluster dilanjutkan ke tahapan awal pada stage yang belum
dicluster, Proses ini berjalan secara otomatis sampai semua variabel pada akhimya
membentuk sebuah cluster saja (lihat DENDOGRAM). Proses agglomerasi ini tentu
bersifat kompleks, khususnya perhitungan koefisien yang rnelibatkan sekian banyak
variabel dan terus bertambah. Yang perlu diperhatikan adalah semakin kecil angka
koefisien, semakin anggota cluster tersebut mempunyai kemiripan satu dengan yang
lain. Dan sebaliknya, makin besar koefisien, makin tidak rnirip satu dengan yang
lain. Sebagai contoh, pada stage 15, terjadi penggabungan variabel 1 dengan
variabel 6 (dan tentunya sudah terjadi penggabungan dengan variabel lainnya), dan
koefisien yang didapat adalah 6,611. Jika dilihat pada NEXT STAGE untuk baris 15,
proses cluster dilanjutkan ke stage 16, dengan memasukkan variabel 11. Terlihat
koefisien langsung melonjak menjadi 17,896. Dengan demikian, pemasukan variabel 11
(DANCOW membuat jarak keseluruhan makin besar secara signifikan, Hal ini bisa
dilihat Dendograrn, ill mana variabel 6 dengan 11 memang sangat berjauhan. Proses
agglomerasi pada akhirnya akan menyatukan semua variabel menjadi satu cluster.
Hanya dalam prosesnya, dihasilkan beberapa cluster dengan masing-masing anggotanya,
tergantung jumlah cluster yang dibentuk. Perincian cluster dengan anggota yang
terbentuk bisa dilihat pada output selanjutnya.
75
Cluster Membership
Case 1:OAT Quaker 2:Nestle Carnation 3:UGO havermout 4:0valtine 5:Milo 6:Dancow
7:Frisian 8:Frisian 8alita Flag Instan Flag Full Cr 4 Clusters 3 Clusters 2
Clusters
1
2 1 1 1 3
1
2 1
1
2
1 1
1
1 1 1
1
1
1
3 3
1
1
1 1
1
1
9:Frisian Flag Coklat 10:Frisian Flag Madu 11 :Dancow Coklat 12:Dancow 13:lndomilk
14:lndomilk 15:Prosleo 17:Tropicana 18:Protifar Full Cream Full Cream Coklat rendah
lemak Slim
3
4
1
1 1 1 1 1 1 1
3 1 1
1
3
3 1 3
1
1 1 1
3
1
anggota
tergantung
cluster yang
Jika ditentukan 4 Cluster, maka dengan melihat kolom 4 CLUSTERS: Anggota Cluster 1
adalah variabel dengan tanda 1, atau variabel susu OAT, LIGO, OV ALTINE, MlLO,
FRISIAN FLAG COKLAT, INDOMILK COKLAT dan TROPIC ANA SLIM. Anggota Cluster 2 adalah
variabel dengan tanda 2, atau variabel susu NESTLE CARNATION Anggota Cluster 3
adalah variabel dengan tanda 3, atau variabel susu DANCOW BALITA, FRISIAN FLAG
INSTAN, FRISIAN FLAG FULL CREAM, FRISIAN FLAG MADU, DANCOW FULL CREAM, INDOMlLK
FULL CREAM, PROSTEO, ANLENE dan PROTIFAR. Anggota Cluster 4 adalah variabel susu
DANCOW COKLAT. tanda 4, atau variabel
76
III
Jika ditentukan 3 Cluster, maka dengan melihat kolom 3 CLUSTERS: Anggota Cluster 3
adalah DANCOW COKLAT Anggota Cluster 2 adalah NESTLE CARNATION Anggota Cluster 1
adalah 16 merk susu di luar dua merk susu di atas.
<ill
Jika ditentukan 2 Cluster, maka dengan melihat kolom 2 CLUSTERS: Anggota Cluster 2
adalah NESTLE CARNATION Anggota Cluster 1 adalah 17 merk susu di luar merk susu
nestle.
Dari hasil di alas bisa dilihat bahwa peralihan dari 4 cluster ke 3 yang terjadi
adalah penggabungan variabel-variabel yang sudah dan bukan mengacak variabel dari
awal. Pada 3 cluster, terlihat anggota pada cluster 1 adalah merk-merk susu yang
sebelumnya anggota cluster 1 dan cluster 3 dari 4 Cluster. Demikian pula, dari
anggota cluster 1 dati formasi 2 CLUSTER adalah penggabungan dari anggota duster 3
dan cluster 1 dad 3 Cluster. Dari proses di atas bahwa susu DANCOW COKLAT dan
NESTLE memang jauh berbeda (tidak similar) dengan susu dan merk susu NESTLE adalah
yang paling berbeda dengan rnerk-merk yang lain.
77
ANALISIS DENDOGRAM: Perhatikan bahwa skala yang bukanlah koefisien yang ada pada
tabel Aggromeration Schedule, namun telah dilakukan proses skala (rescale), dengan
batasan 0 sampai 25. Proses agglomerasi dimulai pada skala 0, dengan ketentuan jika
sebuah garis dekat dengan angka 0, maka variabel-variabel yang terwakili dengan
garis tersebut semakin membentuk sebuah cluster.
'-"A~USU' contoh, variabel nomor 7, 12, 8, 13, 6 dan 10 membentuk sebuah cluster
tersendiri, karena mereka mempunyai panjang garis yang sama dan tergabung satu
kesatuan, Demikian variabel nomor 5, 14 dan 9 membentuk duster tersendiri. Juga
variabel nomor 1 dan 17, serta variabel nomor 3 dan 4.
Sebaliknya, variabel nomor 15, 11 dan 2 tidak tergabung dengan variabel karena
mempunyai garis yang lebih dari variabelvariabel yang telah disebut terdahulu.
Dengan demikian, pada proses pertama telah terbentuk sembilan
@
"
Kemudian proses dan sekarang terlihat variabel nomor <i5dan 16 bergabung menjadi
satu cluster, juga variabel 3 dan 4 yang sebelumnya telah tergabung, sekarang
bergabung lagi dengan variabel 1 dan 17 yang sebelumnya juga sudah membentuk satu
duster tersendiri, Demikian seterusnya, proses agglomerasi berjalan ke arah kanan,
dengan menggunakan petunjuk panjang garis yang semakin ke kanan, hingga pada semua
variabel akan tergabung satu cluster. Dendogram berguna untuk ditentukan
"~_'>~_'''I
akan
79
Kesimpulan: Tergantung dari cluster yang diinginkan, bisa ditarik kesimpulan dengan
berpedoman bahwa anggota sebuah cluster tentu mempunyai kemiripan satu dengan yang
lain, dan mereka tentu juga berbeda dengan UU,5S'J'" cluster yang lain. Sebagai
contoh, jika diambil 3 cluster, rnaka berdasar Dendogram, Susu Dancow Coklat
berbeda karakteristiknya (energi yang dihasilkan, kandungan lemak, karbohidrat dan
mineral) dengan susu Nestle Carnation. Namun kedua merk tersebut juga berbeda
karakteristiknya dengan susu yang lain, seperti Frisian Flag, Ovaltine dan
seterusnya. Namun jika dilihat dari proses agglomerasi awal, maka susu Frisian Flag
instan, madu dan full cream mempunyai satu dengan yang lain, dernikian pula dengan
Dancow Full Cream dan Dancow Balita. Dan di antara kedua merk susu tersebut, juga
mirip satu sama bersama dengan susu Indomilk Full Cream, karena mereka terbentuk
pada satu cluster. Namun pada proses awal tersebut, susu Frisian Flag Coklat justru
berbeda dengan jenis Frisian Flag lainnya, dan malah kemiripan dengan susu Milo dan
susu Indomilk Coklat, karena ketiga susu tersebut mernbentuk satu cluster
tersendiri. Demikian seterusnya bisa dibuat berbagai kesimpulan Lalu berapa jurnlah
cluster yang seharusnya digunakan? Sebenarnya tidak ada ketentuan atau rumusan yang
pasti jumlah cluster yang ideal, dan hal itu lebih tergantung tujuan penelitian
serta subyektifitas peneliti. Pada contoh di atas, jika diinginkan pengelompokan
susu yang sebanyak mungkin hingga diketahui susu mana saja yang berbeda dengan yang
lain, maka sembilan cluster (sesuai proses pertama cluster pada Dendogram) adalah
dimungkinkan untuk diambil sebagai jumlah cluster yang baik. Namun jika jumlah
terse but terlalu banyak dan akan diringkas, bisa dilanjutkan proses kedua dan
seterusnya.
80
Modul ini merupakan pengembangan dari analisis cluster, yakni melakukan hasil
cluster dengan berbagai variabel lain, khususnya yang berciri data nominal.
1:
Dari hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada
modul sebelumnya, buatlah tabulasi silang (Crosstab) yang relevan.
e
<II
Dan menu
Crosstabs ••.
di
81
Pengisian:
G>
Masukkan variabel daerah ke kotak ROW(S) Masukkan variabel qcl_l ke kotak COLUMN(S)
"
Dengan mengaktifkan pilihan Row, pada Output akan tampak komposisi persentase
berdasarkan baris, sesuatu yang relevan untuk profiling hasil cluster. Tekan tombol
CONTINUE untuk kembali ke kotak dialog Utama. Abaikan bagian yang kemudian tekan
tombol OK untuk proses.
82
CROSSTAB.spo.)
Case Processing
Summary
Cases
Valid N DAERAH Daerah TempatTinggal • QCL_1 Cluster Number of Case 60 Percent
100.0% N 0 Missing Percent .0% N 60 Total Percent 100.0%
DAERAH
Daerah Tempat
Tinggal"
OCl_1
Cluster
Number QCL
of Case 1 Cluster
creseraburancn
Number of Case
1
DAERAH Daerah
2 16 1 5.9% 18
94.7%
1 Kota Sesar
Count
T empat Tinggal
2 Kota Menengah
94.1%
3 Kota Keeil
Total
AnaUsis: Analisis akan dilakukan pada tabel CROSST AB untuk setiap bans:
o
Pada responden yang tinggal di Kota Besar, terlihat sebagian besar responden (94,1
%) menjadi anggota cluster 1, sedangkan sisanya ada di cluster 2. Namun mereka
tidak terdapat pada cluster 3. Pada responden yang tinggal di Kota Menengah,
terlihat sebagian besar responden (94,7%) justru menjadi anggota cluster 2,
sedangkan sisanya ada di cluster 3. Pada responden yang tinggal di Kota Kecil,
terlihat sebagian besar responden (95,8 %) menjadi anggota cluster 3, sedangkan
sisanya ada di duster 2.
@
<II
Dengan demikian, bisa dengan mudah disimpulkan bahwa responden yang ada di Kota
Besar adalah mereka yang dari Golongan Atas (lihat penamaan cluster pada modul
sebelumnya), sedang responden yang ada di kota Menengah adalah mereka yang termasuk
Golongan Menengah, dan 83
responden yang bertempat tinggal di Kota Kecil bisa dikategorikan yang ada di
Golongan Bawah.
mereka
Kasus di alas bersifat sederhana, dalam arti langsung bisa dilihat perbedaan
komposisi yang mencolok antar anggota Cluster. Dalam praktek, tentu dimungkinkan
perbedaan komposisi yang tidak berbeda jauh. Jika demikian, patokan tetap pada
komposisi per baris, dengan melihat persentase masingmasing baris untuk Hap
cluster.
B.
Crosstabs ...
Tampak di layar kotak dialog CROSST AB. Pengisian:
@
Masukkan variabel status ke kotak ROW(S) Masukkan variabel qd_l ke kotak COLUMN(S)
'.A.C,.LLnJ,
Pengisian:
@
Pada
PERCENTAGES,
aktifkan
Row.
Tekan tombol CONTINUE untuk kembali ke kotak dialog Utama. kemudian tekan tombol OK
untuk proses.
84
(Lihat file CLUSTER Crosstabs
CROSSTAB
2.spo.)
Case Processing
Summary Cases
Missing Percent N
Total Percent
60
100.0%
.0%
60
100.0%
STATUS
Status
Pernlkahan
* QCL_1
Cluster
Number
1 Belum Menikah
4
26.7% 7 28.0% 5 Pernikahan 25.0% 16 26.7%
3
20.0% 11 44.0% 6 30.0% 20 33.3%
8
53.3% 7 28.0%
Total 15 100.0% 25 100.0% 20 100.0% 60 100.0%
2 Menikah
Tanpa Anak
3 Menikah
dengan
Anak
9
45.0% 24 40.0%
Total
Analisis akan dilakukan pada tabel CROSST AB untuk setiap baris, dengan melihat
angka persentase:
@
Pada responden yang Belum Menikah, terlihat sebagian besar responden menjadi
anggota cluster 3, sedangkan sisanya tersebar cukup merata di cluster 2 dan cluster
3. Pada responden yang berstatus Menikah Tanpa Anak, terlihat sebagian besar
responden justru menjadi anggota cluster 2, sedangkan sisanya secara merata ada di
cluster 1 dan cluster 3. Pada responden yang berstatus Menikah dengan Anak,
terlihat sebagian besar responden menjadi anggota cluster 3, sedangkan sisanya
cukup merata di cluster 1 dan cluster 2.
85
Jika dilihat dan jumlah responden per kolom, duster 1 dan duster 3 mempunyai
komposisi yang relatif rnerata, sedangkan cluster 2 jelas didominasi responden yang
berstatus Menikah Tanpa Anak. Dengan demikian, pada cluster 1 tidak ada anggota
dari segi status yang sehingga strategi meraih pelanggan bisa dilakukan pada ketiga
Sedangkan jika meraih pelanggan dan clsuter 2, sebaiknya diarahkan kepada pelanggan
yang telah menikah namun belum anak, Sedangkan untuk cluster 3, karena dan analisis
per bans yang dominan adalah responden yang berstatus Bujang dan mereka yang
menikah dengan anak, maka strategi bisa diarahkan kepada kedua golongan status
tersebut.
UVLLHU . .,H, HH_,UUJUH
Dan hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada modul
sebelumnya, buatlah Grafik yang relevan, A, BUATLAH GRAFIK PENCARAN CLUSTER) DAR!
VARIABEL
JLJi"",'JjlL<
III
Buka file Dari menu Graph, Plot ... Tarnpak di layar: pilih submenu lalu Scatter
III
86
Pengisian: '" '" '" Masukkan tanda Masukkan tanda variabel qd_l pada sumbu X (kotak
panjang dengan variabel qcl_2 pada sumbu Y (kotak panjang dengan
NB: Jika saat pemasukan variabel tampak kotak dialog untuk mengubah (Convert) tanda
variabel agar bisa dimasukkan ke kotak bersangkutan, maka klik mouse pada pilihan
CONVERT. Pilihan ini akan mengubah sirnbol dari variabel tertentu agar bisa
diproses pacta pembuatan Grafik. Tekan OK untuk proses pembuatan Grafik.
GRAFIKspo.)
3.90897 3.31776
:J
(33.12597
.g
·00
~ ~
!:
3.02605 2.65221
~ !:::::
2.40671 2.34781 (32.24968 2.20961
.g
~
2.04884 1_88764
5 :::~~:
,+-1,83827
Q)1_S5247
g
iii i5
ill
;_---------r---
-------------~'~-------,
Dengan pada simbol untuk Daerah yang ada di kotak kanan atas, terlihat Cluster 1
semua bersimbol A atau 'Kota Besar', sedangkan Cluster 2 sebagian besar beranggota
dengan simbol adalah B atau di Kota Menengah, dan Cluster 3 "'-LJaI',Aua besar
bersimbol X atau tinggal di Kota Kecil,
87
Pembuatan Grafik seperti ini akan melengkapi analisis yang dilakukan, dengan
kegunaan lebih pada visualisasi data yang lebih praktis dan jelas, dibanding
melihat deretan angka seperti pembuatan Crosstab yang telah dibuat pada kasus
sebelumnya, Catatan: Jika pada kotak dialog pembuatan Graph di atas, pada bagian
bawah (LABEL CASES BY) dimasukkan variabel tinggal, akan tampak hasil (output tidak
disimpan pada disket kerja):
Daerah Tempat
A Kota Besar B Kota Menengah X
Tinggal
Kota
Keel!
Cluster
Number
of Case
Sekarang terlihat deretan nama Kota temp at tinggal responden, yang dengan ukuran
Distance di sumbu Y, menunjukkan jarak kota tertentu dengan pusat clusternya
(dengan jarak terdekat tentunya tepat di sumbu X). Dari grafik tersebut, terlihat
kota Sernarang adalah kota (tinggal) terdekat dengan cluster 1, sedangkan daerah
Jakarta Timur adalah yang terjauh. Jika dilihat pada data di file
CLUSTER_Z_SCORE_HASIL, terlihat untuk variabel qcl_2 yang menunjukkan jarak sebuah
kasus, angka untuk Semarang (terkecil pada kode qcl_l=l) adalah 1,88. Demikian
seterusnya bisa dilihat pencaran kota-kota pada ketiga cluster yang terbentuk,
Posisi Kota Semarang yang paling dekat berarti responden yang tinggal di kota
Semarang adalah yang paling dekat dengan karakteristik duster 1, seperti usia
sekian, jam menonton TV sekian dan lainnya. Dernikian 88
sebaliknya dengan responden yang tinggal di Jakarta mempunyai ciri paling jauh
dengan karakteristik duster 1. B. BUATLAH VARIABEL
Timur,
yang
!II
Buka file duster_z_score_hasil Dari menu Plot ... Tampak di layar: pilih submenu
Interactive, lalu pilihan Scatter
Pengisian: .. Masukkan variabel zkonsums pada sumbu X (kotak panjang dengan tanda
~) Masukkan tanda 1') variabel zusia pada sumbu Y (kotak panjang dengan
..
89
GRAFIK
0.00000
1.00000
3.00000
Dengan berpedoman pada simbol untuk tiap Daerah yang ada di kotak kanan atas,
terlihat semua responden yang mempunyai tingkat konsumsi tinggi (sumbu X makin ke
kanan) adalah responden yang bertempat tinggal di Kota Besar. Sedang mereka yang
mempunyai konsumsi (pengeluaran) kecil, yang tersebar di bagian kiri sumbu X,
hampir semuanya berasal dati tempat tinggal Kota Menengah dan Kota Kecil, Dernikian
seterusnya bisa dibuat berbagai sumbu Y sesuai kebutuhan. variasi sumbu X dan
3
Seperti diketahui, dati hasil Cluster dengan metode K-Means cluster dengan kode 1,
2 dan 3, yang ada dalam satu variabel QCL_l. Agar lebih akan dilakukan pengubahan:
• Nama variabel QCL_l diubah CLUSTER. tiga yaitu
Kode 1,2 dan 3 diubah menjadi Golongan Atas, Menengah dan Bawah.
90