Anda di halaman 1dari 63

Buku Latihan SPSS

Statistik Multivariat

Kutipan Pasal44, Ayat I dan 2, Undang-Undang

Republik Indonesia tentang HAK CIPTA:

Tentang Sanksi Pelanggaran Undang-Undang Nomor 6 Tahun 1982 tentang HAK CIPTA,
sebagaimana telah diubah dengan Undang-Undang No.7 Tahun 1987 jo. Undang-Undang No.
12 Tahun 1997, bahwa: 1. Barangsiapa dengan sengaja dan tanpa hak mengumumkan atau
memperbanyak suatu ciptaan atau memberi izin untuk itu, dipidana dengan pidana
penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp.l 00.000.000,-
(seratus juta rupiah). Barangsiapa dengan sengaja menyiarkan, memamerkan,
mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran
Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara
paling lama 5 (lima) tahun dan/atau denda paling banyak Rp.50.000.000,- (lima puluh
juta rupiah).

2.

Buku Latihan SPSS

Statistik Multivariat

Singgih Santoso

Penerbit PT Elex Media Komputindo Kelompok Gramedia, Jakarta

Buku Latihan SPSS Statistik Multivariat

Singgih Santoso
© 2002, PI Elex Media Komputindo, Jakarta Hak cipta dilindungi undang-undang
Diterbitkan pertama kali oleh PI Elex Media Komputindo Kelompok Gramedia, Anggota
lKAPI, Jakarta 2002

12102736 ISBN: 979-20-3648-2

Dilarang keras menerjemahkan, memfotokopi, buku ini tanpa izin tertulis dari
Penerbit.

atau memperbanyak

sebagian atau seluruh isi

Dicetak oleh Percetakan PI Gramedia, Jakarta lsi di luar tanggung jawab percetakan

Pertama-tama Penulis mengucapkan puji dan syukur kepada Tuhan, yang dengan
anugerahNY a telah memberi kesempatan kepada Penulis untuk menyelesaikan satu buah
buku lagi bagi para Pembaca. Buku ini pada dasarnya merupakan kelanjutan dari 'BUKU
LATIHAN SPSS: STATISTIK PARAMETRIK' dan 'BUKU LATIHAN SPSS: STATISTIK NON
PARAMETRIK' (keduanya terbitan PT Elex Media Komputindo). Seri Buku Latihan SPSS
dimaksudkan sebagai pelengkap dari buku SPSS yang telah terbit sebelurnnya, dengan
harapan agar pembaca bisa lebih menguasai SPSS lewat berbagai aplikasi praktis.
Perbedaan dengan Buku Latihan SPSS Statistik Parametrik dan SPSS Non Parametrik
terdahulu adalah pada metode ilmu Statistik, yang karena ciri tertentu tidak hanya
melibatkan satu atau dua variabel, namun menggunakan banyak variabel yang diproses
secara bersama-sama. Seperti jika akan diteliti faktor apa saja yang mempengaruhi
seorang konsumen membeli sebuah Mobil? Pada kenyataannya, banyak faktor atau
variabel yang mempengaruhi konsumen tersebut, seperti Promosi dari Perusahaan,
Diskon yang ditawarkan, Kebutuhan riil dari Konsumen, Pendapatan Konsumen, Sistem
Kredit yang ditawarkan, Pengaruh dari Keluarga, Status Sosial dan sebagainya. Semua
faktor ini harus dianalisis bersama-sama, dan metode statistik parametrik atau non
pararnetrik tidak bisa digunakan karena hanya dapat menganalisis dua variabel. Oleh
karena itu, metode Multivariat harus digunakan pada kasus seperti diatas (Regresi
berganda, Factor Analysis atau lainnya). Perkembangan Software Statistik yang pesat
membuat penggunaan metode Multivariat yang sangat kompleks menjadi mudah dan
praktis. Oleh karena itu, aplikasi metode Multivariat dengan SPSS sebagai software
Statistik terpopuler semakin luas, dan karena buku yang khusus membahas aplikasi
Statistik Multivariat dengan bantuan komputer masih sedikit, kehadiran Buku Latihan
ini diharapkan mampu meningkatkan penggunaan Statistik Multivariat di berbagai
bidang.

Agar mudah dipahami, buku ini disusun dalam bentuk modul-modul, Setiap modul
membahas persoalan statistik tertentu atau penggunaan tools SPSS tertentu yang
dikaitkan dengan sebuah kasus Multivariat. Hal ini untuk memudahkan pemahaman akan
topik atau tools tersebut, tanpa dikacaukan dengan topik atau tools yang lain. Para
mahasiswa dan dosen dapat menggunakan buku latihan ini sebagai bahan pelengkap
kuliah Statistik atau Praktikum Statistik di Perguruan Tinggi. Selain itu, kalangan
peneliti, pengusaha dan pengguna awam yang terlibat dalam proses data statistik
merupakan kalangan yang tepat untuk menggunakan modul-modul pada buku ini dalam
praktek sehari-hari. Buku ini dilengkapi dengan disket kerja yang memuat data-data
statistik serta jawaban latihan. Dengan adanya kasus yang bersifat integratif namun
sederhana, pengguna dapat segera memaharni bagaimana SPSS secara praktis bisa
membantu mengambil keputusan atas berbagai masalah statistik yang melibatkan
penggunaan metode Multivariat. Dua seri Buku Latihan SPSS serta satu Buku Pedoman
SPSS versi 10 yang mendapat sambutan bagus di kalangan pembaca, juga disertai
dengan banyaknya email yang masuk ke Penulis. Topik yang ditanyakan dernikian
beragam, dari pembahasan skripsi atau thesis seorang mahasiswa, sampai permasalahan
pada sebuah perusahaan, Dari persoalan di bidang marketing sampai penggunaan
statistik di bidang kelautan. Penulis sungguh mengucapkan terima kasih atas
pertanyaan-pertanyaan dan terlebih kritik membangun dari para Pembaca, yang membuat
penulis sadar betapa luasnya aplikasi ilmu statistik pada berbagai bidang. Juga
Penulis merninta maaf kepada para Pembaca yang telah mengirim email namun belum
sempat dibalas karena kesibukan Penulis, atau yang mendapatkan jawaban yang kurang
memuaskan. Itulah keterbatasan Penulis, sesuatu yang mendorong Penulis untuk terus
belajar dan belajar, agar Pembaca tetap mendapatkan nilai tambah (value added) dari
setiap Buku Penulis. Jika pada buku ini ditemui kesalahan-kesalahan, baik itu dalam
pengoperasian SPSS, interpretasi output SPSS, penyusunan modul, atau bahkan konsep
statistik, silakan melontarkan berbagai pertanyaan maupun saran yang membangun ke
alamat email: singgih santoso@yahoo.com atau singgih@mailexcite.com

Atas terbitnya buku ini, ucapan terima kasih Penulis tujukan kepada PT ELEX MEDIA
KOMPUTINDO, khususnya kepada lbu Aristiawati beserta staf (lbu Elizabeth), yang
masih memberikan kesempatan berharga kepada Penulis untuk dapat menyampaikan sebuah
karyanya yang lain ke tangan para pembaca.

vi

Terima kasih juga ditujukan kepada para mahasiswa yang telah Penulis bimbing dalam
pembuatan Skripsi dan Penelitian, khususnya kepada saudara Agus Gianto, yang
memberi sumbangan data penelitian yang telah dilakukan di sebuah supermarket di
Yogyakarta. Juga terima kasih kepada Pimpinan dan staf PT MULTI AGUNG PERKASA,
sebuah Perusahaan Konsultan Sistem Informasi, dan PT MAGNA INTI DATA, sebuah
perusahaan Market Research. Semua itu telah memperkaya wawasan Penulis dalam
praktek pengolahan data statistik dengan SPSS, lewat kegiatan konsultasi di
berbagai perusahaan di Indonesia. Rasa terima kasih akhimya Penulis sampaikan
kepada istri Penulis, Priscilia Setian, yang selalu mendukung dan mengingatkan
Penulis untuk segera menyelesaikan buku ini. Dan kepada Putra Penulis, Alvin, yang
sekarang sedang lucu-lucunya. Kehadiran mereka sungguh menyadarkan Penulis betapa
berartinya sebuah keluarga, sebuah titipanNya.

Penulis

vii

PENGANTAR

ANALISIS

MULTIVARIAT

1 4 6 19 23 34 39 43 ; 47 52 68 81 93 97 113 129 138 143 147 154 174

TEORI UJI DATA MODUL 1 MODUL2 MODUL3 MODUL4 MODUL5 MODUL6 Uji Data (1) Missing
Value Analysis Uji Data (2) Perlakuan Terhadap Missing Value Uji Data (3) Outlier
Uji Data (4) Normalitas Uji Data (5) Homoskedastisitas Uji Data (6) Linieritas

CLUSTER ANALYSIS MODUL 7: Analisis Cluster K-Means Cluster MODUL 8: Analisis


Cluster (2) Hierarchical Cluster MODUL 9: Analisis Cluster (3) Crosstab dan Grafik
FACTOR ANAL YSIS

MODUL 10: Analisis Faktor (1) Menilai Variabel yang Layak MODUL 11: Analisis Faktor
(2) Factoring dan Rotasi MODUL 12: Analisis Faktor (3) Validasi Faktor. MODUL 13:
Analisis Faktor (4) Membuat Faktor Scores DISCRIMINANT ANALYSIS

MODUL 14: Analisis Diskriminan Dua Faktor (1) Uji Variabel MODUL 15: Analisis
Diskriminan Dua Faktor (2) MODUL 16: Analisis Diskriminan Tiga Faktor

ix

TEORI MANOVA
••....•••........•.......•.....•.•..............•....•.................... MODUL
17: General Linear Model (Univariat) MODUL 18: Manova (GLM Multivariat) MODUL 19:
Manova 2 (Factorial Design) MODUL 20: Manova 3 (Custom Tables) TEORI CANONICAL
CORRELATION

195 199 208 221 231 239 242 253 261 264 287 300 306 313 333 340 342

MODUL 21: Canonical Correlation MODUL 22: Canonical Correlation (2) TEORI CONJOINT
ANALYSIS MODUL 23: Analisis Conjoint (1) MODUL 24: Analisis Conjoint (2) MODUL 25:
Analisis Conjoint (3) SOALLATIHAN LAMPIRAN DATA

LAM PIRAN SITUS INTERNET MUL TIVARIAT LAM PI RAN SERI BUKU SPSS DAFT AR PUSTAKA
,C

Secara umum, Analisis Multivariat atau Metode Multivariat metode-metode statistik


yang secara bersama-sama melakukan analisis lebih dari dua variabel orang.

Vvl.HUUU111","c"

(simultan) obyek atau


Jadi bisa dikatakan analisis multivariat perluasan dari analisis univariat (seperti
t) atau bivariat (seperti korelasi dan regresi sederhana). Sebagai contoh,
dilakukan analisis regresi sederhana, dengan satu variabel Y dan satu variabel X,
maka analisis seperti itu dikatakan bivariat, karena ada dua (bi) variabel, X dan
Y. Sedang dilakukan analisis regresi berganda, dengan sam variabel Y dan dua
variabel X dan X2), maka analisis sudah bisa dikatakan karena ada tiga variabel
(yang berarti, Xl dan X2).

Variat bisa didefinisikan sebagai suatu kombinasi Hiller dari variabel- variabel
dengan bobot variabel yang ditentukan secara empiris. Sebagai contoh, ada persamaan
regresi berganda: Nilai variat=w l.XI +w2.x2+w3.x3+ ... +wn.Xn

Di sini Xn adalah variabel yang telah ditentukan oleh sedang wn adalah hasil dari
proses multivariat. Nilai variat adalah hasil dari proses p" •• dan w dan yang
menghasilkan suatu nilai variat tertentu.
'-<A1"4U

Data? Data yang secara statistik bisa dibagi menjadi Data metrik dan non metrik
dilakukan pada analisis multivariat. Hal ini disebabkan IHt.,LV,-',multivariat yang
rnengharuskan ciri-ciri data tertentu,

desimal, atau 178,45 em ~U',"HHaJlJo interval atau data rasio, data non metrik
adalah data yang desimal serta dilakukan yang diberi kode 1 untuk 'Pria' dan 2
'Wanita'. metrik akan data nominal atau data ordinal.
n,VUJHHH,

data

Analisis Univariat/Bivariat? Uni atau Bivariat lebih dan dua variabel, sernua
variabel tersebut dianalisis secara simultan atau bersamaan. Perbedaan tersebut
disebabkan Multivariat, Hal ini

Sistem Kualitas Rumah pertumbuhan sebuah tanaman, yang melibatkan pupuk yang Curah
keasaman Intensitas Sinar Matahari dan sebagainya. Kedua eontoh di atas tidak bisa
diselesaikan analisis univariat atau karena keterbatasan kedua analisis tersebut.

"V'~~'6M, alternatif

mengapa Analisis Multivariat tidak


dahulu dalam oernuunuun Statistik? yang terkait

Oleh karena waktu itu (Software) belum taraf ""_'--'.'hll'uau sekarang, di lain
sisi hampir semua perhitungan Multivariat tidak bisa atau sulit sekali dilakukan
secara manual. Dengan kualitas Software, seperti sekarang metode Multivariat dalam
statistik,

tersebut,

naik Pesawat
n.V'UAun

pernu.ursgue»

Multivariat harus meneeunascan


Multivariat lebih melibatkan maka
Oleh

karena

metode

UaLH.HJllb~.aH

untuk SPSS selain SPSS juga dengan program

Data untuk analisis Multivariat? Uji Data pada prinsipnya metode rnultivariat
(cluster "HE,uu,,,,,,",,,,, pada data tertentu. rl;int"rn,.pt,,~i dengan terlebih
dahulu? Pengabaian Data bisa berakibat biasnya kesimpulan yang atau bahkan metode
multivariat tidak bisa diproses, Seperti jika Data (yang terdiri atas banyak
variabel) mempunyai banyak missing value (data yang hilang atau tidak ada isinya).
Jika data tersebut dipaksa untuk diproses, yang dihasilkan bisa sangat berbeda data
tidak ada yang hilang (missing). Pada beberapa jenis data yang sangat banyak
'H~.H5aH'HU'"5 missing value, proses multivariat bahkan tidak bisa dilakukan. bahwa
berbagai dan bisa ,,'vU,.u'UUH, hasil proses multivariat bisa tidak dilakukan untuk
memastikan

Llv.u",om

Data yang akan

Kendala adalah banyaknya waktu dan tenaga yang terbuang untuk proses Uji Data, yang
bisa sebuah pemborosan. Sementara di lain sisi, jika memang Data tidak untuk lebih
lanjut, tidak ada jaminan adanya proses pengobatan' (remedies) data tersebut hingga
Ada macam Data?

Uji Data bisa dilakukan dengan empat cam:

..

Pengujian dengan menggunakan kenormalan sebuah distribusi korelasi dan sebagainya,


Pengujian Missing atau ada data yang

Grafik, seperti untuk menguji bentuk .... "."','"""sebaran dua variabel untuk data
yang tidak data secara

Pengujian Outlier yang sangat yang keberadaan data Outlier akan mengganggu
keseluruhan data. asumsi metode-metode Uji Linieritas dan sebagainya. dilakukan

..

Missing Data atau Missing V alue adalah informasi yang tidak tersedia untuk sebuah
subyek (kasus), Dalam SPSS, missing data adalah adanya sel-sel kosong pada satu
atau variabel, Data terjadi karena informasi untuk sesuatu tidak diberikan, sulit
diem atau memang informasi tersebut tidak ada. Sebagai contoh, pada Data Responden
atau Usia Responden, bisa saja ada Responden yang karena alasan pribadi tidak mau
menyebutkan Gaji ataupun Usianya, Hal iniberakibat adanya data yang kosong pada
kolom atau Usia. Missing Data pada dasarnya tidak bermasalah bagi keseluruhan data,
apalagi jika jumlahnya hanya sedikit, misal hanya sekitar 1% dari seluruh data.
Namun jika persentase data yang tersebut cukup besar, maka dilakukan pengujian
apakah data yang mengandung banyak missing tersebut masih layak diproses lebih
lanjut ataukah tidak. Pada kasus berikut akan bagaimana perlakuan terhadap missing
data, yang meliputi pengujian keacakan Missing serta upaya penanganan terhadap
Missing Data.

Perhatikan isi file MISSING VALUE.sav yang isinya sama persis dengan file
DISKRIMINANT.sav (akan dibahas di rnodul lain). File MISSING berdasarkan VALUE
berisi data 75 konsumen yang air minum mineral yang dikonsumsinya, digolongkan

SEDIKIT: konsumen termasuk sedikit mengkonsumsi untuk tipe ini adalah O. BANY AK:
konsumen termasuk Kode untuk tipe ini adalah 1.

air mineral. Kode air mineral. lalu

banyak mengkonsumsi

NB: Kode untuk data kategori bisa dilihat dengan menekan lihat bagian (kolom)
VALVES.

Sedang data lain adalah data bertipe rasio, seperti Usia konsumen, Berat dan Tinggi
badan konsumen, Income konsumen, Jam Kerja konsumen dalam sehari, serta kegiatan
Olahraga konsumen (jam) dalam sehari. Jika diperhatikan isi seluruh data, terlihat
ada beberapa sel yang tidak terisi, atau disebut sebagai MISSING VALUE (data yang
Sebagai contoh, untuk kasus pertarna, dengan konsumen bernama RUSDI, variabel Berat
badan Rusdi tidak tertera, Demikian pula untuk baris dengan konsumen bernama Lanny,
variabel Tinggi badan tidak tercantum. Di sini bisa dikatakan bahwa pada kasus 1
dan 3 terdapat satu missing value, sedang pada kasus 2 tidak ada missing value.
Namun dilihat pada kasus 11, konsumen bernama Bambang mempunyai dua missing value,
yakni Usia dan Tinggi badannya. Sedang jika dilihat dari sudut kolom (variabel),
terlihat variabel USIA mempunyai sembilan missing value, namun variabel INCOME
hanya terdapat dua missing value. Demikian seterusnya bisa dilihat dari sudut kasus
dari variabel- missing value yang ada pada data konsumen air mineral tersebut, Dari
kasus di atas, akan dilihat apakah:
9

Apakah missing value yang

bersifat acak (random) ataukah tidak?

Terkait dengan permasalahan pertama, bagaimanakah seharusnya perlakuan terhadap


data yang mengandung missing value tersebut?

pada Missing Value Analysis:


1.

MENGUJI KEACAKAN MISSING VALUE


pertama adalah melakukan pengujian apakah data yang hilang tersebut bersifat random
ataukah tidak. Seharusnya value yang ada bersifat yang berarti tidak ada pola
tertentu value yang ada. Sebagai contoh, jika data yang missing pada variabel USIA,
semua missing pada konsumen yang termasuk SEDIKIT. Hal ini tidak
",-,U.U&,'~'

bisa dikatakan bersifat random, karena seharusnya data yang missing usia, selain
ditemukan pada mereka yang minum air mineral juga ditemukan pada mereka yang minum
air mineral BANY AK. Proses
@

Buka file milssjn~ value Dari menu

"

Pengisian: Masukkan variabel dan ke bagian QUANTITATIVE VARIABLE. Disebut variabel


berarti variabel yang dimasukkan hams data rasio. Masukkan variabel minum ke
CATEGORICAL VARIABLE. Disebut variabel kategori, berarti variabel yang dimasukkan
harus data bertipe nominal. Namun pernasuxun variabel dalam arti bisa saja bagian
ini dikosongkan. Masukkan variabel nama ke bagian CASE LABELS. Disebut Case labels
berarti data harus berbentuk (huruf). pengisian categorical variable, bagian ini
bersifat Pada bagian ESTIMATION kotak dan EM. tengah), aktifkan mouse)

NB: Listwise berarti hanya kasus yang semua datanya ada yang ditampilkan. Jika ada
kasus salah satu data missing, maka tidak akan disertakan. Sebagai contoh, kasus
nomor 2 yang lengkap

datanya akan dinamakan satu list. Ciri yang diproses sama. Pairwise berarti data
ditampilkan. Dengan bervariasi, dihubungkan.

ini adalah

data

U<:OJLAllJU"U,

lengkap

tidaknya

yang nu data akan data dua variabel yang MCAR.

EM adalah metode untuk ""'''5,'''''''''''''' Klik icon PATTERNS. Tampak di

Pengisian: Pada bagian DISPLAY, aktifkan dua Tabulated cases ... dan Cases with
misstng Abaikan bagian dialog utama, yakni

dan tekan CONTINUE untuk kembali ke kotak

Pengisian:

Pada bagian INDICATOR VARIABLE STATISTICS, aktifkan dua pilihan, yakni Percent
mismatch dan Cresstabulations of ... Abaikan bagian lain, dan tekan CONTINUE untuk
kembali ke kotak utama, berikut. lain dan tekan OK untuk proses pada file MISSING

PERHATlKAN. TIDAK SEMUA BAGlAN OUTPUT DITAMPILKAN. HANYA BAGlAN OUTPUT YANG RELEV
AN YANG AKAN DIBAHAS. Deskripsi variabel dengan adanya Missing value

Univariate

Statistics No. of Extremes" Low Hiqh

Missina N USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM Mean Std. Deviation
Count Percent

66 69 71 73 73 73 75

30.1364 54.9130 160.1268 618.9041 5.2630 3.048

6.3679 10.7440 6.8867 123.6433 .1260 .638

9 6 4 2 2 2 0

12.0 8.0 5.3 2.7 2.7 2.7 .0

0 0 0 0 0 0

0 0 7 0 0 0

a. Number of cases outside the range (01 - 1.5*IOR, 03 + 1.5*IOR).

N, terlihat angka bervariasi pada setiap pada setiap variabel, Pada variabel USIA,
dari 75 konsumen yang ada 66 data Usia konsumen yang sehingga ada 75-66) data yang
missing. Demikian seterusnya untuk variabel yang catatan semua data variabel MINUM
lengkap terisi atau ada Hal ini bisa juga dilihat pada kolom MISSING, pada Count
untuk nyata, dan bagian Percent untuk menghitung persentase mana untuk variabel
USIA, persentase adalah 9175*100% atau 12%). Kolom Mean dan Standard Deviation
menunjukkan nilai statistik dasar, rata-rata dan standar deviasi untuk setiap
variabel, yang dihitung dari jumlah data yang valid (tidak missing). Untuk variabel
USIA, rata-rata usia 66 10

konsumen adalah 30,13 tahun seterusnya untuk data yang lain,


Summary of Estimated

standar deviasi

tahun. Dernikian

Means w 2: 0

iii

«
:::l

f0::
W

«
III

a 0
Z

« -,
0::
W

<
CJ
0:: I

1=

~
2:

« -a
52478 5.2630 5.2640

« -'

Ustwise All Values

EM

29.9057 30.1364 30.2384

55.5094 54.9130 54.9249

159.8302 160.1268 160.1303

609.4340 618.9041 620.4232

2,996 3.048 3.048

rata-rata ukuran: Jika " Jika rata-rata Usia memacn dan ,,~'v"A".']

dad

tabel

Jika badan

HH,HIUUJ.

rata-rata Usia dan seterusnya,

UL\,HIU\.H

berat

MINUM
~
f-

2 '6 :Jl
a a 33 86.8 13.2 34 89.5 10.5 35 92.1 7.9
are not

.x:

_Q

'" c '" a

»,

,-

USIA

Present

Count Percent

66 88.0 12.0 69 92.0 8.0 71 94.7 5.3

33 89.2 10.8 35 94.6 5.4 36 97.3 2.7

Missing BERAT Present

% SysMis Count Percent

Missing TINGGI Present

% SysMis Count Percent

Missing Indicator displayed. variables

% SysMis

with less than 5% missing

11

Untuk vatiabel USIA, dati 66 data yang valid, 33 data ada pada kategori minum dan
sisanya (33 data) ada pada minum BANY AK. Sedang dari komposisi data yang missing,
13,2% data yang missing ada pada usia konsumen yang termasuk air mineral kategori
SEDIKIT, sedang 10,8% berasal dari mereka yang termasuk air mineral kategori BANY
AK. Perhatikan angka 12% yang rata-rata dati 13,2% dengan Demikian seterusnya untuk
variabel yang lain. Perhatikan ada tiga variabel yang ditampilkan dari enam
variabel yang diuji, Hal ini disebabkan variabel (MlNUM, INCOME, JAM KERJA dan
OLAHRAGA) mempunyai sedikit data yang missing (kurang dari 5% dari total 75 data)
sehingga tidak pada Bahkan untuk variabel tidak ada data yang Dari terlihat
penyebaran data yang missing dalam arti ada data hilang setiap kategori dan
variabel. Hal ini sudah menggambarkan keacakan data yang
-".Vll"UIU'-'U,
Penyebaran Missing Data

12

Missing

Patterns

(cases with missing

values)

Ol

'w

Ol

'w
0

Missing and Extreme Value Patterns"

':?;

(f)

':?;
:f!.

(f)

'"
Case RUSDI LUSI ERNI KRISTANTO NINIK ELI DINA ESTI RINA RULLY ROSSY AGNES BAM BANG
L1NA LANNY SUSANA L1TA SUSAN KARIM TATIK LENNY SULASTRI 1 1 1 1 1 2

':?;
14.3 14.3 14.3 14.3 14.3 28.6 14.3 14.3 14.3 14.3 14.3 14.3 28.6 14.3 14.3 14.3
14.3 14.3 14.3 14.3 14.3 28.6

::J Z

::;;;

2 0

ill

ill

::;; -c -,
cc :.::

« -.,

-c a: I «

« (9

(9 (9

-' 0

i=

CD

a:

I-

:::J

S S S S S S S S S S S S S S S S S S S S S S S S + S

1 1
1 1 1 1 2 1 1 1 1 1 1 1 1 2

- indicates an extreme low value, while + indicates an extreme high value. The
range used is (01 - 1.5*IOR, 03 + 1.5*IOR). a. Cases and variables are sorted on
missing patterns.

Tabel di atas menggambarkan npl,n7F"",r<ln konsumen yang memang antnnva bukannya


seluruh konsumen.

untuk dan

Pada bans 1, konsumen bernama Rusdi mempunyai satu missing data kolom #Missing)
pada variabel BERAT (lihat tanda Spada kolom BERAT). Oleh karena missing ada pada 1
dan 7 variabel, persentase missing adalah 117 x 100% atau 14,3%.

13

Sedang untuk baris 6, konsumen bernama Eli mempunyai dua missing data pada variabel
BERAT dan USIA. Oleh karena missing ada pada 2 dari 7 variabel, persentase missing
adalah 217 x 100% atau 28,6%.
Tabulated Patterns
.0

Missinc Patterns

2 Q)

::J

~
Number of Cases

0 0

~ ~

UJ

UJ

~ ~ « -,

-c -, a:

« o
I

-c a:

(3
(')

l-

«
UJ

«
0
_j

1=

a:
co

CiS

is. E 0 0
::J

53 5
1

X X X X X X X X X X X X

6
1

3
2 2 1 1

53 58 65 59 63 56 55 55 54
61

Patterns with less than 1% cases (0 or fewer) are not displaved. a. Variables are
sorted on missing patterns. b. Number of complete cases if variables missing in
that pattern (marked with X) are not used.

Tabel di atas sisi lain dari penyebaran missing di mana missing value dinyatakan
per variabel. Pada baris pertama, angka 53 menyatakan ada 53 data (konsumen) yang
valid, dalam arti tidak terdapat missing value pada semua Hal inilah yang
dimaksudkan pengukuran dilakukan secara listwise. Sedang angka 5 baris kedua
berarti adanya lima data yang missing hanya variabel BERAT. Jika dilihat tabel
sebelumnya, konsurnen yang mempunyai data missing pada variabel BERAT adalah Rusdi,
Kristanto dan Ninik,

14

Sedang angka 1 pada bans ketiga berarti adanya satu data yang "'-"''''''15 variabel
BERAT dan USIA. Jika dilihat pada tabel sebelumnya, konsurnen yang data missing
variabel BERA T dan USIA adalah ELI. Demikian seterusnya untuk penjelasan bans
Untuk kolom terakhir:
III

Seandainya 5 data yang missing di variabel BERAT diperbaiki sehingga memaui tidak
missing, maka semua data yang tidak missing menjadi: 53+5=58 data yang
<"'11,5"""1-"

III

Baris 2 BERAT dan USIA. Seandainya 5 data yang missing di variabel BERAT sehingga
menjadi tidak missing, demikian 7 data pada variabel USIA tabel sebelumnya untuk
kolom maka semua data yang tidak "'-"NaIF, menjadi: 53+5+7=65 data yang lengkap.
NB: Perhatikan data dengan nama perhitungan di atas, karena terkait dan bukannya
USIA dan BERAT. Bambang tidak masuk dalam variabel USIA dan TINGGI,

Demikian seterusnya untuk data yang lain. Analisis LISTWISE


Llstwlse Correlations
W

Ui
:::l

I-
a: w

(D
<5

« -,
a: w

rn

2 0

1=

« -,

« <5 « a: I -c ...J
0

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA

1,000 .168 -,021 .829 -,168 ,505 1.000 ,230 .138 .144 ,048 1.000 -.072 .220 -.219
1,000 -.038 .704 1.000 -,110 1,000

di atas, metode listwise akan kasus yang tidak lengkap Dengan metode 53 data dan 75
data mula-mula yang karena tidak ada satu pun data 11ll""'''F,. semua

UWHtsiS"P

15

selanjutnya menghitung korelasi antar variabel untuk 53 data. 0,168 pada tabel di
atas menyatakan besar korelasi antara variabel BERAT dengan variabel USIA. Demikian
untuk korelasi antar variabel yang lain. Sebagai pedoman, jika angka korelasi di
bawah 0,5, pengaruh missing data suatu variabel terhadap '_<.'__ ~'.1 variabel
Sebaliknya untuk korelasi di atas 0,5. ada sedikit missing data dati

Sebagai contoh, korelasi antara variabel INCOME dengan USIA sebesar 0,829. Angka
korelasi yang besar ini menyatakan bahwa terjadinya missing value dari variabel
INCOME berpengaruh kuat missing value pada variabel USIA. Hal ini tidak bagus,
karena menandakan rendahnya keacakan missing value. Sebaliknya angka korelasi
variabel BERAT dengan USIA sebesar 0,168 yang di bawah Hal ini berarti adanya
tingkat keacakan yang tinggi pada missing karena pengaruh antar variabel lemah.
Jika dilihat pada tabel di atas, terlihat hanya ada dua korelasi yang cukup kuat,
yakni antara variabel INCOME-USIA dan INCOME-OLAHRAGA. Sedang korelasi termasuk
OLAHRAGA-USIA tidak menunjukkan korelasi yang kuat, Analisis metode Pairwise
Pairwise Frequencies
I0:
W

~
(J)

«
co

CJ

C)

::J

::;;; 0

« -, 0:
W

C)

i=

~
:2;

« « « ..J

::;;;
::J

0:

:c
0

« ...,

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM

66 61 63 65 64 64 66

69 65 67 67 67 69

71 69 69 69 71 73 71 71 73 73 71 73 73 73 75
Metode pairwise akan memasangkan (pair) variabel yang mempunyai data lengkap, dan
tidak menghilangkan sebuah bans begitu saja. Dengan demikian data bisa berbeda-beda
tergantung kelengkapan data dua variabel yang dipasangkan. Sebagai contoh, jika
yang dipasangkan variabel USIA dengan BERAT, akan ada 61 data yang valid, sedangkan
14 data (75-61) tidak valid. Namun, jika 16

dipasangkan variabel USIA dengan TINGGI, akan ada 63 data sedangkan 12 data (75-63)
tidak valid. Demikian kombinasi variabel lainnya.
Pairwise Correlations

iiJ
::J

«
a: w
co

I-

o
Z

r=

:2' 0

a: w

-,

<

~
:2'

a:
I

« o «
-' 0

«
-,

USIA BE RAT TINGGI INCOME JAMKERJA OLAHRAGA


1.000 .103 .030 .821 -.122 .507 1.000 .173 .072 .076 .040 1.000 -.029 .206 -.130
1.000 .024 .696 1.000 -.011 1.000

Tabel di atas mempunyai tafsiran yang sama dengan analisis korelasi antar variabel
dengan metode listwise yang telah U!1'A<ti,,,"aH '''vU'~'UUllL Sarna dengan
analisis listwise angka korelasi yang di alas 0,5 sangat sedikit sehingga bisa
dikatakan pola missing value adalah acak (random). Analisis metode EM
EM corretanonss

::J

iiJ

co

a:

I-

r=

a o

w :2' 0

« -a
w :2' « -,

a:

a:
I

« o -c
:)

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA

1.000 .069 .016 .815 -.117 .493 1.000 .154 .060 .067 .030 1.000 -.012 .204 -.107
1.000 .011 .707 df 1.000 -.007 Prob 1.000

a. Little's MCAR test: Chisquare .859


= 32.333,

= 42,

"-VH_"a~, '''''''''at''uu.

U,",'.HHUal!l,

korelasi di atas yang dua metode yakni rnetode Listwise dan Pairwise. Terlihat
hanya ada korelasi yang di atas 0,5, dan Dengan bisa dikatakan value adalah random
IPT',,",,"mnl"

Selain besar angka kelebihan metode EM adalah MCAR bagian bawah

alat

17

signifikansi MCAR (Frob) > 0,05, missing value adalah random Angka signifikansi
MCAR (Prob) < 0,05, missing value adalah tidak random

Jika dilihat bagian bawah terlihat angka MCAR yang unampuxan alat analisis Chi-
Square 32,33 0,859. Oleh karena angka probabilitas (signifikansi) jauh di atas maka
missing value dari data di atas adalah random. Kesimpulan Dengan demikian, terkait
dengan awal Kasus ini:

value yang terjadi, acak tidak memiliki pola tertentu; Perlakuan untuk missing
value akan dibahas pada modul selanjutnya.

18

Jika pada modul Missing Data (Value) bagian pertama dijelaskan pengujian kerandoman
Missing Data yang ada, modul berikut melanjutkan penanganan yang missing dan
ternyata bersifat random. Jika missing value terbukti random, dalam arti missing
value yang terjadi tidak disengaja dan tidak mengacu keadaaan tertentu (misal
missing hanya pada variabel usia), maka berbagai perlakuan bisa dilakukan pada
data-data yang missing. Penanganan terhadap Missing Value bisa bervariasi, seperti
membuang baris (kasus) yang mengandung missing value, menghapus variabel (kolom)
yang mengandung missing value dan sebagainya. Salah satu cara yang populer adalah
bukan menghilangkan barisatau kolom yang mengandung data missing, namun mengisi sel
(data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan
data terisi. Hal ini lebih baik dan rasional daripada membuang satu baris karena
usia konsumen tidak terdata, atau bahkan satu variabel hanya karena satu dua sel
tidak terisi. Cara mengisi data yang bisa bermacam-macam, dan yang populer adalah
mengisi dengan rata-rata keseluruhan data. Sebagai contoh, akan data usia yang cari
rata-rata usia konsumen secara keseluruhan, kemudian mengisi setiap data missing
dari variabel usia angka rata-rata tersebut,

19

1:
Modul ini terkait dengan kasus sebelumnya, yang ada file MISSING VALUE.SA V, dengan
penjelasan penggunaan metode pengisian berdasarkan Means data.

pada Missing Value Analysis


modul sebelumnya).

MENGISI MISSING VALUE


Proses pengisian dengan rata-rata data:
3

Buka file nnssmg value Dari menu

Pengisian: variabel dan ke bagian NEW (new) karena akan ada enam variabel bam atau
enam kolom tambahan, Perhatikan di sini dimasukkan enam variabel yang memang
mengandung data missing setiap variabel tersebut. NAME AND METHOD Perhatikan bagian
NAME yang otomatis nama variabel bam, USIA_l untuk pengganti variabel usia. Tentu
nama tersebut bisa misal UMUR atau yang lain.
AU"U<UUpJlU'-'lU lJ'~AUab'll

Masukkan

metode perlakuan tetap

Series Mean.
NB: buka kotak combo di MEAN OF NEARBY
20

dna data yang berdekatan. Seperti data atas 50, data tengah kosong dan data bawah
maka dengan metode ini, data tengah akan diisi rata-rata 50 dan 60, 55. Abaikan
bagian lain dan tekan OK untuk proses, dengan berikut, (Disimpan value i5a.u a,
i~"'"

me

sebagai

NB: Sebetulnya ada input yakni bertipe spo yang muncul terlebih dahulu setelah
proses selesai. Namun bertipe spo tidak disket kerja, walaupun dibahas berikut ini.

Deskri12si !)enggantian Missing value Output bertipe spo dan Missing Result
Variable USIA_l 9 6
4

dilayar:

Values

First Non-Miss

Last Non-Miss 75 75 75 75 75 75

Valid Cases 75 75 75 75 75 Function SMEAN(USIA) SMEAN(BERA T) SMEAN(TINGGI)


SMEAN(INCOME) SMEAN(JAMKER)

1 1 1 1 1 1

INCOME_l JAMKER_l OLAHRA_l

2
2
2

75 SMEAN(OLAHRAG)

Dari tabel output ill atas, terlihat ada 9 data untuk variabel USIA yang diganti, 6
variabel BERAT yang diganti dan seterusnya, Metode penggantian berdasarkan rata-
ratanya, Seperti untuk variabel USIA, karena rata-rata adalah 30,14 tahun (lihat
tabel output MISSING VALUE.spo bagian pertama modul sebelumnya), maka setiap data
yang kosong pada variabel USIA akan dengan angka 30,14. Dernikian untuk variabel
BERAT. Oleh karena rata-rata Berat badan adalah 54,91 kilogram (lihat tabel output
MISSING VALUE.spo bagian pertama pada modul sebelumnya), maka data yang kosong
variabel BERAT akan dengan angka 54,9.

21

Demikian seterusnya sehingga didapat hasil (hanya tambahan dan sebagian data):

,u":uuiinu.u,,,

enam kolom

Dari file diatas terlihat pada baris ke-5 dan 11 untuk variabel USIA, terdapat
pengisian angka 30,14 sebagai pengganti data yang kosong, Demikian untuk baris 1
dari variabel BERAT, yang sekarang terisi dengan angka Demikian seterusnya untuk
pengisian data yang mengacu pada rata-rata keseluruhan dari sebuah variabel.
Kesimpulan: Dengan adanya proses pengujian dati Missing Value kemudian pengisian
data pengganti, maka pada berbagai proses analisis multivariat (seperti
diskriminant, factor dan lainnya), data yang akan digunakan
Ii>

Data Pengganti, yakni keenam variabel bam tersebut Menggunakan metode Listwise
Menggunakan metode Pairwise

'"
Ii>

Jika menggunakan metode Listwise atau Pairwise, yang digunakan keenam variabel yang
lama. Pemilihan data mana yang akan digunakan, tentu tergantung !-'v""",.,..U.H
yang akan
U'GdmH.

pada tujuan

22

Data Outlier adalah data yang secara berbeda data-data yang lain. data dati 100
tinggi badan orang Asia, ada data tinggi badan 210 centimeter. Tinggi badan
tersebut 'ekstrim' rata-rata badan orang asia umumnya, rnisal sekitar 160
centimeter. Data 210 centimeter inilah yang disebut data outlier. Data Outlier bisa
1.

data. Terkait 150 centimeter Kesalahan

dengan contoh di atas, 210 centimeter.

2.

Terkait dengan contoh di alas, Badan adalah para Basket badan mereka di alas rata-
rata. data-data Terkait tidak bisa dihindarkan atas, memang ada Badan 210
centimeter. sebuah Data atau Variabel

3.

Kasus berikut akan HR'U5,uU"U"5 Data tersebut,

1:
data sama data yang

23

menyimpang (outlier) pada file tersebut? Dan jika memang ada data apakah tindakan
yang akan diambil?

Uji keberadaan Outlier bisa dilakukan membuat nilai z menampilkan Scatter Plot
serta penyajian Box Plot. 1, STANDARDISASI DATA

dua cara, data dalam bentuk

Deteksi Data dengan standardisasi pnnsipnya mengubah nilai data semula dalarn
bentuk z; kemudian menafsirkan nilai z tersebut,

o e

Buka file outlier Dari menu Descrlptives Tampak di layar:

Pengisian: Masukkan variabel usia, olahraga ke bagian VARIABLE(S). kerja dan

NB: Di sini tentu saja variabel MINUM tidak relevan untuk diuji, karena variabel
tersebut bertipe kategori (nominal). Aktifkan save standardizedvalues mengklik
mouse pada kotak tersebut, at variables, sebagai

Abaikan bagian lain dan tekan OK untuk proses, dengan berikut, (Disimpan pada file
outlier

NB: Sebetulnya ada input yakni spo yang justru muncul terlebih dahulu setelah
proses selesai. Namun output bertipe spo tidak disimpan pada disket kerja, dibahas
berikut ini.

24

Descriptive Statistics N 75 75 75 75 75 75 75 Minimum 20.00 35.00 148.00 400.00


5.00 2.0 Maximum 45.00 120.00 190.00 1000.00 5.50 4.5 Mean 30.4267 55.6933 160.3200
623.7333 5.2653 3.053 Std. Deviation 6.2734 13.8290 7.5626 131.7530 .1254 .631

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA Valid N (listwise)

Perhatikan kolom MEAN (Nilai Rata-rata) untuk setiap variabel. Sebagai adalah 30,42
tahun standar deviasi rata-rata adalah 55,59 kilogram Demikian seterusnya untuk
data yang lain. Standardisasi dengan nilai z:

dan STD. DEVIATION (Standar contoh, rata-rata usia konsumen 6,27 tahun. Berat tubuh
konsumen standar deviasi 13,8

di mana: x == nilai data

x == nilai rata-rata
() == standar deviasi sebagai contoh, usia Rusdi (data nomor 1) adalah 40 maka:
sedangkan jika berat Rusdi adalah 65 kilogram, maka:

25

untuk data dan variabel Demikian secara lengkap bisa dilihat file outlier

HasH standardisasi (hanya UH,UHliJlll',aU

Jika sebuah data maka nilai z yang +2,5 atau lebih kecil dan - 2,5. Gambar:

lebih besar dari

OUTLIER DATA NORMAL +

Jika dilihat tabel z; nilai sama luas daerah di bawah kurva normal sebesar Hal ini
berarti dari seluruh nilai data adalah data yang normal. Atau data tersebut
bervariasi dari variasi tersebut rnasih dalam batas normal. data

26

data yang menyimpang secara (outlier). Atau melewati batasan 2,5, data tersebut
dianggap data ekstrim
UiUH5i~UP

sebuah data

tersebut bisa berbeda pada kasus yang lain. Sebagian kurva normal 97,5%) batas yang
yang kurang dari batas yang berarti batasan makin diperketat, Jika mengacu
ill

batasan 2,5, rnaka:

Pada variabel kasus 5 (Dina), terlihat angka z adalah Hal ini berarti income dati
Dina adalah data outlier, yang dilihat income Dina variabel sebesar 1.000 maka
nilai income tersebut sangat berbeda dari income rata-rata konsumen yang (lihat
tabel di atas), Tanda + berarti income di atas nilai rata-rata, dan tanda -,
berarti nilai konsumen di bawah nilai rata-rata. Pada variabel BERAT, pada kasus 12
dan 19 terlihat angka z adalah di atas Hal ini berarti berat badan dati Yunus dan
LUis jauh dati berat rata-rata konsumen lainnya. Pada variabel rnelebih 2,5 atau
tidak ada data yang nilai z dari -2,5. Hal ini berarti semua konsumen olahraga yang
per hari rata-rata jam v.a'H"~5a'J.
HV,CUHU,

2.

SCATTER PLOT DATA


sebaran data dati dua variabel, data yang terletak

'-'''''",~mu

pencar plot) menampilkan dan secara visual akan bisa dideteksi data dari data. Oleh
karena scatter

>~~U~~~~6~~"~H

berikut lID pasangan variabel yang bisa


dari
UHCUlJLPUl\.(lJll.

sekian

Buka file outlier Dati menu laIu Scatter Plot 27

Tampak di layar:

~asukkan variabel inco~e usia pada sumbu Y(kotak

sumbu X (sumbu datar) dan variabel

Mernasukkan variabel dengan cara click and arahkan pointer pada variabel INCOME
(contoh), kemudian sambil tetap menahan tombol mouse, geser variabel tersebut ke
sumbu X Tentu penempatan variabel pada sumbu X atau bersifat bebas, dalam arti
boleh variabel INCOME diletakkan di sumbu yang berarti daripada ill sumbu X.
Abaikan bagian lain dan tekan tombol OK.

(Disimpan Lihat

file outlier scatter BAGIAN PERTA~A:

income

28

Dati output di atas, terlihat ada beberapa data yang bisa outlier. Dua data pertama
ada di bagian kanan atas, di mana Usia konsumen sudah sekitar 40 namun mempunyai
income mendekati 1000 (Rp. per bulan. Dari Data Editor, terlihat ada tiga data yang
ber-income 900 dan 1000. Sedang data outlier ketiga ada di bagian tengah di mana
usia konsumen bam sekitar 20-an tahun, namun income sudah mendekati 800. Sedang
data yang 'bergerombol' pada kiri bawah sampai kanan tengah. N amun demikian, data
outlier secara visual dilengkapi dengan z untuk memastikan tingkat selain dengan
bantu an Box Plot pengerjaan selanjutnya). Scatter Plot antara variabel BERAT
dengan INCOME ~ .. Buka file outlier Dari menu submenu lalu Scatter Plot

Tampak eli layar kotak dialog GRAPH. Pengisian: Masukkan variabel income pada sumbu
X dan variabel berat sumbu Y. Abaikan bagian lain dan tekan tombol OK. pada

file outlier scatter Lihat BAGIAN KEDUA:

income

29

Dari output di atas, terlihat ada dua data outlier yang terletak ill atas. Dua data
tersebut, dati sumbu variabel BERAT terlihat 100 kilogram dan 120 kilogram. Selain
income 1000 Ul'-'.'U"I",v'lfi.<Ul outlier karena terpisah cukup jauh di kanan
bawah.

bisa

Demikian seterusnya bisa dilakukan scatter plot antar variabel. Jika diarnbil dua
scatter ill atas, maka dapat data income 1000 bisa dikategorikan demikian berat 100
dan 120. Namun sekali kelengkapan nilai z tetap harus dilakukan dikehendaki
'''''''~'''''''AU.u

3. BOXPLOT
Cara untuk mendeteksi adanya outlier adalah mernbuat sebuah Box Plot untuk sebuah
variabel tertentu, yang dalam kasus berikut akan variabel USIA dan BERAT.

Buka file outlier Dari menu submenu

Masukkan variabel usia dan berat Pad a DISPLAY

kotak DEPENDENT kotak Plots

Kemudian buka kotak

30

Tampak

bentuk penyajian NONAKTIFKAN bagian DESCRIPfIVES (kanan tengah).


..uW'5H~, aH . ...
'-'V,"'_'HJL,

berbagai

Oleh karena steam and leaf pada untuk kembali ke Menu

Kemudian tekan tombol Utama Explore.

CONTINUE

Abaikan semua bagian lain dan tekan tombol OK untuk proses data.

(Disimpan Lihat

file outlier box BAGlAN PERTAMA (variabel USIA):

50,_--------------,

40

30

10.1---

-,,-

--'

USIA

Terlihat tidak ada sam pun data Usia konsumen yang ada di luar BoxPlot. Dengan
demikian bisa dikatakan tidak ada data outlier ataupun ekstrem pada variabel ini,
Lihat BAGIAN KEDUA (variabel BERAT):

31
140

120

100

0'

80

60

40

20

,~
BERAT

Pada BoxPlot untuk variabel terlihat ada dua data yang bisa rnkategonxan outlier
dan ekstrim. Data nomor tanda bulatan adalah data outlier. data nomor tanda *,
adalah data ekstrim.

dari berat adalah garis hitam di dalam '" '"

yang

kotak merah (BoxPlot), dengan data Berat konsumen ada batasan 25 75 n ..,'opr,,, 47
62 Garis horizontal yang ada di atas dan bawah kotak adalah batas atas dan bawah
dati data yang masih. tidak outlier ataupun ekstrim. Jib dilihat batas atas adalah
80 kilogram, Berat badan konsumen di bawah 80 kilogram masih tidak dianggap outlier
ekstrim. NB: Median dan sekelompok data bisa dicari dari menu submenu DESCRIPTIVE
lalu pilihan FREQUENCIES. Kemudian dati kotak dialog, buka kotak STATISTICS, dan
aktifkan Median serta isi Percentile,

'"

Jika sebuah data melebihi 1,5 kali garis batas atas atau bawah, data dianggap
p"'Jllj<lHl'S, hal itu disebut ekstrim, Pada kasus di alas, yang pada kasus lain
bisa saja ada (misal berat seseorang hanya 15 untuk kasus

BoxPlot yang dimulai dari outlier. Jika melebihi 3 kali ini kebetulan data outlier
ada di bawah batas bawah sesuatu yang jarang

32

4.

PENANGANAN

DATA OUTLIER pada

Setelah diketahui pada sebuah file sam atau lebih data data outlier tersebut bisa
dilakukan beberapa penanganan:
o

Data Outlier dihilangkan, karena dianggap tidak mencerminkan sebaran data yang
sesungguhnya. Atau mungkin data outlier tersebut karena kesalahan kesalahan pada
komputer dan sebagainya, Jika hal ini maka -sebagai contoh- konsumen dengan income
1000 akan dihilangkan, sehingga konsumen berkurang sam. Atau pada herat badan 120
kilogram bisa saja dari data. Data Outlier tetap dipertahankan (retensi), dan tidak
Hal ini bisa disebabkan ada data outlier atau H"-''''blUU ada konsumen yang atas.
Atau tidak bisa dikatakan ada kesalahan proses sampling maupun inputing data. Jika
ini dilakukan, maka -sebagai contoh- income 1000 ada di dan tidak dihapus, Atau
kasus BoxPlot, walaupun data 120 adalah ekstrim, namun berat tersebut tetap
dipertahankan pada data.
U'~'H5HUUUiSA'-"'H

..

tentu tergantung

atau sebuah data outlier, pengguna, dengan alasan masing-masing.

33

Uji Normalitas adalah ingin distribusi sebuah data atau mendekati distribusi
distribusi data bentuk lonceng (ben Data yang 'baik' adalah data yang mempuny
distribusi distribusi data terse but tidak menceng kekiri atau menceng kekanan.

secara maka bisa

Dari data yang tidak

data file OUTLIER.sav, di mana isi data secara soma pada MISSING VALUE, akan
variabel-variabel ada memenuhi asumsi normalitas? Dan jika memang ada variabel yang
memenuhi aumsi normalitas, tindakan yang akan diambil? normalitas variabel USIA dan
BERAT.

Pada kasus berikut akan

34

1.

un NORMAUTAS
dilakukan grafik dan melihat besaran

Uji Normalitas bisa Kolmogorov-Smirnov:


®

Buka file outlier Dati menu pilih submenu

..

Pengisian: Masukkan variabel usia dan berat Pada bagian DISPLAY kotak DEPENDENT
LIST kotak Plots

bawah), klik mouse di

UHJ".5'Ufi.cm

berbagai bentuk uji normalitas, maka: with tests.

Oleh

karena
1. 2.

Aktifkan kotak Normality NONAKTIFKAN DESCRIPTlVES (kanan


L'-'H""",,,.

bagian

35

3.

Pilih None pada bagian BOXPLOT CONTINUE

atas). untuk kembali ke Menu

Kemudian tekan tombol Utama Explore.

Abaikan semua bagian lain dan tekan tombol OK untuk proses data.

Lihat

tabel:
Tests of Normality

USIA ". This is a lower bound of the true significance. a. Lilliefors Significance
Correction

Kriteria pengujian:
6
01>

Angka

'ne,HHU',,,.H~' (SIG)

>0,05, maka data berdistribusi normal

Angka signifikansi (SIG) <0,05, maka data tidak berdistribusi normal bisa dilihat

NB: Keterangan lengkap tentang Kolmogorov-Smirnov BUKU LATIHAN SPSS NON PARAMETRIK.
Analisis:
<II

Untuk variabel USIA, karena angka SIG. adalah 0,2 yang jauh di atas 0,05, maka
distribusi data untuk Usia Konsumen adalah normal atau bisa dianggap normal, Untuk
variabel BERAT, karena angka SIG. adalah 0,000 yang di bawah 0,05, maka distribusi
data untuk Berat Badan Konsumen adalah tidak normal atau tidak bisa normal. berikut
ini.

ID

Lihat Plot (Grafik) BAGlAN PERT AMA

36

Normal Q-Q Plot of USIA

/~
/:c ,oy • ,V'

."
,,/

lye
20 Observed Value 30 40 ,0

Terlihat sebaran data dari variabel usia di sekitar 'U'-,H5,,-,Q'H ke kanan atas,
dan tidak ada data yang terletak ~~U"'"UR demikian, data tersebut bisa dikatakan
HW.E'''''. Lihat Plot BAGlAN KEDUA
Normal Q-Q Plot of BERAT
c--

c.

il

",."

.".0'

Observed Value

Terlihat sebaran data dari variabel Berat di sekitar garis yang mengarah ke kanan
atas, namun ada data yang terletak jauh dati sebaran data (perhatikan dua data
dengan berat badan 100 dan demikian, data tersebut bisa dikatakan TIDAK normal.
Keterangan: Selain dengan melihat Normal normal tidaknya data bisa dilihat pada
plot DETRENDED NORMAL Pada data sebaran data plot DETRENDED NORMAL Q-Q tidak
membentuk suatu tertentu, atau secara acak. Hal inilah yang terlihat DETRENDED
NORMAL untuk variabel Usia. Sedang pada variabel BERAT, plot DETRENDED NORMAL Q-Q
pola tertentu, dari kanan bawah kemudian menaik ke demikian, data variabel BERAT
bisa dikatakan tidak normal. 37

2.

PENANGANAN

DATA TIDAl{ NORMAL


UV'.'UL .. ,

Jika sebuah variabel mempunyai sebaran data yang tidak yang agar normal adalah: •

perlakuan

Menambah data. Seperti kasus, bisa dicari 20 atau 30 atau data baru untuk menambah
ke 75 data Berat Badan konsumen yang sudah ada. Kemudian dengan jumlah data yang
baru, dilakukan pengujian sekali lagi. Menghilangkan data yang dianggap penyebab
tidak normalnya data. Seperti pada variabel BERAT, dua data yang outlier dibuang,
yakni berat 100 dan 120, kemudian diulang proses pengujian, data bisa menjadi
normal. Jika belum normal, ulangi pengurangan data yang dianggap penyebab
ketidaknormalan data. Namun pengurangan data hams apakah tidak mengaburkan
1-'101.1<0'-''''''11 karena hilangnya data yang seharusnya ada. Dilakukan
transformasi misal mengubah data ke logaritma atau ke bentuk natural (LN) atau
bentuk kemudian dilakukan pengujian ulang. Data diterima apa adanya, memang
dianggap tidak normal dan tidak dilakukan berbagai treatment. Untuk alat analisis
yang hams diperhatikan, seperti untuk multivariat mungkin factor analysis tidak
begitu mementingkan asumsi kenormalan, Atau pacta kasus statistik univariat, bisa
dilakukan alat analisis non parametrik.
®

III

NB: Proses pengujian dan transformasi bisa dilihat pada BUKU LATIHAN SPSS
PARAMETRIK dan BUKU LATIHAN SPSS NON PARAMETRIK.

38

Uji Homoskedastisitas pada prinsipnya ingin menguji apakah sebuah grup (data
kategori) mempunyai varians yang sama di antara anggota grup tersebut, Jika varians
sama, dan ini yang seharusnya maka dikatakan ada Homoskedastisitas, Sedangkan jika
varians tidak sama, dikatakan terjadi Heteroskedastisitas. Alat untuk menguji
Homoskedastisitas bisa dibagi dua, yakni dengan alat analisis Levene Test, atau
dengan Analisis Residual yang berupa grafik. Kasus berikut akan membahas pengujian
Homoskedastisitas dengan menggunakan Levene Test.

1:
Dari data file HOMOSKEDASTISITAS.sav, di mana isi data secara prinsip sama dengan
data pada MISSING VALUE dan OUTLIER yang telah digunakan pada modul terdahulu, akan
diuji apakah data yang ada memenuhi asumsi homoskedastisitas? Dan jika memang ada
variabel yang tidak memenuhi homoskedastisitas, apakah tindakan yang akan diambil?

• •

Buka file homoskedastisitas Dari menu Analyze, Explore submenu

39

Masukkan variabel LIST Masukkan variabel mlnum NB: Pemasukan Pada Kemudian buka
kotak variabel

pada kotak DEPENDENT kotak FACTOR LIST

both

Pengisian: Pada none. and leaf

Pada bagian SPREAD VS LEVEL WITH LEVENE TEST, power estimation. Kemudian tekan
tombol Utama JUAiIJAV.'" CONTINUE untuk kembali ke Menu

Abaikan semua bagian lain dan tekan tombol OK untuk proses data.

40

\SJ'~"U'''pU'H

pada file SATU TABEL OUTPUT


of Variance Levene Statistic 4.244 3.789 3.789 4.143 2.822 2.062 2.062 2.775

HANYA DITAMPILKAN

Test of Homogeneity

df1 1 1 1 1 1 1 1 1
TINGGI

Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed
mean

df2 73 73 71.641 73 73 73 68.546 73

Sig. .043 .055 .056 .045 .097 .155 .156 .100

JAMKERJA

Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed
mean

Menentukan Hipotesis: Ho: kedua varians populasi adalah identik Hi: kedua varians
populasi adalah tidak identik NB: Yang dimaksud dua populasi adalah populasi
konsumen yang minum SEDIKIT, dan mereka yang minum BANY AK. Dengan U'Aj,llAjW.U,
populasi disesuaikan kategori data yang ada dimasukkan pada bagian FACTOR LIST.

Jika Probabilitas (SIG) > 0,05, maka Ho diterima Jika Probabilitas (SIG) < 0,05,
maka Ho ditolak Keputusan: Pada baris TINGGI dari tabel di atas, dan dengan dasar
angka SIG adalah 0,043. Oleh karena SIG. < 0,05 maka Ho ditolak, Hal ini berarti
varians dari data Tinggi Konsumen yang minum sedikit air mineral berbeda secara
dengan data Tinggi Konsumen yang minum air mineral. disimpulkan, telah terjadi
heteroskedastisitas variabel TINGGI dengan dasar grup MlNUM.

41

NB: Jika dilihat dasar terlihat angka SIG. penenmaan Ho, karena angka SIG. adalah
0,055. Dengan untuk kasus ini, diterima tidaknya Ho tergantung dasar yang
digunakan. Selain kasus, kriteria pengujian bisa tidak batas namun pada batas 0,01.

Proses sama seperti uji variabel TINGGI sebelumnya, Keputusan: Pada baris JAM KERJA
dari tabel di atas, dan dengan dasar Mean, SIG adalah 0,097. karen a angka SIG. >
0,05 maka Ho diterima. Hal ini berarti varians dari data Jam Kerja Konsurnen yang
minum sedikit air mineral relatif sama data Jam Kerja Konsumen yang minum banyak
air mineral. Dapat telah homoskedastisitas variabel JAM KERJA dasar grup MINUM.

Jika ada variabel yang pada variabel dilakukan transformasi data, seperti data
dalam bentuk logaritma, natural (LN) atau yang lain. Kemudian dengan Levene Test
dilakukan sekali
Hi~'H5uU<<H

42

antara variabel dalam range variabel antara Lari "aJiiLULHlS pada Usia orang
tersebut dikatakan bahwa makin tinggi usia seseorang, maka lari semakin yang ke
kanan atas. Namun hal itu benar range usia tertentu, misal antara 17 tahun 40
tahun. Di atas 40 tahun lari seseorang terbalik dengan makin tinggi usia orang
makin lambat
LvL0vC'UL,

Linieritas bisa yang garis regresi, Oleh karena scatter variabel saja, maka
dilakukan dengan dua data.

(diagram pencar) mernberi tambahan uU'~UF;"H dua akan

1:
di mana isi data secara MISSING VALUE dan OUTLIER yang telah ",,"'-'CU.lU"'", akan
apakah data yang ada memenuhi linieritas? Dan memang ada variabel yang tidak
memenuhi tindakan yang akan diambil?

43

Kasus berikut akan menguji asumsi Iinieritas untuk variabel USIA-INCOME dan
OLAHRAGA-BERAT.

1.
~ ~

SCATTER PLOT VARIABEL USIA-OLAHRAGA


Buka file homoskedastisltas Darimenu

Pengisian: Masukkan variabel usia pada sumbu X (sumbu datar) dan variabel pada
sumbu Y(kotak vertikal). Klik mouse pada icon FIT atas), tampak di

Kotak dialog di atas, nrinQ,'nn,,,, menentukan metode apa yang akan diberikan
scatter Untuk itu, buka kotak combo bagian METHOD, dan Abaikan bagian lain dan
tekan tombol OK.

44

file Lihat Output BAGIAN PERT AMA:

Linear Repression

usia

2.
ill

SCATTER

PLOT VARIABEL

BERAT-OLAHRAGA

Buka file homeskedastisitas Dari menu Tampak di Pengisian: Masukkan variabel berat
pada sumbu X dan variabel surnbu Y combo Abaikan bagian lain dan tekan tombol OK.
bagian kotak submenu GRAPH. Scatter Plot

45

Lihat

BAGIAN KEDUA:

Linear

Regression

'53.0

',"

ctahraga-e "A-5quare
3.07 '" 0.00

... -C.OO·

beret

beret

Terlihat garis regresi di atas yang cenderung mendatar. Kemudian, jika dilihat pada
persamaan regresi, koefisien regresi adalah o (-0,00). Hal ini membuktikan tidak
adanya linieritas pada hubungan dua variabel tersebut, yang berarti semakin besar
atau kecil berat badan seseorang, tidak ada hubungannya dengan banyaknya ia
berolahraga hari. Demikian seterusnya bisa dilakukan scatter antar dua variabel.

Jika hubungan dua data tidak atau terjadi non-linieritas, maka bisa dilakukan
transformasi data pada salah sam variabel. Pada kasus ini bisa dilakukan
transformasi data pada variabel BERAT atau variabel OLAHRAGA. Transformasi bisa
dilakukan secara logaritma (log X), akar (-Y X) dan sebagainya. Kemudian variabel
hasil transformasi tersebut diuji ulang, apakah sudah bisa dikatakan mempunyai
hubungan yang linier dengan variabellainnya.

46

analisis Cluster? utama Analisis Cluster adalah berdasarkan kesamaan karateristik


di antara Produk dan Benda (responden, konsumen atau yang diklasifikasikan ke dalam
satu atau lebih cluster yang berada dalam satu cluster akan yang lain.

(keiompok)

Gvl.HH,SIS"

baik?
di atas, secara duster yang baik adalah cluster

antar cluster yang satu

47

Pada banyak bidang


€I

seperti:

melakukan terhadap stimulasi tertentu, kepribadian mereka, tertentu.

atau

orang berdasar respon mereka pengelompokan orang berdasar

Ii>

membantu proses taksonomi untuk mengelompokkan rnembantu mengelompokkan mereka


terhadap tertentu, konsumen berdasar pendapat

ill

Berikan contoh Analisis Cluster! diketahui Konsumen yang membeli Rumah di Real
Estate tertentu. Untuk itu, sekian Responden diminta memberi pendapat mereka
berbagai variabel sebuah nu.,uwu, seperti Lingkungan yang aman, Lingkungan yang
nyaman dan bebas banjir, Fasilitas Umum dan Sosial yang memadai, Letak Perumahan
yang strategis, dekat dengan pasar dan sekolah, Harga terjangkau, sistem pembayaran
yang fleksibel dan sebagainya. Dengan Analisis Cluster diketahui bahwa ternyata ada
3 kelompok (cluster) Konsumen pembeli Rumah tersebut, yakni Cluster yang
Lingkungan, Cluster yang mengutamakan sistem Kredit dan Cluster yang mengutamakan
Mutu Rumah terse but. Bagaimana proses dasar Proses Cluster:
e

Mengukur kesamaan antar obyek (similarity). Sesuai prinsip dasar Cluster yang
mengelompokkan obyek yang mempunyai kemiripan, maka proses pertarna adalah mengukur
seberapa jauh ada kesamaan antar obyek. Ada 3 metode yang digunakan:

2.

Mengukur Jarak (distance) antara dua obyek, Pengukuran ada bermacam-macam, yang
paling populer adalah metode Euclidean Distance. Mengukur Asosiasi antar obyek,

3.

NB: Korelasi dan Distance digunakan jika data adalah metrik, sedangkan Asosiasi
digunakan jika data adalah non metrik.

48

Dalam praktek, penggunaan paling populer.


5

metode Euclidean

Distance adalah yang

Sebelum melangkah lebih lanjut, diperhatikan data (variabel) yang ada mempunyai
perbedaan yang besar, Seperti jika variabel Penghasilan mempunyai satuan (000.000),
sedangkan usia seseorang hanya mempunyai satuan puluhan maka perbedaan yang
rnencolok ini akan membuat perhitungan distance dan menjadi tidak valid. Untuk itu,
semua data harus dilakukan proses standardisasi dengan mengubah ke Z-Score. Membuat
Cluster. Proses ini dati Cluster adalah pengelompokan yang bisa dilakukan dengan
dua metode: 1. data,

HIRARCHICAL METHOD. Metode ini memulai pengelompokan dengan dua atau lebih obyek
yang mempunyai kesamaan dekat, Kemudian proses diteruskan ke obyek lain yang
mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk
semacam di mana ada hierarki (tingkatan) yang jelas antar obyek, dari yang sampai
paling tidak Secara sernua pada hanya akan membentuk sebuah cluster. biasanya
digunakan untuk rnembantu memperjelas proses hierarki tersebut, NON-HIRARCHICAL
METHOD. Berbeda dengan metode hierarki, metode ini justru dimulai dengan menentukan
terlebih dahulu cluster yang cluster, tiga cluster atau yang lain). Setelah jumlah
cluster barn proses cluster dilakukan rnengikuti proses hierarki. Metode ini biasa
disebut dengan K-Means Cluster.

2.

<l>

Setelah Cluster terbentuk, entah dengan metode hierarki atau nonhierarki, langkah
selanjutnya melakukan terhadap duster yang telah yang pada intinya memberi nama
spesifik untuk menggambarkan isi cluster tersebut. Misal kelompok konsumen yang
memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai Cluster
LINGKUNGAN. Melakukan Validasi dan Profiling Cluster. Cluster yang terbentuk
kemudian apakah hasil tersebut valid. Kemudian dilakukan proses profiling untuk
menjelaskan karateristik cluster berdasar tertentu usia konsumen pembeli tingkat
penghasilannya dan sebagainya). Dati data profiling tersebut bisa dilakukan
analisis seperti Analisis Diskriminan.

49

harus auienuni Asumsi untuk Analisis Cluster:

Analisis Cluster?

yang diarnbil benar-benar bisa mewakili


@

yang ada. korelasi antar besar Multikolinieritas

Multikolinieritas, tidak tersebut tidaklah tinggi

adanya

Metode yang
UlU'U!U:f€

proses
secara hierarki:

metode Hierarkit

Ada

UClJU"p"

metode untuk proses

Linkage Metode ini akan mengelompokkan dua terdekat terlabih dahulu, Jika A dan B
mempuny (misal A dan C maka proses hierarki adalah mengeiompokxan
'2>

Complete Linkage Metode ini justru akan mengelompokkan jarak terlebih dahulu. dua
obyek yang mempunyai

Average

'-''',HU'F,''

Metode ini akan mengelompokkan berdasar jarak rata-rata yang melakukan rata-rata
semua jarak antar obyek terlebih Ward's Method Pada Metode jarak antara dua cluster
yagn terbentuk adalah sum of squares di antara dua cluster tersebut,
@

Centroid Method Pada Metode antara dua cluster adalah centroid cluster-cluster
tersebut. Centroid adalah rata-rata yang melakukan UH,f,F,'uCU suatu cluster
tertentu. ~'''"'''.uu di antara dna yang ada

50

Baeatmana

model Analisis Cluster?

Oleh karena Cluster termasuk berarti tidak ada variabel ataupun variabel mdependen,
ada sebuah model definitif untuk Cluster Analysis. Discriminant atau model
Dependence yang lain.

51

Modul ini akan membahas proses clustering dari sekelornpok data dengan metode K-
Means, yakni memproses semua secara sekaligus. Proses ini dimulai dengan cluster
terlebih dahulu, misal ditentukan akan ada 2 cluster, atau 3 atau angka

Manajer Pemasaran Kacang LEZAT konsumen kacang LEZAT berdasar konsumen, yakni
(lihat file cluster.sav):
@

Usia Konsumen Jumlah Anak dari Konsumen (orang) Income (penghasilan) Konsumen
(dalam Rupiah/bulan) Kegiatan Konsumen mernbaca koran setiap minggu Kegiatan
Konsumen menonton Televisi Jumlah Motor yang dimiliki Konsumen (buah) Jumlah Mobil
yang dimiliki Konsumen (buah) Jumlah Kartu Kredit IATM yang dimiliki Konsumen
(buah) Pembelian dalarn seminggu) dari Konsumen minggu (berapa kali minggu (jam)

.,
@

..
@

'" '"
II>

II>

52

Konsumsi
e
<l>

seorang

Konsumen

dalam

membeli

apapun

Jumlah jam kerja seorang Konsumen dalam seminggu Jumlah kegiatan seminggu (jam)
berbelanja (shopping) seorang Konsumen dalarn

NB: Tiga variabel pertama, TINGGAL, dan STATUS, tidak digunakan pada analisis
cluster, karena data bersifat string (untuk variabel TINGGAL) dan data bersifat
nominal variabel DAERAH dan STATUS). Contoh interpretasi data: Pada baris pertama,
Konsumen yang tinggal di Jakarta Utara, yang termasuk Kota Besar, mempunyai status
belum menikah, usia 25 tidak mempunyai anak, income Rp.2.000.000,-lbulan, membaca
koran rata-rata 10 jam per minggu, menonton Televisi rata-rata 20 per minggu, satu
Motor dan satu Mobil, mempunyai 3 macam Kartu Kredit atau rata-rata 4 kali membeli
barang dalam seminggu, konsumsi rata-rata Rp.600.000,-lbulan, bekerja rata-rata 40
per minggu dan melakukan kegiatan shopping rata-rata 10 per rninggu. Demikian
seterusnya untuk baris data yang lain. Dari file CLUSTER yang berisi Profil
pernbeli Kacang LEZAT tersebut, akan dilakukan analisis Cluster untuk tersebut.

Tahapan pada analisis Cluster:

1. MENILAI PERLUNY A MELAKUKAN TRANSFORMASI DATA


Pada File CLUSTER, terlihat isi data sangat bervariasi dalam satuan, dalam arti ada
variabel (data) dengan satuan Ratusan Ribu (Income), namun ada data dengan satuan
di bawah 10 (Anak), Perbedaan satuan yang mencolok seperti ini akan menyebabkan
bias dalam Analisis Cluster sehingga data asli hams ditransformasi (standardisasi)
sebelum bisa dianalisis. Dengan demikian, dilakukan transformasi terhadap variabel
yang relevan ke bentuk z score.

53

STANDARDISASI
<II

DATA DENGAN Z-SCORE:

Buka file duster pilih submenu

Pengisian:
III

Masukkan

ke kotak VARIABLE(S),

variabel dan

NB: Perhatikan variabel DAERAH dan STATUS tidak karena data adalah dan tidak
relevan kasus ini. Sedangkan variabel TINGGAL otomatis tidak masuk karena data
string
III

Kemudian aktifkan values as variables

mouse

Save Standardized

Abaikan

yang lain dan tekan OK untuk proses.


~H'~H'fHH~UH

sebagian,

lihat file
54

NB:
II>

Selain tampilan di atas, sebenarnya ada Output lain yang menginformasikan data
deskriptif dari variabel-variabel di atas, yang akan digunakan saat penafsiran
basil cluster.

Descriptive Statistics
N USIA ANAK rata-rata Usia Jumlah Anak Minimum Maximum Mean Std. Deviation

60 60 60 60

20 0 225000 2

42 4 2000000 11

29.88 .70 630000.00 5.73

5.66
1.11

INCOME

Penqhasuan per bulan

444094.97
2.32

KORAN Jumlah Jam membaca Koran setiap minggu TV Jumlah Jam menonton TV setiap

60 60 60 60 60 60 60 60 60

10 0 0 0
1

24 2 2 5 9 600000 75 25

16.77

3.59 .63 .65


1.19

minggu
MOTOR MOBIL Jumlah Motor Jumlah Mobil Jumlah Kartu yang dipunyai minggu

yang dipunyai yang dipunyai


K_"KREDIT KreditlATM BEll Barang

.93 57 2.00 4.15 186833.33 29.87


9,94

Tingkat Pembelian

setae

256
132609.78 16.77
KONSUMSI Pengeluaran KERJA Kerja setiap

Tingkat Bulanan minggu

70000 10 3

Jumlah Jam

SHOPPING Jurnlah Jam Berbelanja setiap minggu Valid N (llstwlse)

5.02

II>

Perhatikan munculnya 12 variabel barn dengan imbuhan kata 'z' di depan masing-
masing variabel.

2. ANAUSIS CLUSTER
Di sini akan dilakukan analisis dengan metode CLUSTER atau K-MEANS CLUSTER.
Langkah:
II>

NON-HIERARCHICAL

Buka file NB: Perhatikan nama file yang telah disesuaikan standardisasi data. Dari
menu submenu lalu dengan file hasil K-Means

Cluster",
di layar:

55

Pengisian:

NB: Ada beberapa variabel yang tidak lengkap seperti KONSUMSI menjadi ZKONSUMS. Hal
ini disebabkan SPSS hanya menampung maksimal 8 karakter sehingga otomatis huruf
terakhir akan dihilangkan jika melebihi 8 karakter,
@

LABEL CASES

masukkan variabel tinggal.

NUMBER OF CLUSTER atau jumlah cluster yang akan dibentuk, Di sini pengisian jumlah
cluster bebas, dan untuk keseragaman ketik 3. NB: Angka 3 berarti nanti akan
terbentuk 3 cluster (kelompok). Pengisian pada umumnya antara 2 sampai 5 cluster,
walaupun hal itu tetap tergantung pada tujuan penelitian dan faktor subyektif.

Kemudian klik mouse pada kotak Saves ... , hingga tampak di layar:

Kotak dialog SAVE memungkinkan hasil duster disimpan dalam bentuk variabel bam di
SPSS DATA EDITOR. Hal ini berguna untuk proses profiling cluster, yang akan
dilakukan pada tahapan akhir analisis Cluster. Untuk itu, aktifkan kotak Cluster
membership dan Distance from duster center, kemudian tekan tombol CONTINUE untuk
kembali ke menu utama. hingga tampak di layar:

56

Kotak dialog OPTIONS berisi berbagai pilihan (option) untuk proses analisis Cluster
yang bukan rnerupakan proses inti clustering. Ada dua option, yakni statistik yang
berhubungan dengan hasil cluster, dan perlakuan terhadap data yang missing (tidak
lengkap). Untuk STATISTICS, biarkan kotak INITIAL CLUSTER CENTER tetap aktif, dan
aktifkan kotak Anova Table. Untuk MISSING VALUES, karena semua data lengkap abaikan
pilihan tersebut, Kemudian tekan tombol CONTINUE untuk kembali ke menu utama, Dari
tampilan menu utarna cluster, abaikan juga bagian yang lain, dan tekan OK untuk
proses data.

Dari proses clustering, karena pengaktifan dua output yang dihasilkan:


@

cluster membership,

ada

OUTPUT berupa tambahan dua variabel pada file CLUSTER_Z_SCORE, yakni variabel yang
berisi nomor cluster untuk setiap kasus, dan variabel yang berisi jarak antara
kasus cluster (cluster center):

57

silang (crosstab) dan grafik yang relevan, yang akan dibahas pada modul lain.
®

OUTPUT berupa file, file CLUSTER

K=MEANS.spo.

Hasil OUTPUT akan ditampilkan pada pembahasan berikut ini.

satu per satu dengan dilengkapi analisis

3.

ANALISIS

PROSES AWAL CLUSTERING Quick Cluster


Initial Cluster Centers Cluster 1 ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah

-.50941 -.63104 3.08493

2 2.14071 2.97489 -.85567

3 -1.74613 -.63104 -.63050

ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca
Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah
Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore:
Jumlah Kartu KrediVATM yang di ZBELI Zscore: Tingka! Pembelian Barang setiap
ZKONSUMS Zscore: Tingkal Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap
minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi

.97675 -1.32922 .10511 2.21377 2.51425 1.50199 3.11566 2.69195 3.00381


-.31601 .90164 -1.47158 .66928 .00000 .33161 -.84333 -.11134 -.30606

-.74692 -1.60807 .10511 -.87521 -1.67616 -1.22890 -.65480 -1.18493 -.78460

Output ini adalah pertama (initial) proses clustering data sebelum dilakukan
iterasi. Oleh karena nand akan dihasilkan proses clustering sesudah iterasi yang
justru adalah hasil akhir cluster, maka output ini tidak dianalisis. 58

PROSES ITERASI
Iteration HistorY'

Change in Cluster Centers Iteration 1 2 3 4 5 6 7 8 1 3.884 .599 .000 .000 .000 .


000 .000 .000 2 3.314 .834 .291 .383 .316 .152 .195 .000 3 2.503 .314 .148 .205 .
207 .115 .172 .000 distance any center is 8. The is 6.795.

a. Convergence achieved due to no or small change. The maximum distance by which


has changed is .000. The current iteration minimum distance between initial centers

Tampilan ini adalah proses iterasi yang mencoba mengubah-ubah yang ada sebelumnya
(initial) sehingga menjadi lebih tepat mengelompokkan 60 kasus tersebut. Setelah
terjadi delapan tahapan (proses pengulangan dengan ketepatan lebih tinggi dati
sebelumnya), hasil final cluster berikut ini. HASIL AKHIR PROSES CLUSTERING

cluster dalam iterasi didapat

59

Final Cluster Centers Cluster ZUSIA Zscore: Usia ZANAK Zscore: Jumlah Anak ZINCOME
Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam mernbaca Koran
setlap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang
dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu
KrediVATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap ZKONSUMS Zscore:
Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap minggu ZSHOPPIN
Zscore: Jumlah Jam Berbelanja setiap mi 1 .57272 .04507 1.36091 2 -.02356 -.09015
-.23081 3 -.36218 .04507 -.71494

1.08448 -.03950 .99200 .95887 1.25712 1.16063 1.33411 1.24930 1.21304

.07182 .32998 -.13139 .05148 .08381 .13654 -.22874 .03479 -.07377

-.78283 -.24865 -.55184 -.68215 -.90792 -.88754 -.69879 -.86186 -.74721

Output ini adalah akhir dari proses clustering, berikut, ARTIANGKA: Angka di atas
terkait dengan proses standardisasi mengacu pada angka z; dengan ketentuan:
II>

dengan

analisis

sebagai

data sebelumnya,

yang

Angka negatif berarti data di bawah rata-rata total Angka positif berarti data di
atas rata-rata total rata-rata
..

Sebagai contoh, angka 0,57272 pada variabel ZUSIA usia responden cluster 1,

Ix = j1 + z.al
di mana:

x == rata-rata
60

sampel

hal ini rata-rata variabel

cluster tertentu)

~ = rata-rata populasi
(J

= standar

deviasi

z = nilai standardisasi yang didapat pada SPSS Jika RATA-RATA USIARESPONDENDI


CLUSTER 1:

(rata-rata usia seluruh responden) + (0,572 x standar deviasi rata-rata usia


seluruh responden) Sedangkan angka -0,0236 pada variabel ZUSIA menyatakan RATA-RATA
USIA RESPONDEN PADA CLUSTER 2: (rata-rata usia seluruh responden) seluruh
responden) - (0,0236 standar deviasi rata-rata usia

Demikian seterusnya untuk tafsiran data yang lain, tentunya dengan mengacu rata-
rata dan standar deviasi variabel yang bersangkutan, seperti angka untuk variabel
ZANAK dikaitkan dengan rata-rata anak dan standar deviasinya, CONTOH T AFSIRAN
ANGKA PADA CLUSTER: Dari proses cluster, terjadi 3 cluster atau 3 kelompok
responden yang masingmasing kelompok tentunya mempunyai ciri yang berbeda satu
dengan yang lain. Perbedaan bisa ditelusuri per variabel, dengan dasar interpretasi
berdasar tanda + dan - serta besaran angka itu sendiri. Sebelum menafsir isi setiap
cluster, terlebih dahulu contoh penafsiran sebuah variabel, yakni variabel ZUSIA.
Oleh karena pada cluster 1, angka adalah positif, sedangkan eli cluster 2 dan 3
angka negatif, maka dapat dikatakan: Rata-rata Usia responden pada cluster 1 lebih
tinggi (dalam hal ini secara logika dikatakan 'lebih tua') dibandingkan rata-rata
usia responden keseluruhan, Untuk menghitung rata-rata usia setiap cluster, bisa
dilakukan dengan rumus di atas dan berdasar pada Output CLUSTER_Z_SCORE.spo, eli
mana terlihat: "
@

Mean (Rata-rata) Usia seluruh responden (populasi) adalah 29,88 tahun Standar
Deviasi Usia adalah 5,66 tahun

61

Dengan demikian: ..
@

Rata-rata Usia Cluster 1=29,88+(O,S7272xS,66)=33,12 Rata-rata Usia Cluster 2=29,88+


(-O,2356x5,66)=28,54

tahun tahun
"

Rata-rata Usia Cluster 1=29,88+( -O,36218x5,66)=27 ,83 tahun

seterusnya bisa dengan variabel ZANAK untuk rata-rata jumlah anak di setiap
cluster, kemudian variabel ZINCOME untuk rata-rata income responden di setiap
cluster, dan variabel yang lainnya, Sekali lagi, penjabaran angka setiap variabel
tentunya mengacu pada Mean dan Standar Deviasi yang relevan untuk setiap variabel,
seperti untuk variabel ZANAK yang acuan adalah Mean sebesar 0,7 dan standar deviasi
Walaupun dapat diuraikan secara rind satu demi satu namun untuk penafsiran umum,
sudah memadai jika dikatakan 'lebih dari rata-rata' atau 'kurang dari rata-rata',
yang akan dilakukan bagian berikut untuk rnenggambarkan isi setiap cluster yang
terbentuk, T AFSIRAN SETIAP CLUSTER:

Demikian

..

Cluster 1:
Cluster 1 berisi responden yang mempunyai Usia lebih tua dati rata-rata, mempunyai
anak di atas rata-rata populasi, mempunyai income di atas rata-rata, rnembaca koran
lebih lama dari rata-rata populasi, namun menonton Televisi lebih sedikit dati
rata-rata. Kelompok ini juga mempunyai motor, mobil dan kartu kredit atau ATM yang
lebih dari rata-rata, lebih tinggi dari rata-rata. Juga mereka Tingkat Pengeluaran
per frekuensi bell dan Jam berbelanja yang lebih banyak dibanding rata-rata
populasi, Dari ciri-ciri di atas, bisa mereka kebanyakan adalah orang sibuk bekerja
dan relatif sudah mapan dalam segi serta usia termasuk golongan dewasa,

..

Cluster 2: responden yang Usia lebih muda dari ratarata, anak di bawah rata-rata
income di bawah rata-rata, namun mernbaca koran dan menonton Televisi lebih sering
dati rata-rata. u .... ".v.u!-'Vfi. dan kartu kredit atau ATM yang lebih dari rata-
rata, mempunvai motor lebih sedikit dari rata-rata, dan mempunyai lebih dari rata-
rata. mereka

62

Pengeluaran per bulan serta Jam berbelanja yang lebih sedikit dibanding rata-rata
populasi, namun mereka mempunyai frekuensi beli barang lebih banyak dibanding rata-
rata populasi. Dari ciri-ciri di atas, bisa diduga mereka kebanyakan adalah
golongan menengah, sibuk bekerja dan relatif sudah mapan dalam segi materi, serta
usia termasuk golongan muda, Dalarn berbelanja, mereka efisien dalam menggunakan
waktu untuk membeli barang.
®

Cluster 3: Cluster 3 berisi responden yang mempunyai Usia lebih muda dari ratarata,
mempunyai jumlah anak di atas rata-rata populasi, mempunyai income di bawah rata-
rata, juga membaca koran dan menonton Televisi lebih sedikit dari rata-rata.
Kelompok ini juga mempunyai motor, mobil dan kartu kredit atau ATM yang lebih
sedikit dari rata-rata, mempunyai jam lebih rendah dari rata-rata. Dalam perilaku
beli, selain Tingkat Pengeluaran per bulan serta Jam berbelanja lebih sedikit
dibanding ratarata populasi, juga frekuensi beli barang mereka lebih sedikit
dibanding rata-rata populasi, Dari ciri-ciri di atas, bisa diduga mereka kebanyakan
adalah golongan bawah, kurang ban yak bekerja dan relatif tidak mapan dalam segi
materi, serta usia termasuk golongan muda. Oleh karena itu, dalam berbelanja,
mereka jarang pergi berbelanja dan juga jarang membeli barang.
Dari ciri-ciri ketiga Cluster di atas, Cluster 1 boleh disebut Golongan Alas,
Cluster 2 Golongan Menengah dan Cluster 3 Golongan Bawah. Namun sekali lagi,
penamaan Cluster maupun penarikan kesimpulan isi cluster pada dasarnya bersifat
subyektif dan tergantung tujuan penelitian. Dengan demikian, bisa saja cluster 1
dinamakan Golongan Dewasa yang Mapan dan Giat Bekerja, sedang cluster 3 dinamakan
Golongan Muda yang Miskin dan Daya Belinya rendah, atau penamaan lainnya.

MELIHAT PERBEDAAN TERBENTUK

VARIABEL

PADA CLUSTER

YANG

Setelah terbentuk 3 cluster, langkah berikut adalah melihat apakah variabelvariabel


yang telah membentuk cluster tersebut mempunyai perbedaan pada Hap cluster. Hal itu
dilakukan dengan melihat Output ANOV A berikut.

63

ANOVA Cluster Mean Square ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah dl Error
Mean §guare dl

4.204 .122 21.483

2 2 2

.888 1.031 .281

57 57 57

F 4.736 .118 76.371

Si9_.

.013 .889 .000

ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca
Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah
Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore:
Jumlah Kartu Kreditl ATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap
ZKONSUMS Zscore: Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja seliap
minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi

16.814 1.843 11.700 12.966 22.605 20.416 20.622 21.412 18.526

2 2 2 2 2 2 2 2 2

.445 .970 .625 .580 .242 .319 .312 .284 .385

57 57 57 57 57 57 57 57 57

37.775 1.899 18.732 22.349 93.435 64.049 66.199 75.447 48.114

.000 .159 .000 .000 .000 .000 .000 .000 .000

The F tests should be used only for descriptive purposes because the clusters have
been chosen to maximize the differences among cases in different clusters. The
observed significance levels are not corrected for this and thus cannot be
interpreted as tests of the hypothesis that the cluster means are equal.

Kolom CLUSTER menunjukkan besaran between cluster mean, sedangkan kolom ERROR be
saran within cluster mean sehingga kolom F adalah:

Betweenbieans

Sebagai contoh, angka F pada ZUSIA didapat dad:

= BetweenMeansZUSIA
WithinM eansZUSIA

atau: 4,202/0,888=4,736 64

Demikian seterusnya untuk angka F variabel lainnya, Interpretasi angka F dan


signifikan: Pada prinsipnya, semakin besar angka F suatu variabel dan angka
signifikannya di bawah 0,05, maka semakin besar pula perbedaan variabel tersebut
pada ketiga cluster yang terbentuk, Sebagai contoh, angka F terbesar (93,435) ada
pada variabel L~','H~LJ" dengan angka pada kolom SIG adalah 0,000, yang berarti
signifikansi adalah nyata, Hal ini berarti faktor Kartu Kredit sangat membedakan
karakteristik ketiga cluster. Atau dapat juga dikatakan, kepemilikan Kartu Kredit
oleh responden pada ketiga cluster yang ada sangat berbeda antar cluster yang satu
dengan cluster lainnya, Perhatikan perbedaannya dengan variabel ZUSIA, yang angka F
sebesar 4,736 dan angka SIG adalah 0,013. Oleh karena angka Signifikan masih di
bawah 0,05 (0,013<0,05), maka variabel ZUSIA pada duster 1, cluster 2 dan cluster 3
tetap mempunyai perbedaan yang berarti, atau usia responden di ketiga cluster
memang berbeda, dalam artian Usia responden di Cluster 1 relatif lebih tua
dibanding cluster 2 dan cluster 3, dengan usia responden di cluster 3 adalah yang
terrnuda (lihat keterangan arti z score pembahasan sebelumnya), Walaupun angka F
variabel ZKREDIT (93,435) lebih besar dari angka F variabel ZUSIA (4,736), yang
bisa diartikan kepemilikan Kartu Kredit lebih besar dari Usia antar responden pada
ketiga cluster. Jadi usia rata-rata antara cluster mungkin hanya selisih 1 atau 2
tahun namun mereka yang ada di kota kecil hampir tidak mempunyai kartu kredit,
sedangkan yang di kota besar semua mempunyai minimal 1 kartu kredit. Jika ditarik
lebih bisa saja Responden di Kota Besar lebih kaya sehingga mampu memiliki Kartu
Kredit lebih dati satu sehingga diasumsi daya belinya tinggi, Sedangkan di kota
kecil, daya beli mungkin tidak begitu besar. Demikian seterusnya bisa digali
perbedaan angka F antar variabel lainnya. Seperti angka F untuk variabel ZBELI
dengan ZKONSUMS ternyata tidak begitu janh berbeda, yang berarti perbedaan tingkat
beli dan tingkat konsumsi responden di ketiga cluster relatif sama, Jika dilihat
angka SIG pada variabel ZANAK (0,889) dan ZTV (0,159), terlihat keduanya memiliki
signifikansi di atas 0,05. Hal ini berarti Jumlah Anak responden pada ketiga
relatif sama, atau anak di cluster 1 ternyata tidak berbeda secara nyata dengan
jumlah anak di kedua cluster lainnya. Demikian juga dengan variabel menonton TV,
ternyata menonton TV responden setiap minggu di cluster 1 boleh dikata sama saja
jumlah jam menonton TV pada responden yang ada di duster 2 atau cluster 3. 65

Perhatikan bahwa semakin besar angka F, semakin menunjukkan perbedaan yang tajam
antar cluster. Sebaliknya, makin kecil angka F, makin kecil perbedaan tersebut,
hingga sampai angka tertentu, perbedaan itu bahkan sudah tidak ada lagi (angka SIG
sudah di atas 0,05). Namun demikian, di sini tidak berarti variabel yang tidak
signifikan akan dikeluarkan! Analisis hanya ingin mengetahui mana variabel yang
signifikan perbedaannya, dan mana yang tidak,

JUMLAH ANGGOTA
m SETIAP CLUSTER

Number of Cases in each Cluster Cluster 2 3 Valid Missing 16.000 20.000 24.000
60.000 .000

Dati tabel di atas, terlihat bahwa responden terbanyak ada di cluster 3, sedangkan
responden paling sedikit ada di duster 1, dengan tidak ada variabel yang hilang
(missing). Dengan semua kasus (responden), sejumlah 60 orang, lengkap terpeta pada
ketiga cluster. Dengan komposisi seperti di atas, karena cluster 3 merupakan
cluster terbesar, bisa saja strategi merebut pelanggan diarahkan ke cluster 3,
yakni mereka yang bisa disebut Golongan Bawah dan mungkin ban yak tinggal di kota
kecil. Sedangkan cluster 1, walaupun kebanyakan ada di kota besar dan termasuk
Golongan Kaya, namun karena jumlahnya relatif kecil, mungkin tidak potensial untuk
digarap, Atau bisa dikembangkan berbagai alternatif lainnya, Modul selanjutnya akan
menggambarkan profil yang ada, beserta dengan grafiknya. komposisi tiap cluster
berdasar

ANALISIS KOMPOSISI CLUSTER CLUSTER_Z_SCORE_HASIL.SA V


Jika dilihat pada file DATA DITAMPILKAN):

PADA

FILE

(TIDAK SEMUA

66

Terlihat eli layar tampilan per responden (tempat tinggal) dan variabel qcl_l dan
Contoh penafsiran:
@

Responden 1, yang tinggal eli Jakarta Utara, temyata termasuk pada cluster 1, dan
posisi nilai cluster responden tersebut berjarak 3,80877 dari pusat cluster 1.
Responden 2, yang tinggal eli Bandung, ternyata juga termasuk pada cluster 1, namun
posisi nilai cluster responden 2 tersebut hanya berjarak 3,026 dari pusat cluster
1. Jadi, posisi responden 2 lebih dekat ke pusat cluster 1, dibanding responden 1.
Responden 3, yang tinggal di Tegal, ternyata termasuk pada cluster 3, dan posisi
nilai cluster responden 3 tersebut berjarak 1,63 dati pusat cluster 3. Oleh karena
pusat cluster 1 dengan cluster 3 berbeda, tentu tidak bisa dibandingkan seperti
responden 1 dan responden 2 yang mempunyai kesamaan cluster.

Demikian seterusnya untuk penafsiran data lainnya, dengan catatan bahwa tampilan
variabel QCL_l dan QCL_2 akan lebih berarti jika ditampilkan dalam bentuk crosstab
dan grafik scatter plot.

67

Berbeda dengan K-Means Cluster yang dibahas pada modul sebelumnya, proses
Clustering dengan menggunakan prosedur hierarki didasari konsep 'treelike
structure'. Konsep ini dimulai dengan menggabungkan dua obyek yang paling mirip,
kemudian gabungan dua obyek tersebut akan bergabnng lagi dengan satu atau lebih
obyek yang paling mirip lainnya. Demikian seterusnya sehingga ada semacam hierarki
(urutan) dari obyek yang membentuk cluster. Urut-urutan tersebut bisa dianalogikan
seperti pohon (treelike) yang dimulai dari akar, batang, dahan, daun dan
seterusnya, yang bercabang-cabang. Secara logika, proses clustering tersebut pada
akhirnya akan 'menggumpal' menjadi satu cluster besar yang semua obyek. Metode ini
disebut sebagai 'agglomerative methods', yang pacta kasus berikut akan digambarkan
dengan Dendogram.

1:
Sebuah perusahaan Susu Bubuk melakukan identifikasi terhadap 18 merk susu bubuk
atau minuman energi yang selama ini dijual, dengan spesifikasi terdapat pada file
duster hierarkl.sav. Keterangan tiap variabel:
liD

SUSU,

nama susu bubuk tersebut,

..
liD

LEMAK, yakni Kandungan Lemak (gr) per 100 gram Susu KARBOHID, yakni Karbohidrat
(gr) per 100 gram Susu MINERAL, yakni Mineral (gr) per 100 gram Susu

..

68

Sebagai contoh pengartian pada baris nPrt<lrr". untuk setiap 100 gram OAT QUAKER,
ada lemak 11 gram, 57 gram 0,96 gram Mineral dan 370 kilo kalori Demikian
seterusnya untuk data yang lain. Dari file CLUSTER HIERARKI yang berisi 18 merk
susu bubuk tersebut, akan dilakukan analisis Cluster untuk profil tersebut.

analisis Cluster:

Pada me CLUSTER terlihat isi data sangat bervariasi dalam satuan, ill mana ada
variabel (data) dengan satuan Ratusan (Energi), namun ada data dengan satuan di
bawah 10 (Mineral). Dengan demikian, dilakukan transformasi variabel ke bentuk z
score. Hanya berbeda dengan proses K-MEANS CLUSTER, proses pembuatan z-score pada
Hierarchichal Cluster bisa dilakukan secara otomatis lewat menu METHOD (lihat
penjelasan proses analisis Cluster di bawah).

2.

ANALISIS CLUSTER
dilakukan analisis dengan metode HIERARCHICAL

Di sini akan CLUSTER: Langkah:


Oil

Buka file duster

hierarki.sav Hierarchical

III

Dari menu Analyze, pilih submenu Classify, lalu Cluster ... Tampak ill layar:

69

Pengisian:
®
VARIABLES. Sesuai kasus, masukkan semua variabel, yakni karbohid, mineral dan
energi, LABEL CASES masukkan variabel susu.

CLUSTER atau akan dilakukan cluster untuk kasus (baris) atau variabel (kolom). Oleh
karena akan dilakukan cluster berdasar kasus (merk susu), biarkan pilihan pada
cases. .. DISPLAY atau tampilan yang akan ditayangkan pada output, yang meliputi
pilihan Statistik yang relevan dan Plot (grafik). Untuk keseragaman, (aktifkan)
keduanya. hingga tampak di layar:

Untuk keseragaman, selain kotak AGGLOMERATION yang telah diaktifkan, aktifkan pula:

SCHEDULE

Kotak Proximity matrix. Pilihan ini berfungsi untuk menampilkan jarak antar
variabel. Pada bagian CLUSTER MEMBERSHIP, klik mouse pada pilihan RANGE OF
SOLUTIONS, dan ketik 2 pada FROM serta 4 untuk THROUGH. Hal ini berarti nanti akan
ditampilkan susunan 2, 3 dan 4 cluster. Pilihan angka range cluster pada dasarnya
adalah bebas, walaupun 4 cluster pada banyak kasus adalah pilihan paling optimal.
Kemudian tekan tombol CONTINUE untuk kembali ke menu utama. " Kemudian klik mouse
pada kotak hingga tampak di layar:

70

Kotak dialog PLOTS berisi berbagai pilihan grafik apa yang akan ditampilkan, Untuk
keseragaman, aktifkan pilihan '''j;;A
"-"O ....

Kernudian untuk bagian ICICLE, bagian ini tidak akan ditampilkan pada output,
sehingga None. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama, '"
Kemudian klik mouse pada kotak Method ... , hingga tampak di layar:

Kotak Dialog METHOD adalah inti dad proses clustering, yang meliputi cara
pengukuran jarak antar variabel (measure), transformasi data ke z-score atau yang
lain (jika diperlukan) dan metode clustering.

CLUSTER METHOD. Untuk keseragaman, MEASURE.


s

pilih Between dan

group

Untuk keseragaman,

buka kotak combo

Squared Euclidean distance.


TRANSFORM VALUE. Untuk keseragaman, dan pilih Z scores. buka kotak combo

NB: Transformasi dilakukan karena ada perbedaan besar pada satuan data. Tentu saja,
jika pada data tidak ada perbedaan yang besar, transformasi tidak perlu dilakukan,
dan pilih NONE. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama,

Dan tampilan menu utama cluster, abaikan juga bagian yang tekan OK untuk proses
data.
dan

71

(Lihat file CLUSTER. .."..""n~A'~""'""i""" HasH OUTPUT akan satu per satu dengan
analisis

3.
Proximities
Case Processing Cases Valid Summarj'

N
18

I Percent I
100,0%

Missinq

a, Squared

Euclidean

°I

I Percent I
,0%

Total

N
18

I Percent
I
100,0%

Distance

used

Tabel OUtput pertama tanpa ada data yang Cluster

bahwa semua data (18) telah diproses

Proximity
Matrix

S uared Euclidean

Case 1:0AT 2:Nestle 3:LlGO 5:Milo

Quak Ca have 15.758 .608 1.464 2.857 B 4.860 7.890 8.141 2.059 4.280 18.954 8.069
4.015 10.064 4.920

5_758 1.134 6.051 2.605 1.997 4.322 4.699 6.130 2.993 1.555 4.571 5.266 0.707 4.708

.608 U34 .640 3.993 7.445 1.189 1.458 2.197 6.412 0.645 1.388 1.771 5.443 3.838
7.985 2.078 6.007

Danca .Frisia .Frisia 'Frisla :Frisi :Dane valtl :Mi! Ballta glnstaQFuH Cokao Ma
Coktat 464857 4.860 7.890 8.141 2.059 4.28018.954 .051 605 1.997 4.322 4.699
6409937.445 356 6.416 .356 ,416 .724 .119 .807 871 2.666 9.724 4.305 .383 383 .445
3.142 .352 3.953 426 519 1.440 4.808 3.335 4.509 2E-02 5.347 989 4.697 7E-03 2.496
4.619 4.203 7.081 3.946 5.718 1.251 4.549 3E-02 2.927 5.436 4.867 7.458 4.420 1.892
5.814 5.404 6.062 .975 7.442 4.546 2.964 0.812 4.477 .995 1.412 3.494 2.315 3.891
4.722 0.119 4.874 .445 2E-02 6.1302.993 807 .735 3.142 5.347 5.718 4.871 1.555
9.122 1.189 1.458 2.1976.412

d,

Distance .Ante .Danc :Indom .tndorn .Proste alsiun :Tropica ll Crea u orea Coklat
dahle llOQq Slim :Proti 8.069 8.340 4.015 10.064 4.920 .594 897 4.571 24.357~5.266
5.443 3.436 .376 1.440 2.496 2.927 .975 ,388 15.076 2.476 3.193 3.193 5.557 4.973
7.583 4.299 3.557 2.409 3.875 6.382 1.075 7.252 1.932 2.815 2.129 7.382 9.846 4.297
.426 7E~03 3E.{}2 5.404 .995 4.724 10.519 5.174 .519 1E-02 SE-03 6.062 1.412 14.843
1E-02 1E-02 2.476 4.480 4.174 7.226 3.899 20.707 4.708 13.838 7.985 11.615 3.683
4.808 4.619 5.436 7.442 3.494 23.062 4,480 5.557 3.557 7.102 1.925 3.335 4.203
4.867 4.546 2.315 1.464 4.174 4.973 2.409 1.075 12.320 2.078 2.948 2.675 4.509
7.081 7.458 2.964 3.891 22.441 7.226 7.583 3.875 7.252 2.815 .617 .007 .365 .018 .
578 .946 .420 .812 .722 .222 .899 .299 .382 .932 .129 .382

0.64511.38811.771

4:0valtine

1.201 16.293 .352 13.953 .989 14.697 1.251 1.892 4.549 5.814 14.477 4.724

e.nancow

666
305 874 735 201 297 174 376 925

7:Frisian Fla 8:Frisian Fla 9:Frisian Aa 10:Frisian 11:Dancow 12:Dancow 13:lndomilk


14:lndomitk 15:Prosteo 16:Antene K 17:Tropicana 18:Protifar FI

.122 293

,846
.519 .436 .102 .385

8.340 ~357

1E-D2 5E-03
.615 683 .948 675

.594 2.320 10.8974.617

018 4.578

1""
4.843 3.062 1.464 2.441 6.222

This is a dissimilarity matrix

Tabel berikut menyatakan matrik dengan angka yang tertera adalah jarak (distance)
antara dua buah variabeL Seperti diketahui, langkah pertama Cluster adalah
melakukan pengukuran terhadap kesamaan (similarity) antar variabel, sesuai tujuan
cluster untuk mengelompokkan variabel yang sama (similar). Dati kotak dialog
METHOD, pilih SQUARED EUCLIDEAN DISTANCES 72

jarak antar variabel Euclidean.

matrik

di atas adalah jarak

berdasar

ukuran

Sebagai contoh, jarak antara variabel 1 (OAT QUAKER) dengan variabel 2 (NESTLE
CARNATION) adalah 15,758. Sedang jarak antara variabel 1 (OAT QUAKER) dengan
variabel 3 (LIGO HAVERMOUT) 0,608. Hal ini berarti susu OAT QUAKER lebih mirip
(similar) dalam karakteristiknya (lemak, energi dan seterusnya) dengan susu LIGO,
namun berbeda jauh dengan susu NESTLE. Demikian seterusnya untuk penafsiran data
yang lain, dengan acuan semakin kecil angka antar dua variabel, makin satu sama
lain. Namun demikian, dengan banyaknya kombinasi jarak dari 18 variabel tersebut,
diperlukan proses dengan metode tertentu agar ke 18 susu tersebut berkelompok
sesuai kemiripan masing-masing, basil seperti di bawah.

Agglomeration

Schedule Stage Cluster First ~ears

Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Cluster 1 7 8 7 6


5 1 3 6 5 15 1 15 1 6 1 1 1 Cluster 2 12 13 8 10 14 17 4 7 9 16 3 18 5 15 6 11 2
Coefficients 3.237E-03 8.225E-03 5.762E-02 .352 .376 .594 .640 .803 .855 1.075
1.774 2.031 3.056 4.340 6.611 17.896 22.576

Cluster 1 0 0 1 0 0 0 0 4 5 0 6 10 11 8 13 15 16

Cluster 2 0 0 2 0 0 0 0 3 0 0 7 0 9
12

Next Stage 3 3 8 8 9 11 11 14 13 12 13 14 15 15 16 17 0

14 0 0

Tabel di atas adalah GROUP LINKAGE

proses clustering dengan metode BETWEEN pilihan kotak dialog sebelumnya.


Setelah antar variabel diukur dengan cara maka dilakukan pengelompokan variabel
secara hierarki. Cara hierarki berarti pengelompokan dilakukan secara bertingkat,
satu demi satu, atau dari 73

terbentuknya cluster yang ban yak, pelan-pelan jumlah cluster berkurang sehingga
akhirnya semua menjadi satu cluster saja, Cam pembuatan duster yang dimulai dari
dua atau lebih variabel yang paling rnirip membentuk satu cluster, kemudian cluster
memasukkan lagi sam variabel yang paling mirip, dinamakan dengan AGGLOMERASI.
e

Seperti pada tahap atau stage 1 (lihat baris 1), terbentuk sam duster dengan
anggota variabel 7 (FRISIAN FLAG INST AN) dengan variabel 12 (DANCOW FULL CREAM).
Perhatikan kolom koefisien yang berisi angka 3,237E-03 atau 0,003237, yang
menyatakan jarak antara variabel susu Frisian Flag Instan dengan variabel susu
Dancow Full Cream, seperti yang terlihat pada matrik proximity sebelumnya. Karena
proses agglomerasi dimulai dengan dua variabel yang terdekat, maka j arak kedua
variabel tersebut adalah yang terdekat dari sekian banyak kombinasi jarak dari 18
variabel yang ada. Kemudian jika dilihat pada kolom terakhir untuk baris 1 tersebut
(NEXT STAGE), terlihat angka 3. Hal ini berarti langkah clustering selanjutnya
dilakukan dengan melihat stage 3 atau baris ke 3, dengan penjelasan berikut ini.
Pada baris 3, terlihat variabel 7 (FRISIAN FLAG INST AN) membentuk cluster dengan
variabel 8 (FRISIAN FLAG FULL CREAM). Dengan demikian, sekarang cluster terdiri
dati 3 variabel, yakni FRISIAN FLAG INSTAN, DANCOW FULL CREAM dan FRISIAN FLAG FULL
CREAM. Angka pada kolom COEFFICIENT adalah jarak rata-rata yang terjadi antara
variabel terakhir yang bergabung FRISIAN FULL CREAM dengan dua variabel terdahulu,
yakni variabel 7 (FRISIAN FLAG INS TAN) dan variabel 12 (DANCOW FULL CREAM), yang
bisa dilihat jarak pada Output PROXIMITY MATRIX: Jarak antara variabel 8 dengan
variabel 7 adalah 0,03552 Jarak antara variabel S dengan variabel IZ adalah 0,05313
Jarak rata-rata= (0,03552+0,05313)/2=0,04432 Akan tetapi, jika dilihat pada stage 2
(baris 2), terjadi pembentukan cluster lain, antara variabel 8 dengan variabel 13,
yang kemudian juga dilanjutkan ke (NEXT STAGE pada baris 2) baris 3. Jika dilihat
dari stage 2 ke stage 3, terjadi penambahan variabel 7 ke cluster yang sudah ada
(yakni antara variabel 8 dengan 13). Dengan demikian, jarak rata-rata: Jarak antara
variabel 7 dengan variabel 8 adalah 0,03552 Jarak antara variabel 8 dengan variabel
13 adalah 0,08225

74

Jarak rata-rata= (0,03552+0,08225)/2=sekitar

0,057 atau 5,7E-02

Jarak 0,057 inilah yang tampak di kolom Koefisien. Namun, jika stage 3 tidak
(kebetulan) terkait langsung dengan stage 2, maka angka 0,004432 atau 4,432E-02
yang ditampilkan, Demikian seterusnya dari stage 3 proses dilanjutkan ke stage 8,
dari stage 8 ke stage 14 dan selanjutnya sampai ke stage terakhir, yakni stage 17.
Jika angka pada NEXT STAGE adalah 0, berarti proses cluster untuk jalur tersebut
sudah selesai, dan cluster dilanjutkan ke tahapan awal pada stage yang belum
dicluster, Proses ini berjalan secara otomatis sampai semua variabel pada akhimya
membentuk sebuah cluster saja (lihat DENDOGRAM). Proses agglomerasi ini tentu
bersifat kompleks, khususnya perhitungan koefisien yang rnelibatkan sekian banyak
variabel dan terus bertambah. Yang perlu diperhatikan adalah semakin kecil angka
koefisien, semakin anggota cluster tersebut mempunyai kemiripan satu dengan yang
lain. Dan sebaliknya, makin besar koefisien, makin tidak rnirip satu dengan yang
lain. Sebagai contoh, pada stage 15, terjadi penggabungan variabel 1 dengan
variabel 6 (dan tentunya sudah terjadi penggabungan dengan variabel lainnya), dan
koefisien yang didapat adalah 6,611. Jika dilihat pada NEXT STAGE untuk baris 15,
proses cluster dilanjutkan ke stage 16, dengan memasukkan variabel 11. Terlihat
koefisien langsung melonjak menjadi 17,896. Dengan demikian, pemasukan variabel 11
(DANCOW membuat jarak keseluruhan makin besar secara signifikan, Hal ini bisa
dilihat Dendograrn, ill mana variabel 6 dengan 11 memang sangat berjauhan. Proses
agglomerasi pada akhirnya akan menyatukan semua variabel menjadi satu cluster.
Hanya dalam prosesnya, dihasilkan beberapa cluster dengan masing-masing anggotanya,
tergantung jumlah cluster yang dibentuk. Perincian cluster dengan anggota yang
terbentuk bisa dilihat pada output selanjutnya.

75

Cluster Membership
Case 1:OAT Quaker 2:Nestle Carnation 3:UGO havermout 4:0valtine 5:Milo 6:Dancow
7:Frisian 8:Frisian 8alita Flag Instan Flag Full Cr 4 Clusters 3 Clusters 2
Clusters

1
2 1 1 1 3

1
2 1

1
2

1 1
1

1 1 1
1

1
1

3 3
1

1
1 1

1
1

9:Frisian Flag Coklat 10:Frisian Flag Madu 11 :Dancow Coklat 12:Dancow 13:lndomilk
14:lndomilk 15:Prosleo 17:Tropicana 18:Protifar Full Cream Full Cream Coklat rendah
lemak Slim

3
4

1
1 1 1 1 1 1 1

3 1 1
1

3
3 1 3
1
1 1 1

16:Anlene Kalsium l;ingg

3
1

Tabel di atas adalah perincian terbentuk:


@

anggota

tergantung

cluster yang

Jika ditentukan 4 Cluster, maka dengan melihat kolom 4 CLUSTERS: Anggota Cluster 1
adalah variabel dengan tanda 1, atau variabel susu OAT, LIGO, OV ALTINE, MlLO,
FRISIAN FLAG COKLAT, INDOMILK COKLAT dan TROPIC ANA SLIM. Anggota Cluster 2 adalah
variabel dengan tanda 2, atau variabel susu NESTLE CARNATION Anggota Cluster 3
adalah variabel dengan tanda 3, atau variabel susu DANCOW BALITA, FRISIAN FLAG
INSTAN, FRISIAN FLAG FULL CREAM, FRISIAN FLAG MADU, DANCOW FULL CREAM, INDOMlLK
FULL CREAM, PROSTEO, ANLENE dan PROTIFAR. Anggota Cluster 4 adalah variabel susu
DANCOW COKLAT. tanda 4, atau variabel

76

III

Jika ditentukan 3 Cluster, maka dengan melihat kolom 3 CLUSTERS: Anggota Cluster 3
adalah DANCOW COKLAT Anggota Cluster 2 adalah NESTLE CARNATION Anggota Cluster 1
adalah 16 merk susu di luar dua merk susu di atas.

<ill

Jika ditentukan 2 Cluster, maka dengan melihat kolom 2 CLUSTERS: Anggota Cluster 2
adalah NESTLE CARNATION Anggota Cluster 1 adalah 17 merk susu di luar merk susu
nestle.

Dari hasil di alas bisa dilihat bahwa peralihan dari 4 cluster ke 3 yang terjadi
adalah penggabungan variabel-variabel yang sudah dan bukan mengacak variabel dari
awal. Pada 3 cluster, terlihat anggota pada cluster 1 adalah merk-merk susu yang
sebelumnya anggota cluster 1 dan cluster 3 dari 4 Cluster. Demikian pula, dari
anggota cluster 1 dati formasi 2 CLUSTER adalah penggabungan dari anggota duster 3
dan cluster 1 dad 3 Cluster. Dari proses di atas bahwa susu DANCOW COKLAT dan
NESTLE memang jauh berbeda (tidak similar) dengan susu dan merk susu NESTLE adalah
yang paling berbeda dengan rnerk-merk yang lain.

77

ANALISIS DENDOGRAM: Perhatikan bahwa skala yang bukanlah koefisien yang ada pada
tabel Aggromeration Schedule, namun telah dilakukan proses skala (rescale), dengan
batasan 0 sampai 25. Proses agglomerasi dimulai pada skala 0, dengan ketentuan jika
sebuah garis dekat dengan angka 0, maka variabel-variabel yang terwakili dengan
garis tersebut semakin membentuk sebuah cluster.
'-"A~USU' contoh, variabel nomor 7, 12, 8, 13, 6 dan 10 membentuk sebuah cluster
tersendiri, karena mereka mempunyai panjang garis yang sama dan tergabung satu
kesatuan, Demikian variabel nomor 5, 14 dan 9 membentuk duster tersendiri. Juga
variabel nomor 1 dan 17, serta variabel nomor 3 dan 4.

Sebaliknya, variabel nomor 15, 11 dan 2 tidak tergabung dengan variabel karena
mempunyai garis yang lebih dari variabelvariabel yang telah disebut terdahulu.
Dengan demikian, pada proses pertama telah terbentuk sembilan
@

4 duster yang mempunyai penjelasan ""'tJ'-''' ....


UJ'H

anggota lebih dari satu variabel

"

5 cluster yang berdiri sendiri.

Kemudian proses dan sekarang terlihat variabel nomor <i5dan 16 bergabung menjadi
satu cluster, juga variabel 3 dan 4 yang sebelumnya telah tergabung, sekarang
bergabung lagi dengan variabel 1 dan 17 yang sebelumnya juga sudah membentuk satu
duster tersendiri, Demikian seterusnya, proses agglomerasi berjalan ke arah kanan,
dengan menggunakan petunjuk panjang garis yang semakin ke kanan, hingga pada semua
variabel akan tergabung satu cluster. Dendogram berguna untuk ditentukan
"~_'>~_'''I

akan

79

Kesimpulan: Tergantung dari cluster yang diinginkan, bisa ditarik kesimpulan dengan
berpedoman bahwa anggota sebuah cluster tentu mempunyai kemiripan satu dengan yang
lain, dan mereka tentu juga berbeda dengan UU,5S'J'" cluster yang lain. Sebagai
contoh, jika diambil 3 cluster, rnaka berdasar Dendogram, Susu Dancow Coklat
berbeda karakteristiknya (energi yang dihasilkan, kandungan lemak, karbohidrat dan
mineral) dengan susu Nestle Carnation. Namun kedua merk tersebut juga berbeda
karakteristiknya dengan susu yang lain, seperti Frisian Flag, Ovaltine dan
seterusnya. Namun jika dilihat dari proses agglomerasi awal, maka susu Frisian Flag
instan, madu dan full cream mempunyai satu dengan yang lain, dernikian pula dengan
Dancow Full Cream dan Dancow Balita. Dan di antara kedua merk susu tersebut, juga
mirip satu sama bersama dengan susu Indomilk Full Cream, karena mereka terbentuk
pada satu cluster. Namun pada proses awal tersebut, susu Frisian Flag Coklat justru
berbeda dengan jenis Frisian Flag lainnya, dan malah kemiripan dengan susu Milo dan
susu Indomilk Coklat, karena ketiga susu tersebut mernbentuk satu cluster
tersendiri. Demikian seterusnya bisa dibuat berbagai kesimpulan Lalu berapa jurnlah
cluster yang seharusnya digunakan? Sebenarnya tidak ada ketentuan atau rumusan yang
pasti jumlah cluster yang ideal, dan hal itu lebih tergantung tujuan penelitian
serta subyektifitas peneliti. Pada contoh di atas, jika diinginkan pengelompokan
susu yang sebanyak mungkin hingga diketahui susu mana saja yang berbeda dengan yang
lain, maka sembilan cluster (sesuai proses pertama cluster pada Dendogram) adalah
dimungkinkan untuk diambil sebagai jumlah cluster yang baik. Namun jika jumlah
terse but terlalu banyak dan akan diringkas, bisa dilanjutkan proses kedua dan
seterusnya.

80

Modul ini merupakan pengembangan dari analisis cluster, yakni melakukan hasil
cluster dengan berbagai variabel lain, khususnya yang berciri data nominal.

1:
Dari hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada
modul sebelumnya, buatlah tabulasi silang (Crosstab) yang relevan.

A. BUATLAH TABULASI SILANG ANTARA VARIABEL DAERAH DENGAN VARIABEL QCL_l

e
<II

Buka file duster_z_score_hasil

Dan menu

Crosstabs ••.
di

81

Pengisian:
G>

Masukkan variabel daerah ke kotak ROW(S) Masukkan variabel qcl_l ke kotak COLUMN(S)

"

Kemudian klik mouse pada kotak CELLS, hingga tampak di layar:

Pengisian: Pada bagian PERCENTAGES, aktifkan pilihan Row.

Dengan mengaktifkan pilihan Row, pada Output akan tampak komposisi persentase
berdasarkan baris, sesuatu yang relevan untuk profiling hasil cluster. Tekan tombol
CONTINUE untuk kembali ke kotak dialog Utama. Abaikan bagian yang kemudian tekan
tombol OK untuk proses.

82

(Lihat file CLUSTER Crosstabs

CROSSTAB.spo.)

Case Processing

Summary

Cases
Valid N DAERAH Daerah TempatTinggal • QCL_1 Cluster Number of Case 60 Percent
100.0% N 0 Missing Percent .0% N 60 Total Percent 100.0%

DAERAH

Daerah Tempat

Tinggal"

OCl_1

Cluster
Number QCL

of Case 1 Cluster

creseraburancn
Number of Case

1
DAERAH Daerah

2 16 1 5.9% 18
94.7%

Total 17 100.0% 1 19 100.0% 24 100.0% 60 100.0%

1 Kota Sesar

Count

T empat Tinggal
2 Kota Menengah

within DAERAH Daerah Tempat Tinggal


%

94.1%

Count within DAERAH Oaerah Tempat Tinggal


%

5.3% 1 23 95.8% 24 40.0%

3 Kota Keeil

Count within DAERAH Daerah T empat Tinggal


%

4.2% 16 26.7% 20 33.3%

Total

Count within DAERAH Oaerah T empat Tinggal


%

AnaUsis: Analisis akan dilakukan pada tabel CROSST AB untuk setiap bans:
o

Pada responden yang tinggal di Kota Besar, terlihat sebagian besar responden (94,1
%) menjadi anggota cluster 1, sedangkan sisanya ada di cluster 2. Namun mereka
tidak terdapat pada cluster 3. Pada responden yang tinggal di Kota Menengah,
terlihat sebagian besar responden (94,7%) justru menjadi anggota cluster 2,
sedangkan sisanya ada di cluster 3. Pada responden yang tinggal di Kota Kecil,
terlihat sebagian besar responden (95,8 %) menjadi anggota cluster 3, sedangkan
sisanya ada di duster 2.

@
<II

Dengan demikian, bisa dengan mudah disimpulkan bahwa responden yang ada di Kota
Besar adalah mereka yang dari Golongan Atas (lihat penamaan cluster pada modul
sebelumnya), sedang responden yang ada di kota Menengah adalah mereka yang termasuk
Golongan Menengah, dan 83

responden yang bertempat tinggal di Kota Kecil bisa dikategorikan yang ada di
Golongan Bawah.

mereka

Kasus di alas bersifat sederhana, dalam arti langsung bisa dilihat perbedaan
komposisi yang mencolok antar anggota Cluster. Dalam praktek, tentu dimungkinkan
perbedaan komposisi yang tidak berbeda jauh. Jika demikian, patokan tetap pada
komposisi per baris, dengan melihat persentase masingmasing baris untuk Hap
cluster.

B.

TABULASI SILANG ANTARA VARIABEL STATUS DENGAN VAmABEL QCL_l CLUSTER)

Buka file Dati menu pilih submenu

Crosstabs ...
Tampak di layar kotak dialog CROSST AB. Pengisian:
@

Masukkan variabel status ke kotak ROW(S) Masukkan variabel qd_l ke kotak COLUMN(S)
'.A.C,.LLnJ,

hingga tampak di layar:

Pengisian:
@

Pada

PERCENTAGES,

aktifkan

Row.

Tekan tombol CONTINUE untuk kembali ke kotak dialog Utama. kemudian tekan tombol OK
untuk proses.

Abaikan bagian yang

84
(Lihat file CLUSTER Crosstabs

CROSSTAB

2.spo.)

Case Processing

Summary Cases

Valid N STATUS Status Pernikahan * QCl 1 Cluster Number 01 Case Percent N

Missing Percent N

Total Percent

60

100.0%

.0%

60

100.0%

STATUS

Status

Pernlkahan

* QCL_1

Cluster

Number

01 Case Crosstabulation OCL_1 1 Cluster Number of Case 2 3

STATUS Status Pernikahan

1 Belum Menikah

Count % within STATUS Status Pernikahan

4
26.7% 7 28.0% 5 Pernikahan 25.0% 16 26.7%

3
20.0% 11 44.0% 6 30.0% 20 33.3%

8
53.3% 7 28.0%
Total 15 100.0% 25 100.0% 20 100.0% 60 100.0%

2 Menikah

Tanpa Anak

Count % within STATUS Status Pernikahan

3 Menikah

dengan

Anak

Count % within STATUS Status

9
45.0% 24 40.0%

Total

Count % within STATUS Status Pernikahan

Analisis akan dilakukan pada tabel CROSST AB untuk setiap baris, dengan melihat
angka persentase:
@

Pada responden yang Belum Menikah, terlihat sebagian besar responden menjadi
anggota cluster 3, sedangkan sisanya tersebar cukup merata di cluster 2 dan cluster
3. Pada responden yang berstatus Menikah Tanpa Anak, terlihat sebagian besar
responden justru menjadi anggota cluster 2, sedangkan sisanya secara merata ada di
cluster 1 dan cluster 3. Pada responden yang berstatus Menikah dengan Anak,
terlihat sebagian besar responden menjadi anggota cluster 3, sedangkan sisanya
cukup merata di cluster 1 dan cluster 2.

85

Jika dilihat dan jumlah responden per kolom, duster 1 dan duster 3 mempunyai
komposisi yang relatif rnerata, sedangkan cluster 2 jelas didominasi responden yang
berstatus Menikah Tanpa Anak. Dengan demikian, pada cluster 1 tidak ada anggota
dari segi status yang sehingga strategi meraih pelanggan bisa dilakukan pada ketiga
Sedangkan jika meraih pelanggan dan clsuter 2, sebaiknya diarahkan kepada pelanggan
yang telah menikah namun belum anak, Sedangkan untuk cluster 3, karena dan analisis
per bans yang dominan adalah responden yang berstatus Bujang dan mereka yang
menikah dengan anak, maka strategi bisa diarahkan kepada kedua golongan status
tersebut.
UVLLHU . .,H, HH_,UUJUH

Dan hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada modul
sebelumnya, buatlah Grafik yang relevan, A, BUATLAH GRAFIK PENCARAN CLUSTER) DAR!
VARIABEL

JLJi"",'JjlL<
III

Buka file Dari menu Graph, Plot ... Tarnpak di layar: pilih submenu lalu Scatter

III

86

Pengisian: '" '" '" Masukkan tanda Masukkan tanda variabel qd_l pada sumbu X (kotak
panjang dengan variabel qcl_2 pada sumbu Y (kotak panjang dengan

Masukkan variabel daerah pada kotak STYLE.

NB: Jika saat pemasukan variabel tampak kotak dialog untuk mengubah (Convert) tanda
variabel agar bisa dimasukkan ke kotak bersangkutan, maka klik mouse pada pilihan
CONVERT. Pilihan ini akan mengubah sirnbol dari variabel tertentu agar bisa
diproses pacta pembuatan Grafik. Tekan OK untuk proses pembuatan Grafik.

(Lihat file CLUSTER Interactive

GRAFIKspo.)

3.90897 3.31776

:J

(33.12597

.g
·00
~ ~

!:

3.02605 2.65221

~ !:::::
2.40671 2.34781 (32.24968 2.20961

.g
~

2.04884 1_88764

5 :::~~:
,+-1,83827

Q)1_S5247

g
iii i5
ill

155663 114007 ~-------"

;_---------r---

-------------~'~-------,

Cluster Numbe, 01 Case

Dengan pada simbol untuk Daerah yang ada di kotak kanan atas, terlihat Cluster 1
semua bersimbol A atau 'Kota Besar', sedangkan Cluster 2 sebagian besar beranggota
dengan simbol adalah B atau di Kota Menengah, dan Cluster 3 "'-LJaI',Aua besar
bersimbol X atau tinggal di Kota Kecil,

87

Pembuatan Grafik seperti ini akan melengkapi analisis yang dilakukan, dengan
kegunaan lebih pada visualisasi data yang lebih praktis dan jelas, dibanding
melihat deretan angka seperti pembuatan Crosstab yang telah dibuat pada kasus
sebelumnya, Catatan: Jika pada kotak dialog pembuatan Graph di atas, pada bagian
bawah (LABEL CASES BY) dimasukkan variabel tinggal, akan tampak hasil (output tidak
disimpan pada disket kerja):

Daerah Tempat
A Kota Besar B Kota Menengah X

Tinggal

Kota

Keel!

Cluster

Number

of Case

Sekarang terlihat deretan nama Kota temp at tinggal responden, yang dengan ukuran
Distance di sumbu Y, menunjukkan jarak kota tertentu dengan pusat clusternya
(dengan jarak terdekat tentunya tepat di sumbu X). Dari grafik tersebut, terlihat
kota Sernarang adalah kota (tinggal) terdekat dengan cluster 1, sedangkan daerah
Jakarta Timur adalah yang terjauh. Jika dilihat pada data di file
CLUSTER_Z_SCORE_HASIL, terlihat untuk variabel qcl_2 yang menunjukkan jarak sebuah
kasus, angka untuk Semarang (terkecil pada kode qcl_l=l) adalah 1,88. Demikian
seterusnya bisa dilihat pencaran kota-kota pada ketiga cluster yang terbentuk,
Posisi Kota Semarang yang paling dekat berarti responden yang tinggal di kota
Semarang adalah yang paling dekat dengan karakteristik duster 1, seperti usia
sekian, jam menonton TV sekian dan lainnya. Dernikian 88

sebaliknya dengan responden yang tinggal di Jakarta mempunyai ciri paling jauh
dengan karakteristik duster 1. B. BUATLAH VARIABEL

Timur,

yang

GRAFIK PENCARAN (SCATTER) ZUSIA DENGAN VARIABEL ZKONSUMS


ANTARA

!II

Buka file duster_z_score_hasil Dari menu Plot ... Tampak di layar: pilih submenu
Interactive, lalu pilihan Scatter

Pengisian: .. Masukkan variabel zkonsums pada sumbu X (kotak panjang dengan tanda
~) Masukkan tanda 1') variabel zusia pada sumbu Y (kotak panjang dengan

..

Masukkan variabel daerah pada kotak STYLE

89

file CLUSTER Interactive

GRAFIK

B Kota Menengah X Kota Keen

0.00000

1.00000

3.00000

Zscore: Tlnqkat Pengeiuaran Bulanan

Dengan berpedoman pada simbol untuk tiap Daerah yang ada di kotak kanan atas,
terlihat semua responden yang mempunyai tingkat konsumsi tinggi (sumbu X makin ke
kanan) adalah responden yang bertempat tinggal di Kota Besar. Sedang mereka yang
mempunyai konsumsi (pengeluaran) kecil, yang tersebar di bagian kiri sumbu X,
hampir semuanya berasal dati tempat tinggal Kota Menengah dan Kota Kecil, Dernikian
seterusnya bisa dibuat berbagai sumbu Y sesuai kebutuhan. variasi sumbu X dan

3
Seperti diketahui, dati hasil Cluster dengan metode K-Means cluster dengan kode 1,
2 dan 3, yang ada dalam satu variabel QCL_l. Agar lebih akan dilakukan pengubahan:
• Nama variabel QCL_l diubah CLUSTER. tiga yaitu

Kode 1,2 dan 3 diubah menjadi Golongan Atas, Menengah dan Bawah.

90

Anda mungkin juga menyukai