Anda di halaman 1dari 356

Buku Latihan SPSS

Statistik Multivariat

Kutipan Pasal44, Ayat I dan 2, Undang-Undang

Republik Indonesia tentang HAK CIPTA:

Tentang Sanksi Pelanggaran Undang-Undang Nomor 6 Tahun 1982 tentang HAK CIPTA, sebagaimana telah diubah dengan Undang-Undang No.7 Tahun 1987 jo. Undang-Undang No. 12 Tahun 1997, bahwa: 1. Barangsiapa dengan sengaja dan tanpa hak mengumumkan atau memperbanyak suatu ciptaan atau memberi izin untuk itu, dipidana dengan pidana penjara paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp.l 00.000.000,- (seratus juta rupiah). Barangsiapa dengan sengaja menyiarkan, memamerkan, mengedarkan, atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan pidana penjara paling lama 5 (lima) tahun dan/atau denda paling banyak Rp.50.000.000,- (lima puluh juta rupiah).

2.

Buku Latihan SPSS

Statistik Multivariat

Singgih Santoso

Penerbit PT Elex Media Komputindo Kelompok Gramedia, Jakarta

Buku Latihan SPSS Statistik Multivariat

Singgih Santoso
© 2002, PI Elex Media Komputindo, Jakarta Hak cipta dilindungi undang-undang Diterbitkan pertama kali oleh PI Elex Media Komputindo Kelompok Gramedia, Anggota lKAPI, Jakarta 2002

12102736 ISBN: 979-20-3648-2

Dilarang keras menerjemahkan, memfotokopi, buku ini tanpa izin tertulis dari Penerbit.

atau memperbanyak

sebagian atau seluruh isi

Dicetak oleh Percetakan PI Gramedia, Jakarta lsi di luar tanggung jawab percetakan

Pertama-tama Penulis mengucapkan puji dan syukur kepada Tuhan, yang dengan anugerahNY a telah memberi kesempatan kepada Penulis untuk menyelesaikan satu buah buku lagi bagi para Pembaca. Buku ini pada dasarnya merupakan kelanjutan dari 'BUKU LATIHAN SPSS: STATISTIK PARAMETRIK' dan 'BUKU LATIHAN SPSS: STATISTIK NON PARAMETRIK' (keduanya terbitan PT Elex Media Komputindo). Seri Buku Latihan SPSS dimaksudkan sebagai pelengkap dari buku SPSS yang telah terbit sebelurnnya, dengan harapan agar pembaca bisa lebih menguasai SPSS lewat berbagai aplikasi praktis. Perbedaan dengan Buku Latihan SPSS Statistik Parametrik dan SPSS Non Parametrik terdahulu adalah pada metode ilmu Statistik, yang karena ciri tertentu tidak hanya melibatkan satu atau dua variabel, namun menggunakan banyak variabel yang diproses secara bersama-sama. Seperti jika akan diteliti faktor apa saja yang mempengaruhi seorang konsumen membeli sebuah Mobil? Pada kenyataannya, banyak faktor atau variabel yang mempengaruhi konsumen tersebut, seperti Promosi dari Perusahaan, Diskon yang ditawarkan, Kebutuhan riil dari Konsumen, Pendapatan Konsumen, Sistem Kredit yang ditawarkan, Pengaruh dari Keluarga, Status Sosial dan sebagainya. Semua faktor ini harus dianalisis bersama-sama, dan metode statistik parametrik atau non pararnetrik tidak bisa digunakan karena hanya dapat menganalisis dua variabel. Oleh karena itu, metode Multivariat harus digunakan pada kasus seperti diatas (Regresi berganda, Factor Analysis atau lainnya). Perkembangan Software Statistik yang pesat membuat penggunaan metode Multivariat yang sangat kompleks menjadi mudah dan praktis. Oleh karena itu, aplikasi metode Multivariat dengan SPSS sebagai software Statistik terpopuler semakin luas, dan karena buku yang khusus membahas aplikasi Statistik Multivariat dengan bantuan komputer masih sedikit, kehadiran Buku Latihan ini diharapkan mampu meningkatkan penggunaan Statistik Multivariat di berbagai bidang.

Agar mudah dipahami, buku ini disusun dalam bentuk modul-modul, Setiap modul membahas persoalan statistik tertentu atau penggunaan tools SPSS tertentu yang dikaitkan dengan sebuah kasus Multivariat. Hal ini untuk memudahkan pemahaman akan topik atau tools tersebut, tanpa dikacaukan dengan topik atau tools yang lain. Para mahasiswa dan dosen dapat menggunakan buku latihan ini sebagai bahan pelengkap kuliah Statistik atau Praktikum Statistik di Perguruan Tinggi. Selain itu, kalangan peneliti, pengusaha dan pengguna awam yang terlibat dalam proses data statistik merupakan kalangan yang tepat untuk menggunakan modul-modul pada buku ini dalam praktek sehari-hari. Buku ini dilengkapi dengan disket kerja yang memuat data-data statistik serta jawaban latihan. Dengan adanya kasus yang bersifat integratif namun sederhana, pengguna dapat segera memaharni bagaimana SPSS secara praktis bisa membantu mengambil keputusan atas berbagai masalah statistik yang melibatkan penggunaan metode Multivariat. Dua seri Buku Latihan SPSS serta satu Buku Pedoman SPSS versi 10 yang mendapat sambutan bagus di kalangan pembaca, juga disertai dengan banyaknya email yang masuk ke Penulis. Topik yang ditanyakan dernikian beragam, dari pembahasan skripsi atau thesis seorang mahasiswa, sampai permasalahan pada sebuah perusahaan, Dari persoalan di bidang marketing sampai penggunaan statistik di bidang kelautan. Penulis sungguh mengucapkan terima kasih atas pertanyaan-pertanyaan dan terlebih kritik membangun dari para Pembaca, yang membuat penulis sadar betapa luasnya aplikasi ilmu statistik pada berbagai bidang. Juga Penulis merninta maaf kepada para Pembaca yang telah mengirim email namun belum sempat dibalas karena kesibukan Penulis, atau yang mendapatkan jawaban yang kurang memuaskan. Itulah keterbatasan Penulis, sesuatu yang mendorong Penulis untuk terus belajar dan belajar, agar Pembaca tetap mendapatkan nilai tambah (value added) dari setiap Buku Penulis. Jika pada buku ini ditemui kesalahan-kesalahan, baik itu dalam pengoperasian SPSS, interpretasi output SPSS, penyusunan modul, atau bahkan konsep statistik, silakan melontarkan berbagai pertanyaan maupun saran yang membangun ke alamat email: singgih santoso@yahoo.com atau singgih@mailexcite.com

Atas terbitnya buku ini, ucapan terima kasih Penulis tujukan kepada PT ELEX MEDIA KOMPUTINDO, khususnya kepada lbu Aristiawati beserta staf (lbu Elizabeth), yang masih memberikan kesempatan berharga kepada Penulis untuk dapat menyampaikan sebuah karyanya yang lain ke tangan para pembaca.

vi

Terima kasih juga ditujukan kepada para mahasiswa yang telah Penulis bimbing dalam pembuatan Skripsi dan Penelitian, khususnya kepada saudara Agus Gianto, yang memberi sumbangan data penelitian yang telah dilakukan di sebuah supermarket di Yogyakarta. Juga terima kasih kepada Pimpinan dan staf PT MULTI AGUNG PERKASA, sebuah Perusahaan Konsultan Sistem Informasi, dan PT MAGNA INTI DATA, sebuah perusahaan Market Research. Semua itu telah memperkaya wawasan Penulis dalam praktek pengolahan data statistik dengan SPSS, lewat kegiatan konsultasi di berbagai perusahaan di Indonesia. Rasa terima kasih akhimya Penulis sampaikan kepada istri Penulis, Priscilia Setian, yang selalu mendukung dan mengingatkan Penulis untuk segera menyelesaikan buku ini. Dan kepada Putra Penulis, Alvin, yang sekarang sedang lucu-lucunya. Kehadiran mereka sungguh menyadarkan Penulis betapa berartinya sebuah keluarga, sebuah titipanNya.

Penulis

vii

PENGANTAR

ANALISIS

MULTIVARIAT

1 4 6 19 23 34 39 43 ; 47 52 68 81 93 97 113 129 138 143 147 154 174

TEORI UJI DATA MODUL 1 MODUL2 MODUL3 MODUL4 MODUL5 MODUL6 Uji Data (1) Missing Value Analysis Uji Data (2) Perlakuan Terhadap Missing Value Uji Data (3) Outlier Uji Data (4) Normalitas Uji Data (5) Homoskedastisitas Uji Data (6) Linieritas

CLUSTER ANALYSIS MODUL 7: Analisis Cluster K-Means Cluster MODUL 8: Analisis Cluster (2) Hierarchical Cluster MODUL 9: Analisis Cluster (3) Crosstab dan Grafik FACTOR ANAL YSIS

MODUL 10: Analisis Faktor (1) Menilai Variabel yang Layak MODUL 11: Analisis Faktor (2) Factoring dan Rotasi MODUL 12: Analisis Faktor (3) Validasi Faktor. MODUL 13: Analisis Faktor (4) Membuat Faktor Scores DISCRIMINANT ANALYSIS

MODUL 14: Analisis Diskriminan Dua Faktor (1) Uji Variabel MODUL 15: Analisis Diskriminan Dua Faktor (2) MODUL 16: Analisis Diskriminan Tiga Faktor

ix

TEORI MANOVA ••....•••........•.......•.....•.•..............•....•.................... MODUL 17: General Linear Model (Univariat) MODUL 18: Manova (GLM Multivariat) MODUL 19: Manova 2 (Factorial Design) MODUL 20: Manova 3 (Custom Tables) TEORI CANONICAL CORRELATION

195 199 208 221 231 239 242 253 261 264 287 300 306 313 333 340 342

MODUL 21: Canonical Correlation MODUL 22: Canonical Correlation (2) TEORI CONJOINT ANALYSIS MODUL 23: Analisis Conjoint (1) MODUL 24: Analisis Conjoint (2) MODUL 25: Analisis Conjoint (3) SOALLATIHAN LAMPIRAN DATA

LAM PIRAN SITUS INTERNET MUL TIVARIAT LAM PI RAN SERI BUKU SPSS DAFT AR PUSTAKA
,C

Secara umum, Analisis Multivariat atau Metode Multivariat metode-metode statistik yang secara bersama-sama melakukan analisis lebih dari dua variabel orang.

Vvl.HUUU111","c"

(simultan) obyek atau

Jadi bisa dikatakan analisis multivariat perluasan dari analisis univariat (seperti t) atau bivariat (seperti korelasi dan regresi sederhana). Sebagai contoh, dilakukan analisis regresi sederhana, dengan satu variabel Y dan satu variabel X, maka analisis seperti itu dikatakan bivariat, karena ada dua (bi) variabel, X dan Y. Sedang dilakukan analisis regresi berganda, dengan sam variabel Y dan dua variabel X dan X2), maka analisis sudah bisa dikatakan karena ada tiga variabel (yang berarti, Xl dan X2).

Variat bisa didefinisikan sebagai suatu kombinasi Hiller dari variabel- variabel dengan bobot variabel yang ditentukan secara empiris. Sebagai contoh, ada persamaan regresi berganda: Nilai variat=w l.XI +w2.x2+w3.x3+ ... +wn.Xn

Di sini Xn adalah variabel yang telah ditentukan oleh sedang wn adalah hasil dari proses multivariat. Nilai variat adalah hasil dari proses p" •• dan w dan yang menghasilkan suatu nilai variat tertentu.
'-<A1"4U

Data? Data yang secara statistik bisa dibagi menjadi Data metrik dan non metrik dilakukan pada analisis multivariat. Hal ini disebabkan IHt.,LV,-',multivariat yang rnengharuskan ciri-ciri data tertentu,

desimal, atau 178,45 em ~U',"HHaJlJo interval atau data rasio, data non metrik adalah data yang desimal serta dilakukan yang diberi kode 1 untuk 'Pria' dan 2 'Wanita'. metrik akan data nominal atau data ordinal.
n,VUJHHH,

data

Analisis Univariat/Bivariat? Uni atau Bivariat lebih dan dua variabel, sernua variabel tersebut dianalisis secara simultan atau bersamaan. Perbedaan tersebut disebabkan Multivariat, Hal ini

Sistem Kualitas Rumah pertumbuhan sebuah tanaman, yang melibatkan pupuk yang Curah keasaman Intensitas Sinar Matahari dan sebagainya. Kedua eontoh di atas tidak bisa diselesaikan analisis univariat atau karena keterbatasan kedua analisis tersebut.

"V'~~'6M, alternatif

mengapa Analisis Multivariat tidak


dahulu dalam oernuunuun Statistik? yang terkait

Oleh karena waktu itu (Software) belum taraf ""_'--'.'hll'uau sekarang, di lain sisi hampir semua perhitungan Multivariat tidak bisa atau sulit sekali dilakukan secara manual. Dengan kualitas Software, seperti sekarang metode Multivariat dalam statistik,

tersebut,

naik Pesawat
n.V'UAun

pernu.ursgue»

Multivariat harus meneeunascan


Multivariat lebih melibatkan maka

Oleh

karena

metode

UaLH.HJllb~.aH

untuk SPSS selain SPSS juga dengan program

Data untuk analisis Multivariat? Uji Data pada prinsipnya metode rnultivariat (cluster "HE,uu,,,,,,",,,,, pada data tertentu. rl;int"rn,.pt,,~i dengan terlebih dahulu? Pengabaian Data bisa berakibat biasnya kesimpulan yang atau bahkan metode multivariat tidak bisa diproses, Seperti jika Data (yang terdiri atas banyak variabel) mempunyai banyak missing value (data yang hilang atau tidak ada isinya). Jika data tersebut dipaksa untuk diproses, yang dihasilkan bisa sangat berbeda data tidak ada yang hilang (missing). Pada beberapa jenis data yang sangat banyak 'H~.H5aH'HU'"5 missing value, proses multivariat bahkan tidak bisa dilakukan. bahwa berbagai dan bisa ,,'vU,.u'UUH, hasil proses multivariat bisa tidak dilakukan untuk memastikan

Llv.u",om

Data yang akan

Kendala adalah banyaknya waktu dan tenaga yang terbuang untuk proses Uji Data, yang bisa sebuah pemborosan. Sementara di lain sisi, jika memang Data tidak untuk lebih lanjut, tidak ada jaminan adanya proses pengobatan' (remedies) data tersebut hingga Ada macam Data?

Uji Data bisa dilakukan dengan empat cam:

..

Pengujian dengan menggunakan kenormalan sebuah distribusi korelasi dan sebagainya, Pengujian Missing atau ada data yang

Grafik, seperti untuk menguji bentuk .... "."','"""sebaran dua variabel untuk data yang tidak data secara

Pengujian Outlier yang sangat yang keberadaan data Outlier akan mengganggu keseluruhan data. asumsi metode-metode Uji Linieritas dan sebagainya. dilakukan

..

Missing Data atau Missing V alue adalah informasi yang tidak tersedia untuk sebuah subyek (kasus), Dalam SPSS, missing data adalah adanya sel-sel kosong pada satu atau variabel, Data terjadi karena informasi untuk sesuatu tidak diberikan, sulit diem atau memang informasi tersebut tidak ada. Sebagai contoh, pada Data Responden atau Usia Responden, bisa saja ada Responden yang karena alasan pribadi tidak mau menyebutkan Gaji ataupun Usianya, Hal iniberakibat adanya data yang kosong pada kolom atau Usia. Missing Data pada dasarnya tidak bermasalah bagi keseluruhan data, apalagi jika jumlahnya hanya sedikit, misal hanya sekitar 1% dari seluruh data. Namun jika persentase data yang tersebut cukup besar, maka dilakukan pengujian apakah data yang mengandung banyak missing tersebut masih layak diproses lebih lanjut ataukah tidak. Pada kasus berikut akan bagaimana perlakuan terhadap missing data, yang meliputi pengujian keacakan Missing serta upaya penanganan terhadap Missing Data.

Perhatikan isi file MISSING VALUE.sav yang isinya sama persis dengan file DISKRIMINANT.sav (akan dibahas di rnodul lain). File MISSING berdasarkan VALUE berisi data 75 konsumen yang air minum mineral yang dikonsumsinya, digolongkan

SEDIKIT: konsumen termasuk sedikit mengkonsumsi untuk tipe ini adalah O. BANY AK: konsumen termasuk Kode untuk tipe ini adalah 1.

air mineral. Kode air mineral. lalu

banyak mengkonsumsi

NB: Kode untuk data kategori bisa dilihat dengan menekan lihat bagian (kolom) VALVES.

Sedang data lain adalah data bertipe rasio, seperti Usia konsumen, Berat dan Tinggi badan konsumen, Income konsumen, Jam Kerja konsumen dalam sehari, serta kegiatan Olahraga konsumen (jam) dalam sehari. Jika diperhatikan isi seluruh data, terlihat ada beberapa sel yang tidak terisi, atau disebut sebagai MISSING VALUE (data yang Sebagai contoh, untuk kasus pertarna, dengan konsumen bernama RUSDI, variabel Berat badan Rusdi tidak tertera, Demikian pula untuk baris dengan konsumen bernama Lanny, variabel Tinggi badan tidak tercantum. Di sini bisa dikatakan bahwa pada kasus 1 dan 3 terdapat satu missing value, sedang pada kasus 2 tidak ada missing value. Namun dilihat pada kasus 11, konsumen bernama Bambang mempunyai dua missing value, yakni Usia dan Tinggi badannya. Sedang jika dilihat dari sudut kolom (variabel), terlihat variabel USIA mempunyai sembilan missing value, namun variabel INCOME hanya terdapat dua missing value. Demikian seterusnya bisa dilihat dari sudut kasus dari variabel- missing value yang ada pada data konsumen air mineral tersebut, Dari kasus di atas, akan dilihat apakah:
9

Apakah missing value yang

bersifat acak (random) ataukah tidak?

Terkait dengan permasalahan pertama, bagaimanakah seharusnya perlakuan terhadap data yang mengandung missing value tersebut?

pada Missing Value Analysis:


1.

MENGUJI KEACAKAN MISSING VALUE

pertama adalah melakukan pengujian apakah data yang hilang tersebut bersifat random ataukah tidak. Seharusnya value yang ada bersifat yang berarti tidak ada pola tertentu value yang ada. Sebagai contoh, jika data yang missing pada variabel USIA, semua missing pada konsumen yang termasuk SEDIKIT. Hal ini tidak
",-,U.U&,'~'

bisa dikatakan bersifat random, karena seharusnya data yang missing usia, selain ditemukan pada mereka yang minum air mineral juga ditemukan pada mereka yang minum air mineral BANY AK. Proses
@

Buka file milssjn~ value Dari menu

"

Pengisian: Masukkan variabel dan ke bagian QUANTITATIVE VARIABLE. Disebut variabel berarti variabel yang dimasukkan hams data rasio. Masukkan variabel minum ke CATEGORICAL VARIABLE. Disebut variabel kategori, berarti variabel yang dimasukkan harus data bertipe nominal. Namun pernasuxun variabel dalam arti bisa saja bagian ini dikosongkan. Masukkan variabel nama ke bagian CASE LABELS. Disebut Case labels berarti data harus berbentuk (huruf). pengisian categorical variable, bagian ini bersifat Pada bagian ESTIMATION kotak dan EM. tengah), aktifkan mouse)

NB: Listwise berarti hanya kasus yang semua datanya ada yang ditampilkan. Jika ada kasus salah satu data missing, maka tidak akan disertakan. Sebagai contoh, kasus nomor 2 yang lengkap

datanya akan dinamakan satu list. Ciri yang diproses sama. Pairwise berarti data ditampilkan. Dengan bervariasi, dihubungkan.

ini adalah

data

U<:OJLAllJU"U,

lengkap

tidaknya

yang nu data akan data dua variabel yang MCAR.

EM adalah metode untuk ""'''5,'''''''''''''' Klik icon PATTERNS. Tampak di

Pengisian: Pada bagian DISPLAY, aktifkan dua Tabulated cases ... dan Cases with misstng Abaikan bagian dialog utama, yakni

dan tekan CONTINUE untuk kembali ke kotak

Pengisian:

Pada bagian INDICATOR VARIABLE STATISTICS, aktifkan dua pilihan, yakni Percent mismatch dan Cresstabulations of ... Abaikan bagian lain, dan tekan CONTINUE untuk kembali ke kotak utama, berikut. lain dan tekan OK untuk proses pada file MISSING

PERHATlKAN. TIDAK SEMUA BAGlAN OUTPUT DITAMPILKAN. HANYA BAGlAN OUTPUT YANG RELEV AN YANG AKAN DIBAHAS. Deskripsi variabel dengan adanya Missing value

Univariate

Statistics No. of Extremes" Low Hiqh

Missina N USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM Mean Std. Deviation Count Percent

66 69 71 73 73 73 75

30.1364 54.9130 160.1268 618.9041 5.2630 3.048

6.3679 10.7440 6.8867 123.6433 .1260 .638

9 6 4 2 2 2 0

12.0 8.0 5.3 2.7 2.7 2.7 .0

0 0 0 0 0 0

0 0 7 0 0 0

a. Number of cases outside the range (01 - 1.5*IOR, 03 + 1.5*IOR).

N, terlihat angka bervariasi pada setiap pada setiap variabel, Pada variabel USIA, dari 75 konsumen yang ada 66 data Usia konsumen yang sehingga ada 75-66) data yang missing. Demikian seterusnya untuk variabel yang catatan semua data variabel MINUM lengkap terisi atau ada Hal ini bisa juga dilihat pada kolom MISSING, pada Count untuk nyata, dan bagian Percent untuk menghitung persentase mana untuk variabel USIA, persentase adalah 9175*100% atau 12%). Kolom Mean dan Standard Deviation menunjukkan nilai statistik dasar, rata-rata dan standar deviasi untuk setiap variabel, yang dihitung dari jumlah data yang valid (tidak missing). Untuk variabel USIA, rata-rata usia 66 10

konsumen adalah 30,13 tahun seterusnya untuk data yang lain,


Summary of Estimated

standar deviasi

tahun. Dernikian

Means w 2: 0

iii

«
:::l

f0::
W

«
III

a 0
Z

« -,
0::
W

<
CJ
0:: I

1=

~
2:

« -a
52478 5.2630 5.2640

« -'

Ustwise All Values

EM

29.9057 30.1364 30.2384

55.5094 54.9130 54.9249

159.8302 160.1268 160.1303

609.4340 618.9041 620.4232

2,996 3.048 3.048

rata-rata ukuran: Jika " Jika rata-rata Usia memacn dan ,,~'v"A".']

dad

tabel

Jika badan

HH,HIUUJ.

rata-rata Usia dan seterusnya,

UL\,HIU\.H

berat

MINUM

~
f-

2 '6 :Jl
a a 33 86.8 13.2 34 89.5 10.5 35 92.1 7.9
are not

.x:

_Q

'" c '" a

»,

,-

USIA

Present

Count Percent

66 88.0 12.0 69 92.0 8.0 71 94.7 5.3

33 89.2 10.8 35 94.6 5.4 36 97.3 2.7

Missing BERAT Present

% SysMis Count Percent

Missing TINGGI Present

% SysMis Count Percent

Missing Indicator displayed. variables

% SysMis

with less than 5% missing

11

Untuk vatiabel USIA, dati 66 data yang valid, 33 data ada pada kategori minum dan sisanya (33 data) ada pada minum BANY AK. Sedang dari komposisi data yang missing, 13,2% data yang missing ada pada usia konsumen yang termasuk air mineral kategori SEDIKIT, sedang 10,8% berasal dari mereka yang termasuk air mineral kategori BANY AK. Perhatikan angka 12% yang rata-rata dati 13,2% dengan Demikian seterusnya untuk variabel yang lain. Perhatikan ada tiga variabel yang ditampilkan dari enam variabel yang diuji, Hal ini disebabkan variabel (MlNUM, INCOME, JAM KERJA dan OLAHRAGA) mempunyai sedikit data yang missing (kurang dari 5% dari total 75 data) sehingga tidak pada Bahkan untuk variabel tidak ada data yang Dari terlihat penyebaran data yang missing dalam arti ada data hilang setiap kategori dan variabel. Hal ini sudah menggambarkan keacakan data yang
-".Vll"UIU'-'U,

Penyebaran Missing Data

12

Missing

Patterns

(cases with missing

values)

Ol

'w

Ol

'w
0

Missing and Extreme Value Patterns"

':?;

(f)

':?;
:f!.

(f)

'"
Case RUSDI LUSI ERNI KRISTANTO NINIK ELI DINA ESTI RINA RULLY ROSSY AGNES BAM BANG L1NA LANNY SUSANA L1TA SUSAN KARIM TATIK LENNY SULASTRI 1 1 1 1 1 2

':?;
14.3 14.3 14.3 14.3 14.3 28.6 14.3 14.3 14.3 14.3 14.3 14.3 28.6 14.3 14.3 14.3 14.3 14.3 14.3 14.3 14.3 28.6

::J Z

::;;;

2 0

ill

ill

::;; -c -,

cc :.::

« -.,

-c a: I «

« (9

(9 (9

-' 0

i=

CD

a:

I-

:::J

S S S S S S S S S S S S S S S S S S S S S S S S + S

1 1
1 1 1 1 2 1 1 1 1 1 1 1 1 2

- indicates an extreme low value, while + indicates an extreme high value. The range used is (01 - 1.5*IOR, 03 + 1.5*IOR). a. Cases and variables are sorted on missing patterns.

Tabel di atas menggambarkan npl,n7F"",r<ln konsumen yang memang antnnva bukannya seluruh konsumen.

untuk dan

Pada bans 1, konsumen bernama Rusdi mempunyai satu missing data kolom #Missing) pada variabel BERAT (lihat tanda Spada kolom BERAT). Oleh karena missing ada pada 1 dan 7 variabel, persentase missing adalah 117 x 100% atau 14,3%.

13

Sedang untuk baris 6, konsumen bernama Eli mempunyai dua missing data pada variabel BERAT dan USIA. Oleh karena missing ada pada 2 dari 7 variabel, persentase missing adalah 217 x 100% atau 28,6%.
Tabulated Patterns

.0

Missinc Patterns

2 Q)

::J

~
Number of Cases

0 0

~ ~

UJ

UJ

~ ~ « -,

-c -, a:

« o
I

-c a:

(3
(')

l-

«
UJ

«
0
_j

1=

a:
co

CiS

is. E 0 0

::J

53 5
1

X X X X X X X X X X X X

6
1

3
2 2 1 1

53 58 65 59 63 56 55 55 54
61

Patterns with less than 1% cases (0 or fewer) are not displaved. a. Variables are sorted on missing patterns. b. Number of complete cases if variables missing in that pattern (marked with X) are not used.

Tabel di atas sisi lain dari penyebaran missing di mana missing value dinyatakan per variabel. Pada baris pertama, angka 53 menyatakan ada 53 data (konsumen) yang valid, dalam arti tidak terdapat missing value pada semua Hal inilah yang dimaksudkan pengukuran dilakukan secara listwise. Sedang angka 5 baris kedua berarti adanya lima data yang missing hanya variabel BERAT. Jika dilihat tabel sebelumnya, konsurnen yang mempunyai data missing pada variabel BERAT adalah Rusdi, Kristanto dan Ninik,

14

Sedang angka 1 pada bans ketiga berarti adanya satu data yang "'-"''''''15 variabel BERAT dan USIA. Jika dilihat pada tabel sebelumnya, konsurnen yang data missing variabel BERA T dan USIA adalah ELI. Demikian seterusnya untuk penjelasan bans Untuk kolom terakhir:
III

Seandainya 5 data yang missing di variabel BERAT diperbaiki sehingga memaui tidak missing, maka semua data yang tidak missing menjadi: 53+5=58 data yang
<"'11,5"""1-"

III

Baris 2 BERAT dan USIA. Seandainya 5 data yang missing di variabel BERAT sehingga menjadi tidak missing, demikian 7 data pada variabel USIA tabel sebelumnya untuk kolom maka semua data yang tidak "'-"NaIF, menjadi: 53+5+7=65 data yang lengkap. NB: Perhatikan data dengan nama perhitungan di atas, karena terkait dan bukannya USIA dan BERAT. Bambang tidak masuk dalam variabel USIA dan TINGGI,

Demikian seterusnya untuk data yang lain. Analisis LISTWISE


Llstwlse Correlations
W

Ui
:::l

I-

a: w

(D
<5

« -,
a: w

rn

2 0

1=

« -,

« <5 « a: I -c ...J
0

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA

1,000 .168 -,021 .829 -,168 ,505 1.000 ,230 .138 .144 ,048 1.000 -.072 .220 -.219 1,000 -.038 .704 1.000 -,110 1,000

di atas, metode listwise akan kasus yang tidak lengkap Dengan metode 53 data dan 75 data mula-mula yang karena tidak ada satu pun data 11ll""'''F,. semua

UWHtsiS"P

15

selanjutnya menghitung korelasi antar variabel untuk 53 data. 0,168 pada tabel di atas menyatakan besar korelasi antara variabel BERAT dengan variabel USIA. Demikian untuk korelasi antar variabel yang lain. Sebagai pedoman, jika angka korelasi di bawah 0,5, pengaruh missing data suatu variabel terhadap '_<.'__ ~'.1 variabel Sebaliknya untuk korelasi di atas 0,5. ada sedikit missing data dati

Sebagai contoh, korelasi antara variabel INCOME dengan USIA sebesar 0,829. Angka korelasi yang besar ini menyatakan bahwa terjadinya missing value dari variabel INCOME berpengaruh kuat missing value pada variabel USIA. Hal ini tidak bagus, karena menandakan rendahnya keacakan missing value. Sebaliknya angka korelasi variabel BERAT dengan USIA sebesar 0,168 yang di bawah Hal ini berarti adanya tingkat keacakan yang tinggi pada missing karena pengaruh antar variabel lemah. Jika dilihat pada tabel di atas, terlihat hanya ada dua korelasi yang cukup kuat, yakni antara variabel INCOME-USIA dan INCOME-OLAHRAGA. Sedang korelasi termasuk OLAHRAGA-USIA tidak menunjukkan korelasi yang kuat, Analisis metode Pairwise
Pairwise Frequencies
I0:
W

~
(J)

«
co

CJ

C)

::J

::;;; 0

« -, 0:
W

C)

i=

~
:2;

« « « ..J

::;;;
::J

0:

:c
0

« ...,

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA MINUM

66 61 63 65 64 64 66

69 65 67 67 67 69

71 69 69 69 71 73 71 71 73 73 71 73 73 73 75

Metode pairwise akan memasangkan (pair) variabel yang mempunyai data lengkap, dan tidak menghilangkan sebuah bans begitu saja. Dengan demikian data bisa berbeda-beda tergantung kelengkapan data dua variabel yang dipasangkan. Sebagai contoh, jika yang dipasangkan variabel USIA dengan BERAT, akan ada 61 data yang valid, sedangkan 14 data (75-61) tidak valid. Namun, jika 16

dipasangkan variabel USIA dengan TINGGI, akan ada 63 data sedangkan 12 data (75-63) tidak valid. Demikian kombinasi variabel lainnya.
Pairwise Correlations

iiJ
::J

«
a: w
co

I-

o
Z

r=

:2' 0

a: w

-,

<

~
:2'

a:
I

« o «
-' 0

«
-,

USIA BE RAT TINGGI INCOME JAMKERJA OLAHRAGA

1.000 .103 .030 .821 -.122 .507 1.000 .173 .072 .076 .040 1.000 -.029 .206 -.130 1.000 .024 .696 1.000 -.011 1.000

Tabel di atas mempunyai tafsiran yang sama dengan analisis korelasi antar variabel dengan metode listwise yang telah U!1'A<ti,,,"aH '''vU'~'UUllL Sarna dengan analisis listwise angka korelasi yang di alas 0,5 sangat sedikit sehingga bisa dikatakan pola missing value adalah acak (random). Analisis metode EM
EM corretanonss

::J

iiJ

co

a:

I-

r=

a o

w :2' 0

« -a
w :2' « -,

a:

a:
I

« o -c
:)

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA

1.000 .069 .016 .815 -.117 .493 1.000 .154 .060 .067 .030 1.000 -.012 .204 -.107 1.000 .011 .707 df 1.000 -.007 Prob 1.000

a. Little's MCAR test: Chisquare .859

= 32.333,

= 42,

"-VH_"a~, '''''''''at''uu.

U,",'.HHUal!l,

korelasi di atas yang dua metode yakni rnetode Listwise dan Pairwise. Terlihat hanya ada korelasi yang di atas 0,5, dan Dengan bisa dikatakan value adalah random
IPT',,",,"mnl"

Selain besar angka kelebihan metode EM adalah MCAR bagian bawah

alat

17

signifikansi MCAR (Frob) > 0,05, missing value adalah random Angka signifikansi MCAR (Prob) < 0,05, missing value adalah tidak random

Jika dilihat bagian bawah terlihat angka MCAR yang unampuxan alat analisis Chi-Square 32,33 0,859. Oleh karena angka probabilitas (signifikansi) jauh di atas maka missing value dari data di atas adalah random. Kesimpulan Dengan demikian, terkait dengan awal Kasus ini:

value yang terjadi, acak tidak memiliki pola tertentu; Perlakuan untuk missing value akan dibahas pada modul selanjutnya.

18

Jika pada modul Missing Data (Value) bagian pertama dijelaskan pengujian kerandoman Missing Data yang ada, modul berikut melanjutkan penanganan yang missing dan ternyata bersifat random. Jika missing value terbukti random, dalam arti missing value yang terjadi tidak disengaja dan tidak mengacu keadaaan tertentu (misal missing hanya pada variabel usia), maka berbagai perlakuan bisa dilakukan pada data-data yang missing. Penanganan terhadap Missing Value bisa bervariasi, seperti membuang baris (kasus) yang mengandung missing value, menghapus variabel (kolom) yang mengandung missing value dan sebagainya. Salah satu cara yang populer adalah bukan menghilangkan barisatau kolom yang mengandung data missing, namun mengisi sel (data) yang missing dengan nilai tertentu yang dianggap bisa mendekati kenyataan data terisi. Hal ini lebih baik dan rasional daripada membuang satu baris karena usia konsumen tidak terdata, atau bahkan satu variabel hanya karena satu dua sel tidak terisi. Cara mengisi data yang bisa bermacam-macam, dan yang populer adalah mengisi dengan rata-rata keseluruhan data. Sebagai contoh, akan data usia yang cari rata-rata usia konsumen secara keseluruhan, kemudian mengisi setiap data missing dari variabel usia angka rata-rata tersebut,

19

1:
Modul ini terkait dengan kasus sebelumnya, yang ada file MISSING VALUE.SA V, dengan penjelasan penggunaan metode pengisian berdasarkan Means data.

pada Missing Value Analysis

modul sebelumnya).

MENGISI MISSING VALUE


Proses pengisian dengan rata-rata data:
3

Buka file nnssmg value Dari menu

Pengisian: variabel dan ke bagian NEW (new) karena akan ada enam variabel bam atau enam kolom tambahan, Perhatikan di sini dimasukkan enam variabel yang memang mengandung data missing setiap variabel tersebut. NAME AND METHOD Perhatikan bagian NAME yang otomatis nama variabel bam, USIA_l untuk pengganti variabel usia. Tentu nama tersebut bisa misal UMUR atau yang lain.
AU"U<UUpJlU'-'lU lJ'~AUab'll

Masukkan

metode perlakuan tetap

Series Mean.
NB: buka kotak combo di MEAN OF NEARBY
20

dna data yang berdekatan. Seperti data atas 50, data tengah kosong dan data bawah maka dengan metode ini, data tengah akan diisi rata-rata 50 dan 60, 55. Abaikan bagian lain dan tekan OK untuk proses, dengan berikut, (Disimpan value i5a.u a, i~"'"

me

sebagai

NB: Sebetulnya ada input yakni bertipe spo yang muncul terlebih dahulu setelah proses selesai. Namun bertipe spo tidak disket kerja, walaupun dibahas berikut ini.

Deskri12si !)enggantian Missing value Output bertipe spo dan Missing Result Variable USIA_l 9 6
4

dilayar:

Values

First Non-Miss

Last Non-Miss 75 75 75 75 75 75

Valid Cases 75 75 75 75 75 Function SMEAN(USIA) SMEAN(BERA T) SMEAN(TINGGI) SMEAN(INCOME) SMEAN(JAMKER)

1 1 1 1 1 1

INCOME_l JAMKER_l OLAHRA_l

2
2

75 SMEAN(OLAHRAG)

Dari tabel output ill atas, terlihat ada 9 data untuk variabel USIA yang diganti, 6 variabel BERAT yang diganti dan seterusnya, Metode penggantian berdasarkan rata-ratanya, Seperti untuk variabel USIA, karena rata-rata adalah 30,14 tahun (lihat tabel output MISSING VALUE.spo bagian pertama modul sebelumnya), maka setiap data yang kosong pada variabel USIA akan dengan angka 30,14. Dernikian untuk variabel BERAT. Oleh karena rata-rata Berat badan adalah 54,91 kilogram (lihat tabel output MISSING VALUE.spo bagian pertama pada modul sebelumnya), maka data yang kosong variabel BERAT akan dengan angka 54,9.

21

Demikian seterusnya sehingga didapat hasil (hanya tambahan dan sebagian data):

,u":uuiinu.u,,,

enam kolom

Dari file diatas terlihat pada baris ke-5 dan 11 untuk variabel USIA, terdapat pengisian angka 30,14 sebagai pengganti data yang kosong, Demikian untuk baris 1 dari variabel BERAT, yang sekarang terisi dengan angka Demikian seterusnya untuk pengisian data yang mengacu pada rata-rata keseluruhan dari sebuah variabel. Kesimpulan: Dengan adanya proses pengujian dati Missing Value kemudian pengisian data pengganti, maka pada berbagai proses analisis multivariat (seperti diskriminant, factor dan lainnya), data yang akan digunakan
Ii>

Data Pengganti, yakni keenam variabel bam tersebut Menggunakan metode Listwise Menggunakan metode Pairwise

'"
Ii>

Jika menggunakan metode Listwise atau Pairwise, yang digunakan keenam variabel yang lama. Pemilihan data mana yang akan digunakan, tentu tergantung !-'v""",.,..U.H yang akan
U'GdmH.

pada tujuan

22

Data Outlier adalah data yang secara berbeda data-data yang lain. data dati 100 tinggi badan orang Asia, ada data tinggi badan 210 centimeter. Tinggi badan tersebut 'ekstrim' rata-rata badan orang asia umumnya, rnisal sekitar 160 centimeter. Data 210 centimeter inilah yang disebut data outlier. Data Outlier bisa
1.

data. Terkait 150 centimeter Kesalahan

dengan contoh di atas, 210 centimeter.

2.

Terkait dengan contoh di alas, Badan adalah para Basket badan mereka di alas rata-rata. data-data Terkait tidak bisa dihindarkan atas, memang ada Badan 210 centimeter. sebuah Data atau Variabel

3.

Kasus berikut akan HR'U5,uU"U"5 Data tersebut,

1:
data sama data yang

23

menyimpang (outlier) pada file tersebut? Dan jika memang ada data apakah tindakan yang akan diambil?

Uji keberadaan Outlier bisa dilakukan membuat nilai z menampilkan Scatter Plot serta penyajian Box Plot. 1, STANDARDISASI DATA

dua cara, data dalam bentuk

Deteksi Data dengan standardisasi pnnsipnya mengubah nilai data semula dalarn bentuk z; kemudian menafsirkan nilai z tersebut,

o e

Buka file outlier Dari menu Descrlptives Tampak di layar:

Pengisian: Masukkan variabel usia, olahraga ke bagian VARIABLE(S). kerja dan

NB: Di sini tentu saja variabel MINUM tidak relevan untuk diuji, karena variabel tersebut bertipe kategori (nominal). Aktifkan save standardizedvalues mengklik mouse pada kotak tersebut, at variables, sebagai

Abaikan bagian lain dan tekan OK untuk proses, dengan berikut, (Disimpan pada file outlier

NB: Sebetulnya ada input yakni spo yang justru muncul terlebih dahulu setelah proses selesai. Namun output bertipe spo tidak disimpan pada disket kerja, dibahas berikut ini.

24

Descriptive Statistics N 75 75 75 75 75 75 75 Minimum 20.00 35.00 148.00 400.00 5.00 2.0 Maximum 45.00 120.00 190.00 1000.00 5.50 4.5 Mean 30.4267 55.6933 160.3200 623.7333 5.2653 3.053 Std. Deviation 6.2734 13.8290 7.5626 131.7530 .1254 .631

USIA BERAT TINGGI INCOME JAMKERJA OLAHRAGA Valid N (listwise)

Perhatikan kolom MEAN (Nilai Rata-rata) untuk setiap variabel. Sebagai adalah 30,42 tahun standar deviasi rata-rata adalah 55,59 kilogram Demikian seterusnya untuk data yang lain. Standardisasi dengan nilai z:

dan STD. DEVIATION (Standar contoh, rata-rata usia konsumen 6,27 tahun. Berat tubuh konsumen standar deviasi 13,8

di mana: x == nilai data

x == nilai rata-rata
() == standar deviasi sebagai contoh, usia Rusdi (data nomor 1) adalah 40 maka:

sedangkan jika berat Rusdi adalah 65 kilogram, maka:

25

untuk data dan variabel Demikian secara lengkap bisa dilihat file outlier

HasH standardisasi (hanya UH,UHliJlll',aU

Jika sebuah data maka nilai z yang +2,5 atau lebih kecil dan - 2,5. Gambar:

lebih besar dari

OUTLIER DATA NORMAL +

Jika dilihat tabel z; nilai sama luas daerah di bawah kurva normal sebesar Hal ini berarti dari seluruh nilai data adalah data yang normal. Atau data tersebut bervariasi dari variasi tersebut rnasih dalam batas normal. data

26

data yang menyimpang secara (outlier). Atau melewati batasan 2,5, data tersebut dianggap data ekstrim
UiUH5i~UP

sebuah data

tersebut bisa berbeda pada kasus yang lain. Sebagian kurva normal 97,5%) batas yang yang kurang dari batas yang berarti batasan makin diperketat, Jika mengacu
ill

batasan 2,5, rnaka:

Pada variabel kasus 5 (Dina), terlihat angka z adalah Hal ini berarti income dati Dina adalah data outlier, yang dilihat income Dina variabel sebesar 1.000 maka nilai income tersebut sangat berbeda dari income rata-rata konsumen yang (lihat tabel di atas), Tanda + berarti income di atas nilai rata-rata, dan tanda -, berarti nilai konsumen di bawah nilai rata-rata. Pada variabel BERAT, pada kasus 12 dan 19 terlihat angka z adalah di atas Hal ini berarti berat badan dati Yunus dan LUis jauh dati berat rata-rata konsumen lainnya. Pada variabel rnelebih 2,5 atau tidak ada data yang nilai z dari -2,5. Hal ini berarti semua konsumen olahraga yang per hari rata-rata jam v.a'H"~5a'J.
HV,CUHU,

2.

SCATTER PLOT DATA


sebaran data dati dua variabel, data yang terletak

'-'''''",~mu

pencar plot) menampilkan dan secara visual akan bisa dideteksi data dari data. Oleh karena scatter

>~~U~~~~6~~"~H

berikut lID pasangan variabel yang bisa

dari
UHCUlJLPUl\.(lJll.

sekian

Buka file outlier Dati menu laIu Scatter Plot 27

Tampak di layar:

~asukkan variabel inco~e usia pada sumbu Y(kotak

sumbu X (sumbu datar) dan variabel

Mernasukkan variabel dengan cara click and arahkan pointer pada variabel INCOME (contoh), kemudian sambil tetap menahan tombol mouse, geser variabel tersebut ke sumbu X Tentu penempatan variabel pada sumbu X atau bersifat bebas, dalam arti boleh variabel INCOME diletakkan di sumbu yang berarti daripada ill sumbu X. Abaikan bagian lain dan tekan tombol OK.

(Disimpan Lihat

file outlier scatter BAGIAN PERTA~A:

income

28

Dati output di atas, terlihat ada beberapa data yang bisa outlier. Dua data pertama ada di bagian kanan atas, di mana Usia konsumen sudah sekitar 40 namun mempunyai income mendekati 1000 (Rp. per bulan. Dari Data Editor, terlihat ada tiga data yang ber-income 900 dan 1000. Sedang data outlier ketiga ada di bagian tengah di mana usia konsumen bam sekitar 20-an tahun, namun income sudah mendekati 800. Sedang data yang 'bergerombol' pada kiri bawah sampai kanan tengah. N amun demikian, data outlier secara visual dilengkapi dengan z untuk memastikan tingkat selain dengan bantu an Box Plot pengerjaan selanjutnya). Scatter Plot antara variabel BERAT dengan INCOME ~ .. Buka file outlier Dari menu submenu lalu Scatter Plot

Tampak eli layar kotak dialog GRAPH. Pengisian: Masukkan variabel income pada sumbu X dan variabel berat sumbu Y. Abaikan bagian lain dan tekan tombol OK. pada

file outlier scatter Lihat BAGIAN KEDUA:

income

29

Dari output di atas, terlihat ada dua data outlier yang terletak ill atas. Dua data tersebut, dati sumbu variabel BERAT terlihat 100 kilogram dan 120 kilogram. Selain income 1000 Ul'-'.'U"I",v'lfi.<Ul outlier karena terpisah cukup jauh di kanan bawah.

bisa

Demikian seterusnya bisa dilakukan scatter plot antar variabel. Jika diarnbil dua scatter ill atas, maka dapat data income 1000 bisa dikategorikan demikian berat 100 dan 120. Namun sekali kelengkapan nilai z tetap harus dilakukan dikehendaki '''''''~'''''''AU.u

3. BOXPLOT
Cara untuk mendeteksi adanya outlier adalah mernbuat sebuah Box Plot untuk sebuah variabel tertentu, yang dalam kasus berikut akan variabel USIA dan BERAT.

Buka file outlier Dari menu submenu

Masukkan variabel usia dan berat Pad a DISPLAY

kotak DEPENDENT kotak Plots

Kemudian buka kotak

30

Tampak

bentuk penyajian NONAKTIFKAN bagian DESCRIPfIVES (kanan tengah).


..uW'5H~, aH . ...
'-'V,"'_'HJL,

berbagai

Oleh karena steam and leaf pada untuk kembali ke Menu

Kemudian tekan tombol Utama Explore.

CONTINUE

Abaikan semua bagian lain dan tekan tombol OK untuk proses data.

(Disimpan Lihat

file outlier box BAGlAN PERTAMA (variabel USIA):

50,_--------------,

40

30

10.1---

-,,-

--'

USIA

Terlihat tidak ada sam pun data Usia konsumen yang ada di luar BoxPlot. Dengan demikian bisa dikatakan tidak ada data outlier ataupun ekstrem pada variabel ini, Lihat BAGIAN KEDUA (variabel BERAT):

31

140

120

100

0'

80

60

40

20

,~
BERAT

Pada BoxPlot untuk variabel terlihat ada dua data yang bisa rnkategonxan outlier dan ekstrim. Data nomor tanda bulatan adalah data outlier. data nomor tanda *, adalah data ekstrim.

dari berat adalah garis hitam di dalam '" '"

yang

kotak merah (BoxPlot), dengan data Berat konsumen ada batasan 25 75 n ..,'opr,,, 47 62 Garis horizontal yang ada di atas dan bawah kotak adalah batas atas dan bawah dati data yang masih. tidak outlier ataupun ekstrim. Jib dilihat batas atas adalah 80 kilogram, Berat badan konsumen di bawah 80 kilogram masih tidak dianggap outlier ekstrim. NB: Median dan sekelompok data bisa dicari dari menu submenu DESCRIPTIVE lalu pilihan FREQUENCIES. Kemudian dati kotak dialog, buka kotak STATISTICS, dan aktifkan Median serta isi Percentile,

'"

Jika sebuah data melebihi 1,5 kali garis batas atas atau bawah, data dianggap p"'Jllj<lHl'S, hal itu disebut ekstrim, Pada kasus di alas, yang pada kasus lain bisa saja ada (misal berat seseorang hanya 15 untuk kasus

BoxPlot yang dimulai dari outlier. Jika melebihi 3 kali ini kebetulan data outlier ada di bawah batas bawah sesuatu yang jarang

32

4.

PENANGANAN

DATA OUTLIER pada

Setelah diketahui pada sebuah file sam atau lebih data data outlier tersebut bisa dilakukan beberapa penanganan:
o

Data Outlier dihilangkan, karena dianggap tidak mencerminkan sebaran data yang sesungguhnya. Atau mungkin data outlier tersebut karena kesalahan kesalahan pada komputer dan sebagainya, Jika hal ini maka -sebagai contoh- konsumen dengan income 1000 akan dihilangkan, sehingga konsumen berkurang sam. Atau pada herat badan 120 kilogram bisa saja dari data. Data Outlier tetap dipertahankan (retensi), dan tidak Hal ini bisa disebabkan ada data outlier atau H"-''''blUU ada konsumen yang atas. Atau tidak bisa dikatakan ada kesalahan proses sampling maupun inputing data. Jika ini dilakukan, maka -sebagai contoh- income 1000 ada di dan tidak dihapus, Atau kasus BoxPlot, walaupun data 120 adalah ekstrim, namun berat tersebut tetap dipertahankan pada data.
U'~'H5HUUUiSA'-"'H

..

tentu tergantung

atau sebuah data outlier, pengguna, dengan alasan masing-masing.

33

Uji Normalitas adalah ingin distribusi sebuah data atau mendekati distribusi distribusi data bentuk lonceng (ben Data yang 'baik' adalah data yang mempuny distribusi distribusi data terse but tidak menceng kekiri atau menceng kekanan.

secara maka bisa

Dari data yang tidak

data file OUTLIER.sav, di mana isi data secara soma pada MISSING VALUE, akan variabel-variabel ada memenuhi asumsi normalitas? Dan jika memang ada variabel yang memenuhi aumsi normalitas, tindakan yang akan diambil? normalitas variabel USIA dan BERAT.

Pada kasus berikut akan

34

1.

un NORMAUTAS
dilakukan grafik dan melihat besaran

Uji Normalitas bisa Kolmogorov-Smirnov:


®

Buka file outlier Dati menu pilih submenu

..

Pengisian: Masukkan variabel usia dan berat Pada bagian DISPLAY kotak DEPENDENT LIST kotak Plots

bawah), klik mouse di

UHJ".5'Ufi.cm

berbagai bentuk uji normalitas, maka: with tests.

Oleh

karena

1. 2.

Aktifkan kotak Normality NONAKTIFKAN DESCRIPTlVES (kanan


L'-'H""",,,.

bagian

35

3.

Pilih None pada bagian BOXPLOT CONTINUE

atas). untuk kembali ke Menu

Kemudian tekan tombol Utama Explore.

Abaikan semua bagian lain dan tekan tombol OK untuk proses data.

Lihat

tabel:
Tests of Normality

USIA ". This is a lower bound of the true significance. a. Lilliefors Significance Correction

Kriteria pengujian:
6
01>

Angka

'ne,HHU',,,.H~' (SIG)

>0,05, maka data berdistribusi normal

Angka signifikansi (SIG) <0,05, maka data tidak berdistribusi normal bisa dilihat

NB: Keterangan lengkap tentang Kolmogorov-Smirnov BUKU LATIHAN SPSS NON PARAMETRIK. Analisis:
<II

Untuk variabel USIA, karena angka SIG. adalah 0,2 yang jauh di atas 0,05, maka distribusi data untuk Usia Konsumen adalah normal atau bisa dianggap normal, Untuk variabel BERAT, karena angka SIG. adalah 0,000 yang di bawah 0,05, maka distribusi data untuk Berat Badan Konsumen adalah tidak normal atau tidak bisa normal. berikut ini.

ID

Lihat Plot (Grafik) BAGlAN PERT AMA

36

Normal Q-Q Plot of USIA

/~
/:c ,oy • ,V'

."
,,/

lye
20 Observed Value 30 40 ,0

Terlihat sebaran data dari variabel usia di sekitar 'U'-,H5,,-,Q'H ke kanan atas, dan tidak ada data yang terletak ~~U"'"UR demikian, data tersebut bisa dikatakan HW.E'''''. Lihat Plot BAGlAN KEDUA
Normal Q-Q Plot of BERAT
c--

c.

il

",."

.".0'

Observed Value

Terlihat sebaran data dari variabel Berat di sekitar garis yang mengarah ke kanan atas, namun ada data yang terletak jauh dati sebaran data (perhatikan dua data dengan berat badan 100 dan demikian, data tersebut bisa dikatakan TIDAK normal. Keterangan: Selain dengan melihat Normal normal tidaknya data bisa dilihat pada plot DETRENDED NORMAL Pada data sebaran data plot DETRENDED NORMAL Q-Q tidak membentuk suatu tertentu, atau secara acak. Hal inilah yang terlihat DETRENDED NORMAL untuk variabel Usia. Sedang pada variabel BERAT, plot DETRENDED NORMAL Q-Q pola tertentu, dari kanan bawah kemudian menaik ke demikian, data variabel BERAT bisa dikatakan tidak normal. 37

2.

PENANGANAN

DATA TIDAl{ NORMAL


UV'.'UL .. ,

Jika sebuah variabel mempunyai sebaran data yang tidak yang agar normal adalah: •

perlakuan

Menambah data. Seperti kasus, bisa dicari 20 atau 30 atau data baru untuk menambah ke 75 data Berat Badan konsumen yang sudah ada. Kemudian dengan jumlah data yang baru, dilakukan pengujian sekali lagi. Menghilangkan data yang dianggap penyebab tidak normalnya data. Seperti pada variabel BERAT, dua data yang outlier dibuang, yakni berat 100 dan 120, kemudian diulang proses pengujian, data bisa menjadi normal. Jika belum normal, ulangi pengurangan data yang dianggap penyebab ketidaknormalan data. Namun pengurangan data hams apakah tidak mengaburkan 1-'101.1<0'-''''''11 karena hilangnya data yang seharusnya ada. Dilakukan transformasi misal mengubah data ke logaritma atau ke bentuk natural (LN) atau bentuk kemudian dilakukan pengujian ulang. Data diterima apa adanya, memang dianggap tidak normal dan tidak dilakukan berbagai treatment. Untuk alat analisis yang hams diperhatikan, seperti untuk multivariat mungkin factor analysis tidak begitu mementingkan asumsi kenormalan, Atau pacta kasus statistik univariat, bisa dilakukan alat analisis non parametrik.

III

NB: Proses pengujian dan transformasi bisa dilihat pada BUKU LATIHAN SPSS PARAMETRIK dan BUKU LATIHAN SPSS NON PARAMETRIK.

38

Uji Homoskedastisitas pada prinsipnya ingin menguji apakah sebuah grup (data kategori) mempunyai varians yang sama di antara anggota grup tersebut, Jika varians sama, dan ini yang seharusnya maka dikatakan ada Homoskedastisitas, Sedangkan jika varians tidak sama, dikatakan terjadi Heteroskedastisitas. Alat untuk menguji Homoskedastisitas bisa dibagi dua, yakni dengan alat analisis Levene Test, atau dengan Analisis Residual yang berupa grafik. Kasus berikut akan membahas pengujian Homoskedastisitas dengan menggunakan Levene Test.

1:
Dari data file HOMOSKEDASTISITAS.sav, di mana isi data secara prinsip sama dengan data pada MISSING VALUE dan OUTLIER yang telah digunakan pada modul terdahulu, akan diuji apakah data yang ada memenuhi asumsi homoskedastisitas? Dan jika memang ada variabel yang tidak memenuhi homoskedastisitas, apakah tindakan yang akan diambil?

• •

Buka file homoskedastisitas Dari menu Analyze, Explore submenu

39

Masukkan variabel LIST Masukkan variabel mlnum NB: Pemasukan Pada Kemudian buka kotak variabel

pada kotak DEPENDENT kotak FACTOR LIST

both

Pengisian: Pada none. and leaf

Pada bagian SPREAD VS LEVEL WITH LEVENE TEST, power estimation. Kemudian tekan tombol Utama JUAiIJAV.'" CONTINUE untuk kembali ke Menu

Abaikan semua bagian lain dan tekan tombol OK untuk proses data.

40

\SJ'~"U'''pU'H

pada file SATU TABEL OUTPUT


of Variance Levene Statistic 4.244 3.789 3.789 4.143 2.822 2.062 2.062 2.775

HANYA DITAMPILKAN

Test of Homogeneity

df1 1 1 1 1 1 1 1 1

TINGGI

Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed mean

df2 73 73 71.641 73 73 73 68.546 73

Sig. .043 .055 .056 .045 .097 .155 .156 .100

JAMKERJA

Based on Mean Based on Median Based on Median and with adjusted dl Based on trimmed mean

Menentukan Hipotesis: Ho: kedua varians populasi adalah identik Hi: kedua varians populasi adalah tidak identik NB: Yang dimaksud dua populasi adalah populasi konsumen yang minum SEDIKIT, dan mereka yang minum BANY AK. Dengan U'Aj,llAjW.U, populasi disesuaikan kategori data yang ada dimasukkan pada bagian FACTOR LIST.

Jika Probabilitas (SIG) > 0,05, maka Ho diterima Jika Probabilitas (SIG) < 0,05, maka Ho ditolak Keputusan: Pada baris TINGGI dari tabel di atas, dan dengan dasar angka SIG adalah 0,043. Oleh karena SIG. < 0,05 maka Ho ditolak, Hal ini berarti varians dari data Tinggi Konsumen yang minum sedikit air mineral berbeda secara dengan data Tinggi Konsumen yang minum air mineral. disimpulkan, telah terjadi heteroskedastisitas variabel TINGGI dengan dasar grup MlNUM.

41

NB: Jika dilihat dasar terlihat angka SIG. penenmaan Ho, karena angka SIG. adalah 0,055. Dengan untuk kasus ini, diterima tidaknya Ho tergantung dasar yang digunakan. Selain kasus, kriteria pengujian bisa tidak batas namun pada batas 0,01.

Proses sama seperti uji variabel TINGGI sebelumnya, Keputusan: Pada baris JAM KERJA dari tabel di atas, dan dengan dasar Mean, SIG adalah 0,097. karen a angka SIG. > 0,05 maka Ho diterima. Hal ini berarti varians dari data Jam Kerja Konsurnen yang minum sedikit air mineral relatif sama data Jam Kerja Konsumen yang minum banyak air mineral. Dapat telah homoskedastisitas variabel JAM KERJA dasar grup MINUM.

Jika ada variabel yang pada variabel dilakukan transformasi data, seperti data dalam bentuk logaritma, natural (LN) atau yang lain. Kemudian dengan Levene Test dilakukan sekali
Hi~'H5uU<<H

42

antara variabel dalam range variabel antara Lari "aJiiLULHlS pada Usia orang tersebut dikatakan bahwa makin tinggi usia seseorang, maka lari semakin yang ke kanan atas. Namun hal itu benar range usia tertentu, misal antara 17 tahun 40 tahun. Di atas 40 tahun lari seseorang terbalik dengan makin tinggi usia orang makin lambat
LvL0vC'UL,

Linieritas bisa yang garis regresi, Oleh karena scatter variabel saja, maka dilakukan dengan dua data.

(diagram pencar) mernberi tambahan uU'~UF;"H dua akan

1:
di mana isi data secara MISSING VALUE dan OUTLIER yang telah ",,"'-'CU.lU"'", akan apakah data yang ada memenuhi linieritas? Dan memang ada variabel yang tidak memenuhi tindakan yang akan diambil?

43

Kasus berikut akan menguji asumsi Iinieritas untuk variabel USIA-INCOME dan OLAHRAGA-BERAT.

1.
~ ~

SCATTER PLOT VARIABEL USIA-OLAHRAGA


Buka file homoskedastisltas Darimenu

Pengisian: Masukkan variabel usia pada sumbu X (sumbu datar) dan variabel pada sumbu Y(kotak vertikal). Klik mouse pada icon FIT atas), tampak di

Kotak dialog di atas, nrinQ,'nn,,,, menentukan metode apa yang akan diberikan scatter Untuk itu, buka kotak combo bagian METHOD, dan Abaikan bagian lain dan tekan tombol OK.

44

file Lihat Output BAGIAN PERT AMA:

Linear Repression

usia

2.
ill

SCATTER

PLOT VARIABEL

BERAT-OLAHRAGA

Buka file homeskedastisitas Dari menu Tampak di Pengisian: Masukkan variabel berat pada sumbu X dan variabel surnbu Y combo Abaikan bagian lain dan tekan tombol OK. bagian kotak submenu GRAPH. Scatter Plot

45

Lihat

BAGIAN KEDUA:

Linear

Regression

'53.0

',"

ctahraga-e "A-5quare

3.07 '" 0.00

... -C.OO·

beret

beret

Terlihat garis regresi di atas yang cenderung mendatar. Kemudian, jika dilihat pada persamaan regresi, koefisien regresi adalah o (-0,00). Hal ini membuktikan tidak adanya linieritas pada hubungan dua variabel tersebut, yang berarti semakin besar atau kecil berat badan seseorang, tidak ada hubungannya dengan banyaknya ia berolahraga hari. Demikian seterusnya bisa dilakukan scatter antar dua variabel.

Jika hubungan dua data tidak atau terjadi non-linieritas, maka bisa dilakukan transformasi data pada salah sam variabel. Pada kasus ini bisa dilakukan transformasi data pada variabel BERAT atau variabel OLAHRAGA. Transformasi bisa dilakukan secara logaritma (log X), akar (-Y X) dan sebagainya. Kemudian variabel hasil transformasi tersebut diuji ulang, apakah sudah bisa dikatakan mempunyai hubungan yang linier dengan variabellainnya.

46

analisis Cluster? utama Analisis Cluster adalah berdasarkan kesamaan karateristik di antara Produk dan Benda (responden, konsumen atau yang diklasifikasikan ke dalam satu atau lebih cluster yang berada dalam satu cluster akan yang lain.

(keiompok)

Gvl.HH,SIS"

baik?
di atas, secara duster yang baik adalah cluster

antar cluster yang satu

47

Pada banyak bidang


€I

seperti:

melakukan terhadap stimulasi tertentu, kepribadian mereka, tertentu.

atau

orang berdasar respon mereka pengelompokan orang berdasar

Ii>

membantu proses taksonomi untuk mengelompokkan rnembantu mengelompokkan mereka terhadap tertentu, konsumen berdasar pendapat

ill

Berikan contoh Analisis Cluster! diketahui Konsumen yang membeli Rumah di Real Estate tertentu. Untuk itu, sekian Responden diminta memberi pendapat mereka berbagai variabel sebuah nu.,uwu, seperti Lingkungan yang aman, Lingkungan yang nyaman dan bebas banjir, Fasilitas Umum dan Sosial yang memadai, Letak Perumahan yang strategis, dekat dengan pasar dan sekolah, Harga terjangkau, sistem pembayaran yang fleksibel dan sebagainya. Dengan Analisis Cluster diketahui bahwa ternyata ada 3 kelompok (cluster) Konsumen pembeli Rumah tersebut, yakni Cluster yang Lingkungan, Cluster yang mengutamakan sistem Kredit dan Cluster yang mengutamakan Mutu Rumah terse but. Bagaimana proses dasar Proses Cluster:
e

Mengukur kesamaan antar obyek (similarity). Sesuai prinsip dasar Cluster yang mengelompokkan obyek yang mempunyai kemiripan, maka proses pertarna adalah mengukur seberapa jauh ada kesamaan antar obyek. Ada 3 metode yang digunakan:

2.

Mengukur Jarak (distance) antara dua obyek, Pengukuran ada bermacam-macam, yang paling populer adalah metode Euclidean Distance. Mengukur Asosiasi antar obyek,

3.

NB: Korelasi dan Distance digunakan jika data adalah metrik, sedangkan Asosiasi digunakan jika data adalah non metrik.

48

Dalam praktek, penggunaan paling populer.


5

metode Euclidean

Distance adalah yang

Sebelum melangkah lebih lanjut, diperhatikan data (variabel) yang ada mempunyai perbedaan yang besar, Seperti jika variabel Penghasilan mempunyai satuan (000.000), sedangkan usia seseorang hanya mempunyai satuan puluhan maka perbedaan yang rnencolok ini akan membuat perhitungan distance dan menjadi tidak valid. Untuk itu, semua data harus dilakukan proses standardisasi dengan mengubah ke Z-Score. Membuat Cluster. Proses ini dati Cluster adalah pengelompokan yang bisa dilakukan dengan dua metode: 1. data,

HIRARCHICAL METHOD. Metode ini memulai pengelompokan dengan dua atau lebih obyek yang mempunyai kesamaan dekat, Kemudian proses diteruskan ke obyek lain yang mempunyai kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam di mana ada hierarki (tingkatan) yang jelas antar obyek, dari yang sampai paling tidak Secara sernua pada hanya akan membentuk sebuah cluster. biasanya digunakan untuk rnembantu memperjelas proses hierarki tersebut, NON-HIRARCHICAL METHOD. Berbeda dengan metode hierarki, metode ini justru dimulai dengan menentukan terlebih dahulu cluster yang cluster, tiga cluster atau yang lain). Setelah jumlah cluster barn proses cluster dilakukan rnengikuti proses hierarki. Metode ini biasa disebut dengan K-Means Cluster.

2.

<l>

Setelah Cluster terbentuk, entah dengan metode hierarki atau nonhierarki, langkah selanjutnya melakukan terhadap duster yang telah yang pada intinya memberi nama spesifik untuk menggambarkan isi cluster tersebut. Misal kelompok konsumen yang memperhatikan lingkungan sekitar sebelum membeli sebuah rumah bisa dinamai Cluster LINGKUNGAN. Melakukan Validasi dan Profiling Cluster. Cluster yang terbentuk kemudian apakah hasil tersebut valid. Kemudian dilakukan proses profiling untuk menjelaskan karateristik cluster berdasar tertentu usia konsumen pembeli tingkat penghasilannya dan sebagainya). Dati data profiling tersebut bisa dilakukan analisis seperti Analisis Diskriminan.

49

harus auienuni Asumsi untuk Analisis Cluster:

Analisis Cluster?

yang diarnbil benar-benar bisa mewakili


@

yang ada. korelasi antar besar Multikolinieritas

Multikolinieritas, tidak tersebut tidaklah tinggi

adanya

Metode yang
UlU'U!U:f€

proses
secara hierarki:

metode Hierarkit

Ada

UClJU"p"

metode untuk proses

Linkage Metode ini akan mengelompokkan dua terdekat terlabih dahulu, Jika A dan B mempuny (misal A dan C maka proses hierarki adalah mengeiompokxan
'2>

Complete Linkage Metode ini justru akan mengelompokkan jarak terlebih dahulu. dua obyek yang mempunyai

Average

'-''',HU'F,''

Metode ini akan mengelompokkan berdasar jarak rata-rata yang melakukan rata-rata semua jarak antar obyek terlebih Ward's Method Pada Metode jarak antara dua cluster yagn terbentuk adalah sum of squares di antara dua cluster tersebut,
@

Centroid Method Pada Metode antara dua cluster adalah centroid cluster-cluster tersebut. Centroid adalah rata-rata yang melakukan UH,f,F,'uCU suatu cluster tertentu. ~'''"'''.uu di antara dna yang ada

50

Baeatmana

model Analisis Cluster?

Oleh karena Cluster termasuk berarti tidak ada variabel ataupun variabel mdependen, ada sebuah model definitif untuk Cluster Analysis. Discriminant atau model Dependence yang lain.

51

Modul ini akan membahas proses clustering dari sekelornpok data dengan metode K-Means, yakni memproses semua secara sekaligus. Proses ini dimulai dengan cluster terlebih dahulu, misal ditentukan akan ada 2 cluster, atau 3 atau angka

Manajer Pemasaran Kacang LEZAT konsumen kacang LEZAT berdasar konsumen, yakni (lihat file cluster.sav):
@

Usia Konsumen Jumlah Anak dari Konsumen (orang) Income (penghasilan) Konsumen (dalam Rupiah/bulan) Kegiatan Konsumen mernbaca koran setiap minggu Kegiatan Konsumen menonton Televisi Jumlah Motor yang dimiliki Konsumen (buah) Jumlah Mobil yang dimiliki Konsumen (buah) Jumlah Kartu Kredit IATM yang dimiliki Konsumen (buah) Pembelian dalarn seminggu) dari Konsumen minggu (berapa kali minggu (jam)

.,
@

..
@

'" '"
II>

II>

52

Konsumsi
e
<l>

seorang

Konsumen

dalam

membeli

apapun

Jumlah jam kerja seorang Konsumen dalam seminggu Jumlah kegiatan seminggu (jam) berbelanja (shopping) seorang Konsumen dalarn

NB: Tiga variabel pertama, TINGGAL, dan STATUS, tidak digunakan pada analisis cluster, karena data bersifat string (untuk variabel TINGGAL) dan data bersifat nominal variabel DAERAH dan STATUS). Contoh interpretasi data: Pada baris pertama, Konsumen yang tinggal di Jakarta Utara, yang termasuk Kota Besar, mempunyai status belum menikah, usia 25 tidak mempunyai anak, income Rp.2.000.000,-lbulan, membaca koran rata-rata 10 jam per minggu, menonton Televisi rata-rata 20 per minggu, satu Motor dan satu Mobil, mempunyai 3 macam Kartu Kredit atau rata-rata 4 kali membeli barang dalam seminggu, konsumsi rata-rata Rp.600.000,-lbulan, bekerja rata-rata 40 per minggu dan melakukan kegiatan shopping rata-rata 10 per rninggu. Demikian seterusnya untuk baris data yang lain. Dari file CLUSTER yang berisi Profil pernbeli Kacang LEZAT tersebut, akan dilakukan analisis Cluster untuk tersebut.

Tahapan pada analisis Cluster:

1. MENILAI PERLUNY A MELAKUKAN TRANSFORMASI DATA


Pada File CLUSTER, terlihat isi data sangat bervariasi dalam satuan, dalam arti ada variabel (data) dengan satuan Ratusan Ribu (Income), namun ada data dengan satuan di bawah 10 (Anak), Perbedaan satuan yang mencolok seperti ini akan menyebabkan bias dalam Analisis Cluster sehingga data asli hams ditransformasi (standardisasi) sebelum bisa dianalisis. Dengan demikian, dilakukan transformasi terhadap variabel yang relevan ke bentuk z score.

53

STANDARDISASI
<II

DATA DENGAN Z-SCORE:

Buka file duster pilih submenu

Pengisian:
III

Masukkan

ke kotak VARIABLE(S),

variabel dan

NB: Perhatikan variabel DAERAH dan STATUS tidak karena data adalah dan tidak relevan kasus ini. Sedangkan variabel TINGGAL otomatis tidak masuk karena data string
III

Kemudian aktifkan values as variables

mouse

Save Standardized

Abaikan

yang lain dan tekan OK untuk proses.


~H'~H'fHH~UH

sebagian,

lihat file

54

NB:
II>

Selain tampilan di atas, sebenarnya ada Output lain yang menginformasikan data deskriptif dari variabel-variabel di atas, yang akan digunakan saat penafsiran basil cluster.

Descriptive Statistics
N USIA ANAK rata-rata Usia Jumlah Anak Minimum Maximum Mean Std. Deviation

60 60 60 60

20 0 225000 2

42 4 2000000 11

29.88 .70 630000.00 5.73

5.66
1.11

INCOME

Penqhasuan per bulan

444094.97
2.32

KORAN Jumlah Jam membaca Koran setiap minggu TV Jumlah Jam menonton TV setiap

60 60 60 60 60 60 60 60 60

10 0 0 0
1

24 2 2 5 9 600000 75 25

16.77

3.59 .63 .65


1.19

minggu
MOTOR MOBIL Jumlah Motor Jumlah Mobil Jumlah Kartu yang dipunyai minggu

yang dipunyai yang dipunyai


K_"KREDIT KreditlATM BEll Barang

.93 57 2.00 4.15 186833.33 29.87


9,94

Tingkat Pembelian

setae

256
132609.78 16.77

KONSUMSI Pengeluaran KERJA Kerja setiap

Tingkat Bulanan minggu

70000 10 3

Jumlah Jam

SHOPPING Jurnlah Jam Berbelanja setiap minggu Valid N (llstwlse)

5.02

II>

Perhatikan munculnya 12 variabel barn dengan imbuhan kata 'z' di depan masing-masing variabel.

2. ANAUSIS CLUSTER
Di sini akan dilakukan analisis dengan metode CLUSTER atau K-MEANS CLUSTER. Langkah:
II>

NON-HIERARCHICAL

Buka file NB: Perhatikan nama file yang telah disesuaikan standardisasi data. Dari menu submenu lalu dengan file hasil K-Means

Cluster",
di layar:

55

Pengisian:

NB: Ada beberapa variabel yang tidak lengkap seperti KONSUMSI menjadi ZKONSUMS. Hal ini disebabkan SPSS hanya menampung maksimal 8 karakter sehingga otomatis huruf terakhir akan dihilangkan jika melebihi 8 karakter,
@

LABEL CASES

masukkan variabel tinggal.

NUMBER OF CLUSTER atau jumlah cluster yang akan dibentuk, Di sini pengisian jumlah cluster bebas, dan untuk keseragaman ketik 3. NB: Angka 3 berarti nanti akan terbentuk 3 cluster (kelompok). Pengisian pada umumnya antara 2 sampai 5 cluster, walaupun hal itu tetap tergantung pada tujuan penelitian dan faktor subyektif.

Kemudian klik mouse pada kotak Saves ... , hingga tampak di layar:

Kotak dialog SAVE memungkinkan hasil duster disimpan dalam bentuk variabel bam di SPSS DATA EDITOR. Hal ini berguna untuk proses profiling cluster, yang akan dilakukan pada tahapan akhir analisis Cluster. Untuk itu, aktifkan kotak Cluster membership dan Distance from duster center, kemudian tekan tombol CONTINUE untuk kembali ke menu utama. hingga tampak di layar:

56

Kotak dialog OPTIONS berisi berbagai pilihan (option) untuk proses analisis Cluster yang bukan rnerupakan proses inti clustering. Ada dua option, yakni statistik yang berhubungan dengan hasil cluster, dan perlakuan terhadap data yang missing (tidak lengkap). Untuk STATISTICS, biarkan kotak INITIAL CLUSTER CENTER tetap aktif, dan aktifkan kotak Anova Table. Untuk MISSING VALUES, karena semua data lengkap abaikan pilihan tersebut, Kemudian tekan tombol CONTINUE untuk kembali ke menu utama, Dari tampilan menu utarna cluster, abaikan juga bagian yang lain, dan tekan OK untuk proses data.

Dari proses clustering, karena pengaktifan dua output yang dihasilkan:


@

cluster membership,

ada

OUTPUT berupa tambahan dua variabel pada file CLUSTER_Z_SCORE, yakni variabel yang berisi nomor cluster untuk setiap kasus, dan variabel yang berisi jarak antara kasus cluster (cluster center):

57

silang (crosstab) dan grafik yang relevan, yang akan dibahas pada modul lain.
®

OUTPUT berupa file, file CLUSTER

K=MEANS.spo.

Hasil OUTPUT akan ditampilkan pada pembahasan berikut ini.

satu per satu dengan dilengkapi analisis

3.

ANALISIS

PROSES AWAL CLUSTERING Quick Cluster


Initial Cluster Centers Cluster 1 ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah

-.50941 -.63104 3.08493

2 2.14071 2.97489 -.85567

3 -1.74613 -.63104 -.63050

ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu KrediVATM yang di ZBELI Zscore: Tingka! Pembelian Barang setiap ZKONSUMS Zscore: Tingkal Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi

.97675 -1.32922 .10511 2.21377 2.51425 1.50199 3.11566 2.69195 3.00381

-.31601 .90164 -1.47158 .66928 .00000 .33161 -.84333 -.11134 -.30606

-.74692 -1.60807 .10511 -.87521 -1.67616 -1.22890 -.65480 -1.18493 -.78460

Output ini adalah pertama (initial) proses clustering data sebelum dilakukan iterasi. Oleh karena nand akan dihasilkan proses clustering sesudah iterasi yang justru adalah hasil akhir cluster, maka output ini tidak dianalisis. 58

PROSES ITERASI
Iteration HistorY'

Change in Cluster Centers Iteration 1 2 3 4 5 6 7 8 1 3.884 .599 .000 .000 .000 .000 .000 .000 2 3.314 .834 .291 .383 .316 .152 .195 .000 3 2.503 .314 .148 .205 .207 .115 .172 .000 distance any center is 8. The is 6.795.

a. Convergence achieved due to no or small change. The maximum distance by which has changed is .000. The current iteration minimum distance between initial centers

Tampilan ini adalah proses iterasi yang mencoba mengubah-ubah yang ada sebelumnya (initial) sehingga menjadi lebih tepat mengelompokkan 60 kasus tersebut. Setelah terjadi delapan tahapan (proses pengulangan dengan ketepatan lebih tinggi dati sebelumnya), hasil final cluster berikut ini. HASIL AKHIR PROSES CLUSTERING

cluster dalam iterasi didapat

59

Final Cluster Centers Cluster ZUSIA Zscore: Usia ZANAK Zscore: Jumlah Anak ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam mernbaca Koran setlap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu KrediVATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap ZKONSUMS Zscore: Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja setiap minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi 1 .57272 .04507 1.36091 2 -.02356 -.09015 -.23081 3 -.36218 .04507 -.71494

1.08448 -.03950 .99200 .95887 1.25712 1.16063 1.33411 1.24930 1.21304

.07182 .32998 -.13139 .05148 .08381 .13654 -.22874 .03479 -.07377

-.78283 -.24865 -.55184 -.68215 -.90792 -.88754 -.69879 -.86186 -.74721

Output ini adalah akhir dari proses clustering, berikut, ARTIANGKA: Angka di atas terkait dengan proses standardisasi mengacu pada angka z; dengan ketentuan:
II>

dengan

analisis

sebagai

data sebelumnya,

yang

Angka negatif berarti data di bawah rata-rata total Angka positif berarti data di atas rata-rata total rata-rata

..

Sebagai contoh, angka 0,57272 pada variabel ZUSIA usia responden cluster 1,

Ix = j1 + z.al
di mana:

x == rata-rata
60

sampel

hal ini rata-rata variabel

cluster tertentu)

~ = rata-rata populasi
(J

= standar

deviasi

z = nilai standardisasi yang didapat pada SPSS Jika RATA-RATA USIARESPONDENDI CLUSTER 1:

(rata-rata usia seluruh responden) + (0,572 x standar deviasi rata-rata usia seluruh responden) Sedangkan angka -0,0236 pada variabel ZUSIA menyatakan RATA-RATA USIA RESPONDEN PADA CLUSTER 2: (rata-rata usia seluruh responden) seluruh responden) - (0,0236 standar deviasi rata-rata usia

Demikian seterusnya untuk tafsiran data yang lain, tentunya dengan mengacu rata-rata dan standar deviasi variabel yang bersangkutan, seperti angka untuk variabel ZANAK dikaitkan dengan rata-rata anak dan standar deviasinya, CONTOH T AFSIRAN ANGKA PADA CLUSTER: Dari proses cluster, terjadi 3 cluster atau 3 kelompok responden yang masingmasing kelompok tentunya mempunyai ciri yang berbeda satu dengan yang lain. Perbedaan bisa ditelusuri per variabel, dengan dasar interpretasi berdasar tanda + dan - serta besaran angka itu sendiri. Sebelum menafsir isi setiap cluster, terlebih dahulu contoh penafsiran sebuah variabel, yakni variabel ZUSIA. Oleh karena pada cluster 1, angka adalah positif, sedangkan eli cluster 2 dan 3 angka negatif, maka dapat dikatakan: Rata-rata Usia responden pada cluster 1 lebih tinggi (dalam hal ini secara logika dikatakan 'lebih tua') dibandingkan rata-rata usia responden keseluruhan, Untuk menghitung rata-rata usia setiap cluster, bisa dilakukan dengan rumus di atas dan berdasar pada Output CLUSTER_Z_SCORE.spo, eli mana terlihat: "
@

Mean (Rata-rata) Usia seluruh responden (populasi) adalah 29,88 tahun Standar Deviasi Usia adalah 5,66 tahun

61

Dengan demikian: ..
@

Rata-rata Usia Cluster 1=29,88+(O,S7272xS,66)=33,12 Rata-rata Usia Cluster 2=29,88+(-O,2356x5,66)=28,54

tahun tahun

"

Rata-rata Usia Cluster 1=29,88+( -O,36218x5,66)=27 ,83 tahun

seterusnya bisa dengan variabel ZANAK untuk rata-rata jumlah anak di setiap cluster, kemudian variabel ZINCOME untuk rata-rata income responden di setiap cluster, dan variabel yang lainnya, Sekali lagi, penjabaran angka setiap variabel tentunya mengacu pada Mean dan Standar Deviasi yang relevan untuk setiap variabel, seperti untuk variabel ZANAK yang acuan adalah Mean sebesar 0,7 dan standar deviasi Walaupun dapat diuraikan secara rind satu demi satu namun untuk penafsiran umum, sudah memadai jika dikatakan 'lebih dari rata-rata' atau 'kurang dari rata-rata', yang akan dilakukan bagian berikut untuk rnenggambarkan isi setiap cluster yang terbentuk, T AFSIRAN SETIAP CLUSTER:

Demikian

..

Cluster 1:
Cluster 1 berisi responden yang mempunyai Usia lebih tua dati rata-rata, mempunyai anak di atas rata-rata populasi, mempunyai income di atas rata-rata, rnembaca koran lebih lama dari rata-rata populasi, namun menonton Televisi lebih sedikit dati rata-rata. Kelompok ini juga mempunyai motor, mobil dan kartu kredit atau ATM yang lebih dari rata-rata, lebih tinggi dari rata-rata. Juga mereka Tingkat Pengeluaran per frekuensi bell dan Jam berbelanja yang lebih banyak dibanding rata-rata populasi, Dari ciri-ciri di atas, bisa mereka kebanyakan adalah orang sibuk bekerja dan relatif sudah mapan dalam segi serta usia termasuk golongan dewasa,

..

Cluster 2: responden yang Usia lebih muda dari ratarata, anak di bawah rata-rata income di bawah rata-rata, namun mernbaca koran dan menonton Televisi lebih sering dati rata-rata. u .... ".v.u!-'Vfi. dan kartu kredit atau ATM yang lebih dari rata-rata, mempunvai motor lebih sedikit dari rata-rata, dan mempunyai lebih dari rata-rata. mereka

62

Pengeluaran per bulan serta Jam berbelanja yang lebih sedikit dibanding rata-rata populasi, namun mereka mempunyai frekuensi beli barang lebih banyak dibanding rata-rata populasi. Dari ciri-ciri di atas, bisa diduga mereka kebanyakan adalah golongan menengah, sibuk bekerja dan relatif sudah mapan dalam segi materi, serta usia termasuk golongan muda, Dalarn berbelanja, mereka efisien dalam menggunakan waktu untuk membeli barang.
®

Cluster 3: Cluster 3 berisi responden yang mempunyai Usia lebih muda dari ratarata, mempunyai jumlah anak di atas rata-rata populasi, mempunyai income di bawah rata-rata, juga membaca koran dan menonton Televisi lebih sedikit dari rata-rata. Kelompok ini juga mempunyai motor, mobil dan kartu kredit atau ATM yang lebih sedikit dari rata-rata, mempunyai jam lebih rendah dari rata-rata. Dalam perilaku beli, selain Tingkat Pengeluaran per bulan serta Jam berbelanja lebih sedikit dibanding ratarata populasi, juga frekuensi beli barang mereka lebih sedikit dibanding rata-rata populasi, Dari ciri-ciri di atas, bisa diduga mereka kebanyakan adalah golongan bawah, kurang ban yak bekerja dan relatif tidak mapan dalam segi materi, serta usia termasuk golongan muda. Oleh karena itu, dalam berbelanja, mereka jarang pergi berbelanja dan juga jarang membeli barang.

Dari ciri-ciri ketiga Cluster di atas, Cluster 1 boleh disebut Golongan Alas, Cluster 2 Golongan Menengah dan Cluster 3 Golongan Bawah. Namun sekali lagi, penamaan Cluster maupun penarikan kesimpulan isi cluster pada dasarnya bersifat subyektif dan tergantung tujuan penelitian. Dengan demikian, bisa saja cluster 1 dinamakan Golongan Dewasa yang Mapan dan Giat Bekerja, sedang cluster 3 dinamakan Golongan Muda yang Miskin dan Daya Belinya rendah, atau penamaan lainnya.

MELIHAT PERBEDAAN TERBENTUK

VARIABEL

PADA CLUSTER

YANG

Setelah terbentuk 3 cluster, langkah berikut adalah melihat apakah variabelvariabel yang telah membentuk cluster tersebut mempunyai perbedaan pada Hap cluster. Hal itu dilakukan dengan melihat Output ANOV A berikut.

63

ANOVA Cluster Mean Square ZUSIA ZANAK Anak Zscore: Zscore: Usia Jumlah dl Error Mean §guare dl

4.204 .122 21.483

2 2 2

.888 1.031 .281

57 57 57

F 4.736 .118 76.371

Si9_.

.013 .889 .000

ZINCOME Zscore: Penghasilan rata-rata per bulan ZKORAN Zscore: Jumlah Jam membaca Koran setiap ZTV Zscore: Jumlah Jam menonton TV setiap m ZMOTOR Zscore: Jumlah Motor yang dipunyai ZMOBIL Zscore: Jumlah Mobil yang dipunyai ZK_KREDI Zscore: Jumlah Kartu Kreditl ATM yang di ZBELI Zscore: Tingkat Pembelian Barang setiap ZKONSUMS Zscore: Tingkat Pengeluaran Bulanan ZKERJA Zscore: Jumlah Jam Kerja seliap minggu ZSHOPPIN Zscore: Jumlah Jam Berbelanja setiap mi

16.814 1.843 11.700 12.966 22.605 20.416 20.622 21.412 18.526

2 2 2 2 2 2 2 2 2

.445 .970 .625 .580 .242 .319 .312 .284 .385

57 57 57 57 57 57 57 57 57

37.775 1.899 18.732 22.349 93.435 64.049 66.199 75.447 48.114

.000 .159 .000 .000 .000 .000 .000 .000 .000

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

Kolom CLUSTER menunjukkan besaran between cluster mean, sedangkan kolom ERROR be saran within cluster mean sehingga kolom F adalah:

Betweenbieans

Sebagai contoh, angka F pada ZUSIA didapat dad:

= BetweenMeansZUSIA
WithinM eansZUSIA

atau: 4,202/0,888=4,736 64

Demikian seterusnya untuk angka F variabel lainnya, Interpretasi angka F dan signifikan: Pada prinsipnya, semakin besar angka F suatu variabel dan angka signifikannya di bawah 0,05, maka semakin besar pula perbedaan variabel tersebut pada ketiga cluster yang terbentuk, Sebagai contoh, angka F terbesar (93,435) ada pada variabel L~','H~LJ" dengan angka pada kolom SIG adalah 0,000, yang berarti signifikansi adalah nyata, Hal ini berarti faktor Kartu Kredit sangat membedakan karakteristik ketiga cluster. Atau dapat juga dikatakan, kepemilikan Kartu Kredit oleh responden pada ketiga cluster yang ada sangat berbeda antar cluster yang satu dengan cluster lainnya, Perhatikan perbedaannya dengan variabel ZUSIA, yang angka F sebesar 4,736 dan angka SIG adalah 0,013. Oleh karena angka Signifikan masih di bawah 0,05 (0,013<0,05), maka variabel ZUSIA pada duster 1, cluster 2 dan cluster 3 tetap mempunyai perbedaan yang berarti, atau usia responden di ketiga cluster memang berbeda, dalam artian Usia responden di Cluster 1 relatif lebih tua dibanding cluster 2 dan cluster 3, dengan usia responden di cluster 3 adalah yang terrnuda (lihat keterangan arti z score pembahasan sebelumnya), Walaupun angka F variabel ZKREDIT (93,435) lebih besar dari angka F variabel ZUSIA (4,736), yang bisa diartikan kepemilikan Kartu Kredit lebih besar dari Usia antar responden pada ketiga cluster. Jadi usia rata-rata antara cluster mungkin hanya selisih 1 atau 2 tahun namun mereka yang ada di kota kecil hampir tidak mempunyai kartu kredit, sedangkan yang di kota besar semua mempunyai minimal 1 kartu kredit. Jika ditarik lebih bisa saja Responden di Kota Besar lebih kaya sehingga mampu memiliki Kartu Kredit lebih dati satu sehingga diasumsi daya belinya tinggi, Sedangkan di kota kecil, daya beli mungkin tidak begitu besar. Demikian seterusnya bisa digali perbedaan angka F antar variabel lainnya. Seperti angka F untuk variabel ZBELI dengan ZKONSUMS ternyata tidak begitu janh berbeda, yang berarti perbedaan tingkat beli dan tingkat konsumsi responden di ketiga cluster relatif sama, Jika dilihat angka SIG pada variabel ZANAK (0,889) dan ZTV (0,159), terlihat keduanya memiliki signifikansi di atas 0,05. Hal ini berarti Jumlah Anak responden pada ketiga relatif sama, atau anak di cluster 1 ternyata tidak berbeda secara nyata dengan jumlah anak di kedua cluster lainnya. Demikian juga dengan variabel menonton TV, ternyata menonton TV responden setiap minggu di cluster 1 boleh dikata sama saja jumlah jam menonton TV pada responden yang ada di duster 2 atau cluster 3. 65

Perhatikan bahwa semakin besar angka F, semakin menunjukkan perbedaan yang tajam antar cluster. Sebaliknya, makin kecil angka F, makin kecil perbedaan tersebut, hingga sampai angka tertentu, perbedaan itu bahkan sudah tidak ada lagi (angka SIG sudah di atas 0,05). Namun demikian, di sini tidak berarti variabel yang tidak signifikan akan dikeluarkan! Analisis hanya ingin mengetahui mana variabel yang signifikan perbedaannya, dan mana yang tidak,

JUMLAH ANGGOTA

m SETIAP CLUSTER

Number of Cases in each Cluster Cluster 2 3 Valid Missing 16.000 20.000 24.000 60.000 .000

Dati tabel di atas, terlihat bahwa responden terbanyak ada di cluster 3, sedangkan responden paling sedikit ada di duster 1, dengan tidak ada variabel yang hilang (missing). Dengan semua kasus (responden), sejumlah 60 orang, lengkap terpeta pada ketiga cluster. Dengan komposisi seperti di atas, karena cluster 3 merupakan cluster terbesar, bisa saja strategi merebut pelanggan diarahkan ke cluster 3, yakni mereka yang bisa disebut Golongan Bawah dan mungkin ban yak tinggal di kota kecil. Sedangkan cluster 1, walaupun kebanyakan ada di kota besar dan termasuk Golongan Kaya, namun karena jumlahnya relatif kecil, mungkin tidak potensial untuk digarap, Atau bisa dikembangkan berbagai alternatif lainnya, Modul selanjutnya akan menggambarkan profil yang ada, beserta dengan grafiknya. komposisi tiap cluster berdasar

ANALISIS KOMPOSISI CLUSTER CLUSTER_Z_SCORE_HASIL.SA V


Jika dilihat pada file DATA DITAMPILKAN):

PADA

FILE

(TIDAK SEMUA

66

Terlihat eli layar tampilan per responden (tempat tinggal) dan variabel qcl_l dan Contoh penafsiran:
@

Responden 1, yang tinggal eli Jakarta Utara, temyata termasuk pada cluster 1, dan posisi nilai cluster responden tersebut berjarak 3,80877 dari pusat cluster 1. Responden 2, yang tinggal eli Bandung, ternyata juga termasuk pada cluster 1, namun posisi nilai cluster responden 2 tersebut hanya berjarak 3,026 dari pusat cluster 1. Jadi, posisi responden 2 lebih dekat ke pusat cluster 1, dibanding responden 1. Responden 3, yang tinggal di Tegal, ternyata termasuk pada cluster 3, dan posisi nilai cluster responden 3 tersebut berjarak 1,63 dati pusat cluster 3. Oleh karena pusat cluster 1 dengan cluster 3 berbeda, tentu tidak bisa dibandingkan seperti responden 1 dan responden 2 yang mempunyai kesamaan cluster.

Demikian seterusnya untuk penafsiran data lainnya, dengan catatan bahwa tampilan variabel QCL_l dan QCL_2 akan lebih berarti jika ditampilkan dalam bentuk crosstab dan grafik scatter plot.

67

Berbeda dengan K-Means Cluster yang dibahas pada modul sebelumnya, proses Clustering dengan menggunakan prosedur hierarki didasari konsep 'treelike structure'. Konsep ini dimulai dengan menggabungkan dua obyek yang paling mirip, kemudian gabungan dua obyek tersebut akan bergabnng lagi dengan satu atau lebih obyek yang paling mirip lainnya. Demikian seterusnya sehingga ada semacam hierarki (urutan) dari obyek yang membentuk cluster. Urut-urutan tersebut bisa dianalogikan seperti pohon (treelike) yang dimulai dari akar, batang, dahan, daun dan seterusnya, yang bercabang-cabang. Secara logika, proses clustering tersebut pada akhirnya akan 'menggumpal' menjadi satu cluster besar yang semua obyek. Metode ini disebut sebagai 'agglomerative methods', yang pacta kasus berikut akan digambarkan dengan Dendogram.

1:
Sebuah perusahaan Susu Bubuk melakukan identifikasi terhadap 18 merk susu bubuk atau minuman energi yang selama ini dijual, dengan spesifikasi terdapat pada file duster hierarkl.sav. Keterangan tiap variabel:
liD

SUSU,

nama susu bubuk tersebut,

..
liD

LEMAK, yakni Kandungan Lemak (gr) per 100 gram Susu KARBOHID, yakni Karbohidrat (gr) per 100 gram Susu MINERAL, yakni Mineral (gr) per 100 gram Susu

..

68

Sebagai contoh pengartian pada baris nPrt<lrr". untuk setiap 100 gram OAT QUAKER, ada lemak 11 gram, 57 gram 0,96 gram Mineral dan 370 kilo kalori Demikian seterusnya untuk data yang lain. Dari file CLUSTER HIERARKI yang berisi 18 merk susu bubuk tersebut, akan dilakukan analisis Cluster untuk profil tersebut.

analisis Cluster:

Pada me CLUSTER terlihat isi data sangat bervariasi dalam satuan, ill mana ada variabel (data) dengan satuan Ratusan (Energi), namun ada data dengan satuan di bawah 10 (Mineral). Dengan demikian, dilakukan transformasi variabel ke bentuk z score. Hanya berbeda dengan proses K-MEANS CLUSTER, proses pembuatan z-score pada Hierarchichal Cluster bisa dilakukan secara otomatis lewat menu METHOD (lihat penjelasan proses analisis Cluster di bawah).

2.

ANALISIS CLUSTER
dilakukan analisis dengan metode HIERARCHICAL

Di sini akan CLUSTER: Langkah:


Oil

Buka file duster

hierarki.sav Hierarchical

III

Dari menu Analyze, pilih submenu Classify, lalu Cluster ... Tampak ill layar:

69

Pengisian:
®

VARIABLES. Sesuai kasus, masukkan semua variabel, yakni karbohid, mineral dan energi, LABEL CASES masukkan variabel susu.

CLUSTER atau akan dilakukan cluster untuk kasus (baris) atau variabel (kolom). Oleh karena akan dilakukan cluster berdasar kasus (merk susu), biarkan pilihan pada cases. .. DISPLAY atau tampilan yang akan ditayangkan pada output, yang meliputi pilihan Statistik yang relevan dan Plot (grafik). Untuk keseragaman, (aktifkan) keduanya. hingga tampak di layar:

Untuk keseragaman, selain kotak AGGLOMERATION yang telah diaktifkan, aktifkan pula:

SCHEDULE

Kotak Proximity matrix. Pilihan ini berfungsi untuk menampilkan jarak antar variabel. Pada bagian CLUSTER MEMBERSHIP, klik mouse pada pilihan RANGE OF SOLUTIONS, dan ketik 2 pada FROM serta 4 untuk THROUGH. Hal ini berarti nanti akan ditampilkan susunan 2, 3 dan 4 cluster. Pilihan angka range cluster pada dasarnya adalah bebas, walaupun 4 cluster pada banyak kasus adalah pilihan paling optimal. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama. " Kemudian klik mouse pada kotak hingga tampak di layar:

70

Kotak dialog PLOTS berisi berbagai pilihan grafik apa yang akan ditampilkan, Untuk keseragaman, aktifkan pilihan '''j;;A
"-"O ....

Kernudian untuk bagian ICICLE, bagian ini tidak akan ditampilkan pada output, sehingga None. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama, '" Kemudian klik mouse pada kotak Method ... , hingga tampak di layar:

Kotak Dialog METHOD adalah inti dad proses clustering, yang meliputi cara pengukuran jarak antar variabel (measure), transformasi data ke z-score atau yang lain (jika diperlukan) dan metode clustering.

CLUSTER METHOD. Untuk keseragaman, MEASURE.


s

pilih Between dan

group

Untuk keseragaman,

buka kotak combo

Squared Euclidean distance.


TRANSFORM VALUE. Untuk keseragaman, dan pilih Z scores. buka kotak combo

NB: Transformasi dilakukan karena ada perbedaan besar pada satuan data. Tentu saja, jika pada data tidak ada perbedaan yang besar, transformasi tidak perlu dilakukan, dan pilih NONE. Kemudian tekan tombol CONTINUE untuk kembali ke menu utama,

Dan tampilan menu utama cluster, abaikan juga bagian yang tekan OK untuk proses data.

dan

71

(Lihat file CLUSTER. .."..""n~A'~""'""i""" HasH OUTPUT akan satu per satu dengan analisis

3.
Proximities
Case Processing Cases Valid Summarj'

N
18

I Percent I
100,0%

Missinq

a, Squared

Euclidean

°I

I Percent I
,0%

Total

N
18

I Percent
I
100,0%

Distance

used

Tabel OUtput pertama tanpa ada data yang Cluster

bahwa semua data (18) telah diproses

Proximity

Matrix

S uared Euclidean

Case 1:0AT 2:Nestle 3:LlGO 5:Milo

Quak Ca have 15.758 .608 1.464 2.857 B 4.860 7.890 8.141 2.059 4.280 18.954 8.069 4.015 10.064 4.920

5_758 1.134 6.051 2.605 1.997 4.322 4.699 6.130 2.993 1.555 4.571 5.266 0.707 4.708

.608 U34 .640 3.993 7.445 1.189 1.458 2.197 6.412 0.645 1.388 1.771 5.443 3.838 7.985 2.078 6.007

Danca .Frisia .Frisia 'Frisla :Frisi :Dane valtl :Mi! Ballta glnstaQFuH Cokao Ma Coktat 464857 4.860 7.890 8.141 2.059 4.28018.954 .051 605 1.997 4.322 4.699 6409937.445 356 6.416 .356 ,416 .724 .119 .807 871 2.666 9.724 4.305 .383 383 .445 3.142 .352 3.953 426 519 1.440 4.808 3.335 4.509 2E-02 5.347 989 4.697 7E-03 2.496 4.619 4.203 7.081 3.946 5.718 1.251 4.549 3E-02 2.927 5.436 4.867 7.458 4.420 1.892 5.814 5.404 6.062 .975 7.442 4.546 2.964 0.812 4.477 .995 1.412 3.494 2.315 3.891 4.722 0.119 4.874 .445 2E-02 6.1302.993 807 .735 3.142 5.347 5.718 4.871 1.555 9.122 1.189 1.458 2.1976.412

d,

Distance .Ante .Danc :Indom .tndorn .Proste alsiun :Tropica ll Crea u orea Coklat dahle llOQq Slim :Proti 8.069 8.340 4.015 10.064 4.920 .594 897 4.571 24.357~5.266 5.443 3.436 .376 1.440 2.496 2.927 .975 ,388 15.076 2.476 3.193 3.193 5.557 4.973 7.583 4.299 3.557 2.409 3.875 6.382 1.075 7.252 1.932 2.815 2.129 7.382 9.846 4.297 .426 7E~03 3E.{}2 5.404 .995 4.724 10.519 5.174 .519 1E-02 SE-03 6.062 1.412 14.843 1E-02 1E-02 2.476 4.480 4.174 7.226 3.899 20.707 4.708 13.838 7.985 11.615 3.683 4.808 4.619 5.436 7.442 3.494 23.062 4,480 5.557 3.557 7.102 1.925 3.335 4.203 4.867 4.546 2.315 1.464 4.174 4.973 2.409 1.075 12.320 2.078 2.948 2.675 4.509 7.081 7.458 2.964 3.891 22.441 7.226 7.583 3.875 7.252 2.815 .617 .007 .365 .018 .578 .946 .420 .812 .722 .222 .899 .299 .382 .932 .129 .382

0.64511.38811.771

4:0valtine

1.201 16.293 .352 13.953 .989 14.697 1.251 1.892 4.549 5.814 14.477 4.724

e.nancow

666
305 874 735 201 297 174 376 925

7:Frisian Fla 8:Frisian Fla 9:Frisian Aa 10:Frisian 11:Dancow 12:Dancow 13:lndomilk 14:lndomitk 15:Prosteo 16:Antene K 17:Tropicana 18:Protifar FI

.122 293

,846
.519 .436 .102 .385

8.340 ~357

1E-D2 5E-03

.615 683 .948 675

.594 2.320 10.8974.617

018 4.578

1""
4.843 3.062 1.464 2.441 6.222

This is a dissimilarity matrix

Tabel berikut menyatakan matrik dengan angka yang tertera adalah jarak (distance) antara dua buah variabeL Seperti diketahui, langkah pertama Cluster adalah melakukan pengukuran terhadap kesamaan (similarity) antar variabel, sesuai tujuan cluster untuk mengelompokkan variabel yang sama (similar). Dati kotak dialog METHOD, pilih SQUARED EUCLIDEAN DISTANCES 72

jarak antar variabel Euclidean.

matrik

di atas adalah jarak

berdasar

ukuran

Sebagai contoh, jarak antara variabel 1 (OAT QUAKER) dengan variabel 2 (NESTLE CARNATION) adalah 15,758. Sedang jarak antara variabel 1 (OAT QUAKER) dengan variabel 3 (LIGO HAVERMOUT) 0,608. Hal ini berarti susu OAT QUAKER lebih mirip (similar) dalam karakteristiknya (lemak, energi dan seterusnya) dengan susu LIGO, namun berbeda jauh dengan susu NESTLE. Demikian seterusnya untuk penafsiran data yang lain, dengan acuan semakin kecil angka antar dua variabel, makin satu sama lain. Namun demikian, dengan banyaknya kombinasi jarak dari 18 variabel tersebut, diperlukan proses dengan metode tertentu agar ke 18 susu tersebut berkelompok sesuai kemiripan masing-masing, basil seperti di bawah.

Agglomeration

Schedule Stage Cluster First ~ears

Cluster Combined Stage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Cluster 1 7 8 7 6 5 1 3 6 5 15 1 15 1 6 1 1 1 Cluster 2 12 13 8 10 14 17 4 7 9 16 3 18 5 15 6 11 2 Coefficients 3.237E-03 8.225E-03 5.762E-02 .352 .376 .594 .640 .803 .855 1.075 1.774 2.031 3.056 4.340 6.611 17.896 22.576

Cluster 1 0 0 1 0 0 0 0 4 5 0 6 10 11 8 13 15 16

Cluster 2 0 0 2 0 0 0 0 3 0 0 7 0 9
12

Next Stage 3 3 8 8 9 11 11 14 13 12 13 14 15 15 16 17 0

14 0 0

Tabel di atas adalah GROUP LINKAGE

proses clustering dengan metode BETWEEN pilihan kotak dialog sebelumnya.

Setelah antar variabel diukur dengan cara maka dilakukan pengelompokan variabel secara hierarki. Cara hierarki berarti pengelompokan dilakukan secara bertingkat, satu demi satu, atau dari 73

terbentuknya cluster yang ban yak, pelan-pelan jumlah cluster berkurang sehingga akhirnya semua menjadi satu cluster saja, Cam pembuatan duster yang dimulai dari dua atau lebih variabel yang paling rnirip membentuk satu cluster, kemudian cluster memasukkan lagi sam variabel yang paling mirip, dinamakan dengan AGGLOMERASI.
e

Seperti pada tahap atau stage 1 (lihat baris 1), terbentuk sam duster dengan anggota variabel 7 (FRISIAN FLAG INST AN) dengan variabel 12 (DANCOW FULL CREAM). Perhatikan kolom koefisien yang berisi angka 3,237E-03 atau 0,003237, yang menyatakan jarak antara variabel susu Frisian Flag Instan dengan variabel susu Dancow Full Cream, seperti yang terlihat pada matrik proximity sebelumnya. Karena proses agglomerasi dimulai dengan dua variabel yang terdekat, maka j arak kedua variabel tersebut adalah yang terdekat dari sekian banyak kombinasi jarak dari 18 variabel yang ada. Kemudian jika dilihat pada kolom terakhir untuk baris 1 tersebut (NEXT STAGE), terlihat angka 3. Hal ini berarti langkah clustering selanjutnya dilakukan dengan melihat stage 3 atau baris ke 3, dengan penjelasan berikut ini. Pada baris 3, terlihat variabel 7 (FRISIAN FLAG INST AN) membentuk cluster dengan variabel 8 (FRISIAN FLAG FULL CREAM). Dengan demikian, sekarang cluster terdiri dati 3 variabel, yakni FRISIAN FLAG INSTAN, DANCOW FULL CREAM dan FRISIAN FLAG FULL CREAM. Angka pada kolom COEFFICIENT adalah jarak rata-rata yang terjadi antara variabel terakhir yang bergabung FRISIAN FULL CREAM dengan dua variabel terdahulu, yakni variabel 7 (FRISIAN FLAG INS TAN) dan variabel 12 (DANCOW FULL CREAM), yang bisa dilihat jarak pada Output PROXIMITY MATRIX: Jarak antara variabel 8 dengan variabel 7 adalah 0,03552 Jarak antara variabel S dengan variabel IZ adalah 0,05313 Jarak rata-rata= (0,03552+0,05313)/2=0,04432 Akan tetapi, jika dilihat pada stage 2 (baris 2), terjadi pembentukan cluster lain, antara variabel 8 dengan variabel 13, yang kemudian juga dilanjutkan ke (NEXT STAGE pada baris 2) baris 3. Jika dilihat dari stage 2 ke stage 3, terjadi penambahan variabel 7 ke cluster yang sudah ada (yakni antara variabel 8 dengan 13). Dengan demikian, jarak rata-rata: Jarak antara variabel 7 dengan variabel 8 adalah 0,03552 Jarak antara variabel 8 dengan variabel 13 adalah 0,08225

74

Jarak rata-rata= (0,03552+0,08225)/2=sekitar

0,057 atau 5,7E-02

Jarak 0,057 inilah yang tampak di kolom Koefisien. Namun, jika stage 3 tidak (kebetulan) terkait langsung dengan stage 2, maka angka 0,004432 atau 4,432E-02 yang ditampilkan, Demikian seterusnya dari stage 3 proses dilanjutkan ke stage 8, dari stage 8 ke stage 14 dan selanjutnya sampai ke stage terakhir, yakni stage 17. Jika angka pada NEXT STAGE adalah 0, berarti proses cluster untuk jalur tersebut sudah selesai, dan cluster dilanjutkan ke tahapan awal pada stage yang belum dicluster, Proses ini berjalan secara otomatis sampai semua variabel pada akhimya membentuk sebuah cluster saja (lihat DENDOGRAM). Proses agglomerasi ini tentu bersifat kompleks, khususnya perhitungan koefisien yang rnelibatkan sekian banyak variabel dan terus bertambah. Yang perlu diperhatikan adalah semakin kecil angka koefisien, semakin anggota cluster tersebut mempunyai kemiripan satu dengan yang lain. Dan sebaliknya, makin besar koefisien, makin tidak rnirip satu dengan yang lain. Sebagai contoh, pada stage 15, terjadi penggabungan variabel 1 dengan variabel 6 (dan tentunya sudah terjadi penggabungan dengan variabel lainnya), dan koefisien yang didapat adalah 6,611. Jika dilihat pada NEXT STAGE untuk baris 15, proses cluster dilanjutkan ke stage 16, dengan memasukkan variabel 11. Terlihat koefisien langsung melonjak menjadi 17,896. Dengan demikian, pemasukan variabel 11 (DANCOW membuat jarak keseluruhan makin besar secara signifikan, Hal ini bisa dilihat Dendograrn, ill mana variabel 6 dengan 11 memang sangat berjauhan. Proses agglomerasi pada akhirnya akan menyatukan semua variabel menjadi satu cluster. Hanya dalam prosesnya, dihasilkan beberapa cluster dengan masing-masing anggotanya, tergantung jumlah cluster yang dibentuk. Perincian cluster dengan anggota yang terbentuk bisa dilihat pada output selanjutnya.

75

Cluster Membership
Case 1:OAT Quaker 2:Nestle Carnation 3:UGO havermout 4:0valtine 5:Milo 6:Dancow 7:Frisian 8:Frisian 8alita Flag Instan Flag Full Cr 4 Clusters 3 Clusters 2 Clusters

1
2 1 1 1 3

1
2 1

1
2

1 1
1

1 1 1
1

1
1

3 3
1

1
1 1

1
1

9:Frisian Flag Coklat 10:Frisian Flag Madu 11 :Dancow Coklat 12:Dancow 13:lndomilk 14:lndomilk 15:Prosleo 17:Tropicana 18:Protifar Full Cream Full Cream Coklat rendah lemak Slim

3
4

1
1 1 1 1 1 1 1

3 1 1
1

3
3 1 3

1
1 1 1

16:Anlene Kalsium l;ingg

3
1

Tabel di atas adalah perincian terbentuk:


@

anggota

tergantung

cluster yang

Jika ditentukan 4 Cluster, maka dengan melihat kolom 4 CLUSTERS: Anggota Cluster 1 adalah variabel dengan tanda 1, atau variabel susu OAT, LIGO, OV ALTINE, MlLO, FRISIAN FLAG COKLAT, INDOMILK COKLAT dan TROPIC ANA SLIM. Anggota Cluster 2 adalah variabel dengan tanda 2, atau variabel susu NESTLE CARNATION Anggota Cluster 3 adalah variabel dengan tanda 3, atau variabel susu DANCOW BALITA, FRISIAN FLAG INSTAN, FRISIAN FLAG FULL CREAM, FRISIAN FLAG MADU, DANCOW FULL CREAM, INDOMlLK FULL CREAM, PROSTEO, ANLENE dan PROTIFAR. Anggota Cluster 4 adalah variabel susu DANCOW COKLAT. tanda 4, atau variabel

76

III

Jika ditentukan 3 Cluster, maka dengan melihat kolom 3 CLUSTERS: Anggota Cluster 3 adalah DANCOW COKLAT Anggota Cluster 2 adalah NESTLE CARNATION Anggota Cluster 1 adalah 16 merk susu di luar dua merk susu di atas.

<ill

Jika ditentukan 2 Cluster, maka dengan melihat kolom 2 CLUSTERS: Anggota Cluster 2 adalah NESTLE CARNATION Anggota Cluster 1 adalah 17 merk susu di luar merk susu nestle.

Dari hasil di alas bisa dilihat bahwa peralihan dari 4 cluster ke 3 yang terjadi adalah penggabungan variabel-variabel yang sudah dan bukan mengacak variabel dari awal. Pada 3 cluster, terlihat anggota pada cluster 1 adalah merk-merk susu yang sebelumnya anggota cluster 1 dan cluster 3 dari 4 Cluster. Demikian pula, dari anggota cluster 1 dati formasi 2 CLUSTER adalah penggabungan dari anggota duster 3 dan cluster 1 dad 3 Cluster. Dari proses di atas bahwa susu DANCOW COKLAT dan NESTLE memang jauh berbeda (tidak similar) dengan susu dan merk susu NESTLE adalah yang paling berbeda dengan rnerk-merk yang lain.

77

ANALISIS DENDOGRAM: Perhatikan bahwa skala yang bukanlah koefisien yang ada pada tabel Aggromeration Schedule, namun telah dilakukan proses skala (rescale), dengan batasan 0 sampai 25. Proses agglomerasi dimulai pada skala 0, dengan ketentuan jika sebuah garis dekat dengan angka 0, maka variabel-variabel yang terwakili dengan garis tersebut semakin membentuk sebuah cluster.
'-"A~USU' contoh, variabel nomor 7, 12, 8, 13, 6 dan 10 membentuk sebuah cluster tersendiri, karena mereka mempunyai panjang garis yang sama dan tergabung satu kesatuan, Demikian variabel nomor 5, 14 dan 9 membentuk duster tersendiri. Juga variabel nomor 1 dan 17, serta variabel nomor 3 dan 4.

Sebaliknya, variabel nomor 15, 11 dan 2 tidak tergabung dengan variabel karena mempunyai garis yang lebih dari variabelvariabel yang telah disebut terdahulu. Dengan demikian, pada proses pertama telah terbentuk sembilan
@

4 duster yang mempunyai penjelasan ""'tJ'-''' ....


UJ'H

anggota lebih dari satu variabel

"

5 cluster yang berdiri sendiri.

Kemudian proses dan sekarang terlihat variabel nomor <i5dan 16 bergabung menjadi satu cluster, juga variabel 3 dan 4 yang sebelumnya telah tergabung, sekarang bergabung lagi dengan variabel 1 dan 17 yang sebelumnya juga sudah membentuk satu duster tersendiri, Demikian seterusnya, proses agglomerasi berjalan ke arah kanan, dengan menggunakan petunjuk panjang garis yang semakin ke kanan, hingga pada semua variabel akan tergabung satu cluster. Dendogram berguna untuk ditentukan
"~_'>~_'''I

akan

79

Kesimpulan: Tergantung dari cluster yang diinginkan, bisa ditarik kesimpulan dengan berpedoman bahwa anggota sebuah cluster tentu mempunyai kemiripan satu dengan yang lain, dan mereka tentu juga berbeda dengan UU,5S'J'" cluster yang lain. Sebagai contoh, jika diambil 3 cluster, rnaka berdasar Dendogram, Susu Dancow Coklat berbeda karakteristiknya (energi yang dihasilkan, kandungan lemak, karbohidrat dan mineral) dengan susu Nestle Carnation. Namun kedua merk tersebut juga berbeda karakteristiknya dengan susu yang lain, seperti Frisian Flag, Ovaltine dan seterusnya. Namun jika dilihat dari proses agglomerasi awal, maka susu Frisian Flag instan, madu dan full cream mempunyai satu dengan yang lain, dernikian pula dengan Dancow Full Cream dan Dancow Balita. Dan di antara kedua merk susu tersebut, juga mirip satu sama bersama dengan susu Indomilk Full Cream, karena mereka terbentuk pada satu cluster. Namun pada proses awal tersebut, susu Frisian Flag Coklat justru berbeda dengan jenis Frisian Flag lainnya, dan malah kemiripan dengan susu Milo dan susu Indomilk Coklat, karena ketiga susu tersebut mernbentuk satu cluster tersendiri. Demikian seterusnya bisa dibuat berbagai kesimpulan Lalu berapa jurnlah cluster yang seharusnya digunakan? Sebenarnya tidak ada ketentuan atau rumusan yang pasti jumlah cluster yang ideal, dan hal itu lebih tergantung tujuan penelitian serta subyektifitas peneliti. Pada contoh di atas, jika diinginkan pengelompokan susu yang sebanyak mungkin hingga diketahui susu mana saja yang berbeda dengan yang lain, maka sembilan cluster (sesuai proses pertama cluster pada Dendogram) adalah dimungkinkan untuk diambil sebagai jumlah cluster yang baik. Namun jika jumlah terse but terlalu banyak dan akan diringkas, bisa dilanjutkan proses kedua dan seterusnya.

80

Modul ini merupakan pengembangan dari analisis cluster, yakni melakukan hasil cluster dengan berbagai variabel lain, khususnya yang berciri data nominal.

1:
Dari hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada
modul sebelumnya, buatlah tabulasi silang (Crosstab) yang relevan.

A. BUATLAH TABULASI SILANG ANTARA VARIABEL DAERAH DENGAN VARIABEL QCL_l

e
<II

Buka file duster_z_score_hasil

Dan menu

Crosstabs ••.
di

81

Pengisian:
G>

Masukkan variabel daerah ke kotak ROW(S) Masukkan variabel qcl_l ke kotak COLUMN(S)

"

Kemudian klik mouse pada kotak CELLS, hingga tampak di layar:

Pengisian: Pada bagian PERCENTAGES, aktifkan pilihan Row.

Dengan mengaktifkan pilihan Row, pada Output akan tampak komposisi persentase berdasarkan baris, sesuatu yang relevan untuk profiling hasil cluster. Tekan tombol CONTINUE untuk kembali ke kotak dialog Utama. Abaikan bagian yang kemudian tekan tombol OK untuk proses.

82

(Lihat file CLUSTER Crosstabs

CROSSTAB.spo.)

Case Processing

Summary

Cases
Valid N DAERAH Daerah TempatTinggal • QCL_1 Cluster Number of Case 60 Percent 100.0% N 0 Missing Percent .0% N 60 Total Percent 100.0%

DAERAH

Daerah Tempat

Tinggal"

OCl_1

Cluster

Number QCL

of Case 1 Cluster

creseraburancn
Number of Case

1
DAERAH Daerah

2 16 1 5.9% 18
94.7%

Total 17 100.0% 1 19 100.0% 24 100.0% 60 100.0%

1 Kota Sesar

Count

T empat Tinggal
2 Kota Menengah

within DAERAH Daerah Tempat Tinggal


%

94.1%

Count within DAERAH Oaerah Tempat Tinggal


%

5.3% 1 23 95.8% 24 40.0%

3 Kota Keeil

Count within DAERAH Daerah T empat Tinggal


%

4.2% 16 26.7% 20 33.3%

Total

Count within DAERAH Oaerah T empat Tinggal


%

AnaUsis: Analisis akan dilakukan pada tabel CROSST AB untuk setiap bans:
o

Pada responden yang tinggal di Kota Besar, terlihat sebagian besar responden (94,1 %) menjadi anggota cluster 1, sedangkan sisanya ada di cluster 2. Namun mereka tidak terdapat pada cluster 3. Pada responden yang tinggal di Kota Menengah, terlihat sebagian besar responden (94,7%) justru menjadi anggota cluster 2, sedangkan sisanya ada di cluster 3. Pada responden yang tinggal di Kota Kecil, terlihat sebagian besar responden (95,8 %) menjadi anggota cluster 3, sedangkan sisanya ada di duster 2.

<II

Dengan demikian, bisa dengan mudah disimpulkan bahwa responden yang ada di Kota Besar adalah mereka yang dari Golongan Atas (lihat penamaan cluster pada modul sebelumnya), sedang responden yang ada di kota Menengah adalah mereka yang termasuk Golongan Menengah, dan 83

responden yang bertempat tinggal di Kota Kecil bisa dikategorikan yang ada di Golongan Bawah.

mereka

Kasus di alas bersifat sederhana, dalam arti langsung bisa dilihat perbedaan komposisi yang mencolok antar anggota Cluster. Dalam praktek, tentu dimungkinkan perbedaan komposisi yang tidak berbeda jauh. Jika demikian, patokan tetap pada komposisi per baris, dengan melihat persentase masingmasing baris untuk Hap cluster.

B.

TABULASI SILANG ANTARA VARIABEL STATUS DENGAN VAmABEL QCL_l CLUSTER)

Buka file Dati menu pilih submenu

Crosstabs ...
Tampak di layar kotak dialog CROSST AB. Pengisian:
@

Masukkan variabel status ke kotak ROW(S) Masukkan variabel qd_l ke kotak COLUMN(S)
'.A.C,.LLnJ,

hingga tampak di layar:

Pengisian:
@

Pada

PERCENTAGES,

aktifkan

Row.

Tekan tombol CONTINUE untuk kembali ke kotak dialog Utama. kemudian tekan tombol OK untuk proses.

Abaikan bagian yang

84

(Lihat file CLUSTER Crosstabs

CROSSTAB

2.spo.)

Case Processing

Summary Cases

Valid N STATUS Status Pernikahan * QCl 1 Cluster Number 01 Case Percent N

Missing Percent N

Total Percent

60

100.0%

.0%

60

100.0%

STATUS

Status

Pernlkahan

* QCL_1

Cluster

Number

01 Case Crosstabulation OCL_1 1 Cluster Number of Case 2 3

STATUS Status Pernikahan

1 Belum Menikah

Count % within STATUS Status Pernikahan

4
26.7% 7 28.0% 5 Pernikahan 25.0% 16 26.7%

3
20.0% 11 44.0% 6 30.0% 20 33.3%

8
53.3% 7 28.0%

Total 15 100.0% 25 100.0% 20 100.0% 60 100.0%

2 Menikah

Tanpa Anak

Count % within STATUS Status Pernikahan

3 Menikah

dengan

Anak

Count % within STATUS Status

9
45.0% 24 40.0%

Total

Count % within STATUS Status Pernikahan

Analisis akan dilakukan pada tabel CROSST AB untuk setiap baris, dengan melihat angka persentase:
@

Pada responden yang Belum Menikah, terlihat sebagian besar responden menjadi anggota cluster 3, sedangkan sisanya tersebar cukup merata di cluster 2 dan cluster 3. Pada responden yang berstatus Menikah Tanpa Anak, terlihat sebagian besar responden justru menjadi anggota cluster 2, sedangkan sisanya secara merata ada di cluster 1 dan cluster 3. Pada responden yang berstatus Menikah dengan Anak, terlihat sebagian besar responden menjadi anggota cluster 3, sedangkan sisanya cukup merata di cluster 1 dan cluster 2.

85

Jika dilihat dan jumlah responden per kolom, duster 1 dan duster 3 mempunyai komposisi yang relatif rnerata, sedangkan cluster 2 jelas didominasi responden yang berstatus Menikah Tanpa Anak. Dengan demikian, pada cluster 1 tidak ada anggota dari segi status yang sehingga strategi meraih pelanggan bisa dilakukan pada ketiga Sedangkan jika meraih pelanggan dan clsuter 2, sebaiknya diarahkan kepada pelanggan yang telah menikah namun belum anak, Sedangkan untuk cluster 3, karena dan analisis per bans yang dominan adalah responden yang berstatus Bujang dan mereka yang menikah dengan anak, maka strategi bisa diarahkan kepada kedua golongan status tersebut.
UVLLHU . .,H, HH_,UUJUH

Dan hasil cluster yang terbentuk dengan metode K-MEANS CLUSTER pada modul sebelumnya, buatlah Grafik yang relevan, A, BUATLAH GRAFIK PENCARAN CLUSTER) DAR! VARIABEL

JLJi"",'JjlL<

III

Buka file Dari menu Graph, Plot ... Tarnpak di layar: pilih submenu lalu Scatter

III

86

Pengisian: '" '" '" Masukkan tanda Masukkan tanda variabel qd_l pada sumbu X (kotak panjang dengan variabel qcl_2 pada sumbu Y (kotak panjang dengan

Masukkan variabel daerah pada kotak STYLE.

NB: Jika saat pemasukan variabel tampak kotak dialog untuk mengubah (Convert) tanda variabel agar bisa dimasukkan ke kotak bersangkutan, maka klik mouse pada pilihan CONVERT. Pilihan ini akan mengubah sirnbol dari variabel tertentu agar bisa diproses pacta pembuatan Grafik. Tekan OK untuk proses pembuatan Grafik.

(Lihat file CLUSTER Interactive

GRAFIKspo.)

3.90897 3.31776

:J

(33.12597

.g
·00
~ ~

!:

3.02605 2.65221

~ !:::::
2.40671 2.34781 (32.24968 2.20961

.g
~

2.04884 1_88764

5 :::~~:
,+-1,83827

Q)1_S5247

g
iii i5
ill

155663 114007 ~-------"

;_---------r---

-------------~'~-------,

Cluster Numbe, 01 Case

Dengan pada simbol untuk Daerah yang ada di kotak kanan atas, terlihat Cluster 1 semua bersimbol A atau 'Kota Besar', sedangkan Cluster 2 sebagian besar beranggota dengan simbol adalah B atau di Kota Menengah, dan Cluster 3 "'-LJaI',Aua besar bersimbol X atau tinggal di Kota Kecil,

87

Pembuatan Grafik seperti ini akan melengkapi analisis yang dilakukan, dengan kegunaan lebih pada visualisasi data yang lebih praktis dan jelas, dibanding melihat deretan angka seperti pembuatan Crosstab yang telah dibuat pada kasus sebelumnya, Catatan: Jika pada kotak dialog pembuatan Graph di atas, pada bagian bawah (LABEL CASES BY) dimasukkan variabel tinggal, akan tampak hasil (output tidak disimpan pada disket kerja):

Daerah Tempat
A Kota Besar B Kota Menengah X

Tinggal

Kota

Keel!

Cluster

Number

of Case

Sekarang terlihat deretan nama Kota temp at tinggal responden, yang dengan ukuran Distance di sumbu Y, menunjukkan jarak kota tertentu dengan pusat clusternya (dengan jarak terdekat tentunya tepat di sumbu X). Dari grafik tersebut, terlihat kota Sernarang adalah kota (tinggal) terdekat dengan cluster 1, sedangkan daerah Jakarta Timur adalah yang terjauh. Jika dilihat pada data di file CLUSTER_Z_SCORE_HASIL, terlihat untuk variabel qcl_2 yang menunjukkan jarak sebuah kasus, angka untuk Semarang (terkecil pada kode qcl_l=l) adalah 1,88. Demikian seterusnya bisa dilihat pencaran kota-kota pada ketiga cluster yang terbentuk, Posisi Kota Semarang yang paling dekat berarti responden yang tinggal di kota Semarang adalah yang paling dekat dengan karakteristik duster 1, seperti usia sekian, jam menonton TV sekian dan lainnya. Dernikian 88

sebaliknya dengan responden yang tinggal di Jakarta mempunyai ciri paling jauh dengan karakteristik duster 1. B. BUATLAH VARIABEL

Timur,

yang

GRAFIK PENCARAN (SCATTER) ZUSIA DENGAN VARIABEL ZKONSUMS

ANTARA

!II

Buka file duster_z_score_hasil Dari menu Plot ... Tampak di layar: pilih submenu Interactive, lalu pilihan Scatter

Pengisian: .. Masukkan variabel zkonsums pada sumbu X (kotak panjang dengan tanda ~) Masukkan tanda 1') variabel zusia pada sumbu Y (kotak panjang dengan

..

Masukkan variabel daerah pada kotak STYLE

89

file CLUSTER Interactive

GRAFIK

B Kota Menengah X Kota Keen

0.00000

1.00000

3.00000

Zscore: Tlnqkat Pengeiuaran Bulanan

Dengan berpedoman pada simbol untuk tiap Daerah yang ada di kotak kanan atas, terlihat semua responden yang mempunyai tingkat konsumsi tinggi (sumbu X makin ke kanan) adalah responden yang bertempat tinggal di Kota Besar. Sedang mereka yang mempunyai konsumsi (pengeluaran) kecil, yang tersebar di bagian kiri sumbu X, hampir semuanya berasal dati tempat tinggal Kota Menengah dan Kota Kecil, Dernikian seterusnya bisa dibuat berbagai sumbu Y sesuai kebutuhan. variasi sumbu X dan

3
Seperti diketahui, dati hasil Cluster dengan metode K-Means cluster dengan kode 1, 2 dan 3, yang ada dalam satu variabel QCL_l. Agar lebih akan dilakukan pengubahan: • Nama variabel QCL_l diubah CLUSTER. tiga yaitu

Kode 1,2 dan 3 diubah menjadi Golongan Atas, Menengah dan Bawah.

90