Bahan Bacaan
Johnson, R.A. and D.W. Wichern. 2002. Applied
Multivariate Statistical Analysis. 5th Ed.
Prentice-Hall, Inc. Upper Saddle River, NJ 2
ASPEK ANALISIS MULTIVARIAT
3
PENDAHULUAN
Peran analisis variabel ganda di dalam
penyelidikan ilmiah, diantaranya adalah
Data reduction or structural simplification:
penyederhanaan tanpa mengorbankan informasi berharga
Sorting and grouping: pengelompokan objek serupa
Kovarians sampel:
x ji xi x jk xk i 1,2,, p dan k 1,2,, p
n
sik 1
n
j 1
sii skk
STATISTIK SAMPEL DALAM NOTASI
MATRIKS x1
x
Rata-rata sampel: x
2
s11 s12 s1 p
x p
s21 s22 s2 p
Varians-kovarians sampel S n
s p1 s p2 s pp
1 r12 r1 p
r 1 r2 p
Korelasi sampel R 21
rp1 rp 2 1 7
CONTOH
A selection of four receipts from a university bookstore
was obtained in order to investigate the nature of book
sales. Each receipt provided the number of book sold
and the total amount of each sale. Suppose the data are
as follows:
Variable 1 (dollar sales): 42 52 48 58
Variable 2 (number of books): 4 5 4 3
50 34 1.5 1 0.36
x Sn R
4 1.5 0.5 0.36 1
8
DATA SCREENING
9
PENDAHULUAN
Data screening dilakukan segera setelah data
dikumpulkan sebelum analisis data yang utama
dijalankan
Sangat menyita waktu dan membosankan, akan
tetapi merupakan hal yang fundamental untuk
mendapatkan hasil yang sahih
10
IMPORTANT ISSUES
Accuracy of data file
Honest correlation
Missing data
Outlier
11
ACCURACY OF DATA FILE
Periksa dan bandingkan data asal dengan
file data setelah diinput ke komputer
Gunakan teknik2 dalam EDA
Questions to raise:
are all values within range?
14
MISSING DATA
Data hilang terjadi ketika satuan percobaan rusak,
e.g. tanaman/binatang mati, peralatan tidak
berfungsi dengan baik, atau responden menolak
menjawab
15
MISSING DATA .
MEMBUANG KASUS ATAU VARIABEL
Drop any cases with missing data
jika hanya beberapa kasus yang memiliki
data hilang dan kelihatannya seperti sub-
sampel acak dari seluruh sampel
Drop any variables with missing data
jika data yang hilang terkonsentrasi pada
sebagian kecil variabel dan variabel
tersebut tidak terlalu memberikan
pengaruh terhadap analisis, atau variabel
tersebut berkorelasi tinggi dengan 16
variabel lainnya
MISSING DATA .
MENDUGA DATA HILANG
Gunakan pengetahuan sebelumnya
Substitusi dengan rata-ratanya
Gunakan regresi
17
MISING DATA
18
PENCILAN
Sebuah pencilan (outlier) adalah suatu kasus
dengan nilai yang ekstrim pada suatu variabel
atau kombinasi yanganeh dari dua atau lebih
variabel sehingga mengganggu analisis
20
MENDETEKSI UNIVARIATE OUTLIERS
Hitung nilai baku, z,
x
z
kasus dengan nilai baku lebih besar dari
3.29 (p < .001, two-tailed test) adalah
potential outlier
Gunakan metode grafis, seperti,
histogram, box plot, or the stem-and-leaf
diagram
21
DETECTING MULTIVARIATE OUTLIERS
Mahalanobis distance is the distance of
a case from the centroid of the remaining
cases. (the centroid is the point created at
the intersection of the means of all the
variables)
Leverage is related to Mahalanobis
distance. Cases with high leverage are far
from others
Discrepancy measures the extent to
which a case is in line with the others
22
DIAGRAM PENCAR (SCATTER PLOT)
Grafik adalah salah satu alat bantu yang penting,
tetapi seringkali diabaikan, dalam analisis data
Variabel 1 (x1): 3 4 2 6 8 2 5
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5
23
DATA TABLE 1.2 (JOHNSON & WICHERN, 2002)
24
MATRIX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2002)
25
BOX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2002)
26
DATA TABLE 1.3
(JOHNSON & WICHERN, 2002)
27
PLOT 3D
Data dalam Table 1.3 (Johnson & Wichern, 2002)
28
PLOT 3D
Data dalam Table 1.3 (Johnson & Wichern, 2002)
29
EUCLIDEAN DISTANCE
Teknik multivariat umumnya berdasarkan atas konsep
sederhana dari jarak:
Misalkan P = (x1, x2) adalah sebuah titik dalam bidang.
Jarak Euclidean dari P ke titik asal O = (0, 0) menurut Dalil
Pythagoras adalah
d O, P x12 x22
Secara umum, jika titik P mempunyai koordinat p, sehingga
P = (x1, x2, , xp), maka jarak Euclidean dari P ke titik asal
O = (0, 0, , 0) adalah
d O, P x12 x22 x 2p
Jarak Euclidean antara dua titik sembarang P dan Q dengan
koordinat P = (x1, x2, , xp) dan Q = (y1, y2, , yp) adalah
30
d P, Q x1 y1 x2 y2
2 2
x p y p 2
STATISTICAL DISTANCE
Dalam Euclidean distance setiap koordinat
memberikan kontribusi yang sama terhadap
perhitungan jarak, tanpa mempertimbangkan
hadirnya random fluctuation atau besaran yang
berbeda
Diperlukan suatu ukuran jarak yang
memperhitungkan perbedaan dalam keragaman
atau adanya korelasi, ukuran tersebut adalah
statistical distance
31
STATISTICAL DISTANCE ilustrasi.
x2
Pengukuran variabel x1
bersifat bebas (independent)
dari pengukuran variabel x2
Keragaman dalam arah x1
variabel x1 lebih besar dari
keragaman dalam arah
variabel x2
Standarisasi setiap koordinat dengan cara membaginya
dengan simpangan bakunya masing-masing:
x1 x2
x1* dan x2*
s11 s22
Statistical distance dari titik P = (x1, x2) ke titik asal
O = (0, 0) adalah
2 2 32
d O, P x1* x2* 1 2
2 2 x x
s11 s22
STATISTICAL DISTANCE
Secara umum, jika diasumsikan bahwa variabel
koordinat bersifat bebas satu dengan lainnya,
maka statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah
d P, Q
x1 y1 2 x2 y2 2
s11 s22
Statistical distance untuk sistem koordinat lebih
dari dua dimensi, yaitu P = (x1, x2 , xp) dan Q =
(y1, y2 , yp) adalah:
d P, Q
2 2
x1 y1 x2 y2 p p
x y 2
33
s11 s22 s pp
PENGUKURAN YANG TIDAK SALING BEBAS
Pasangan koordinat x2
(x1, x2) cenderung
untuk besar atau kecil
secara bersama-sama x1
dan koefisien korelasi
sampelnya positif
x2 x1 sinq x2 cos q
~
35
PENGUKURAN YANG TIDAK SALING BEBAS
Dengan manipulasi aljabar, jarak dari titik P~ x2
x1 , ~
ke titik asal O = (0, 0) dapat dituliskan dalam
bentuk koordinat asal x1 dan x2 sebagai berikut
d P , Q
a11x1 y1 2 a22 x2 y 2 2 a pp x p y p 2
2a12 x1 y1 x2 y 2 2a p 1, p x p 1 y p 1 x p y p
37