Anda di halaman 1dari 37

ANALISIS MULTIVARIAT (MPM-6D8)

1 Dadan Kusnandar, Ph.D.


Jurusan Matematika
FMIPA Universitas Tanjungpura
POKOK BAHASAN & BAHAN BACAAN
Aspek analisis multivariat
Data Screening
Analisis Komponen utama
Analisis Faktor
Analisis Diskriminan
Analisis Klaster
Manova

Bahan Bacaan
Johnson, R.A. and D.W. Wichern. 2002. Applied
Multivariate Statistical Analysis. 5th Ed.
Prentice-Hall, Inc. Upper Saddle River, NJ 2
ASPEK ANALISIS MULTIVARIAT
3
PENDAHULUAN
Peran analisis variabel ganda di dalam
penyelidikan ilmiah, diantaranya adalah
Data reduction or structural simplification:
penyederhanaan tanpa mengorbankan informasi berharga
Sorting and grouping: pengelompokan objek serupa

dilakukan berdasarkan atas ciri-ciri yang terukur


Investigation of dependence among variables: menganalisis

hubungan antar variabel


Prediction: menentukan hubungan antar variabel untuk

keperluan pendugaan satu atau beberapa variabel


berdasarkan pengamatan pada variabel lainnya
Hypothesis construction and testing: melakukan pengujian
hipotesis terhadap parameter dari populasi multivariat
4
DATA
Variabel 1 Variabel 2 Variabel k Variabel p
Item 1: x11 x12 x1k x1p
Item 2: x21 x22 x2k x2p
.. .. .. .. ..
. . . . .
Item j xj1 xj2 xjk xjp
.. .. .. .. ..
. . . . .
Item n xn1 xn2 xnk xnp
x11 x12 x1k x1 p
x x22 x2 k x2 p
21

X
n p x j1 x j 2 x jk x jp
5

xn1 xn 2 xnk xnp
STATISTIK SAMPEL
Rata-rata sampel:
n
xk 1
n x jk di mana k 1,2,, p
j 1
Varians sampel

n
sk2 skk 1
n
x
jk kx 2
di mana k 1,2,, p
j 1

Kovarians sampel:
x ji xi x jk xk i 1,2,, p dan k 1,2,, p
n
sik 1
n
j 1

Koefisien korelasi sample


sik
rik 6

sii skk
STATISTIK SAMPEL DALAM NOTASI
MATRIKS x1
x
Rata-rata sampel: x
2

s11 s12 s1 p
x p
s21 s22 s2 p
Varians-kovarians sampel S n


s p1 s p2 s pp
1 r12 r1 p
r 1 r2 p
Korelasi sampel R 21


rp1 rp 2 1 7
CONTOH
A selection of four receipts from a university bookstore
was obtained in order to investigate the nature of book
sales. Each receipt provided the number of book sold
and the total amount of each sale. Suppose the data are
as follows:
Variable 1 (dollar sales): 42 52 48 58
Variable 2 (number of books): 4 5 4 3

50 34 1.5 1 0.36
x Sn R

4 1.5 0.5 0.36 1

8
DATA SCREENING
9
PENDAHULUAN
Data screening dilakukan segera setelah data
dikumpulkan sebelum analisis data yang utama
dijalankan
Sangat menyita waktu dan membosankan, akan
tetapi merupakan hal yang fundamental untuk
mendapatkan hasil yang sahih

10
IMPORTANT ISSUES
Accuracy of data file
Honest correlation

Missing data

Outlier

11
ACCURACY OF DATA FILE
Periksa dan bandingkan data asal dengan
file data setelah diinput ke komputer
Gunakan teknik2 dalam EDA

Questions to raise:
are all values within range?

are mean and standard deviation


plausible?
are there any out-of-range numbers?
12
INFLATED CORRELATION
Variabel komposit adalah variabel yang
dibangkitkan dengan cara menggabungkan
respons dari beberapa item. Korelasi
antarvariabel komposit cenderung
menggelembung (inflated) terutama jika
item-item tsb digunakan secara berulang.
Consider using only one of the composite
variable if there is enough overlap
Examples of composite variables:
measure of economic status, health indices 13
DEFLATED CORRELATION
A falsely small correlation between two variables is
obtained if the range of response to one or both of
the variable is restricted in the sample
Jika kisaran nilai dari suatu variabel sangat
sempit karena pembatasan dalam sampling, maka
nilainya bisa dikatakan konstan dan tidak akan
menghasilkan nilai korelasi yang tinggi dengan
variabel lain

14
MISSING DATA
Data hilang terjadi ketika satuan percobaan rusak,
e.g. tanaman/binatang mati, peralatan tidak
berfungsi dengan baik, atau responden menolak
menjawab

Serius atau tidaknya akibat dari data hilang


tergantung pada:
Pola data hilang tersebut
Berapa banyak data yang hilang
Kenapa data tersebut hilang

15
MISSING DATA .
MEMBUANG KASUS ATAU VARIABEL
Drop any cases with missing data
jika hanya beberapa kasus yang memiliki
data hilang dan kelihatannya seperti sub-
sampel acak dari seluruh sampel
Drop any variables with missing data
jika data yang hilang terkonsentrasi pada
sebagian kecil variabel dan variabel
tersebut tidak terlalu memberikan
pengaruh terhadap analisis, atau variabel
tersebut berkorelasi tinggi dengan 16
variabel lainnya
MISSING DATA .
MENDUGA DATA HILANG
Gunakan pengetahuan sebelumnya
Substitusi dengan rata-ratanya

Gunakan regresi

Gunakan metode pendugaan lain (e.g.,


expectation maximization method,
multiple imputation, hot decking)

17
MISING DATA

Ulangi analisis dengan dan tanpa


data hilang.

18
PENCILAN
Sebuah pencilan (outlier) adalah suatu kasus
dengan nilai yang ekstrim pada suatu variabel
atau kombinasi yanganeh dari dua atau lebih
variabel sehingga mengganggu analisis

Beberapa sebab terjadinya pencilan:


Kesalahan data entry
Kekeliruan menentukan kode bagi data hilang
ke dalam computer syntax
Bukan anggota populasi yang diamati
Anggota populasi tetapi nilainya memang
ekstrim 19
UNIVARIATE DAN MULTIVARIATE
OUTLIERS
A 15-year-old is perfectly within bound regarding
age
Someone who earns Rp10 millions a month is in
bounds regarding income
But, a 15-year-old who earns Rp10 millions a
month is very unusual and is likely to be a
multivariate outlier

20
MENDETEKSI UNIVARIATE OUTLIERS
Hitung nilai baku, z,
x
z

kasus dengan nilai baku lebih besar dari
3.29 (p < .001, two-tailed test) adalah
potential outlier
Gunakan metode grafis, seperti,
histogram, box plot, or the stem-and-leaf
diagram
21
DETECTING MULTIVARIATE OUTLIERS
Mahalanobis distance is the distance of
a case from the centroid of the remaining
cases. (the centroid is the point created at
the intersection of the means of all the
variables)
Leverage is related to Mahalanobis
distance. Cases with high leverage are far
from others
Discrepancy measures the extent to
which a case is in line with the others
22
DIAGRAM PENCAR (SCATTER PLOT)
Grafik adalah salah satu alat bantu yang penting,
tetapi seringkali diabaikan, dalam analisis data
Variabel 1 (x1): 3 4 2 6 8 2 5
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5

23
DATA TABLE 1.2 (JOHNSON & WICHERN, 2002)

24
MATRIX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2002)

25
BOX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2002)

26
DATA TABLE 1.3
(JOHNSON & WICHERN, 2002)

27
PLOT 3D
Data dalam Table 1.3 (Johnson & Wichern, 2002)

28
PLOT 3D
Data dalam Table 1.3 (Johnson & Wichern, 2002)

29
EUCLIDEAN DISTANCE
Teknik multivariat umumnya berdasarkan atas konsep
sederhana dari jarak:
Misalkan P = (x1, x2) adalah sebuah titik dalam bidang.
Jarak Euclidean dari P ke titik asal O = (0, 0) menurut Dalil
Pythagoras adalah

d O, P x12 x22
Secara umum, jika titik P mempunyai koordinat p, sehingga
P = (x1, x2, , xp), maka jarak Euclidean dari P ke titik asal
O = (0, 0, , 0) adalah

d O, P x12 x22 x 2p
Jarak Euclidean antara dua titik sembarang P dan Q dengan
koordinat P = (x1, x2, , xp) dan Q = (y1, y2, , yp) adalah


30
d P, Q x1 y1 x2 y2
2 2
x p y p 2
STATISTICAL DISTANCE
Dalam Euclidean distance setiap koordinat
memberikan kontribusi yang sama terhadap
perhitungan jarak, tanpa mempertimbangkan
hadirnya random fluctuation atau besaran yang
berbeda
Diperlukan suatu ukuran jarak yang
memperhitungkan perbedaan dalam keragaman
atau adanya korelasi, ukuran tersebut adalah
statistical distance

31
STATISTICAL DISTANCE ilustrasi.
x2
Pengukuran variabel x1
bersifat bebas (independent)
dari pengukuran variabel x2
Keragaman dalam arah x1
variabel x1 lebih besar dari
keragaman dalam arah
variabel x2
Standarisasi setiap koordinat dengan cara membaginya
dengan simpangan bakunya masing-masing:
x1 x2
x1* dan x2*
s11 s22
Statistical distance dari titik P = (x1, x2) ke titik asal
O = (0, 0) adalah

2 2 32
d O, P x1* x2* 1 2
2 2 x x
s11 s22
STATISTICAL DISTANCE
Secara umum, jika diasumsikan bahwa variabel
koordinat bersifat bebas satu dengan lainnya,
maka statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah

d P, Q
x1 y1 2 x2 y2 2
s11 s22
Statistical distance untuk sistem koordinat lebih
dari dua dimensi, yaitu P = (x1, x2 , xp) dan Q =
(y1, y2 , yp) adalah:

d P, Q
2 2
x1 y1 x2 y2 p p
x y 2
33
s11 s22 s pp
PENGUKURAN YANG TIDAK SALING BEBAS
Pasangan koordinat x2
(x1, x2) cenderung
untuk besar atau kecil
secara bersama-sama x1
dan koefisien korelasi
sampelnya positif

Keragaman dalam arah x1 lebih besar daripada


arah x2
Jika sumbu sistem koordinat tersebut diputar
dengan sudut q, maka sistem koordinat yang
baru dengan sumbu ~x1 dan ~
x2 menyerupai sistem
34
pada slide 19
PENGUKURAN YANG TIDAK SALING BEBAS
Dengan cara yang sama, jarak dari titik P~ x2
x1 , ~
ke titik asal O = (0, 0) adalah
~
x12 ~
x22
d O, P ~ ~
s11 s22
di mana ~
s11 dan ~ s22 adalah varians sample yang
~ ~
dihitung dengan pengukuran x1 dan x2
Hubungan antara koordinat asal (x1, x2) dengan
koordinat hasil putaran adalah sbb
x1 x1 cos q x2 sinq
~

x2 x1 sinq x2 cos q
~
35
PENGUKURAN YANG TIDAK SALING BEBAS
Dengan manipulasi aljabar, jarak dari titik P~ x2
x1 , ~
ke titik asal O = (0, 0) dapat dituliskan dalam
bentuk koordinat asal x1 dan x2 sebagai berikut

d O, P a11x12 2a12 x1 x2 a22 x22


di mana aij adalah nilai-nilai yang ditentukan
berdasarkan besaran sudut q, s11, s12 dan s22 yang
dihitung dari data asli.
Secara umum, ketika variabelnya saling
berkorelasi, statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah
36

d P, Q a11x1 y1 2 2a12 x1 y1 x2 y2 a22 x2 y2 2


PENGUKURAN YANG TIDAK SALING BEBAS
Misalkan P = (x1, x2, , xp) adalah suatu titik yang
koordinatnya merupakan variabel yang saling
berkorelasi; misalkan pula O = (0, 0, 0) adalah
titik nol dan Q = (y1, y2 , , yp) adalah titik tetap
(fixed point) tertentu, maka jarak dari P ke O dan
dari P ke Q adalah sbb:
a11x12 a22 x2 2 a pp x p 2 2a12 x1 x2
d O, P
2a13 x1 x3 2a p 1, p x p 1 x p
dan

d P , Q

a11x1 y1 2 a22 x2 y 2 2 a pp x p y p 2

2a12 x1 y1 x2 y 2 2a p 1, p x p 1 y p 1 x p y p
37

Anda mungkin juga menyukai