Anda di halaman 1dari 17

Analisis Statistika Multivariate 1

ANALISIS STATISTIKA MUL1IJARIA1E



Analisis statistika 2ultivariate adalah analisis statistika yang dikenakan pada data
yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Beberapa metode
yang termasuk ke dalam golongan analisis ini adalah :
# Metode Tujuan Model
1 Principal
Co2ponent
Analysis
Mereduksi dimensi data dengan cara
membangkitkan variabel baru (komponen
utama) yang merupakan kombinasi linear
dari variabel asal sedemikan hingga varians
komponen utama menjadi maksimum dan
antar komponen utama bersiIat saling bebas
X a Y =
i

maks var(Y
i
) dan
corr(Y
i
, Y
j
)0
2 actor
Analysis
Mereduksi dimensi data dengan cara
menyatakan variabel asal sebagai kombinasi
linear sejumlah Iaktor, sedemikian hingga
sejumlah Iaktor tersebut mampu menjelas-
kan sebesar mungkin keragaman data yang
dijelaskan oleh variabel asal.
s + = X
maks var(C)

3 Cannonical
Correlation
Menganalisis hubungan antar dua kelompok
variabel dengan cara membangkitkan vari-
abel baru pada setiap kelompok. Variabel
baru tersebut merupakan kombinasi linear
dari variabel asal. Kombinasi linearnya
ditentukan sedemikian hingga korelasi antar
variabel baru yang berasal dari dua ke-
lompok menjadi maksimum
Ada dua kelompok
variabel :X dan Y
dibangkitkan variabel
baru :
X a U =
i
dan
Y b V =
i
sehingga
corr(
i i
V U , ) maks
dan corr(
i
V U , )0
4 Multivariate
Regression
Memodelkan hubungan antara kelompok
variabel respon (Y) dengan kelompok
variabel (X) yang diduga mempengaruhi
variabel respon
s + = X Y
MANOJA Menganalisis hubungan antara vektor va-
riabel respon (Y) yang diduga dipengaruhi
oleh beberapa perlakuan (treat2ent).
i i i
s t + + =
i1,...,t j1,...,n
i

k1,...,p
6 iscri2inant
Analysis
Membentuk Iungsi yang memisahkan antar
kelompok berdasarkan variabel pembeda,
Iungsi tsb disusun sedemikian nisbah kera-
gaman data antar dan kelompok maksimum.

7 Cluster
Analysis
Mengelompokkan data ke dalam beberapa
kelompok sedemikian hingga data yang
berada di dalam kelompok yang sama
cenderung mempunyai siIat yang lebih
homogen daripada data yang berada di
kelompok yang berbeda



Analisis Statistika Multivariate 2
istribusi Multinormal
Beberapa metode statistika 2ultivariate seperti : MANOJA, dan discri2inant
analysis seringkali mensyaratkan terpenuhinya asumsi distribusi multinormal. Asumsi
ini diperlukan karena di dalam MANOJA dan discri2inant analysis dilakukan pengujian
dengan menggunakan statistik uji Wilk. Kesimpulan yang diambil berdasarkan statistik
ini dikatakan sahih (valid), jika syarat distribusi multinormal dipenuhi.
Variabel
p i
X X X ,..., ,
2
dikatakan berditribusi normal 2ultivariate dengan
parameter dan L jika mempunyai probability density function :

) ( ) (
2
1
2 /
2 /
2
1
) 2 (
1
) ,..., , (

x
L

L
=
X X
X X X e f
p
p
p i


ika
p i
X X X ,..., ,
2
berdistribusi normal 2ultivariate maka ) ( ) (
1
L

X X
berditribusi
2
p
/ . Berdasarkan siIat ini maka pemeriksaan distribusi multinormal dapat
dilakukan dengan cara membuat 66 plot dari nilai n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X .
Tahapan dari pembuatan 66 plot ini adalah sebagai berikut (ohnson, 1990)
1. Mulai
2. Tentukan nilai vektor rata-rata : X
3. Tentukan nilai matriks varians-kovarians : S
4. Tentukan nilai jarak Mahalanobis setiap titik pengamatan dengan vektor rata-
ratanya n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X
. &rutkan nilai
2
i
d dari kecil ke besar :
2
) (
2
) 3 (
2
) 2 (
2
) 1 (
...
n
d d d d A A A A
6. Tentukan nilai n i
n
i
p
i
,..., 1 ,
2 / 1
=

=
7. Tentukan nilai
i
6 sedemikian hingga
i
6
p d f
i
=


2 2
) ( / /
8. Buat scatterplot
2
) (i
d dengan
i
6
9. ika scatterplot ini cenderung membentuk garis lurus dan lebih dari 0
nilai
2
0 . 0 ,
2
p i
d / A
10. Selesai

Implementasi pembuatan 66 plot dari nilai n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X
dalam macro MINITAB disajikan pada Lampiran 1.
Analisis Statistika Multivariate 3
Selain dengan memeriksa nilai jarak Mahalanobis setiap pengamatan dengan
vektor rata-ratanya. Menurut Mardia (1974) di dalam Rencher (199) pemeriksaan
kemultinormalan data dapat juga dikaji melalui nilai 2ultivariate sewnewss (
p
b
, 1
) dan
urtosisnya (
p
b
, 2
)

= =
=
n
i
n

i p
g
n
b
1 1
3
2
, 1
1
dan

=
=
n
i
ii p
g
n
b
1
2
, 2
1
sedangkan ) ( ) (
1
X X S X X =

i i
g

ika
p i
X X X ,..., ,
2
dikatakan berditribusi normal 2ultivariate maka :

)
p
b
p n
n n p
:
, 1 1
6 ) 1 )( 1 ( 6
) 3 )( 1 )( 1 (
+ +
+ + +
= berditribusi
2
6 / ) 2 )( 1 ( + + p p p
/ dan

n p p
p p b
:
p
/ ) 2 ( 8
) 2 (
, 2
2
+
+
= berdistribusi normal baku.
Penentuan nilai z
1
, z
2
dengan bantuan macro MINITAB disajikan pada Lampiran
2.

Kebebasan antar variabel
Variabel
p i
X X X ,..., ,
2
dikatakan bersiIat saling bebas (independent) jika matriks
korelasi antar variabel membentuk matriks identitas. &ntuk menguji kebebasan antar
variabel ini dapar dilakukan uji Bartlett sphericity berikut (Morrison, 200) :
Hipotesis :
Ho : R I
H1 : R= I
Statiistik uji : R
p
n
hitung
ln
6
2
1
2
)
`

|
,
| +
= /

Terima hipotesis Ho yang berarti antar variabel bersiIat saling bebas jika nilai
2
) 1 (
2
1
2

A
p p
hitung
/ / . ika hipotesis ini yang diterima maka penggunanan metode
2ultivariate tidak layak terutama metode analisis komponen utama dan analisis Iaktor.
Penentuan nilai statistik uji Bartlett sphericity dengan bantuan macro MINITAB
disajikan pada Lampiran 3.


Analisis Statistika Multivariate 4
Kehomogenan Matriks Varians-Kovarians
Beberapa analisis statistika 2ultivariate seperti discri2inant analysis dan
MANOJA membutuhkan syarat matriks varians-kovarians yang homogen. &ntuk menguji
syarat ini dapat dipergunakan statistik uji Box-M. Hipoteris dan statistik uji Box-M
adalah (Rencher, 199) :
Hipotesis
Ho :

L = = L = L ...
2 1

H1 :
i
L = L n untuk i =
Statistik uji

=

= =

ii
i pool i i hitung
v v c
1 1
1
2
ln
2
1
ln
2
1
) 1 ( 2 S S /
dan

=
=
=

i
i

i
i i
pool
v
v
1
1
S
S

+
+

=
=
) 1 )( 1 ( 6
1 3 2 1 1
2
1
1
1
p
p p
v
v
c

i
i
i
1 =
i i
n v

Terima hipotesis nol yang berarti matriks varians-kovarians bersiIat homogen jika

2
1 ( ) 1 (
2
1
2
+
A
p p
hitung
/ /




Analisis Statistika Multivariate
:907
Data tidak bersitribusi multinormal atau matriks varians-variansnya tidak homogen
bisa saja disebabkan oleh sedikit pengamatan yang mempunyai pola berbeda dengan
sebagian besar pengamatan. Pengamatan yang mempunyai perilaku seperti ini disebut
outlier. Contoh pengamatan yang merupakan outlier adalah negara epang (Gambar 1.)
Statistik uji yang dapat dipakai untuk mendeteksi adanya outlier adalah (Morrison, 200)


2 2
2
1
1
i
i
i
npd n p
nd p n


=
Pengamatan ke-i adalah outlier jika
1 , ;
>
p n p i

Penentuan adanya outlier dengan


menggunakan 2acro MINITAB disajikan di Lampiran 4.


Gambar 1. Scaterplot produktivitas dan jam-kerja bebarapa negara-negara maju

Jam kerja setahun
2200 2100 2000 1900 1800 1700 1600 1500
P
r
o
d
u
k
t
i
v
i
t
a
s
10
9
8
7
6
5
4
3
US
UK
Sweden
Netherland
Japan
taly
Germany
France
Denmark
Belgium
Analisis Statistika Multivariate 6
Kegiatan Praktikum


UNTR
Y
DENST
Y
URBA
N
LFEEXP
F
LFEEXP
M
LTERA
Y
BABYMR
T
GDP_A
P
Afghanista
n 25 18 44 45 29 168 205
Banglades
h 800 16 53 53 35 106 202
ambodia 55 12 52 50 35 112 260
hina 124 26 69 67 78 52 377
Hong
Kong 5494 94 80 75 77 5.8 14641
ndia 283 26 59 58 52 79 275
ndonesia 102 29 65 61 77 68 681
Japan 330 77 82 76 99 4.4 19860
Malaysia 58 43 72 66 78 25.6 2995
N. Korea 189 60 73 67 99 27.7 1000
Pakistan 143 32 58 57 35 101 406
Philippines 221 43 68 63 90 51 867
S. Korea 447 72 74 68 96 21.7 6627
Singapore 4456 100 79 73 88 5.7 14990
Taiwan 582 71 78 72 91 5.1 7055
Thailand 115 22 72 65 93 37 1800
Vietnam 218 20 68 63 88 46 230
Sumber data : Contoh data SPSS world95.sav

Ketrangan variabel :
Variabel Penjelasan
ensity Banyaknya penduduk per km persegi
Urban Persentase penduduk yang tinggal di perkotaan
Lifeexpf Harapan hidup penduduk perempuan (tahun)
Ligeexp2 Harapan hidup penduduk laki-laki (tahun)
Literacy Persentase penduduk yang bisa baca-tulis
Baby2ort Banyaknya kematian bayi per 1000 kelahiran
Gdpcap Penghasilan penduduk per kapita pertahun (&S$)

1. Periksa kemultinormalan data kependudukan negara-negara di Asia dengan
a. Menggunakan 66 plot dari nilai n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X
b. Menggunakan 2ultivariate sewness dan 2ultivariate urtosis
2. Apakah data di atas layak dianalisis dengan menggunakan analisis statistika
2ultivariate
3. Tentukan negara-negara yang dianggap outlier, jika ada outlier maka hapus
negara yang paling outlier (Nilai sigf paling kecil) kemudian lakukan pengujian
kemultinormalan melalui 2ultivariate sewness dan urtosis.
Analisis Statistika Multivariate 7
4. Dengan menggunakan variabel yang sama, ujilah apakah matriks varians-
kovarians AIrika sama dengan Amerika Latin atau tidak , jika tidak sama, coba
lakukan penghapusan beberapa negara yang dianggap outlier

Analisis Statistika Multivariate 8
Penyelesaian

1a. 66 plot dari nilai n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X untuk data kependudukan
negara-negara di Asia adalah :

MTB %qq.txt c2-c8
t 0.529412
distribusi data multinormal
66 plot dari nilai n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X cenderung
membentuk garis kurus dan ada lebih dari 0 (2.9412 ) nilai
2
0 . 0 ,
2
p i
d / A
sehingga data diatas cenderung berdistribusi multinormal.
1b. Pemeriksaan kemultinormalan data melalui 2ultivariate sewness dan urtosis
adalah :
MTB %mardia.txt c2-c8
Multivariate skewness
b1 33.2386
z1 115.612
pvalue 0.0126605
Multivariate kurtosis
b2 60.5424
z2 -0.451353
pvalue 0.651735

Pvalue untuk statistik uji 2ultivariate sewness lebih kecil dari
/ sehingga data kependudukan negara-negara di Asia cenderung tidak
berdistribusi multinormal


Analisis Statistika Multivariate 9
2. Kelayakan penggunaan analisis statistika 2ultivariate dapat dikaji melalui dua
sisi yaitu sisi terapan dan sisi statistika. Dari sisi terapan dapat ditunjukkan bahwa
berdasarkan reIerensi disiplin ilmu kependudukan, variabel-variabel di atas
memang saling terkait satu dengan yang lainnya. Dari disiplin ilmu statistika,
keeratan hubungan antar variabel dapat dilakukan melalui pengujian terhadap
matriks korelasi. Apakah matriks korelasinya membentuk matriks identitas atau
tidak, jika matriks korelasinya setelah diuji berbeda secara significant dengan
matriks identitas maka dapat disimpulkan bahwa ada hubungan antar variabel.
Sehingga data ini layak di analisis dengan menggunakan analisis statistika
2ultivariate. ika matriks korelasinya setelah diuji tidak berbeda dengan matriks
identitas, maka diduga sampel yang diperoleh tidak cukup, sehingga disarankan
untuk menambah sampel. Diharapkan setelah dilakukan penambahan sampel
maka hasil pengujian matriks korelasi berbeda dengan matriks identitas. Karena
dari hasil pengujian Bartlett sphericity dapat disimpulkan perlunya penambahan
sampel maka uji ini disebut juga uji kecukupan sampel. Dengan bantuan
MINITAB pengujian ini dapat diilakukan dengan cara :
MTB %bart.txt c2-c8

chis 178.398
pvalue 0

pvalue dari statistik uji Bartlett sphericity lebih kecil dari ) sehingga dapat
disimpulkan matriks korelasi antar variabel berbeda dengan matriks identitas.
Karena matriks korelasi bukan merupakan matriks identitas maka analisis
statistika 2ultivariate layak untuk digunakan.








Analisis Statistika Multivariate 10
3. Suatu pengamatan diakatakan outlier jika nilai


2 2
2
1
1
i
i
i
npd n p
nd p n


= melampaui
1 , ;
>
p n p i

, dengan menggunakan 2acro MINITAB hal ini dapat diselesaikan


dengan cara :

MTB %outlier.txt c1-c8

Row CJUNTRY d f_value sig_f

1 Afghanistan 10.9875 3.4699 0.043306
2 Bangladesh 4.8952 0.6192 0.729851
3 Cambodia 4.7223 0.5874 0.752289
4 China 5.4980 0.7394 0.646985
5 Hong Kong 11.0696 3.5676 0.040074
6 India 4.6708 0.5781 0.758837
7 Indonesia 1.6888 0.1624 0.987188
8 Japan 13.6454 12.4126 0.000564
9 Malaysia 6.0117 0.8543 0.572647
10 N. Korea 5.2646 0.6911 0.679801
11 Pakistan 10.5513 3.0096 0.063477
12 Philippines 2.8156 0.2957 0.938851
13 S. Korea 5.9621 0.8427 0.579908
14 Singapore 9.4582 2.1713 0.138178
15 Taiwan 4.6465 0.5738 0.761898
16 Thailand 5.4036 0.7196 0.660353
17 Vietnam 4.7088 0.5849 0.754010

Ada 3 negara yang dianggap outlier yaitu epang, Hongkong dan AIganistan.
Hasil pengujian kemultinormalan setelah epang dikeluarkan adalah :
MTB delete 8 c1-c8
MTB %mardia.txt c2-c8

Multivariate skewness
b1 30.1551
z1 99.8985
pvalue 0.113626

Multivariate kurtosis

b2 56.8194
z2 -1.10122
pvalue 0.270800

Setelah epang dikeluarkan, ternyata data kependudukan Negara-negara di Asia
berdistribusi multinormal. Dari contoh ini dapat ditunjukkan bahwa adanya
outlier dapat menyebabkan data tidak berdistribusi multinormal.
Analisis Statistika Multivariate 11
4. Pengujian kesamaan matriks varians-kovarian untuk region AIrika dan Amerika
Latin dapat dilakukan dengan cara :
- Memilih negara-negara di region AIrika dan Amerika Latin
klik Data, Select Cases

kemudian klik iI dan ketik region4 or region6

klik Continue kemudian OK
Analisis Statistika Multivariate 12
- Melakuan pengujian kehomogenan matriks varians-kovarians
klik Analyze, ClasiIy, Discriminant

klik Statistics

klik Continue kemudian OK

Nilai significance statistik uji Box-M lebih kecil dari , sehingga disimpulkan
matriks varians-kovarians region AIrika dan Amerika Latin tidak homogen, di
duga ketidakhomogenan ini disebabkan adanya outlier.
%089#08:98
70.555
2.015
28
4918.900
.001
Box's M
Approx.
df1
df2
Sig.
F
Tests null hypothesis of equal population covariance matrices.
Analisis Statistika Multivariate 13
Deteksi outlier Negara-negara di AIrika dan Amerika Latin adalah :

MTB %outlier.txt c1-c8

Row CJUNTRY d f_value sig_f
2 Barbados 30.0922 17.3411 0.000000
5 Brazil 13.2080 2.4330 0.040604
34 Somalia 15.7276 3.2245 0.010578
40 Zambia 16.9353 3.6709 0.005090

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados
dikeluarkan adalah :

Hasil pengujian kehomogenan matriks varians-kovarians setelah Barbados dan


Zambia dikeluarkan adalah :

Setelah Barbados dan Zambia dikeluarkan maka matriks varians-kovarians sudah


bersiIat homogen pada =/. Seandainya setelah dilakukan pembuangan data
outlier matriks varians-kovarians belum bersiIat homogen maka dapat dicoba
dilakukan transIor-masi Box-Cox dengan mencobakan berbagai nilai 2 Hasil
transIormasi ini tidak selalu berhasil menghomogenkan matriks varians-
kovarians. ika matriks varians-kovarians tidak bisa dihomogenkan maka dapat
dilakukan metode statistika yang lain yang tidak membutukan asumsi ini.

%089#08:98
55.121
1.564
28
4741.799
.030
Box's M
Approx.
df1
df2
Sig.
F
Tests null hypothesis of equal population covariance matrices.
%089#08:98
51.217
1.441
28
4403.414
.062
Box's M
Approx.
df1
df2
Sig.
F
Tests null hypothesis of equal population covariance matrices.
Analisis Statistika Multivariate 14
Lampiran 1. Macro MINITAB untuk memeriksa kemultinormalan DATA dari 6
6 plot nilai n i S d
i i i
,..., 1 , ( )
1 2
= =

X X X X

macro
qq x.1-x.p
mconstant i n p t chis
mcolumn d x.1-x.p dd pi q ss tt
mmatrix s sinv ma mb mc md
let n=count(x.1)
cova x.1-x.p s
invert s sinv
do i=1:p
let x.i=x.i-mean(x.i)
enddo
do i=1:n
copy x.1-x.p ma;
use i.
transpose ma mb
multiply ma sinv mc
multiply mc mb md
copy md tt
let t=tt(1)
let d(i)=t
enddo
set pi
1:n
end
let pi=(pi-0.5)/n
sort d dd
invcdf pi q;
chis p.
plot qdd
invcdf 0.5 chis;
chis p.
let ss=dd<chis
let t=sum(ss)/n
print t
if t0.5
note distribusi data multinormal
endif
if t<=0.5
note distribusi data bukan multinormal
endif
endmacro



Analisis Statistika Multivariate 1
Lampiran 2. Macro MINITAB untuk menguji kemultinormalan data melalui
2ultivariate sewness dan 2ultivariate urtosis

macro
mardia y.1-y.p
mconstant i j n p g b1 b2 z1 z2 zz v pp pvalue
mcolumn x.1-x.p y.1-y.p z.1-z.p t
mmatrix s sinv mi mj mjt ma mat mb mc md
let n=count(y.1)
do i=1:p
let x.i=y.i-mean(y.i)
let z.i=x.i/sqrt(n)
enddo
copy z.1-z.p ma
transpose ma mat
multiply mat ma s
invert s sinv
let b1=0
let b2=0
do i=1:n
copy x.1-x.p mi;
use i.
do j=1:n
copy x.1-x.p mj;
use j.
transpose mj mjt
multiply mi sinv mc
multiply mc mjt md
copy md t
let g=t(1)
let b1=b1+ggg
if i=j
let b2=b2+gg
endif
enddo
enddo
let b1=b1/(nn)
let b2=b2/n
let z1=(p+1)(n+1)(n+3)b1/(6((n+1)(p+1)-6))
let z2=(b2-p(p+2))/sqrt(8p(p+2)/n)
let v=p(p+1)(p+2)/6
note Multivariate skewness
cdf z1 pp;
chis v.
let pvalue=1-pp
print b1 z1 pvalue
note Multivariate kurtosis
let zz=abs(z2)
cdf zz pp;
normal 0 1.
let pvalue=2(1-pp)
print b2 z2 pvalue
endmacro


Analisis Statistika Multivariate 16
Lampiran 3. Macro MINITAB untuk menguji kebebasan antar variabel dengan Bartlett
sphericity test


macro
bart x.1-x.p
mconstant i n p d chis pp pvalue v
mcolumn x.1-x.p eigen
mmatrix r
let n=count(x.1)
corr x.1-x.p r
eigenvalues r eigen
let d=0
do i=1:p
let d=d+loge(eigen(i))
enddo
let chis=-(n-1-(2p+5)/6)d
let v=p(p-1)/2
cdf chis pp;
chis v.
let pvalue=1-pp
print chis pvalue
endmacro
Analisis Statistika Multivariate 17
Lampiran 4. Macro MINITAB untuk mendeteksi adanya 2ultivariete outlier

macro
outlier obs y.1-y.p
mconstant i n p df
mcolumn d x.1-x.p y.1-y.p dd pi f_value tt obs p1 sig_f
mmatrix s sinv ma mb mc md
let n=count(y.1)
cova y.1-y.p s
invert s sinv
do i=1:p
let x.i=y.i-mean(y.i)
enddo
do i=1:n
copy x.1-x.p ma;
use i.
transpose ma mb
multiply ma sinv mc
multiply mc mb md
copy md tt
let d(i)=tt(1)
enddo
let f_value=((n-p-1)nd)/(p(n-1)2-npd)
let df=n-p-1
cdf f_value p1;
f p df.
let sig_f=1-p1
print obs d f_value sig_f
endmacro

Anda mungkin juga menyukai