Analisis Statistika Multivariate
Analisis Statistika Multivariate
Analisis statistika multivariate adalah analisis statistika yang dikenakan pada data
yang terdiri dari banyak variabel dan antar variabel saling berkorelasi. Beberapa metode
yang termasuk ke dalam golongan analisis ini adalah :
# Metode Tujuan Model
1 Principal Mereduksi dimensi data dengan cara Yi a' X
Component membangkitkan variabel baru (komponen maks var(Yi) dan
Analysis utama) yang merupakan kombinasi linear corr(Yi, Yj)=0
dari variabel asal sedemikan hingga varians
komponen utama menjadi maksimum dan
antar komponen utama bersifat saling bebas
2 Factor Mereduksi dimensi data dengan cara X CF
Analysis menyatakan variabel asal sebagai kombinasi maks var(CF)
linear sejumlah faktor, sedemikian hingga
sejumlah faktor tersebut mampu menjelas-
kan sebesar mungkin keragaman data yang
dijelaskan oleh variabel asal.
3 Cannonical Menganalisis hubungan antar dua kelompok Ada dua kelompok
Correlation variabel dengan cara membangkitkan vari- variabel :X dan Y
abel baru pada setiap kelompok. Variabel dibangkitkan variabel
baru tersebut merupakan kombinasi linear baru :
dari variabel asal. Kombinasi linearnya U i a' X dan
ditentukan sedemikian hingga korelasi antar Vi b' Y sehingga
variabel baru yang berasal dari dua ke- corr( U , V ) maks
i i
lompok menjadi maksimum
dan corr( i , V j )=0
U
4 Multivariate Memodelkan hubungan antara kelompok Y X
Regression variabel respon (Y) dengan kelompok
variabel (X) yang diduga mempengaruhi
variabel respon
5 MANOVA Menganalisis hubungan antara vektor va- Yijk k ik ijk
riabel respon (Y) yang diduga dipengaruhi i=1,...,t j=1,...,ni
oleh beberapa perlakuan (treatment). k=1,...,p
6 Discriminant Membentuk fungsi yang memisahkan antar
Analysis kelompok berdasarkan variabel pembeda,
fungsi tsb disusun sedemikian nisbah kera-
gaman data antar dan kelompok maksimum.
7 Cluster Mengelompokkan data ke dalam beberapa
Analysis kelompok sedemikian hingga data yang
berada di dalam kelompok yang sama
cenderung mempunyai sifat yang lebih
homogen daripada data yang berada di
kelompok yang berbeda
( 2 ) p / 2
1
dilakukan dengan cara membuat q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n .
2
Tahapan dari pembuatan q-q plot ini adalah sebagai berikut (Johnson, 1990)
1. Mulai
2. Tentukan nilai vektor rata-rata : X
3. Tentukan nilai matriks varians-kovarians : S
4. Tentukan nilai jarak Mahalanobis setiap titik pengamatan dengan vektor rata-
1
ratanya d i X i X)' S ( X i X , i 1,..., n
2
5. Urutkan nilai d dari kecil ke besar : d (1) d ( 2) d ( 3) ... d ( n )
2 2 2 2 2
i
i 1/ 2
6. Tentukan nilai pi , i 1,..., n
n
qi
f ( ) d 2 p i
2
7. Tentukan nilai q i sedemikian hingga
2
8. Buat scatter-plot d (i ) dengan q i
9. Jika scatter-plot ini cenderung membentuk garis lurus dan lebih dari 50 %
nilai d i p ,0.50
2 2
10. Selesai
1
Implementasi pembuatan q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n
2
dalam macro MINITAB disajikan pada Lampiran 1.
n n
1 1 n 2
b1, p
n2
g
i 1 j 1
3
ij dan b2, p g ii
n i 1
1
sedangkan g ij ( X i X)' S ( X j X)
( p 1)(n 1)(n 3)
z1 b1, p berditribusi p2 ( p 1)( p 2 ) / 6 dan
6 ( n 1)( p 1) 6
b2, p p ( p 2)
z2 berdistribusi normal baku.
8 p ( p 2) / n
Penentuan nilai z1, z2 dengan bantuan macro MINITAB disajikan pada Lampiran
2.
Terima hipotesis Ho yang berarti antar variabel bersifat saling bebas jika nilai
2
12
p ( p 1) . Jika hipotesis ini yang diterima maka penggunanan metode
hitung
2
multivariate tidak layak terutama metode analisis komponen utama dan analisis faktor.
Penentuan nilai statistik uji Bartlett sphericity dengan bantuan macro MINITAB
disajikan pada Lampiran 3.
1 k 1 k
2
hitung 2(1 c1 ) vi ln S i ln S pool v i
2 i 1 2 ii 1
dan
k
v S i i
k 1
1 2 p 2 3 p 1
S pool i 1
c1 v i ni 1
k
i 1 vi
k
6( p 1)( k 1)
vi
v
i 1
i i 1
Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika
hitung
2
12
( k 1) p ( p 1
2
10 Japan
Belgium
Netherland
7
Denmark
France
6
Italy
Germany
5 Sweden
Produktivitas
4
UK
US
3
1500 1600 1700 1800 1900 2000 2100 2200
Ketrangan variabel :
Variabel Penjelasan
Density Banyaknya penduduk per km persegi
Urban Persentase penduduk yang tinggal di perkotaan
Lifeexpf Harapan hidup penduduk perempuan (tahun)
Ligeexpm Harapan hidup penduduk laki-laki (tahun)
Literacy Persentase penduduk yang bisa baca-tulis
Babymort Banyaknya kematian bayi per 1000 kelahiran
Gdp_cap Penghasilan penduduk per kapita pertahun (US$)
1a. 1
q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n untuk data kependudukan
2
t 0.529412
distribusi data multinormal
1
q-q plot dari nilai d i X i X)' S ( X i X , i 1,..., n
2
cenderung
membentuk garis kurus dan ada lebih dari 50 % (52.9412 %) nilai d i p ,0.50
2 2
chis 178.398
pvalue 0
pvalue dari statistik uji Bartlett sphericity lebih kecil dari 5 %) sehingga dapat
disimpulkan matriks korelasi antar variabel berbeda dengan matriks identitas.
Karena matriks korelasi bukan merupakan matriks identitas maka analisis
statistika multivariate layak untuk digunakan.
Fi F ; p , n p 1 ,
dengan menggunakan macro MINITAB hal ini dapat
diselesaikan dengan cara :
Ada 3 negara yang dianggap outlier yaitu Jepang, Hongkong dan Afganistan.
Hasil pengujian kemultinormalan setelah Jepang dikeluarkan adalah :
MTB > delete 8 c1-c8
MTB > %mardia.txt c2-c8
Multivariate skewness
b1 30.1551
z1 99.8985
pvalue 0.113626
Multivariate kurtosis
b2 56.8194
z2 -1.10122
pvalue 0.270800
klik Statistics
Box's M 70.555
F Approx. 2.015
df1 28
df2 4918.900
Sig. .001
Tests null hypothesis of equal population covariance matrices.
Nilai significance statistik uji Box-M lebih kecil dari 5%, sehingga disimpulkan
matriks varians-kovarians region Afrika dan Amerika Latin tidak homogen, di
duga ketidakhomogenan ini disebabkan adanya outlier.
Test Results
Box's M 55.121
F Approx. 1.564
df1 28
df2 4741.799
Sig. .030
Tests null hypothesis of equal population covariance matrices.
Box's M 51.217
F Approx. 1.441
df1 28
df2 4403.414
Sig. .062
Tests null hypothesis of equal population covariance matrices.
macro
qq x.1-x.p
mconstant i n p t chis
mcolumn d x.1-x.p dd pi q ss tt
mmatrix s sinv ma mb mc md
let n=count(x.1)
cova x.1-x.p s
invert s sinv
do i=1:p
let x.i=x.i-mean(x.i)
enddo
do i=1:n
copy x.1-x.p ma;
use i.
transpose ma mb
multiply ma sinv mc
multiply mc mb md
copy md tt
let t=tt(1)
let d(i)=t
enddo
set pi
1:n
end
let pi=(pi-0.5)/n
sort d dd
invcdf pi q;
chis p.
plot q*dd
invcdf 0.5 chis;
chis p.
let ss=dd<chis
let t=sum(ss)/n
print t
if t>0.5
note distribusi data multinormal
endif
if t<=0.5
note distribusi data bukan multinormal
endif
endmacro
macro
bart x.1-x.p
mconstant i n p d chis pp pvalue v
mcolumn x.1-x.p eigen
mmatrix r
let n=count(x.1)
corr x.1-x.p r
eigenvalues r eigen
let d=0
do i=1:p
let d=d+loge(eigen(i))
enddo
let chis=-(n-1-(2*p+5)/6)*d
let v=p*(p-1)/2
cdf chis pp;
chis v.
let pvalue=1-pp
print chis pvalue
endmacro
macro
outlier obs y.1-y.p
mconstant i n p df
mcolumn d x.1-x.p y.1-y.p dd pi f_value tt obs p1 sig_f
mmatrix s sinv ma mb mc md
let n=count(y.1)
cova y.1-y.p s
invert s sinv
do i=1:p
let x.i=y.i-mean(y.i)
enddo
do i=1:n
copy x.1-x.p ma;
use i.
transpose ma mb
multiply ma sinv mc
multiply mc mb md
copy md tt
let d(i)=tt(1)
enddo
let f_value=((n-p-1)*n*d)/(p*(n-1)**2-n*p*d)
let df=n-p-1
cdf f_value p1;
f p df.
let sig_f=1-p1
print obs d f_value sig_f
endmacro