NPM
Kelas
Yudi
Aristanto
1406101200
33
A
PRAKTIKUM 2
ANALISIS DATA MULTIVARIAT I
1. Anda diminta untuk menjelaskan metoda yang digunakan dalam melakukan
pemeriksaan normalitas multivariat dari data.
2. Data pada tabel berikut merupakan hasil pengukuran mengenai tingkat polusi udara
yang dicatat pada jam 12.00 di suatu daerah di Amerika Serikat selama satu periode
pengamatan. Variabel yang diamati adalah X1 : kandungan CO, X2 : kandungan
NO2.
X1 Kandungan CO X2 Kandungan NO2
7 12
49
45
58
48
5 12
7 12
6 21
5 11
5 13
5 10
4 12
7 18
4 11
48
49
47
5 16
4 13
39
Lakukan pemeriksaan normalitas bivariat untuk data diatas .
Jawab
1.) Pada analisis multivariat data harus berasal dari populasi yang
berdistribusi normal multivariat. Tujuan dari pengukuran normalitas adalah ingin
mengetahui apakah distribusi sebuah data mengikuti atau mendekati distribusi
normal. Oleh karena pada MANOVA jumlah variat lebih dari satu variat, maka
pengukuran normalitas adalah untuk multivariat. Namun, pada semua teknik
analisis multivariat tidak ada uji langsung untuk menguji kenormalan dari data
multivariat.
Untuk
menguji
normal
multivariat,
dapat
dilakukan
dengan
yang
memperlihatkan
merupakan
normal
pendekatan
multivatiat
pada
dari
data.
normal
univariat
Langkah-langkah
uji
untuk
normal
2 ( j 0,5) / n,
c. Dari masing-masing jarak Mahalanobis Dt2, akan dihitung persentil
dimana j merupakan nilai dari observasi 1,2,3,n
2
d. Memplot jarak mahalanobis dengan yang diperhatikan pada plot chi-square :
1
1
1
1
2
3
n
2 ,2
2 , 2
2 ,.... 2
2
p
p
p
n
n
n
n
p2
Dimana secara berurutan mendekati garis lurus (Johnson, R.A, R.A dan Wichern,
D.W)
X2 Kandungan
NO2
12
9
5
8
8
12
12
21
11
13
10
12
18
11
8
9
7
16
13
9
masing-masing
jarak
Mahalanobis
Dt2,
akan
dihitung
persentil
2 ( j 0,5) / n,
dimana j merupakan nilai dari observasi 1,2,3,n
2
d. Memplot jarak mahalanobis dengan
yang diperhatikan pada plot chisquare :
D22 D32 ... Dn2
Di2
1
1
1
1
1
2
3
n
2 , 2
2 ,2
2 ,.... 2
2
p2
p
p
p
n
n
n
n
Dimana secara berurutan mendekati garis lurus (Johnson, R.A, R.A dan Wichern,
D.W)
Jika Menggunakan Syntax R
> x1=c(7,4,4,5,4,5,7,6,5,5,5,4,7,4,4,4,4,5,4,3)
> x1
[1] 7 4 4 5 4 5 7 6 5 5 5 4 7 4 4 4 4 5 4 3
> x2=c(12,9,5,8,8,12,12,21,11,13,10,12,18,11,8,9,7,16,13,9)
> x2
[1] 12 9 5 8 8 12 12 21 11 13 10 12 18 11 8 9 7 16 13 9
> data=matrix(c(x1,x2),20,2)
> data
[,1] [,2]
[1,] 7 12
[2,] 4 9
[3,] 4 5
[4,] 5 8
[5,] 4 8
[6,] 5 12
[7,] 7 12
[8,] 6 21
[9,] 5 11
[10,] 5 13
[11,] 5 10
[12,] 4 12
[13,] 7 18
[14,] 4 11
[15,] 4 8
[16,] 4 9
[17,] 4 7
[18,] 5 16
[19,] 4 13
[20,] 3 9
> mean(data)
[1] 8
> cov(data)
[,1]
[,2]
[1,] 1.326316 2.621053
[2,] 2.621053 14.589474
> var(data)
[,1]
[,2]
[1,] 1.326316 2.621053
[2,] 2.621053 14.589474
> yb=matrix(c(mean(x1),mean(x2)),2,1)
> s=var(data)
> ys=solve(s)
> y1=matrix(c(data[1,1]-yb[1],data[1,2]-yb[2]),2,1)
> y2=matrix(c(data[2,1]-yb[1],data[2,2]-yb[2]),2,1)
> y3=matrix(c(data[3,1]-yb[1],data[3,2]-yb[2]),2,1)
> y4=matrix(c(data[4,1]-yb[1],data[4,2]-yb[2]),2,1)
> y5=matrix(c(data[5,1]-yb[1],data[5,2]-yb[2]),2,1)
> y6=matrix(c(data[6,1]-yb[1],data[6,2]-yb[2]),2,1)
> y7=matrix(c(data[7,1]-yb[1],data[7,2]-yb[2]),2,1)
> y8=matrix(c(data[8,1]-yb[1],data[8,2]-yb[2]),2,1)
> y9=matrix(c(data[9,1]-yb[1],data[9,2]-yb[2]),2,1)
> y10=matrix(c(data[10,1]-yb[1],data[10,2]-yb[2]),2,1)
> y11=matrix(c(data[11,1]-yb[1],data[11,2]-yb[2]),2,1)
> y12=matrix(c(data[12,1]-yb[1],data[12,2]-yb[2]),2,1)
> y13=matrix(c(data[13,1]-yb[1],data[13,2]-yb[2]),2,1)
> y14=matrix(c(data[14,1]-yb[1],data[14,2]-yb[2]),2,1)
> y15=matrix(c(data[15,1]-yb[1],data[15,2]-yb[2]),2,1)
> y16=matrix(c(data[16,1]-yb[1],data[16,2]-yb[2]),2,1)
> y17=matrix(c(data[17,1]-yb[1],data[17,2]-yb[2]),2,1)
> y18=matrix(c(data[18,1]-yb[1],data[18,2]-yb[2]),2,1)
> y19=matrix(c(data[19,1]-yb[1],data[19,2]-yb[2]),2,1)
> y20=matrix(c(data[20,1]-yb[1],data[20,2]-yb[2]),2,1)
> d1=t(y1)%*%ys%*%y1
> d2=t(y2)%*%ys%*%y2
> d3=t(y3)%*%ys%*%y3
> d4=t(y4)%*%ys%*%y4
> d5=t(y5)%*%ys%*%y5
> d6=t(y6)%*%ys%*%y6
> d7=t(y7)%*%ys%*%y7
> d8=t(y8)%*%ys%*%y8
> d9=t(y9)%*%ys%*%y9
> d10=t(y10)%*%ys%*%y10
> d11=t(y11)%*%ys%*%y11
> d12=t(y12)%*%ys%*%y12
> d13=t(y13)%*%ys%*%y13
> d14=t(y14)%*%ys%*%y14
> d15=t(y15)%*%ys%*%y15
> d16=t(y16)%*%ys%*%y16
> d17=t(y17)%*%ys%*%y17
> d18=t(y18)%*%ys%*%y18
> d19=t(y19)%*%ys%*%y19
> d20=t(y20)%*%ys%*%y20
>
d=data.frame(c(d1,d2,d3,d4,d5,d6,d7,d8,d9,10,d11,d12,d13,d14,d15,d16,d17,d18,d19
,d20))
>d
c.d1..d2..d3..d4..d5..d6..d7..d8..d9..10..d11..d12..d13..d14..
1
4.98670928
2
0.52326541
3
2.74992675
4
1.40380876
5
0.76111333
6
0.04756958
7
4.98670928
8
6.95021974
9
0.06781196
10
10.00000000
11
0.30059928
12
1.08499134
13
4.28834732
14
0.68520442
15
0.76111333
16
0.52326541
17
1.21150619
18
2.09204954
19
1.69732321
20
2.63859369
X1
X2 Kandungan
d yang
p(i)
chi(pi)
Kandungan
CO
NO2
12
12
12
21
11
10
13
11
10
12
12
13
18
14
11
15
16
17
18
16
19
13
20
4.8
11.2
Rata-Rata
4.9867
09
0.5232
65
2.7499
27
1.4038
09
0.7611
13
0.0475
7
4.9867
09
6.9502
2
0.0678
12
10
0.3005
99
1.0849
91
4.2883
47
0.6852
04
0.7611
13
0.5232
65
1.2115
06
2.0920
5
1.6973
23
2.6385
94
diurutk
an
0.0475
7
0.0678
12
0.3005
99
0.5232
65
0.5232
65
0.6852
04
0.7611
13
0.7611
13
1.0849
91
1.2115
06
1.4038
09
1.6973
23
2.0920
5
2.6385
94
2.7499
27
4.2883
47
4.9867
09
4.9867
09
6.9502
2
10
0.025
0.075
0.125
0.175
0.225
0.275
0.325
0.375
0.425
0.475
0.525
0.575
0.625
0.675
0.725
0.775
0.825
0.875
0.925
0.975
8.9065
17
10.965
3
12.242
49
13.259
98
14.147
94
14.962
15
15.733
17
16.480
75
17.219
5
17.961
67
18.718
86
19.503
35
20.329
52
21.215
8
22.188
23.285
52
24.575
35
26.189
31
28.458
13
32.852
33
2p
Q-Q Plot
35
30
25
20
15
10
5
0
0
10
12
Karena sebaran data berada di sekitar garis lurus dan pencilan tidak ada, maka
dapat di asumsikan bahwa Sebaran data berdistribusi Normal.