Inferensi Vektor Mean dalam Statistika Multivariat
Inferensi Vektor Mean dalam Statistika Multivariat
5.1. Pendahuluan
Bab inferensi mean vektor merupakan bagian pertama dari pembicaraan yang
metodologis dalam Metode Statistika Multivariat. Kita akan menggunakan konsep
dan hasil pada bab 1 sampai bab 4 untuk mengembangkan teknik analisis datanya.
Sebagian besar analisis yang dibicarakan menyangkut inferensi, yang merupakan
kesimpulan yang valid berdasarkan informasi dalam sampel.
Bab ini berkonsentrasi pada inferensi vektor mean populasi dan komponen-
komponennya. Meskipun inferensi statistik diperkenalkan melalui uji hipotesis,
tujuan dari bab ini adalah mempresentasikan analisis komponen mean berdasarkan
pada pernyataan konfidensi simultan.
Salah satu pesan pokok dalam analisis multivariat adalah bahwa variabel
yang berkorelasi harus dianalisa secara bersama-sama. Hal ini akan ditunjukkan
oleh metode yang dibahas pada bab ini.
derajat bebas 1.
Jika 0 tidak ditolak dapat disimpulkan bahwa 0 adalah nilai plausible untuk
rata-rata populasi normal. Hal ini ekuivalen dengan 0 tidak ditolak jika 0 terletak
pada interval konfidensi dua sisi 100(1- )% yaitu
1 ( ) 0 + 1 ( ) (5 3)
2 2
Apabila diberikan vektor 1, 0 adalah nilai plausible untuk rata- rata pada
distribusi normal multivariat. Sehingga dapat diproses dengan cara yang sama
untuk masalah univariat.
Suatu generalisasi pada kuadrat jarak pada (5-1) adalah analog multivariat
1
= ( 0 ) ( ) ( 0 ) = ( 0 ) 1 ( 0 )
2
(5 4)
dengan
1
=
( 1)
=1
10
1 0 20
= ( )( ) dan ( 1) = [ : ]
( ) 1
=1 0
Statistik 2 disebut Hotelling 2 sebagai penghormatan pada Harold
Hotelling, seorang pelopor dalam analisis multivariat, yang pertama mengamati
distribusi sampling.
Jika diamati, umumnya jarak 2 terlalu besar sehingga terlalu jauh dari 0
maka hipotesis 0 = 0 akan ditolak. Pada langkah berikutnya tabel khusus
dari presentasi titik 2 tidak diperlukan untuk uji formal hipotesis. Ini benar karena
( 1)
2~ (5 5)
( ) ,
dengan , merupakan variabel acak berdistribusi dengan derajat bebas dan
.
Untuk meringkas, diberikan sebagai berikut
Sehingga
4 3
=[ ]
3 9
1 9 3 13 19
1 = [ ]=[ ]
36 9 3 4 19 427
( 0 ) = [8 9] = [1]
65 1
13 19 1 7
2 = ( 0 ) 1 ( 0 ) = 3[1 1] [ ][ ] =
19 427 1 9
diperoleh 2 mempunyai distribusi
( 1) (3 1)2
, = = 42,1
( ) (3 2) 2,1
Contoh 5.2 (hal 173)
Perspirasi dari 20 wanita sehat dianalisis. Tiga komponen, 1 = sweat rate, 2 =
sodium content, dan 3 = potassium content, telah diukur dan dinilai.
Uji hipotesis 0 = [4,50,10] melawan 1 [4,50,10]dengan tingkat
signifikansi = 0.10 .
Untuk datanya diberikan pada tabel berikut:
Tabel 5.1 Sweet Data
Individual
(sweet rate) (sodium) (potassium)
1 3.7 48.5 9.3
2 5.7 65.1 8
3 3.8 47.2 10.9
4 3.2 53.2 12
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
Source : Courtesy of Dr.Gerald Bargman
dengan :
1 1
= ( ) ( )
dan = =
=1 =1
1
= [1 (( 0 )( 0 ) )]
2
=1
Dengan menerapkan result 4.10 dengan = =1( 0 )( 0 ) dan =
kita peroleh :
2
1
max (0 , ) = 2 (5 11)
|2
(2)2 |
0 = 1 =1( 0 )( 0 )
dengan
,
| 2
max (0 , )
|
Rasio Likelihood = = =( ) (5 12)
max (, ) | 0|
,
2 |
|
Ekuivalen dengan = | disebut Wilks lambada. Bila perbandingan
0|
H 0 jika
n/2
n
n/2
xj x xj x
'
j 1
c
0 x x '
n
j 0 j 0
j 1 (5-13)
|| | =1( )( ) |
={ } 2 == { }
2 <
|0 | | =1( 0 )( 0 ) |
Result 5.1
Apabila 1 , 2 , , adalah sampel random dari populasi (, ). Maka untuk
T2 ekuivalen dengan uji perbandingan likelihood yaitu 0 : = 0 versus 1 :
2 1
2
0 karena = (1 + )
(1)
( )( ) ( 0 ) 11 12
= =[ ]
=1 21 22
[ ( 0 ) 1 ]
Menurut Latihan 4.8. || = |22 ||11 12 22 1 21 | = |11 ||22
21 11 1 12 | kita dapatkan
(1) |( )( ) + ( 0 )( 0 ) |
=1
1
= |( )( ) | |1 ( 0 ) (( )( ) ) ( 0 )|
=1 =1
Karena :
( 0 )( 0 ) = ( + 0 )( + 0 )
=1 =1
= ( )( ) + ( 0 )( 0 )
=1
Atau
2
0 | = || (1 +
| )
( 1)
Jadi,
2 1
|
| 2
= | | = (1 + (1)) (5-14)
0
(5-15)
dengan demikian perhitungan invers matriks S dapat dihindari.
< (5 16)
dimana c adalah konstanta tertentu yang dipilih. Secara intuitif, 0 ditolak jika
maksimum dari likelihood yang diperoleh dengan mengganti pada himpunan 0
yang lebih kecil dari maksimum likelihood yang dipenuhi oleh variasi untuk
semua nilai pada . Ketika maksimum pada pembilang dari persamaan (5-16)
lebih kecil dari maksimum penyebut, 0 tidak memenuhi nilai plausible untuk .
Pada setiap aplikasi dari metode perbandingan likelihood, kita akan
memerlukan distribusi sampling dari statistik uji perbandingan likelihood .
Sehingga c dapat dipilih untuk menghasilkan sebuah uji dengan sebuah taraf
signifikansi tertentu. Ketika ukuran sampelnya besar dan kondisi keteraturan
tertentu dipenuhi, distribusi sampling dari -2 ln yang didekati oleh sebuah
distribusi chi-kuadrat.
Result 5.2. Bila ukuran sampel n besar,
() 2
2 = 2 ln ( 0() ) adalah, mendekati distribusi 0
Uji statistik dibandingkan atas dasar kekuatan, yang didefinisikan sebagai kurva
atau permukaan yang tingginya P[uji menolak 0 | ] dievaluasi pada setiap
parameter vektor. Tindakan daya kemampuan tes untuk menolak 0 ketika itu tidak
benar. Dalam situasi di mana = 0 benar-benar ditentukan di bawah 0 , dan
1 alternatif terdiri dari nilai yang ditentukan tunggal = 1 , uji rasio
kemungkinan memiliki kekuatan tertinggi di antara semua tes dengan taraf
signifikansi = [ 0 | = 0 ]. Dalam banyak kasus parameter
tunggal ( memiliki satu komponen), uji rasio kemungkinan seragam paling kuat
terhadap semua alternatif ke satu sisi 0 : = 0 . Dalam kasus lain, sifat ini untuk
sampel besar.
1 = 4
dan
2 = 4
( 1) 2(41)
1 , () = 0.026 (3.23) = 0.064
( ) 42(40)
dan
( 1) 2(41)
2 , () = 0.002 (3.23) = 0.018
( ) 42(40)
( 1)
21 ()
( ) , 1 0.161
= = = 3.6
2 0.045
( 1)
22 ()
( ) ,
Dari rasio tersebut dapat diketahui bahwa panjang sumbu mayor = 3.6 kali panjang
sumbu minornya.
Konfidensi Simultan
Daerah konfidensi ( ) 1 ( ) 2 , konstan adalah daerah
konfidensi untuk , yang setiap kesimpulannya mencakup keyakinan tentang
komponen masing-masing mean, sehingga sifat konfidensi masing-masing harus
simultan dengan probabilitas yang tinggi. Akan tetapi, beberapa pernyataan
menjadi tidak sesuai. Oleh karena itu, harus ada interval konfidensi simultan.
Konfidensi simultan berhubungan dengan daerah konfidensi bersama dari 2 -
statistic.
Diberikan X berdistribusi (, ) dan bentuk kombinasi linearnya
= 1 1 + 2 2 + + =
dari (2-43), diketahui bahwa
= () = dan 2 = Var() =
Sehingga, berdasarkan Result 4.2, dapat disimpulkan bahwa Z berdistribusi
( , ).
Jika 1 , 2 , , merupakan sampel random dari populasi berdistribusi
(, ). Bentuk kombinasi linear dari sampel random tersebut adalah
= 1 1 + 2 2 + + = = 1,2, ,
Mean dan variansi sampel dari 1 , 2 , , adalah
= dan 2 =
dengan dan adalah vektor mean sampel dan matriks kovariansi dari .
Untuk tertentu dan 2 diketahui, interval konfidensi 100(1 )% untuk
= dengan students t ratio adalah
( )
= = (5-20)
diperoleh
1 ( 2) + 1 ( 2)
1 ( 2) + 1 ( 2) (5-21)
dengan 1 ( 2) adalah persentil ke-100( 2) dari distribusi t berderajat bebas
1.
Pertidaksamaan 5-21 bisa diinterpretasikan sebagai komponen dari vektor
mean . Untuk contohnya adalah = [1, 0, , 0], = 1 dan (5-21) menjadi
interval konfidensi biasa untuk normal mean populasi (catatan: = 11 ). Dapat
disimpulkan bahwa interval konfidensi dapat dibuat untuk setiap komponen mean
tetapi interval-interval konfidensi tersebut terjadi bersamaan dengan probabilitas
bukan 1 .
daerah konfidensi simultannya adalah himpunan dari relatif kecil untuk semua
pilihan , sehingga 2 1 ( 2) pada 5-22 dapat diganti dengan nilai yang lebih
besar, yaitu 2 untuk beberapa pilihan .
Untuk 2 2 , diperoleh
2
( ( )) 2
max = max
Menggunakan lemma (2-50) dengan = , = ( ), dan = .
2 2
( ( )) ( ( ))
max = [max ] = ( ) 1 ( ) = 2 (5-23)
Result 5.3
Diberikan 1 , 2 , , adalah sampel random dari populasi berdistribusi
(, ) dengan definit positif. Interval simultan untuk semua adalah
( 1) ( 1)
( () , + () )
( ) , ( ) ,
+ , untuk setiap .
Dengan mengambil
( 1), ()
2 =
[lihat (5-6)] Interval akan memuat untuk semua , dengan probabilitas 1 =
[ 2 2 ].
Dari Result 5.3 dapat diturunkan interval konfidensi simultan (1 ) untuk
1 , 2 , , dengan mengambil = [1, 0, , 0], = [0,1, , 0], ..., =
[0, 0, , 1] diperoleh hasil sebagai berikut
( 1) 11 ( 1) 11
1 , () 1 1 + , ()
( ) ( )
( 1) 22 ( 1) 22
2 , () 2 2 + , ()
( ) ( )
( 1) ( 1)
, () + , ()
( ) ( )
(1) 2 +
() , ()
(5-25).
Contoh 5.4
Nilai yang diperoleh 87 mahasiswa dalam subtes 1, yaitu College Level
Examination Program (CLEP) serta subtes 2 dan 3, yaitu College Qualification
Test (CQT) diberikan pada Tabel 5.2.
1 : pengetahuan sosial dan sejarah
2 : verbal
3 : sains
Dari data Tabel 5.2 diperoleh
527.74 5691.34 600.51 217.25
= [ 54.69 ] dan = [ 600.51 126.05 23.37 ]
25.13 217.25 23.37 23.11
Interval konfidensi simultan 95% untuk 1 , 2 , dan 3 adalah
( 1) 3(87 1) 3(86)
, () = 3,84 (0.05) = (2.7) = 8.29
( ) (87 3) (84)
Konfidensi simultan:
5691.34 5691.34
(i). 527.74 8.29 1 527.74 + 8.29
87 87
504.45 1 551.03
126.05 126.05
(ii).54.69 8.29 2 54.69 + 8.29
87 87
51.22 2 58.16
23.11 23.11
(iii). 25.13 8.29 3 25.13 + 8.29
87 87
23.65 3 26.61
Dengan pengecualian nilai verbal, plot marginal Q-Q dan scatterplot 2-
dimensi tidak bisa digunakan untuk menguji kenormalan data (lihat Exercise 5.13).
Ukuran data yang besar sudah cukup menunjukkan bahwa data tidak berdistribusi
normal (lihat Section 5.5).
Tabel 5.2 COLLEGE TEST DATA
Org 1 2 3
1 468 41 26
2 428 39 26
3 514 53 21
4 547 67 33
5 614 61 27
6 501 67 29
7 421 46 22
8 527 50 23
9 527 55 19
10 620 72 32
11 587 63 31
12 541 59 19
13 561 53 26
14 468 62 20
15 614 65 28
16 527 48 21
17 507 32 27
18 580 64 21
19 507 59 21
20 521 54 23
21 574 52 25
22 587 64 31
23 488 51 27
24 488 62 18
25 587 56 26
26 421 38 16
27 481 52 26
28 428 40 19
29 640 65 25
30 574 61 28
31 547 64 27
32 580 64 28
33 494 53 26
34 554 51 21
35 647 58 23
36 507 65 23
37 454 52 28
38 427 57 21
39 521 66 26
40 468 57 14
41 587 55 30
42 507 61 31
43 574 54 31
44 507 53 23
45 494 41 24
46 541 47 25
47 362 36 17
48 408 28 17
49 594 68 23
50 501 25 26
51 687 75 33
52 633 52 31
53 647 67 29
54 647 65 34
55 614 59 25
56 633 65 28
57 448 55 24
58 408 51 19
59 441 35 22
60 435 60 20
61 501 54 21
62 507 42 24
63 620 71 36
64 415 52 20
65 554 69 30
66 348 28 18
67 468 49 25
68 507 54 26
69 527 47 31
70 527 47 26
71 435 50 28
72 660 70 25
73 733 73 33
74 507 45 28
75 527 62 29
76 428 37 19
77 481 48 23
78 507 61 19
79 527 66 23
80 488 41 28
81 607 69 28
82 561 59 34
83 614 70 23
84 527 49 30
85 474 41 16
86 441 47 26
87 607 67 32
Perbandingan Interval Konfidensi Simultan dengan Interval dalam Satu
Waktu
Sebagai alternative, untuk meminimalisir terjadinya kesalahan dalam
melakukan pendekatan untuk menentukan interval konfidensi adalah dengan
mempertimbangkan komponen i pada satu waktu dengan '= [0 ..., 0, i, 0, ..., 0 ]
dimana = 1. Pendekatan ini mengabaikan struktur kovarians dari p variabel
sehingga didapatkan interval
11 11
1 1 ( ) 1 1 + 1 ( )
2 2
22 22
2 1 ( ) 2 2 + 1 ( )
2 2
1 ( ) 1 + 1 ( )
2 2
Misal terdapat kasus khusus dimana observasi berdistribusi normal bersama
dan
11 0 0
0 0
= [ 22 ]
0 0
Variabel pertama independen terhadap variabel kedua, dan seterusnya, sehingga,
sebelum sampel dipilih,
P [semua interval t (5-26) yang memuat ] = (1 ) (1 )
= (1 )p
Tabel 5.3 Jarak kritis perkalian untuk interval satu waktu dan 2 interval
untuk pemilihan dan (1 ) = 0.95)
( 1)
(0.05)
1 (0.025) ( ) ,
=4 = 10
15 2.145 4.14 11.52
25 2.064 3.60 6.39
50 2.010 3.31 5.05
100 1.970 3.19 4.61
1.960 3.08 4.28
dan
Maka interval simultannya adalah 100(4.14 2.145)/2.145% = 93% lebih luas
daripada metode t dalam satu waktu.
1 [ ] = 1 (1 [ ])
=1 =1
= 1 1 + 2 + + (5.27)
Selanjutnya dikembangkan estimasi delang simultan untuk set terbatas terdiri dari
komponen . Kurangnya informasi pada kepentingan relative komponen ini,
kita anggap interval individu dari t adalah
1 ( ) , = 1, 2, ,
2
dengan = /. Karena [ 1 (2) ] = 1
/, = 1, 2, , , kita peroleh
[ 1 (2) , ] = 1 (5-28)
Oleh karena itu, dengan semua level konfidensi lebih besar atau sama dengan 1
, kita dapat membuat pernyataan m=p sebagai
11 11
1 1 ( ) 1 1 + 1 ( )
2 2
22 22
2 1 ( ) 2 2 + 1 ( )
2 2
1 ( ) + 1 ( )
2 2
(5-29)
Pernyataan (5-29) dapat digabungkan dengan (5-24). Pada point 1 ( 2)
diganti dengan ( 1), ()/( ), untuk lainnya sesuai dengan struktur
(5-29)
Example 5.5
Mari kembali pada data keringat di Example 5.2 (hal 174). Kita akan mendapatkan
simultan 95% interval konfidensi Bonfferoni untuk 1 , 2 , 3 sesuai pilihan
= 0.053 , = 1,2,3.
Kita gunakan hasil pada Example 5.2 dengan n=20 dan 19 (0.052(3)) =
19 (0.0083) = 2.625, untuk mendapatkan
2.879
1 19 (0.0083) 11 = 4.64 2.625 3.64 1 5.64
20
199.789
2 19 (0.0083) 22 = 45.4 2.625 37.10 2 53.70
20
3.628
3 19 (0.0083) 33 = 9.965 2.625 8.85 3 11.08
20
Interval Bonfferoni untuk kombinasi linier dan analog interval- 2 (Result 5.3)
mempunyai bentuk yang sama yaitu :
( )
Akibatnya, di setiap contoh dimana = ,
1 ( 2)
=
2 ( 1)
, ()
(5-30)
dimana tidak tergantung pada kuantitas random dan S. Untuk m yang berukuran
kecil dari fungsi parameter , interval Bonfferoni akan selalu lebih pendek.
Indikasi seberapa pendeknya interval tersebut ditunjukkan pada Tabel 5.4 untuk n
dan p yang dipilih.
Tabel 5.4 (panjang interval Bonfferoni)/(panjang interval T2) untuk 1 =
0.95 = 0.05/
m=p
N 2 4 10
15 0.88 0.69 0.29
25 0.90 0.75 0.48
50 0.91 0.78 0.58
100 0.91 0.80 0.62
~ 0.91 0.81 0.66
Result 5.4
Misal 1 , 2 , , merupakan sampel random dari populasi dengan mean dan
kovariansi (definit positif). Untuk (n-p) besar, uji hipotesisnya
: =
1 :
ditolak jika ( ) S 1 ( ) > 2 ()
Dengan 2 () merupakan persentil atas ke (100) dari distribusi Chi-Square
dengan p sebagai derajat kebebasannya.
Result 5.5
Misal 1 , 2 , , merupakan sampel random dari populasi dengan mean dan
kovariansi (definit positif). Jika (n-p) besar maka
2 ()( S)
X
2 2 () 22 memuat 2
2 () memuat
Example 5.6
Seorang guru musik menguji kemampuan dalam bermusik seribu
mahasiswa tingkat akhir untuk membentuk jiwa nasional di Finlandia. Ringkasan
statistik dari data disajikan pada Tabel 5.5. Statistik ini mempunyai ukuran sampel
= 96 siswa Finnish tingkat ke-12.
Misal, ditentukan interval konfidensi simultan 90% untuk komponen mean
untuk masing-masing , = 1,2, ,7.
Tabel 5.5. Rata-rata kemampuan bermusik dan standar deviasi untuk 96 mahasiswa
tingkat akhir yang berpartisipasi dalam program standardisasi
Nilai mentah
Mean ( ) Standar deviasi ( )
1= melody 28.1 5.76
2= harmony 26.6 5.85
3= tempo 35.4 3.82
4= meter 34.2 5.12
5= phrasing 23.6 3.76
6= balance 22.0 3.93
7= style 22.7 4.03
Contoh 5.7
sebagai bagian dari proyek riset pemasaran yang lebih besar, seorang konsultan
untuk Bank of Shorewood ingin mengetahui proporsi penabung yang menggunakan
fasilitas tersebut sebagai bank tabungan utama mereka. Konsultan juga ingin tahu
proporsi penabung yang menggunakan tiga pesaing utama mereka, Bank B, Bank
C, dan Bank D. Setiap individu dihubungi dalam sebuah survei menanggapi
pertanyaan:
Bank mana yang menjadi tabungan utama anda?
Respon: Bank of Shorewood | Bank B | Bank C | Bank D | Bank lain | Tidak ada
Tabungan
(Orang-orang tanpa tabungan akan diabaikan dalam perbandingan penabung jadi
disini ada 5 kategori) Misalkan proporsi populasi yaitu
1 =
2 =
3 =
4 =
1 (1 + 2 + 3 + 4 ) =
Seorang penabung pada Bank B akan memiliki vektor observasi [0,1,0,0,0]
Distribusi probabilitas untuk sebuah observasi dari populasi individu q + 1
dengan kategori yang eksklusif dan lengkap dikenal sebagai Distribusi
Multinomial.
Misalkan , = 1,2, , adalah sampel random berukuran n dari distribusi
multinomial. Komponen ke k, dari adalah 1 jika observasi(individu) berasal
dari kategori k dan 0 untuk yang lain. Karena bernilai 1 maka probabilitas
= ( ) = 1( ) + (1 ) =
= ( ) = ( 2 ) 2 ( ) = 12 ( ) + 02 (1 ) 2
= (1 )
= ( ) = ( ) ( )( ) = (0) =
Result 5.6
Misalkan 1 , 2 , , adalah sampel random dari q+1 kategori Distribusi
Multinomial dengan [ = 1] = , = 1,2, , + 1, = 1,2, , .
Perkiraan simultan daerah kepercayaan 100(1-)% untuk semua kombinasi linier
= 1 1 + 2 2 + + +1 +1 diberikan dengan nilai observasi
2 ()
1
tersedia n-q besar. Disini = =1 dan = { } adalah matriks ( q + 1 ) x ( q
Contoh 5.8
Pada contoh 5.7 dibahas studi perbankan yang dilakukan oleh peneliti pasar.
sampel n=355 orang, dengan rekening tabungan, menghasilkan jumlah yang
ditampilkan di bawah ini ketika diminta untuk menunjukkan tabungan bank utama
mereka.
1 (1 1 ) 0.30(0.70)
1 : 1 2 4 (. 05) = 0.3 9.49 0.23 1
355
0.37
2 (1 2 ) 0.33(0.67)
2 : 2 2 4 (. 05) = 0.3 9.49 0.25 2
355
0.41
3 (1 3 ) 0.16(0.84)
3 : 3 2 4 (. 05) = 0.3 9.49 0.10 3
355
0.22
4 (1 4 ) 0.07(0.93)
4 : 4 2 4 (. 05) = 0.3 9.49 0.03 4
355
0.11
5 (1 5 ) 0.14(0.86)
5 : 5 2 4 (. 05) = 0.3 9.49 0.08 5
355
0.20
1 (1 1 ) 2(1 2 ) + 2 (1 2 )
(1 2 ) 2 4 (. 05)
= 0.03 0.13
0.16 1 2 0.10
Karena nol berada pada interval terakhir, maka dengan kepercayaan 95% tidak ada
perbedaan antara proporsi populasi pada penabung yang menggunakan Bank of
Shorewood dan Bank B.
1 (1 1 ) 2(1 2 ) + 2 (1 2 )
( ) ( )
( + 1
Dimana ((+1) adalah persentil atas 100 ((+1) dari distribusa normal
standar.
1. Langkah Prediksi
(1)
Untuk setiap vektor x yang mengandung data hilang, x merupakan
(2)
komponen (data) yang hilang dan x merupakan komponen (data) yang tidak
(1) (2)
hilang. Sedemikian sehingga, x = [x , x ].
(1)
Kontribusi x untuk T1 diestimasi dengan
(1) (1) (2) 1 (2)
x = (X | j ; , ) = (1) + 12 22 (x (2) )
(1)
Kontribusi prediksi x untuk T2 adalah
(1) (1) (1) (1) (2) (1)
x x = (X X |x ; , ) = 11 12 22
1
21 + x x
dan
(1) (2) (1) (2) (2) (1) (2)
x x = (X X |x ; , ) = x x
2. Langkah Estimasi
Dihitung penduga maksimum likelihood terevisi, yaitu
T1 1
= =
T
2
Contoh 5.9
Estimasikan mean dan kovariansi dari populasi normal menggunakan data set
yang tidak lengkap
7 5
= [0 2 1 ]
3 6 2 5
Dimana = 3, = 4, dan observasi untuk bagian vektor 1 dan 4 ada yang
hilang.
Kita peroleh rata-rata sampel awal
7+5 0+2+1 3+6+2+5
1 = = 6, 2 = =1, 3 = =4
2 3 4
dari observasi yang diperoleh. Subtitusikan rata-rata tersebut untuk nilai data yang
hilang, sehingga 11 = 6, x14 = 6, x24 = 1, dapat kita peroleh estimasi kovarian
awal. Kita akan menyusun estimasi menggunakan pembagi karena algoritma pada
akhirnya menghasilkan estimasi maximum likelihood .
Dengan demikian
(66)2 +(76)2 +(56)2 +(66)2 1
11 = =2
4
1 5
22 = 2 , 33 = 2
(66)(01)+(76)(21)+(56)(11)+(66)(11) 1
12 = =4
4
3
23 = 4 , 13 = 1
1 3 1
1
1 1 1
11 2 = 11 12 22 21 + 11 2 = [ , 1] [23 4
[ 4 ] + (5.73)2 = 32.99
2 4 5]
4 2
1
11 [21 , 31 ] =
11 [21 , 31 ] = 5.73[0,3] = [0,17.18]
Untuk dua data hilang pada komponen 4 , partisi dan sebagai berikut
1 11 12 | 13
(1) 11 | 12
22 | 23
= [ 2 ] = [ ] , = [ 12 ] = [ | ]
|
3 (2) 21 | 22
13 23 | 33
Dan prediksi
14 1
[ ] = ([ 14 ] |34 = 5; ,
) = [ 1 ] + 12 22 (34 3 )
24 24 2
1 5 1
6 6.4
= [ ] + [3] ( ) (5 4) = [ ]
1 2 1.3
4
untuk kontribusi dari 1 . Juga dari (5-38),
2
14 24 14 2 14 24
[ 14 ] = ([ )
] |34 = 5; ,
14 24
24
2 14 24 24 2
1 1
1
= [2 4] [3] (5)1 [ 3 6.4
] + [ ] [6.4 1.3]
1 1 1
2 4 1.3
4
4 2
41.06 8.27
=[ ]
8.27 1.97
dan
14 34 14 6.4 32.0
[ ] (34 ) = ([ 14 ) = [ ] (34 ) = [ ] (5) = [
] |34 = 5; , ]
24 24 34 24 1.3 6.5
adalah kontribusi untuk 2 ,dengan demikian prediksi untuk Complete Sufficient
Statistik adalah
11 + 12 + 13 + 14 5.73 + 7 + 5 + 6.4 24.13
1 = [ 21 + 22 + 23 + 24 ] = [ 0 + 2 + 1 + 1.3 ] = [ 4.30 ]
31 + 32 + 33 + 24 3+6+2+5 16.00
2
11 2 + 12 2 + 13 2 +
14 2
= [
11 21 + 12 22 + 13 23 + 14 24
21 2 + 22 2 + 23 2 + 24
2
11 31 + 12 32 + 13 33 + 14 34 21 31 + 22 32 + 23 33 + 24 34 31 2 + 32 2 + 33
32.99 + 72 + 52 + 41.60
=[ 0 + 7(2) + 5(1) + 8.27 02 + 22 + 12 + 1.97 ]
2 2 2 2
17.18 + 7(6) + 5(2) + 32 0(3) + 2(6) + 1(2) + 6.5 3 + 6 + 2 + 5
148.05 27.27 101.18
= [ 27.27 6.97 20.50 ]
101.18 20.50 74.00
Langkah ini melengkapi prediksi yang pertama.
Langkah estimasi yang selanjutnya, gunakan (5-39), dengan meninjau
kembali estimasi
1 1 24.13 6.03
= 1 = [ 4.30 ] = [1.08]
4
16.00 4.00
1
= 2
148.05 27.27 101.18 6.03
1
= 4 [ 27.27 6.97 20.50 ] [1.08] [6.03 1.08 4.00]
101.18 20.50 74.00 4.00
0.65 0.31 1.18
= [0.31 0.58 0.81]
1.18 0.81 2.50
Catatan :
11 = 0.65 dan 22 = 0.58 menunjukkan nilai yang lebih besar daripada nilai
estimasi awal karena dipengaruhi komponen yang hilang sedangkan nilai 33 tidak
berubah karena tidak dipengaruhi oleh komponen yang hilang.
tidak berubah.
Iterasi antara prediksi dan estimasi dilanjutkan hingga nilai dan
terakhir memenuhi
Konfidensi elips 100(1 )% untuk nilai estimasi dan
1
persamaan ( )
( ) 2 () untuk setiap .