0% menganggap dokumen ini bermanfaat (0 suara)
668 tayangan38 halaman

Inferensi Vektor Mean dalam Statistika Multivariat

Bab ini membahas inferensi vektor rata-rata populasi dan komponen-komponennya berdasarkan pernyataan konfidensi simultan. Metode yang dibahas menunjukkan pentingnya menganalisis beberapa variabel yang berkorelasi secara bersama-sama. Statistik Hotelling T^2 digunakan untuk menguji hipotesis nilai rata-rata populasi normal multivariat. Jika T^2 lebih besar dari F distribusi, maka hipotesis nol ditolak.

Diunggah oleh

Yohani DS
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
668 tayangan38 halaman

Inferensi Vektor Mean dalam Statistika Multivariat

Bab ini membahas inferensi vektor rata-rata populasi dan komponen-komponennya berdasarkan pernyataan konfidensi simultan. Metode yang dibahas menunjukkan pentingnya menganalisis beberapa variabel yang berkorelasi secara bersama-sama. Statistik Hotelling T^2 digunakan untuk menguji hipotesis nilai rata-rata populasi normal multivariat. Jika T^2 lebih besar dari F distribusi, maka hipotesis nol ditolak.

Diunggah oleh

Yohani DS
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai DOCX, PDF, TXT atau baca online di Scribd

INFERENSI VEKTOR MEAN

5.1. Pendahuluan
Bab inferensi mean vektor merupakan bagian pertama dari pembicaraan yang
metodologis dalam Metode Statistika Multivariat. Kita akan menggunakan konsep
dan hasil pada bab 1 sampai bab 4 untuk mengembangkan teknik analisis datanya.
Sebagian besar analisis yang dibicarakan menyangkut inferensi, yang merupakan
kesimpulan yang valid berdasarkan informasi dalam sampel.
Bab ini berkonsentrasi pada inferensi vektor mean populasi dan komponen-
komponennya. Meskipun inferensi statistik diperkenalkan melalui uji hipotesis,
tujuan dari bab ini adalah mempresentasikan analisis komponen mean berdasarkan
pada pernyataan konfidensi simultan.
Salah satu pesan pokok dalam analisis multivariat adalah bahwa variabel
yang berkorelasi harus dianalisa secara bersama-sama. Hal ini akan ditunjukkan
oleh metode yang dibahas pada bab ini.

5.2. Plausibility dari sebagai nilai untuk rata-rata populasi normal


Apabila 1 , 2 , , merupakan sampel random dari distribusi normal
univariat (, ) maka dapat dilakukan uji hipotesis untuk mean :
0 = 0
1 0
Statistik uji:

( 0 ) 1 1 2
= dengan = dan 2 = ( )
1
=1 =1

Statistik uji ini mempunyai distribusi dengan derajat bebas 1.


Daerah kritis : 0 ditolak jika || >
Menolak 0 ketika || > ekuivalen dengan menolak 0 ketika
( 0 )2
2 = = ( 0 )( 2 )1 ( 0 ) (5 1)
2
besar. Ketika dan 2 merupakan pengamatan, maka uji menjadi
2

( 0 )( 2 )1 ( 0 ) > 1 ( ) (5 2)
2

dengan 1 ( 2 ) merupakan persentil atas 100( 2) dari distribusi dengan

derajat bebas 1.
Jika 0 tidak ditolak dapat disimpulkan bahwa 0 adalah nilai plausible untuk
rata-rata populasi normal. Hal ini ekuivalen dengan 0 tidak ditolak jika 0 terletak
pada interval konfidensi dua sisi 100(1- )% yaitu

1 ( ) 0 + 1 ( ) (5 3)
2 2
Apabila diberikan vektor 1, 0 adalah nilai plausible untuk rata- rata pada
distribusi normal multivariat. Sehingga dapat diproses dengan cara yang sama
untuk masalah univariat.
Suatu generalisasi pada kuadrat jarak pada (5-1) adalah analog multivariat
1
= ( 0 ) ( ) ( 0 ) = ( 0 ) 1 ( 0 )
2
(5 4)

dengan

1
=
( 1)
=1


10
1 0 20
= ( )( ) dan ( 1) = [ : ]
( ) 1
=1 0
Statistik 2 disebut Hotelling 2 sebagai penghormatan pada Harold
Hotelling, seorang pelopor dalam analisis multivariat, yang pertama mengamati
distribusi sampling.
Jika diamati, umumnya jarak 2 terlalu besar sehingga terlalu jauh dari 0
maka hipotesis 0 = 0 akan ditolak. Pada langkah berikutnya tabel khusus
dari presentasi titik 2 tidak diperlukan untuk uji formal hipotesis. Ini benar karena
( 1)
2~ (5 5)
( ) ,
dengan , merupakan variabel acak berdistribusi dengan derajat bebas dan
.
Untuk meringkas, diberikan sebagai berikut

Diberikan 1 , 2 , , adalah sampel random dari sebuah populasi (, ).


1 1
Maka dengan = =1 dan = 1 =1( )( )
( 1) ( )
( 1)
= [ 2 > ()]
( ) ,
( 1)
= [( 0 ) 1 ( 0 ) > ()] (5 6)
( ) ,

Dalam hal ini , () adalah persentil atas ke (100) dari distribusi , .

Pernyataan (5-6) menunjukkan sebuah uji hipotesis 0 = 0 melawan


1 0 . Pada taraf signifikansi , tolak 0 pada 1 jika
( 1)
2 = ( 0 ) 1 ( 0 ) > () (5 7)
( ) ,
Pada bagian 4.4 sebelumnya, kita menggambarkan cara dimana distribusi
Wishart adalah generalisasi dari distribusi Chi-kuadrat. Dapat ditulis
1
=1( )( )
2 = ( 0 ) ( ) ( 0 )
1

yang mana berbentuk


1

( ) ( ) ( )

Hal ini analog dengan
2 = ( 0 )( 2 )1 ( 0 )
Atau
1

( ) ( ) ( )

untuk kasus univariat. Hal ini dikarenakan normal multivariat dan variabel acak
Wishart berdistribusi independen, dengan distribusi bersamanya merupakan hasil
dari normal marginal dan distribusi Wishart. Dengan menggunakan kalkulus,
distribusi 2 seperti tersebut di atas dapat diperoleh dalam bentuk distribusi
bersama.
Hal ini tidak akan selalu terjadi, dalam keadaan multivariat, dengan sebuah
uji 0 = 0 , dimana semua komponen vektor rata-rata adalah tertentu di bawah
hipotesis nol. Biasanya lebih baik mencari daerah dari nilai sehingga plausible
dapat terlihat jelas pada data yang diamati.

Contoh 5.1 ( hal 172)


Misalkan diberikan matrik data dari sampel random berukuran = 3 dari populasi
6 10 8
normal bivariat =[ ]
9 6 3
Hitung 2 untuk 0 = [9,5]. Bagaimana distribusi sampling dari 2 ?
Penyelesaian:
6 + 10 + 8
3 8
= [ 1 ] = [ ]=[ ]
2 9+6+3 6
3

1 1
11 = ( 1 )2 = (4 + 4 + 0) = 4
1 2
=1

1 1
22 = ( 2 )2 = (9 + 0 + 9) = 9
1 2
=1

1 1
12 = ( 1 )( 2 ) = (6 + 0 + 0) = 3
1 2
=1 =1

Sehingga
4 3
=[ ]
3 9
1 9 3 13 19
1 = [ ]=[ ]
36 9 3 4 19 427

( 0 ) = [8 9] = [1]
65 1
13 19 1 7
2 = ( 0 ) 1 ( 0 ) = 3[1 1] [ ][ ] =
19 427 1 9
diperoleh 2 mempunyai distribusi
( 1) (3 1)2
, = = 42,1
( ) (3 2) 2,1
Contoh 5.2 (hal 173)
Perspirasi dari 20 wanita sehat dianalisis. Tiga komponen, 1 = sweat rate, 2 =
sodium content, dan 3 = potassium content, telah diukur dan dinilai.
Uji hipotesis 0 = [4,50,10] melawan 1 [4,50,10]dengan tingkat
signifikansi = 0.10 .
Untuk datanya diberikan pada tabel berikut:
Tabel 5.1 Sweet Data
Individual
(sweet rate) (sodium) (potassium)
1 3.7 48.5 9.3
2 5.7 65.1 8
3 3.8 47.2 10.9
4 3.2 53.2 12
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
Source : Courtesy of Dr.Gerald Bargman

Dari perhitungan komputer diperoleh:


4.640 2.879 10.002 1.810
= [45.400] = [ 10.002 199.798 5.627]
9.965 1.810 5.627 3.628
dan
0.586 0.022 0.258
1
= [0.022 0.006 0.002]
0.258 0.002 0.402
Sehingga diperoleh :
2 = 20[4.640 4, 45.400 50, 9.965 10]
0.586
0.022 0.258 4.640 4
[0.0220.006 0.002] [45.400 50]
0.258
0.002 0.402 9.965 10
0.467
= 20[0.640, 4.600, 0.035] [0.042] = 9.74
0.160
Dengan membandingkan nilai 2 = 9.74, diperoleh daerah kritis
( 1) 19(3)
, (0.10) = (0.10) = 3.353(2.44) = 8.18
( ) 17 3.17
Bisa kita lihat bahwa nilai 2 = 9.74 > 8.18, sehingga bisa diambil kesimpulan H0
ditolak pada tingkat signifikansi 10%

Suatu bentuk dari statistik 2 adalah invarians (tanpa perubahan) di bawah


perubahan didalam unit pengukuran dari dengan bentuk
() = () () + () , C nonsingular (5 8)
Transformasi dari pengamatan ini muncul ketika sebuah konstanta yang
dikurangi dari variable ke-i untuk membentuk dan hasil dari perkalian
dengan konstanta > 0 untuk mendapatkan ( ). Sebelum perkalian yang
berpusat dan berskala jumlahnya ( ) oleh setiap matrik nonsingular akan
menghasilkan persamaan (3-8). Sebagai contoh operasi yang melibatkan
penggantian dengan ( ) yang bersesuaian pada proses mengubah suhu
dari Fahrenheit ke Celcius.
Diberikan pengamatan 1 , 2 , . . , dan transformasi pada (5 - 8), akan
mengikuti dari Result 3.6 sehingga

1
= + = ( ) ( ) =
1
=1

Selanjutnya, oleh persamaan (2-24) dan (2-45).


= () = ( + ) = () + () = +
Oleh karena itu, 2 dihitung dengan ys dan sebuah nilai hipotesis ,0 = 0 +
adalah
2 = ( ,0 )1 ( ,0 )
= (( 0 ))()1 (( 0 ))
= ( 0 ) ()1 ( 0 )
= ( 0 ) ()1 1 1 ( 0 )
= ( 0 ) 1 ( 0 )
Persamaan yang terakhir dikenali sebagai nilai dari 2 dihitung dengan xs.

5.3. Hotteling dan Uji Perbandingan Likelihood


Kita perkenalkan statistik- 2 analogi dengan jarak kuadrat univariat, 2 . Ada
sebuah prinsip umum untuk mengkontruksi langkah-langkah pengujian yang
disebut metode perbandingan likelihood dan statistik- 2 dapat diperoleh sebagai
uji rasio likelihood dengan 0 : = 0 . Uji rasio likelihood memiliki beberapa sifat
optimal yang layak untuk sampel besar, dan terutama sekali untuk perumusan
hipotesis dalam pernyataan parameter normal multivariat.
Kita ketahui bahwa maksimum likelihood normal multivariat sebagai dan
adalah bervariasi nilai kemungkinannya diberikan oleh
1
max ( , ) = 2 (5 9)
, |2
(2)2 |

dengan :

1 1
= ( ) ( )
dan = =

=1 =1

adalah penaksir maksimum likelihood. Sebagai pengingat bahwa penaksir


dipilih dari dan
maksimum likelihood dan yang merupakan alasan terbaik
untuk nilai yang diamati dari sampal acak.
Untuk hipotesis, 0 : = 0 normal likelihood mengkhususkan pada
1 1
=1( 0 )1 ( 0 )
(0 , ) = 2
2 (5 10)
|
(2)2 |
Rata-rata 0 adalah tetap, tetapi dapat bervariasi untuk menentukan nilai yang
paling memungkinkan, dengan 0 tetap untuk sampel yang diamati nilai ini
diperoleh dengan memaksimumkan ( , ) dengan berdasarkan
Menurut langkah (4-13) eksponen pada ( , ) dapat ditulis

1 1
( 0 ) 1 ( 0 ) = (1 ( 0 )( 0 ))
2 2
=1 =1


1
= [1 (( 0 )( 0 ) )]
2
=1

Dengan menerapkan result 4.10 dengan = =1( 0 )( 0 ) dan =
kita peroleh :
2
1
max (0 , ) = 2 (5 11)
|2
(2)2 |
0 = 1 =1( 0 )( 0 )
dengan

Untuk menentukan apakah 0 adalah nilai yang mungkin untuk , maksimum


(0 , ) dibandingkan dengan maksimum ( , ) yang tidak terbatas. Hasil
perbandingannya dinamakan statistik perbandingan likelihood.
Menggunakan persamaan (5-9) dan (5-10) diperoleh,

,
| 2
max (0 , )
|
Rasio Likelihood = = =( ) (5 12)
max (, ) | 0|
,

2 |
|
Ekuivalen dengan = | disebut Wilks lambada. Bila perbandingan
0|

likelihood terlampau kecil hipotesis H 0 : 0 ditolak. Jadi uji perbandingan


likelihood untuk H 0 : 0 versus H1 : 0 mempunyai daerah penolakan

H 0 jika
n/2
n

n/2
xj x xj x
'

j 1
c
0 x x '
n

j 0 j 0
j 1 (5-13)

|| | =1( )( ) |
={ } 2 == { }
2 <
|0 | | =1( 0 )( 0 ) |

Dimana c adalah batas bawah persentil ke 100 untuk distribusi .

Result 5.1
Apabila 1 , 2 , , adalah sampel random dari populasi (, ). Maka untuk
T2 ekuivalen dengan uji perbandingan likelihood yaitu 0 : = 0 versus 1 :
2 1
2
0 karena = (1 + )
(1)

Bukti : misalkan berorde (p+1) x (p+1)


( )( ) ( 0 ) 11 12
= =[ ]
=1 21 22
[ ( 0 ) 1 ]
Menurut Latihan 4.8. || = |22 ||11 12 22 1 21 | = |11 ||22
21 11 1 12 | kita dapatkan


(1) |( )( ) + ( 0 )( 0 ) |
=1

1


= |( )( ) | |1 ( 0 ) (( )( ) ) ( 0 )|
=1 =1

Karena :


( 0 )( 0 ) = ( + 0 )( + 0 )
=1 =1


= ( )( ) + ( 0 )( 0 )
=1

Determinan dari persamaan diatas dapat ditulis :



2
(1) |( 0 )( 0 ) | = |( )( ) | (1) (1 + )
( 1)
=1 =1

Atau
2
0 | = || (1 +
| )
( 1)

Jadi,
2 1
|
| 2
= | | = (1 + (1)) (5-14)
0

Dengan 0 ditolak untuk 2 kecil atau nilai 2 besar



(1)|0 | (1)|
=1( 0 )( 0 ) |
2
= |
( 1) = ( 1)
| |
=1( )( ) |

(5-15)
dengan demikian perhitungan invers matriks S dapat dihindari.

Metode Perbandingan Likelihood Tergeneralisasi


Misal sebuah vektor yang terdiri dari semua parameter populasi yang
tidak diketahui dan () adalah fungsi likelihood yang didapat dengan
mengevaluasi fungsi densitas bersama 1 , 2 , , pada nilai observasi
1 , 2 , , . Vektor parameter memberikan nilai dalam himpunan parameter .
Sebagai contoh, dalam kasus normal multivariat berdimensi-p, =
[1 , , , 11 , , 1 , 22 , , 2 , , 1. , ] dan terdiri dari kumpulan
ruang berdimensi-p dimana < 1 < , , < < dan ruang
(+1)
berdimensi-[ ] dari variansi dan kovariansi seperti adalah definit positif.
2
+(+1)
Sehingga mempunyai dimensi . Di bawah hipotesis nol 0 : = 0 ,
2
dibatasi pada ketidakbenaran dalam himpunan bagian, 0 dari . Untuk keadaan
normal multivariat dengan = 0 dan tidak terspesifikasi, 0 = { 1 = 10 , 2 =
20 , , = 0 ; 11 , , 1 , 22 , , 2 , , 1. , dengan definit positif },
0 + (+1) (+1)
jadi 0 mempunyai dimensi 0 = = .
2 2

Tes rasio likelihood dari 0 0 dan 0 0 jika


max ()
0
=
max ()

< (5 16)
dimana c adalah konstanta tertentu yang dipilih. Secara intuitif, 0 ditolak jika
maksimum dari likelihood yang diperoleh dengan mengganti pada himpunan 0
yang lebih kecil dari maksimum likelihood yang dipenuhi oleh variasi untuk
semua nilai pada . Ketika maksimum pada pembilang dari persamaan (5-16)
lebih kecil dari maksimum penyebut, 0 tidak memenuhi nilai plausible untuk .
Pada setiap aplikasi dari metode perbandingan likelihood, kita akan
memerlukan distribusi sampling dari statistik uji perbandingan likelihood .
Sehingga c dapat dipilih untuk menghasilkan sebuah uji dengan sebuah taraf
signifikansi tertentu. Ketika ukuran sampelnya besar dan kondisi keteraturan
tertentu dipenuhi, distribusi sampling dari -2 ln yang didekati oleh sebuah
distribusi chi-kuadrat.
Result 5.2. Bila ukuran sampel n besar,

() 2
2 = 2 ln ( 0() ) adalah, mendekati distribusi 0

variabel random. Berikut derajat bebas adalah 0 =(dimensi dari ) (dimensi


dari 0 ).

Uji statistik dibandingkan atas dasar kekuatan, yang didefinisikan sebagai kurva
atau permukaan yang tingginya P[uji menolak 0 | ] dievaluasi pada setiap
parameter vektor. Tindakan daya kemampuan tes untuk menolak 0 ketika itu tidak
benar. Dalam situasi di mana = 0 benar-benar ditentukan di bawah 0 , dan
1 alternatif terdiri dari nilai yang ditentukan tunggal = 1 , uji rasio
kemungkinan memiliki kekuatan tertinggi di antara semua tes dengan taraf
signifikansi = [ 0 | = 0 ]. Dalam banyak kasus parameter
tunggal ( memiliki satu komponen), uji rasio kemungkinan seragam paling kuat
terhadap semua alternatif ke satu sisi 0 : = 0 . Dalam kasus lain, sifat ini untuk
sampel besar.

5.4. Daerah Konfidensi dan Perbandingan Simultan Komponen Mean


Untuk melakukan inferensi sampel diperlukan perluasan konsep interval
konfidensi univariat menjadi daerah konfidensi multivariat. Misal adalah vektor
parameter populasi yang tidak diketahui dan adalah himpunan semua nilai yang
mungkin untuk . Daerah ini ditentukan oleh data yang dinotasikan oleh ()
dengan adalah [1 , 2 , , ].
() disebut daerah konfidensi 100(1 )% jika sebelum sampel dipilih,
[() ] = 1 (5-17)
Daerah konfidensi untuk mean dari -dimensional populasi normal
didapatkan dari persamaan (5-6). Sebelum sampel dipilih,
( 1)
[( ) 1 ( ) ()] = 1
( ) .
dengan dan tidak diketahui. Oleh sebab itu, akan berada diantara
1
2
[( 1). ()/( )]
dari dengan probabilitas 1 .
Untuk sampel khusus, dan dapt dihitung dan ketidaksamaan (
) 1 ( ) ( 1). ()/( ) akan menentukan daerah () pada
semua nilai parameter yang mungkin. Pada kasus ini, daerah elipsoid akan memiliki
pusat . Elipsoid ini adalah daerah konfidensi 100(1 )% untuk mean .
Daerah konfidensi 100(1 )% untuk mean berdimensi dari
distribusi normal adalah
( 1)
( ) 1 ( ) ()
( ) ,
1 1
dengan = =1 , = (1) =1( )( )
dan 1 , 2 , , adalah sampel observasi.
Untuk menentukan bahwa 0 terdapat pada daerah konfidensi (nilai
plausible untuk ), kita perlu menghitung jarak generalized kuadrat (
(1)
0 ) 1 ( 0 ) dan membandingkannya dengan
() ,
(). Jika jarak
(1)
kuadrat lebih besar daripada
() ,
(), maka 0 tidak berada pada daerah

konfidensi. Hal ini analog untuk menguji 0 = 0 versus 1 0 [lihat (5-


7)], kita lihat bahwa daerah konfidensi pada (5-18) mengandung semua vektor 0
untuk uji 2 yang tidak akan menolak 0 melawan 1 pada tingkat signifikansi .
Untuk 4, kita tidak dapat menggambarkan daerah konfidensi untuk .
Namun, kita dapat menghitung sumbu dari daerah konfidensi elipsoid dan
hubungan panjangnya. Hal ini di tentukan dari nilai eigen dan vektor eigen
dari . Sebagaimana pada persamaan (4-7), arah dan panjang dari sumbu adalah
( 1)
( ) 1 ( ) 2 ()
( ) ,
di tentukan dengan

= ( 1), ()/( )

unit mendekati vektor eigen . Dimulai dengan pusat , sumbu daerah konfidensi
elipsoid adalah
(1)
() , () dengan = , i= 1, 2, . . . , p.

Rasio panjang sumbu mayor dan minornya


( 1)
21 ()
( ) , 1
=
( 1)
22 () 2
( ) ,
Interpretasi rasio tersebut memberikan informasi bagaimana hubungan panjang
sumbu mayor dan minor dari elips.

Contoh 5.3 (hal 180)


Pada contoh 4.9 dan 4.15, terdapat data mengenai radiasi yang ditimbulkan oleh
oven microwave. Diberikan

1 = 4

dan

2 = 4

Untuk = 42 pasang, diperoleh

0.564 0.0144 0.0117 203.018 163.391


= [ ] =[ ] 1 = [ ]
0.603 0.0117 0.0146 163.391 200.228

Pasangan nilai eigen dan vektor eigen untuk adalah

1 = 0.026 1 = [0.704, 0.710]


2 = 0.002 2 = [0.710, 0.704]
Konfidensi elips 95% untuk , yang terdiri dari (1 , 2 ) adalah
203.018 163.391 0.564 1
42[0.564 1 , 0.603 2 ] [ ][ ]
163.391 200.228 0.603 2
2(41)
(0.05)
40 2,40
Karena 2,40 (0.05) = 3.23, maka konfidensi elips 95% untuk , yang terdiri dari
(1 , 2 ) adalah
42(203.018)(0.564 1 )2 + 42(200.228)(0.603 2 )2
84(163.391)(0.564 1 ) (0.603 2 ) 6.62
Untuk mengetahui apakah = [0.562 , 0.589] berada di dalam daerah
konfidensi diperlukan perhitungan sebagai berikut
42(203.018)(0.564 0.562)2 + 42(200.228)(0.603 0.589)2
84(163.391)(0.564 0.562)(0.603 0.589) = 1.3 6.62
sehingga dapat disimpulkan bahwa = [0.562 , 0.589] berada di dalam daerah
0.562
konfidensi. Ekuivalen dengan uji hipotesis 0 = [ ] tidak akan ditolak
0.589
0.562
demi 1 [ ] pada tingkat signifikansi = 0.05.
0.589
Konfidensi elips bersama ditunjukkan dalam gambar 5.1
Pusatnya berada pada = [0.564 , 0.603] sedangkan setengah panjang sumbu
mayor dan minornya adalah

( 1) 2(41)
1 , () = 0.026 (3.23) = 0.064
( ) 42(40)

dan

( 1) 2(41)
2 , () = 0.002 (3.23) = 0.018
( ) 42(40)

Sumbu-sumbu tersebut berada di sepanjang 1 = [0.704 , 0.710] dan 2 =


[0.710 , 0.704], ketika vektor 1 dan 2 dengan titik asal . Pemanjangan dari
konfidensi elips disediakan oleh rasio sumbu mayor dan minor. Rasio panjang
sumbu mayor dan minornya adalah

( 1)
21 ()
( ) , 1 0.161
= = = 3.6
2 0.045
( 1)
22 ()
( ) ,

Dari rasio tersebut dapat diketahui bahwa panjang sumbu mayor = 3.6 kali panjang
sumbu minornya.
Konfidensi Simultan
Daerah konfidensi ( ) 1 ( ) 2 , konstan adalah daerah
konfidensi untuk , yang setiap kesimpulannya mencakup keyakinan tentang
komponen masing-masing mean, sehingga sifat konfidensi masing-masing harus
simultan dengan probabilitas yang tinggi. Akan tetapi, beberapa pernyataan
menjadi tidak sesuai. Oleh karena itu, harus ada interval konfidensi simultan.
Konfidensi simultan berhubungan dengan daerah konfidensi bersama dari 2 -
statistic.
Diberikan X berdistribusi (, ) dan bentuk kombinasi linearnya
= 1 1 + 2 2 + + =
dari (2-43), diketahui bahwa
= () = dan 2 = Var() =
Sehingga, berdasarkan Result 4.2, dapat disimpulkan bahwa Z berdistribusi
( , ).
Jika 1 , 2 , , merupakan sampel random dari populasi berdistribusi
(, ). Bentuk kombinasi linear dari sampel random tersebut adalah
= 1 1 + 2 2 + + = = 1,2, ,
Mean dan variansi sampel dari 1 , 2 , , adalah
= dan 2 =
dengan dan adalah vektor mean sampel dan matriks kovariansi dari .
Untuk tertentu dan 2 diketahui, interval konfidensi 100(1 )% untuk
= dengan students t ratio adalah
( )
= = (5-20)

diperoleh

1 ( 2) + 1 ( 2)


1 ( 2) + 1 ( 2) (5-21)

dengan 1 ( 2) adalah persentil ke-100( 2) dari distribusi t berderajat bebas
1.
Pertidaksamaan 5-21 bisa diinterpretasikan sebagai komponen dari vektor
mean . Untuk contohnya adalah = [1, 0, , 0], = 1 dan (5-21) menjadi
interval konfidensi biasa untuk normal mean populasi (catatan: = 11 ). Dapat
disimpulkan bahwa interval konfidensi dapat dibuat untuk setiap komponen mean
tetapi interval-interval konfidensi tersebut terjadi bersamaan dengan probabilitas
bukan 1 .

Diberikan 1 , 2 , , dan tertentu, interval konfidensi (5-21) adalah


himpunan nilai dari untuk
( )
|| = | | 1 ( 2)

atau, kuivalen dengan
2
2
( ) ( ( ))
2
= = 2 1 ( 2) (5-22)

daerah konfidensi simultannya adalah himpunan dari relatif kecil untuk semua
pilihan , sehingga 2 1 ( 2) pada 5-22 dapat diganti dengan nilai yang lebih
besar, yaitu 2 untuk beberapa pilihan .
Untuk 2 2 , diperoleh
2
( ( )) 2
max = max

Menggunakan lemma (2-50) dengan = , = ( ), dan = .
2 2
( ( )) ( ( ))
max = [max ] = ( ) 1 ( ) = 2 (5-23)

Maksimum yang terjadi untuk proporsional untuk 1 ( ).

Result 5.3
Diberikan 1 , 2 , , adalah sampel random dari populasi berdistribusi
(, ) dengan definit positif. Interval simultan untuk semua adalah
( 1) ( 1)
( () , + () )
( ) , ( ) ,

akan memuat dengan probabilitas 1 .


Bukti:
Dari (5-23)
2
( ( ))
2 1 ( 2
= ( ) ) maka 2 untuk setiap , atau


+ , untuk setiap .

Dengan mengambil
( 1), ()
2 =

[lihat (5-6)] Interval akan memuat untuk semua , dengan probabilitas 1 =
[ 2 2 ].
Dari Result 5.3 dapat diturunkan interval konfidensi simultan (1 ) untuk
1 , 2 , , dengan mengambil = [1, 0, , 0], = [0,1, , 0], ..., =
[0, 0, , 1] diperoleh hasil sebagai berikut

( 1) 11 ( 1) 11
1 , () 1 1 + , ()
( ) ( )

( 1) 22 ( 1) 22
2 , () 2 2 + , ()
( ) ( )

( 1) ( 1)
, () + , ()
( ) ( )

semua simultan dengan koefisien konfidensi 1 .

Tanpa mengganti koefisien 1 , dapat digunakan dengan =


[0, , , 0, , , , 0] dimana = 1 dan = 1, serta = 2 +
, diperoleh
(1) 2 +
() , () +

(1) 2 +
() , ()
(5-25).

Interval konfidensi simultan 2 ideal untuk data snoping.

Contoh 5.4
Nilai yang diperoleh 87 mahasiswa dalam subtes 1, yaitu College Level
Examination Program (CLEP) serta subtes 2 dan 3, yaitu College Qualification
Test (CQT) diberikan pada Tabel 5.2.
1 : pengetahuan sosial dan sejarah
2 : verbal
3 : sains
Dari data Tabel 5.2 diperoleh
527.74 5691.34 600.51 217.25
= [ 54.69 ] dan = [ 600.51 126.05 23.37 ]
25.13 217.25 23.37 23.11
Interval konfidensi simultan 95% untuk 1 , 2 , dan 3 adalah

( 1) 3(87 1) 3(86)
, () = 3,84 (0.05) = (2.7) = 8.29
( ) (87 3) (84)

Konfidensi simultan:

5691.34 5691.34
(i). 527.74 8.29 1 527.74 + 8.29
87 87

504.45 1 551.03
126.05 126.05
(ii).54.69 8.29 2 54.69 + 8.29
87 87

51.22 2 58.16
23.11 23.11
(iii). 25.13 8.29 3 25.13 + 8.29
87 87

23.65 3 26.61
Dengan pengecualian nilai verbal, plot marginal Q-Q dan scatterplot 2-
dimensi tidak bisa digunakan untuk menguji kenormalan data (lihat Exercise 5.13).
Ukuran data yang besar sudah cukup menunjukkan bahwa data tidak berdistribusi
normal (lihat Section 5.5).
Tabel 5.2 COLLEGE TEST DATA
Org 1 2 3
1 468 41 26
2 428 39 26
3 514 53 21
4 547 67 33
5 614 61 27
6 501 67 29
7 421 46 22
8 527 50 23
9 527 55 19
10 620 72 32
11 587 63 31
12 541 59 19
13 561 53 26
14 468 62 20
15 614 65 28
16 527 48 21
17 507 32 27
18 580 64 21
19 507 59 21
20 521 54 23
21 574 52 25
22 587 64 31
23 488 51 27
24 488 62 18
25 587 56 26
26 421 38 16
27 481 52 26
28 428 40 19
29 640 65 25
30 574 61 28
31 547 64 27
32 580 64 28
33 494 53 26
34 554 51 21
35 647 58 23
36 507 65 23
37 454 52 28
38 427 57 21
39 521 66 26
40 468 57 14
41 587 55 30
42 507 61 31
43 574 54 31
44 507 53 23
45 494 41 24
46 541 47 25
47 362 36 17
48 408 28 17
49 594 68 23
50 501 25 26
51 687 75 33
52 633 52 31
53 647 67 29
54 647 65 34
55 614 59 25
56 633 65 28
57 448 55 24
58 408 51 19
59 441 35 22
60 435 60 20
61 501 54 21
62 507 42 24
63 620 71 36
64 415 52 20
65 554 69 30
66 348 28 18
67 468 49 25
68 507 54 26
69 527 47 31
70 527 47 26
71 435 50 28
72 660 70 25
73 733 73 33
74 507 45 28
75 527 62 29
76 428 37 19
77 481 48 23
78 507 61 19
79 527 66 23
80 488 41 28
81 607 69 28
82 561 59 34
83 614 70 23
84 527 49 30
85 474 41 16
86 441 47 26
87 607 67 32
Perbandingan Interval Konfidensi Simultan dengan Interval dalam Satu
Waktu
Sebagai alternative, untuk meminimalisir terjadinya kesalahan dalam
melakukan pendekatan untuk menentukan interval konfidensi adalah dengan
mempertimbangkan komponen i pada satu waktu dengan '= [0 ..., 0, i, 0, ..., 0 ]
dimana = 1. Pendekatan ini mengabaikan struktur kovarians dari p variabel
sehingga didapatkan interval
11 11
1 1 ( ) 1 1 + 1 ( )
2 2
22 22
2 1 ( ) 2 2 + 1 ( )
2 2

1 ( ) 1 + 1 ( )
2 2
Misal terdapat kasus khusus dimana observasi berdistribusi normal bersama
dan
11 0 0

0 0
= [ 22 ]
0 0
Variabel pertama independen terhadap variabel kedua, dan seterusnya, sehingga,
sebelum sampel dipilih,
P [semua interval t (5-26) yang memuat ] = (1 ) (1 )
= (1 )p
Tabel 5.3 Jarak kritis perkalian untuk interval satu waktu dan 2 interval
untuk pemilihan dan (1 ) = 0.95)

( 1)
(0.05)
1 (0.025) ( ) ,

=4 = 10
15 2.145 4.14 11.52
25 2.064 3.60 6.39
50 2.010 3.31 5.05
100 1.970 3.19 4.61
1.960 3.08 4.28

Untuk 1 - = 0.95, n = 15, dan p = 4. Pengali dari adalah

dan
Maka interval simultannya adalah 100(4.14 2.145)/2.145% = 93% lebih luas
daripada metode t dalam satu waktu.

Metode Bonfferoni untuk beberapa perbandingan


Misal , sebelum pengumpulan data, interval konfidensi tentang m combinasi linier
1 , 2 , , diperlukan. Diberikan menunjukkan pernyataan keyakinan
tentang hasil dari dengan [ ] = 1 , = 1, 2, , .
Sekarang (lihat exercise 5.6)
[ ] = 1 [ 1 ]

1 [ ] = 1 (1 [ ])
=1 =1

= 1 1 + 2 + + (5.27)
Selanjutnya dikembangkan estimasi delang simultan untuk set terbatas terdiri dari
komponen . Kurangnya informasi pada kepentingan relative komponen ini,
kita anggap interval individu dari t adalah

1 ( ) , = 1, 2, ,
2

dengan = /. Karena [ 1 (2) ] = 1

/, = 1, 2, , , kita peroleh

[ 1 (2) , ] = 1 (5-28)

Oleh karena itu, dengan semua level konfidensi lebih besar atau sama dengan 1
, kita dapat membuat pernyataan m=p sebagai
11 11
1 1 ( ) 1 1 + 1 ( )
2 2
22 22
2 1 ( ) 2 2 + 1 ( )
2 2


1 ( ) + 1 ( )
2 2
(5-29)
Pernyataan (5-29) dapat digabungkan dengan (5-24). Pada point 1 ( 2)
diganti dengan ( 1), ()/( ), untuk lainnya sesuai dengan struktur
(5-29)

Example 5.5
Mari kembali pada data keringat di Example 5.2 (hal 174). Kita akan mendapatkan
simultan 95% interval konfidensi Bonfferoni untuk 1 , 2 , 3 sesuai pilihan
= 0.053 , = 1,2,3.
Kita gunakan hasil pada Example 5.2 dengan n=20 dan 19 (0.052(3)) =
19 (0.0083) = 2.625, untuk mendapatkan
2.879
1 19 (0.0083) 11 = 4.64 2.625 3.64 1 5.64
20

199.789
2 19 (0.0083) 22 = 45.4 2.625 37.10 2 53.70
20

3.628
3 19 (0.0083) 33 = 9.965 2.625 8.85 3 11.08
20

Interval Bonfferoni untuk kombinasi linier dan analog interval- 2 (Result 5.3)
mempunyai bentuk yang sama yaitu :


( )


Akibatnya, di setiap contoh dimana = ,
1 ( 2)
=
2 ( 1)

, ()
(5-30)
dimana tidak tergantung pada kuantitas random dan S. Untuk m yang berukuran
kecil dari fungsi parameter , interval Bonfferoni akan selalu lebih pendek.
Indikasi seberapa pendeknya interval tersebut ditunjukkan pada Tabel 5.4 untuk n
dan p yang dipilih.
Tabel 5.4 (panjang interval Bonfferoni)/(panjang interval T2) untuk 1 =
0.95 = 0.05/
m=p
N 2 4 10
15 0.88 0.69 0.29
25 0.90 0.75 0.48
50 0.91 0.78 0.58
100 0.91 0.80 0.62
~ 0.91 0.81 0.66

5.5. Inferensi Vektor Mean Untuk Sampel Besar


Bila sampel besar, uji hipotesis dan daerah konfidensi untuk dapat
dikonstruksikan tanpa anggapan normalitas. Inferensi sampel untuk berdasarkan
pada distribusi 2 untuk sampel besar.
Telah diketahui bahwa ( ) (S)1 ( ) = ( ) S 1 ( )
berdistribusi 2 dengan p sebagai derajat kebebasannya, sehingga
(( ) S 1 ( ) 2 ()) = 1
Persamaan ini digunakan untuk uji hipotesis sampel besar dan mengetahui daerah
konfidensi simultannya.

Result 5.4
Misal 1 , 2 , , merupakan sampel random dari populasi dengan mean dan
kovariansi (definit positif). Untuk (n-p) besar, uji hipotesisnya
: =
1 :
ditolak jika ( ) S 1 ( ) > 2 ()
Dengan 2 () merupakan persentil atas ke (100) dari distribusi Chi-Square
dengan p sebagai derajat kebebasannya.

Result 5.5
Misal 1 , 2 , , merupakan sampel random dari populasi dengan mean dan
kovariansi (definit positif). Jika (n-p) besar maka

2 ()( S)
X

Akan memuat untuk setiap dengan probabilitas mendekati 1 . Sehingga,


didapatkan konfidensi simultan 100(1 )% , yaitu

1 2 () 11 memuat 1


2 2 () 22 memuat 2



2 () memuat

Untuk setiap pasangan ( , ), , = 1,2, , , mean sampel sebagai pusat elips


1 2
[ , ] [ ] [ ] () akan memuat ( , )

Example 5.6
Seorang guru musik menguji kemampuan dalam bermusik seribu
mahasiswa tingkat akhir untuk membentuk jiwa nasional di Finlandia. Ringkasan
statistik dari data disajikan pada Tabel 5.5. Statistik ini mempunyai ukuran sampel
= 96 siswa Finnish tingkat ke-12.
Misal, ditentukan interval konfidensi simultan 90% untuk komponen mean
untuk masing-masing , = 1,2, ,7.
Tabel 5.5. Rata-rata kemampuan bermusik dan standar deviasi untuk 96 mahasiswa
tingkat akhir yang berpartisipasi dalam program standardisasi
Nilai mentah
Mean ( ) Standar deviasi ( )
1= melody 28.1 5.76
2= harmony 26.6 5.85
3= tempo 35.4 3.82
4= meter 34.2 5.12
5= phrasing 23.6 3.76
6= balance 22.0 3.93
7= style 22.7 4.03

Dari Result 5.5, konfidensi simultan 90% diberikan oleh



72 (0.10) , = 1,2, ,7, dengan 72 (0,10) = 12.02.

Jadi, dengan pendekatan konfidensi 90%


5.76
28.1 12.02 memuat 1 atau 26.06 1 30.14
96
5.85
26.6 12.02 memuat 2 atau 24.53 2 28.67
96
3.82
35.4 12.02 memuat 3 atau 34.05 3 36.75
96
5.12
34.2 12.02 memuat 4 atau 32.39 4 36.01
96
3.76
23.6 12.02 memuat 5 atau 22.27 5 24.93
96
3.93
22.0 12.02 memuat 6 atau 20.61 6 23.39
96
4.03
22.7 12.02 memuat 7 atau 21.27 7 24.13
96
Misal ingin diketahui apakah 0 = [31 27 34 31 23 22 22] merupakan nilai
masuk akal untuk mean nilai ujian universitas Finnish.
Maka dari perhitungan konfidensi, dapat diketahui bahwa komponen melody,
tempo, meter bukan merupakan nilai yang masuk akal untuk mean nilai ujian
universitas Finnish.

5.6 Inferensi Proporsi Sampel Besar


Seringkali, beberapa atau semua karakteristik populasi memilik bentuk
atribut. Masing-masing individu didalam populasi dapat didefiniskan pada atribut
yang mereka miliki. Untuk lebih mudahnya, atribut biasanya berupa kode numerik
sehubungan dengan ada atau tidak adanya mereka.
Dipertimbangakan situasi di mana seorang individu dengan kombinasi
tertentu pada atribut dapat diklasifikasikan ke dalam salah satu q + 1 dengan
kategori yang eksklusif dan lengkap. Probablitas yang sesuai dilambangkan dengan
1 , 2 , , , +1 . Karena kategori memuat semua perobabilitas, kita ambil +1 =
1 (1 + 2 + + ) . Sebuah individu dari kategori k akan diberi (( + 1) 1)
nilai vektor [0, ,0,1,0, ,0] dengan 1 pada posisi ke k.

Contoh 5.7
sebagai bagian dari proyek riset pemasaran yang lebih besar, seorang konsultan
untuk Bank of Shorewood ingin mengetahui proporsi penabung yang menggunakan
fasilitas tersebut sebagai bank tabungan utama mereka. Konsultan juga ingin tahu
proporsi penabung yang menggunakan tiga pesaing utama mereka, Bank B, Bank
C, dan Bank D. Setiap individu dihubungi dalam sebuah survei menanggapi
pertanyaan:
Bank mana yang menjadi tabungan utama anda?
Respon: Bank of Shorewood | Bank B | Bank C | Bank D | Bank lain | Tidak ada
Tabungan
(Orang-orang tanpa tabungan akan diabaikan dalam perbandingan penabung jadi
disini ada 5 kategori) Misalkan proporsi populasi yaitu
1 =
2 =
3 =
4 =
1 (1 + 2 + 3 + 4 ) =
Seorang penabung pada Bank B akan memiliki vektor observasi [0,1,0,0,0]
Distribusi probabilitas untuk sebuah observasi dari populasi individu q + 1
dengan kategori yang eksklusif dan lengkap dikenal sebagai Distribusi
Multinomial.
Misalkan , = 1,2, , adalah sampel random berukuran n dari distribusi
multinomial. Komponen ke k, dari adalah 1 jika observasi(individu) berasal
dari kategori k dan 0 untuk yang lain. Karena bernilai 1 maka probabilitas
= ( ) = 1( ) + (1 ) =
= ( ) = ( 2 ) 2 ( ) = 12 ( ) + 02 (1 ) 2
= (1 )
= ( ) = ( ) ( )( ) = (0) =

Sampel random 1 , 2 , , dapat dikonversi menjadi proporsi vektor


sampel, demikian

1 1

1 2
= [ 2 ] = =1 dengan ( ) = = [ ]


+1
11 12 1,+1
1 1 1 21 22 2,+1
Dan ( ) = ( ) = = [ ]

1,+1 2,+1 +1,+1
Untuk n besar, perkiraan distribusi sampling dari B disediakan oleh teorema
limit pusat. Kita mempunyai ( ) di sekitaran (0, ).

Result 5.6
Misalkan 1 , 2 , , adalah sampel random dari q+1 kategori Distribusi
Multinomial dengan [ = 1] = , = 1,2, , + 1, = 1,2, , .
Perkiraan simultan daerah kepercayaan 100(1-)% untuk semua kombinasi linier
= 1 1 + 2 2 + + +1 +1 diberikan dengan nilai observasi

2 ()

1
tersedia n-q besar. Disini = =1 dan = { } adalah matriks ( q + 1 ) x ( q

+ 1 ) dengan = (1 ) dan = , . Juga, 2 () adalah


persentil atas (100 )th dari distribusa chi-square.

Contoh 5.8
Pada contoh 5.7 dibahas studi perbankan yang dilakukan oleh peneliti pasar.
sampel n=355 orang, dengan rekening tabungan, menghasilkan jumlah yang
ditampilkan di bawah ini ketika diminta untuk menunjukkan tabungan bank utama
mereka.

Bank Bank of Bank B Bank C Bank D Bank


Shorewood Lain
Nomer obs. 105 119 56 25 50
Proporsi Pop. 1 2 3 4 1 (1
+ 2
+ 3
+ 4 )
Proporsi
Observasi 105 2 = 0.33 3 = 0.16 4 4
1 =
Sampel 355 = 0.07 = 0.14
= 0.3

Dengan 2 4 (. 05) = 9.49, interval konfidensi 95% untuk 1 , 2 , , 5 diperoleh

1 (1 1 ) 0.30(0.70)
1 : 1 2 4 (. 05) = 0.3 9.49 0.23 1
355

0.37
2 (1 2 ) 0.33(0.67)
2 : 2 2 4 (. 05) = 0.3 9.49 0.25 2
355

0.41

3 (1 3 ) 0.16(0.84)
3 : 3 2 4 (. 05) = 0.3 9.49 0.10 3
355

0.22

4 (1 4 ) 0.07(0.93)
4 : 4 2 4 (. 05) = 0.3 9.49 0.03 4
355

0.11

5 (1 5 ) 0.14(0.86)
5 : 5 2 4 (. 05) = 0.3 9.49 0.08 5
355

0.20

Berdasarkan result 5.6 dipilih interval diatas adalah

= [0, ,0, , 0, ,0]

Dimana = 1 , = 1,2, ,5. Pilihan = [1, 1,0,0,0] diberikan = (1


2 ) dan memungkinankan perbandingan Bank of Shorewood dengan peasing.
Dalam hal ini = 11 212 + 22 = 1 (1 1 ) 2(1 2 ) + 2 (1 2 )
dan interval konfidensi 95 % adalah

1 (1 1 ) 2(1 2 ) + 2 (1 2 )
(1 2 ) 2 4 (. 05)

0.30(0.70) + 2(0.30)(0.33) + 0.33(0.67)


= (0.30 0.33) 9.49
355

= 0.03 0.13

0.16 1 2 0.10
Karena nol berada pada interval terakhir, maka dengan kepercayaan 95% tidak ada
perbedaan antara proporsi populasi pada penabung yang menggunakan Bank of
Shorewood dan Bank B.

Ketika terjadi perbedaan diantara proporsi, dapat menggunakan interval


konfidensi Bonferroni 100(1-)%

1 (1 1 ) 2(1 2 ) + 2 (1 2 )
( ) ( )
( + 1


Dimana ((+1) adalah persentil atas 100 ((+1) dari distribusa normal

standar.

5.7. Inferensi Vektor Mean untuk Beberapa Data Hilang


Seringkali beberapa komponen vektor observasi tidak dapat diperoleh. Hal
ini mungkin terjadi karena kerusakan alat pengukuran atau karena ketidakinginan
responden menjawab pertanyaan tertentu pada kuesioner sebuah survei.
Teknik pendekatan umum untuk menghitung estimasi Maximum Likelihood
untuk beberapa data hilang terdiri dari dua langkah, yaitu
1. Langkah prediksi
Memprediksi kontribusi beberapa data hilang untuk memperoleh statistik cukup
(data lengkap).
2. Langkah estimasi
Menggunakan statistik cukup dari prediksi untuk mengestimasi parameter.

Misal 1 , 2 , , merupakan sampel random dari populasi normal p variat,


algoritma prediksi estimasi berdasar pada statistik cukupnya (data lengkap), yaitu


T1 = X = X
=1


T2 = X X = ( 1)S + X X
=1
Algoritma ini memerlukan asumsi bahwa mean populasi dan variansi tidak
diketahui dan harus diestimasi.

1. Langkah Prediksi
(1)
Untuk setiap vektor x yang mengandung data hilang, x merupakan
(2)
komponen (data) yang hilang dan x merupakan komponen (data) yang tidak
(1) (2)
hilang. Sedemikian sehingga, x = [x , x ].
(1)
Kontribusi x untuk T1 diestimasi dengan
(1) (1) (2) 1 (2)
x = (X | j ; , ) = (1) + 12 22 (x (2) )
(1)
Kontribusi prediksi x untuk T2 adalah

(1) (1) (1) (1) (2) (1)
x x = (X X |x ; , ) = 11 12 22
1
21 + x x

dan
(1) (2) (1) (2) (2) (1) (2)
x x = (X X |x ; , ) = x x

2. Langkah Estimasi
Dihitung penduga maksimum likelihood terevisi, yaitu
T1 1
= =
T
2

Contoh 5.9
Estimasikan mean dan kovariansi dari populasi normal menggunakan data set
yang tidak lengkap
7 5
= [0 2 1 ]
3 6 2 5
Dimana = 3, = 4, dan observasi untuk bagian vektor 1 dan 4 ada yang
hilang.
Kita peroleh rata-rata sampel awal
7+5 0+2+1 3+6+2+5
1 = = 6, 2 = =1, 3 = =4
2 3 4

dari observasi yang diperoleh. Subtitusikan rata-rata tersebut untuk nilai data yang
hilang, sehingga 11 = 6, x14 = 6, x24 = 1, dapat kita peroleh estimasi kovarian
awal. Kita akan menyusun estimasi menggunakan pembagi karena algoritma pada
akhirnya menghasilkan estimasi maximum likelihood .
Dengan demikian
(66)2 +(76)2 +(56)2 +(66)2 1
11 = =2
4
1 5
22 = 2 , 33 = 2
(66)(01)+(76)(21)+(56)(11)+(66)(11) 1
12 = =4
4
3
23 = 4 , 13 = 1

Langkah prediksi terdiri dari penggunaan estimasi inisial dan untuk


memprediksi kontribusi dari nilai yang hilang sebagai syarat cukup statistik 1 dan
2 .[Lihat (5-37) dan (5-38).]
Komponen pertama 1 hilang sehingga kita partisi dan adalah
1 11 | 12 13
(1) 11 | 12
|
= [ ] = [ ] , = [ ] = [ | ]
2 12 | 22 23
3 (2) 21 | 22
13 | 23 33
Dan prediksi
1 3 1
1 x 2 1 01
11 = 1 + 12 22 [ 21 ] = 6 + [4 , 1] [23 4
5] [ ] = 5.73
x31 3 34
4 2

1 3 1
1
1 1 1

11 2 = 11 12 22 21 + 11 2 = [ , 1] [23 4
[ 4 ] + (5.73)2 = 32.99
2 4 5]
4 2
1

11 [21 , 31 ] =
11 [21 , 31 ] = 5.73[0,3] = [0,17.18]
Untuk dua data hilang pada komponen 4 , partisi dan sebagai berikut
1 11 12 | 13
(1) 11 | 12
22 | 23
= [ 2 ] = [ ] , = [ 12 ] = [ | ]
|
3 (2) 21 | 22
13 23 | 33
Dan prediksi
14 1
[ ] = ([ 14 ] |34 = 5; ,
) = [ 1 ] + 12 22 (34 3 )
24 24 2
1 5 1
6 6.4
= [ ] + [3] ( ) (5 4) = [ ]
1 2 1.3
4
untuk kontribusi dari 1 . Juga dari (5-38),

2
14 24 14 2 14 24
[ 14 ] = ([ )
] |34 = 5; ,

14 24

24
2 14 24 24 2
1 1
1
= [2 4] [3] (5)1 [ 3 6.4
] + [ ] [6.4 1.3]
1 1 1
2 4 1.3
4
4 2
41.06 8.27
=[ ]
8.27 1.97
dan
14 34 14 6.4 32.0
[ ] (34 ) = ([ 14 ) = [ ] (34 ) = [ ] (5) = [
] |34 = 5; , ]
24 24 34 24 1.3 6.5
adalah kontribusi untuk 2 ,dengan demikian prediksi untuk Complete Sufficient
Statistik adalah
11 + 12 + 13 + 14 5.73 + 7 + 5 + 6.4 24.13

1 = [ 21 + 22 + 23 + 24 ] = [ 0 + 2 + 1 + 1.3 ] = [ 4.30 ]
31 + 32 + 33 + 24 3+6+2+5 16.00
2

11 2 + 12 2 + 13 2 +
14 2
= [
11 21 + 12 22 + 13 23 + 14 24
21 2 + 22 2 + 23 2 + 24
2


11 31 + 12 32 + 13 33 + 14 34 21 31 + 22 32 + 23 33 + 24 34 31 2 + 32 2 + 33
32.99 + 72 + 52 + 41.60
=[ 0 + 7(2) + 5(1) + 8.27 02 + 22 + 12 + 1.97 ]
2 2 2 2
17.18 + 7(6) + 5(2) + 32 0(3) + 2(6) + 1(2) + 6.5 3 + 6 + 2 + 5
148.05 27.27 101.18
= [ 27.27 6.97 20.50 ]
101.18 20.50 74.00
Langkah ini melengkapi prediksi yang pertama.
Langkah estimasi yang selanjutnya, gunakan (5-39), dengan meninjau
kembali estimasi
1 1 24.13 6.03

= 1 = [ 4.30 ] = [1.08]
4
16.00 4.00
1
= 2
148.05 27.27 101.18 6.03
1
= 4 [ 27.27 6.97 20.50 ] [1.08] [6.03 1.08 4.00]
101.18 20.50 74.00 4.00
0.65 0.31 1.18
= [0.31 0.58 0.81]
1.18 0.81 2.50
Catatan :
11 = 0.65 dan 22 = 0.58 menunjukkan nilai yang lebih besar daripada nilai
estimasi awal karena dipengaruhi komponen yang hilang sedangkan nilai 33 tidak
berubah karena tidak dipengaruhi oleh komponen yang hilang.
tidak berubah.
Iterasi antara prediksi dan estimasi dilanjutkan hingga nilai dan
terakhir memenuhi
Konfidensi elips 100(1 )% untuk nilai estimasi dan
1
persamaan ( )
( ) 2 () untuk setiap .

Anda mungkin juga menyukai