Disusun oleh:
2009
KATA PENGANTAR
Puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan
karunianya sehingga penyusun dapat menyelesaikan makalah ini dengan baik. Salam dan
salawat selalu tercurahkan kepada junjungan kita nabi besar Muhammad SAW.
Pada makalah ini akan dibahas mengenai inferensi vektor rata – rata pada normal
multivariat. Penyusun menyadari bahwa dalam makalah ini masih terdapat banyak
kekurangan. Penyusun mengharapkan kritik dan saran demi kesempurnaan dalam
penyusunan makalah selanjutnya.
Akhir kata semoga makalah ini dapat bermanfaat bagi penyusun dan para pembaca
pada umumnya.
Penyusun
DAFTAR ISI
KATA PENGANTAR
DAFTAR ISI
BAB I PENDAHULUAN
1.2 Permasalahan
BAB IV PENUTUP
4.2 Saran...............................................................................................................25
DAFTAR PUSTAKA...........................................................................................26
BAB I
PENDAHULUAN
Pada hakikatnya ada dua jenis hipotesis statistika. Jenis pertama adalah apabila data
kita berupa populasi yang kita peroleh melalui sensus. Dengan data populasi, hipotesis
statistika cukup berbentuk H. Tidak diperlukan hipotesis H0. Misalnya dalam hal rerata,
hipotesis statistika itu berbentuk H: µX > 6. Jika data populasi memiliki rerata di atas 6
maka hipotesis diterima dan jika tidak maka hipotesis ditolak. Karena seluruh populasi
sudah dilihat maka keputusan ini menjadi kepastian.
Jenis kedua adalah apabila data kita berupa sampel yang kita peroleh melalui
penarikan sampel. Biasanya sampel itu berupa sampel acak, baik dengan cara
pengembalian maupun dengan cara tanpa pengembalian. Dengan data sampel, hipotesis
statistika menjadi H0 dan H1. Misalnya dalam rerata, hipotesis statistika itu berbentuk H0:
µX = 6 dan H1: µX > 6. Syaratnya adalah tiadanya pilihan ketiga.
Dalam hal data sampel, sering terjadi bahwa hipotesis penelitian dirumuskan
kembali menjadi H1. Pengujian hipotesis dilakukan melalui penolakan H0. Selanjutnya
dengan syarat tidak ada pilihan ketiga pada hipotesis, maka penolakan H0 dapat diartikan
sebagai penerimaan H1. Jadi pengujian hipotesis penelitian dilakukan melalui cara tak
langsung yakni melalui penolakan H0 dan melalui tiadanya pilihan ketiga pada hipotesis.
Dalam makalah ini akan dibahas pengujian hipotesis tentang perbedaan antara vektor
rata-rata dan vektor konstan. Mirip halnya dengan pengujian hipotesis pada situasi
univariat. tentang perbedaan antara rata-rata dan konstan. Pada situasi multivariat juga
diperlukan syarat-syarat agar rumus-rumus untuk pengujian hipotesis itu berlaku. Pada
pengujian hipotesis untuk univariat disyaratkan bahwa populasi yang bersangkutan
berdistribusi normal. Sesuai dengan itu, pada pengujian hipotesis untuk multivariat
disyaratkan bahwa populasi yang bersangkutan berdistribusi normal multivariat.
Untuk memperoleh metode utama dalam menentukan inferensi dari sample, kita akan
memperluas konsep interval kepercayaan univariat menjadi daerah kepercayaan
multivariate. Berdasarkan penjelasan pada bab sebelumnya, telah dijelaskan inferensi
sampel dengan menggunakan int erval − T 2 simultan. Namun seringkali kita jumpai
interval yang lebih pendek untuk bilangan m yang kecil, yaitu ketika m = p . Dalam hal
ini, akan lebih mudah untuk menggunakan dan menetapkan interval kepercayaan yang
relatif pendek, yang dibutuhkan untuk membuat kesimpulan (inference).
Ketika ukuran sampel besar, pengujian hipotesis dan daerah kepercayaan untuk µ
dapat dikonstruksi tanpa anggapan normalitas. Untuk jumlah n besar, kita dapat membuat
taksiran tentang rata-rata populasi meskipun distribusi awalnya adalah diskrit.
Masalah lain yang timbul adalah ketika beberapa nilai observasi hilang. Pengestimasian
terhadap nilai yang hilang perlu dilakukan untuk mempermudah pengolahan dan
menemukan statiska cukupnya.
1.2 Permasalahan
1.2.1 Rumusan Masalah
1. Pada dasarnya pengujian hipotesis vektor rata-rata polpulasi multivariat
membahas mengenai hubungan antara vektor rata-rata populasi multivariat
dengan konsistensitas data. Oleh karena itu rumusan makalah yang dapat
diambil adalah apakah suatu vektor rata-rata populasi multivariat akan
selalu konsisten dengan data yang dimiliki?
2. Perbedaan pengujian hipotesis dengan menggunakan maksimum
2
likelihood dan hotteling T pada normal multivariate.
3. Menetapkan interval kepercayaan yang lebih pendek dari hotelling T2,
yaitu dengan metode banferroni.
4. Menentukan interval untuk sampel besar
5. Mengetahui cara estimasi dan prediksi dari beberapa observasi yang
hilang.
1.2.2 Pembatasan masalah
Dalam makalah ini, masalah yang dibahas akan membahas pengujian hipotesis vektor
rata-rata populasi multivariat serta landasan teori yang mendukungnya.
1.3 Tujuan Penulisan
Tujuan dari penulisan makalah ini adalah untuk mengetahui dengan melakukan
pengujian hipotesis apakah vektor rata-rata populasi merupakan sebuah nilai plausible
untuk rata-rata populasi normal. Perbedaan pengujian hipotesis dengan menggunakan
maksimum likelihood dan hotteling T2 pada normal multivariate.Menetapkan interval
kepercayaan yang lebih pendek dari hotelling T2, yaitu dengan metode banferroni.
Menentukan interval untuk sampel besar. Mengetahui cara estimasi dan prediksi dari
beberapa observasi yang hilang.
Metode yang digunakan dalam penulisan makalah ini yaitu studi pustaka yang yang
dilakukan di perpustakaan dan internet.
a. BAB I Pendahuluan terdiri dari latar belakang masalah, rumusan masalah dan
pembatasan masalah, tujuan penulisan, metode penulisan dan sistematika penulisan;
b. BAB II Landasan teori yang berisi matriks dispersi, distribusi normal multivariat, dan
beberapa distribusi statisitik.
c. BAB III Isi yang membahas mengenai pengujian hipotesis apakah vektor rata-rata
populasi merupakan sebuah nilai plausible untuk rata-rata populasi normal. Perbedaan
pengujian hipotesis dengan menggunakan maksimum likelihood dan hotteling T2 pada
normal multivariate.Menetapkan interval kepercayaan yang lebih pendek dari hotelling
T2, yaitu dengan metode banferroni. Menentukan interval untuk sampel besar.
Mengetahui cara estimasi dan prediksi dari beberapa observasi yang hilang.
d. BAB IV Penutup yang berisi kesimpulan dan saran.
BAB II
LANDASAN TEORI
Pada situasi univariat, jika variabel acak X mempunyai daerah harga (atau nilai-
X 1 , X 2 ,K , X n
nilainya adalah) X 1 , X 2 ,K , X n , maka rata-ratanya adalah µ x = dan
N
1 N
variansnya adalah σ x2 = ∑ ( xi − µ x ) .
2
n i =1
Jika dari nilai-nilai X yang mungkin itu hanya tersedia satu sampel acaknya saja,
misalnya X 1 , X 2 ,K , X n , maka rata-rata dan varians yang dapat dihitung adalah rata-rata
dan varians sampel saja, yang merupakan taksiran bagi rata-rata dan varians tersebut.
X 1 , X 2 ,K , X n
Rata-rata sampel adalah X= dan varians sampelnya adalah
n
1 n
∑ ( Xi − X ) .
2
sx2 =
n − 1 i =1
X 11 X 12 L X1 p
X 21 X 22 L X2p
X =
M M O M
X XN2 L X Np
N1
Jika µi menyatakan rata-rata dari variabel X i , maka dapat disusun matriks rata-rata
µ1 µ2 L µ p
µ1 µ 2 L µ p
µ
M M O M
µ1 µ2 L µ p
X 1i , X 2i ,K , X Ni
dimana µi = µ Xi = .
N
Ukuran yang mirip dengan σ X2 adalah Σ yang disebut matriks dispersi atau matriks
varians-kovarians, dengan rumus
( X − µ )′ ( X − µ )
1
Σ=
n
Dapat dihitung:
σ 12 σ 12 L σ1p
σ 21 σ 22 L σ2p
Σ=
M M O M
σ L σ p2
p1 σ p 2
N
1
dimana σ = ∑(x − µi )
2 2
i ri
N r =1
∑∑ ( x − µ j ) ( xtk − µk ) .
N N
1
σ jk = sj
N t =1 s =1
Telah kita kenal bahwa σ i2 disebut varians dari X i sedang σ jk disebut kovarians antara
1
Seperti yang telah ditunjukkan dalam bab 2, Σ = A , dimana A adalah matriks Jumlah
N
Kuadrat dan Hasil Silang (JKHS) dari X, dan dapat ditunjukkan bahwa
JKHS(X) = A
= ( X − µ )′ ( X − µ )
∑ x = ∑( X − µi )
2 2
dimana i ri
r =1
∑∑ x j xk = ∑∑ ( X sj − µ j ) ( X tk − µk )
N N
dan
t =1 s =1
Jika nilai-nilai dua variabel tersebut hanya tersedia sampel acak n nilai dari tiap-tiap
variabel, maka terdapat matriks data
X 11 X 12 L X 1 p
X 21 X 22 L X 2 p
X =
M M O M
X X n 2 L X np
n1
Taksiran untuk matriks rata-rata u adalah rata-rata sampel X, yaitu matriks berorde n x p.
X1 X2 L X p
X1 X2 L X p
X =
M M O M
X X 2 L X p
1
X 1i , X 2i ,K , X ni
dimana X i =
n
Adapun taksiran untuk matriks dispersi, Σ , adalah matriks dispersi sampel, S ,yaitu
matriks berorde p x p berikut ini
( X − X )′ ( X − X )
1
S=
n −1
1 1 1
n − 1 Σx1 ΣΣx1 x2 ΣΣx1 x p
2
L
n −1 n −1
1 ΣΣx x 1
Σx22 L
1
ΣΣx2 x p
θ = n −1 2 1
n −1 n −1
M M O M
1 1 1
ΣΣx p x1 ΣΣx p x2 L Σx 2p
n −1 n −1 n −1
s12 s12 L s1 p
s s22 L s2 p
θ = 21
M M O M
s p1 sp2 L s 2p
∑ xi2 = ∑ ( X ri − X i )
n
2
dimana
r =1
∑∑ x x = ∑∑ ( X − X j ) ( X tk − X k )
n n
j k sj
t =1 s =1
Variabel acak X dikatakan berdistribusi Normal dengan rata-rata = µ, dan varians = τ2,
diamana τ > 0 , jika fungsi kepadatan probabilitas dari X tertentu oleh rumus
X −µ
2
1 −1
σ
f (X ) = , untuk −∞ < X < ∞
2
e
σ 2π
Grafik dari y = f(X) merupakan kurva atau garis lengkung, yang lazim dikatakan berbentuk
lonceng (irisan bentuk lonceng).
Pada situasi mutivariat, terlibat lebih dari satu variabel. Sekelompok variabel
(X ,X
1 2 ,K , X p ) dikatakan berdistribusi normal p-variat dengan vektor rata-
f ( X 1 , X 2 ,K , X p ) =
1 −1 K
2
e
( 2π )
1
Σ
p
2
dimana
K = ( X − µ )′ Σ −1 ( X − µ )
X 1 − µ1
X 2 − µ2
∞ = ( X 1 − µ1 , X 2 − µ2 ,K , X p − µ p ) Σ −1
M
X p − µp
Tampak adanya kemiripan antara rumus fungsi kerapatan probabilitas univariat dan
multivariat.
= (σ 2 )
1 1
Pada univariat : Σ 2 2
= σ , diketahui p = 1 ,
( 2π ) = 2π , dan
p
sehingga
K = ( X − µ ) (σ 2 )
−1
( X − µ)
X −µ
2
∞=
σ
−1 1 σ 22 − ρσ 1σ 2
Σ =
(1 − ρ 2 )σ 12σ 22 − ρσ 2σ 1 σ 12
X − µ1
K = ( X 1 − µ1 , X 2 − µ 2 ) Σ −1 1
X 2 − µ2
1 ρ
σ2 σ 1σ 2 X 1 − µ1
1 1
∞ = ( X 1 − µ1 , X 2 − µ 2 )
1 − ρ 2
ρ 1 X 2 − µ2
σ σ 2
2 1 σ2
1 X 1 − µ1 X 2 − µ 2 ( X 1 − µ1 )( X 2 − µ2 )
2 2
∞=
2 + − 2
1 − ρ σ 1 σ 2 σ 1σ 2
1
f ( X1, X 2 ) =
−1 Q
2
e
2πσ 1σ 2 1 − ρ 2
Q=
1 X − µ 2 X − µ 2
1 1 + 2
( X 1 − µ1 )( X 2 − µ2 )
−2
2
dimana
1− ρ 2 σ 1 σ 2 σ 1σ 2
lonceng. Kalau luasan lengkung ini dipotong dengan bidang datar yang sejajar dengan
bidang ( X 1 , X 2 ) maka irisannya adalah suatu elips.
Elips demikian, untuk harga-harga k yang sesuai, merupakan batas daerah penolakan H0
pada pengujian hipotesis dalam Analisis Bivariat dan disebut elips kerapatan sama.
yaitu berdistribusi Normal dengan rata-rata = µ dan varians = σ 2 , maka rata-rata sampel,
τ2
yaitu X, berdistribusi N µ , jika sampel itu adalah sampel acak sebesar n.
n
X −µ
Dengan kata lain berdistribusi Normal Baku jika syarat-syarat tersebut dipenuhi.
σ
n
Salah satu sifat yang telah terbukti secara matematis ialah bahwa apabila variabel v
berdistribusi Normal Baku, sedang w = v 2 , maka w berdistribusi χ 2 dengan derajat
kebebasan 1. Berhubung dengan itu maka
(X − µ)
2
n
atau n ( X − µ ) (σ 2 ) (X − µ)
−1
σ 2
Pada situasi multivariat terdapat sifat yang mirip dengan sifat tersebut.
Pada situasi univariat, apabila σ 2 tak diketahui maka distribusi X dapat ditinjau dalam
X −µ
hubungannya dengan varians sampel, yaitu bahwa berdistribusi t dengan derajat
s
n
kebebasan n − 1 .
( X − µ)n atau n ( X − µ ) ( s 2 ) (X − µ)
−1
(1, n − 1) . Berhubung dengan itu maka 2
S
berdistribusi F dengan derajat kebebasan (1, n − 1) .
Pada situasi multivariat terdapat pula sifat yang mirip dengan itu. Misalkan
(X ,X
1 2 ,K , X p ) berdistribusi denganvektor rata-rata µ = ( µ1 , µ 2 ,K , µ p ) , sedang
X 1 − µ1
X 2 − µ2
apabila W = n ( X 1 − µ1 , X 2 − µ2 ,K , X p − µ p ) S −1
maka W berdistribusi Hotelling
M
X p − µp
T 2 dengan derajat kebebasan ( p, n − p ) . Dalam rumus tersebut S adalah matriks dispersi
( p, n − p ) .
Sifat-sifat dari distribusi statistik multivariat W tersebut dapat dimanfaatkan untuk
menguji signifikansi perbedaan antara vektor rata-rata suatu populasi dan vektor konstan,
atau perbedaan antara vektor-vektor rata-rata dua populasi.
Pada situasi univariat tentang selisih rata-rata dari dua sampel acak yang bebas, yaitu
X 1 − X 2 , diketahui bahwa statistik
(X 1 − X 2 ) − ( µ1 − µ 2 )
( n1 − 1) s12 + ( n2 − 1) s22 1 + 1
n1 + n2 − 2 n1 n2
a) Sampel pertama berasal dari populasi yang berdistribusi Normal, dengan rata-rata =
µ1 ;
b) Sampel kedua berasal dari populasi yang berdistribusi Normal, dengan rata-rata = µ2 ;
t=
(X 1 − X 2 ) − ( µ1 − µ 2 )
, atau
( n1 − 1) s12 + ( n2 − 1) s22 1 + 1
n1 + n2 − 2 n1 n2
( n1 + n2 − 2 ) n1n2
( X − X 2 ) − ( µ1 − µ2 ) ( n1 − 1) s12 + ( n2 − 1) s22
2 −1
t2 =
n1 + n2
1
(X 1 − X 2 ) − ( µ1 − µ 2 )
berdistribusi Normal Baku;
σ 12 σ 22
+
n1 n2
2 σ σ2
2
yang berarti bahwa ( X 1 − X 2 ) − ( µ1 − µ2 ) 1 + 2 berdistribusi χ 2 dengan derajat
n1 n2
kebebasan 1.
Pada situasi multivariat, distribusi statistik mirip dengan distribusi di atas juga ada, asal
dipenuhi syarat-syarat yang mirip dengan situasi univariat tersebut, yaitu
µ1 = ( µ11 , µ12 ,K , µ1 p )′ ;
µ2 = ( µ21 , µ 22 ,K , µ 2 p )′ ;
Jika syarat-syarat itu dipenuhi, dan sampel pertama mempunyai vektor rata-rata
n1θ n2
dan jika W = ( X 1 − X 2 ) − ( µ1 − µ2 ) ′ S p−1 ( X 1 − X 2 ) − ( µ1 − µ 2 )
n1θ n2
1
S p = ( n1 − 1) S1 + ( n2 − 1) S2 .
n +
1 2 n − 2
n + n − p −1
Hal ini berarti pula bahwa 1 2 berdistribusi T 2 dengan derajat kebebasan
p ( n + n − 2 ) W
1 2
( p; n1 + n2 − p − 1) .
pertama dan populasi kedua, baik untuk keadaan Σ1 = Σ 2 maupun untuk keaadaan Σ1 ≠ Σ 2 ,
1 1
matriks varians-kovarians Σ = Σ1 + Σ 2 .
n1 n2
BAB III
ISI
3.1 Plausibility dari µ0 sebagai sebuah nilai untuk sebuah rata-rata populasi normal.
Kita memulai dengan mengingat kembali teori univariat untuk menentukan jika sebuah
nilai tertentu µ0 adalah nilai plausible untuk rata-rata populasi µ . Dari segi pandang
pengujian hipotesis, masalah ini dapat dirumuskan sebagai suatu uji bersaing hipotesis.
H 0 : µ = µ0 melawan H1 : µ ≠ µ0
Jika X 1 , X 2 ,K , X n adalah sample acak dari sebuah populasi normal pengujian statistik
yang sesuai adalah
( X − µ ) ,θ∞dimanaθ∞X = 1
∑( X − X ) θ∞danθ∞s 2 = ( Xj −X)
n
1 n
∑
2 2
t=
0
n − 1 j =1`
j
s n n j =1
Uji statistik adalah mempunyai sebuah distribusi-t student’s dengan derajat kebebasan n
– 1. Kita tolak H 0 , bahwa µ0 adalah sebuah nilai plausible dari µ , jika diamati t melebihi
Tolak H 0 ketika t bernilai besar yang ekuivalen dengan menolak H 0 jika kuadratnya,
(X −µ )
2
= n ( X − µ0 ) ( s 2 ) (X −µ )
−1
=
2 0
t 2 0 (3 - 1)
s n
bernilai besar. Variabel t 2 adalah kuadrat jarak dari rata-rata sampel X dengan nilai uji
µ0 . Unit jarak yang dinyatakan dalam pernyataan dari s n atau simpangan baku yang
diperkirakan dari X . Ketika X dan s 2 telah diamati, uji menjadi: Tolak H 0 menuju ke
n ( x − µ0 ) ( s 2 )
−1
( x − µ0 ) > tn2−1 (α 2 ) (3 - 2)
dimana tn −1 (α 2 ) menandakan batas atas 100 (α 2 ) th persentil dari distribusi-t dengan
derajat kebebasan n – 1.
Jika H 0 tidak ditolak, kita menyimpulkan µ0 adalah sebuah nilai plausible untuk rata-
rata populasi normal. Apakah nilai lain dari µ akan selalu konsisten dengan data?
Jawabannya ya! Pada kenyataannya selalu sebuah himpunan dari nilai plausible untuk
sebuah rata-rata populasi normal. Dari yang diketahui hubungan antara daerah penerimaan
untuk uji H 0 : µ = µ0 melawan H1 : µ ≠ µ0 dan interval kepercayaan untuk µ adalah
x − µ0
{Jangan menolak H 0 : µ = µ0 pada level α } atau ≤ tn −1 (α 2 )
s n
equivalen dengan
s
µ0 terletak pada interval kepercayaan 100 (1 − α ) x ± t n-1 (α 2 )
n
atau
s s
x − tn −1 (α 2 ) ≤ µ0 ≤ x + tn −1 (α 2 ) (3 - 3)
n n
Interval konfidensi memenuhi semua nilai µ0 bahwa tidak akan ditolak oleh uji dari
H 0 : µ = µ0 .
interval acak karena titik akhir tergantung pada variabel acak, X dan s . Kemungkinan
bahwa interval memenuhi µ adalah 1 − α ; antar bilangan besar seperti interval
sebuah nilai plausible untuk rata-rata dari sebuah distribusi normal multivariat. Kita akan
berproses oleh analogi dari pengembangan univariat
Suatu generalisasi kuadrat jarak pada (3 - 1) adalah analog multivariat
−1
S
T = ( X − µ0 )′
2
( X − µ ) = n ( X − µ )′ S ( X − µ )
0 0
−1
0 (3 - 4)
n
dengan
µ10
′ , θ∞dan∞ µ = µ20
∑ ( j )( j )
1 n 1 n
X = ∑ X j , θ∞ S = X − X X − X
( p x p ) n − 1 j =1` ( p x 1) M
0
( p x 1) n j =1
µ p 0
mempunyai rata-rata vektor µ dan kovarians matriks Σ . Maka X adalah estimator takbias
1
dari µ dan kovarians matriksnya adalah Σ”
n
Jika diamati umumnya jarak T 2 terlalu besar sehingga x terlalu jauh dari µ0 maka
hipotesis H 0 : µ = µ0 akan ditolak. Pada langkah berikutnya tabel khusus dari persentase
titik T 2 tidak diperlukan untuk uji formal hipotesis. Ini benar karena
T 2 akan berdistribusi
( n − 1) p F (3 - 5)
( n − p ) p ,n − p
dimana F p ,n− p merupakan sebuah variabel acak dengan derajat kebebasan p dan n-p.
Untuk meringkas, disajikan sebagai berikut:
∑ (X − X )( X j − X )′ ,
n n
1 1
Maka dengan X =
n
∑X
j=1
j dan S =
( n − 1) j=1
j
α = P T 2 >
( n − 1) p
Fp, n - p (α )
(n − p)
= P n ( X − µ )′ S-1 ( X − µ ) >
( n − 1) p F
p, n - p (α ) (3 - 6)
(n − p)
apapun yang benar µ dan Σ. Disini Fp, n - p (α ) adalah batas atas (100α ) th persentil
dari distribusi Fp, n - p .
T 2 = n ( X − µ0 )′ S −1 ( X − µ0 ) >
( n − 1) p F
(α ) (3 - 7)
(n − p) p ,n − p
Pada bagian sebelumnya kita gambarkan cara dimana distribusi Wishart generalisasi
distribusi Chi-kuadrat. Dapat ditulis
n ′
∑ ( X j − X )( X j − X )
T 2 = n ( X − µ0 )′ n ( X − µ0 )
j =1
n −1
t 2 = n ( X − µ0 ) ( s 2 ) n ( X − µ0 )
−1
atau
variabel ′ variabel acak Chi-kuadrat variabel
−1
acak normal derajat kebebasan acak normal
untuk kasus univariat. Karena normal multivariat dan variabel acak Wishart berdistribusi
independen, dengan fungsi densitas gabungannya dari produk normal marginal dan
distribusi Wishart. Dengan menggunakan kalkulus, distribusi T 2 seperti tersebut diatas
dapat diperoleh dalam bentuk distribusi gabungan.
Adalah jarang, dalam keadaan multivariat, isi dengan sebuah uji H 0 : µ = µ0 , dimana
semua komponen vektor rata-rata adalah tertentu dibawah hipotesis nol. Biasanya lebih
baik mencari daerah dari nilai µ sehingga plausible untuk memecah data yang diamati.
Contoh 3.1
Diberikan data matrik untuk sebuah sampel acak berukuran n = 3 dari sebuah populasi
normal bivariat
6 10 8
X =
9 6 3
Evaluasi yang diamati T 2 untuk µ0′ = [9,5] dan α = 0.05 . Apakah distribusi sampling
Solusi
6 + 10 + 8
x 3 8
x = 1 = =
x2 9 + 6 + 3 6
3
dan
( 6 − 8 ) + (10 − 8) + (8 − 8)
2 2 2
s11 = =4
2
s12 =
( 6 − 8)( 9 − 6 ) + (10 − 8 )( 6 − 6 ) + (8 − 8 )( 3 − 6 ) = −3
2
(9 − 6) + ( 6 − 6) + (3 − 6)
2 2 2
s22 = =9
2
jadi
4 −3
S=
−3 9
sehingga
-1 1 9 3 13 1
9
S = =
( 4 )( 9 ) − ( −3)( −3) 3 4 19 4
27
dan
1 1
8 − 9 92 7
T 2 = 3 [8 − 9, 6 − 5] 13 9
4 = 3 [ −1,1] 1 =
9 27 6 − 5 27 9
( n − 1) p F ( 3 − 1) 2 F
Tolak H 0 jika T 2 > (α ) . Karena T 2 = 0.778 < 798 = ( 0.05 )
(n − p) p ,n− p
( 3 − 2 ) 2 , 3− 2
maka H 0 diterima sehingga µ0′ = [9,5] adalah sebuah nilai plausible untuk rata-rata
populasi normal.
Contoh 3.2
X1 X1 X3
Individual
( Sweat rate ) ( Sodium ) ( Potassium )
1 3.7 48.5 9.3
2 5.7 65.1 8
3 3.8 47.2 10.9
4 3.2 53.2 12
5 3.1 55.5 9.7
6 4.6 36.1 7.9
7 2.4 24.8 14
8 7.2 33.1 7.6
9 6.7 47.4 8.5
10 5.4 54.1 11.3
11 3.9 36.9 12.7
12 4.5 58.8 12.3
13 3.5 27.8 9.8
14 4.5 40.2 8.4
15 1.5 13.5 10.1
16 8.5 56.4 7.1
17 4.5 71.6 8.2
18 6.5 52.8 10.9
19 4.1 44.1 11.2
20 5.5 40.9 9.4
Sumber : Courtesy of Dr. Gerald Bargman
( n − 1) p F (19 ) 3 F
(α ) = ( 0.10 ) = 3.353 ( 2.44 ) = 8.18
(n − p) p ,n − p
17 3,17
karena T 2 = 9.74 > 8.18, maka H 0 ditolak pada taraf signifikansi 10%.
Satu bentuk dari statistik- T 2 adalah invarians (tanpa perubahan) di bawah perubahan
didalam unit pengukuran dari X dengan bentuk
Y = C X + d , C nonsingular (3 - 8)
( p×1) ( p× p ) ( p×1) ( p×1)
Sebuah transformasi dari pengamatan sesama muncul ketika sebuah konstanta bi adalah
yang dikurangidari variabel ke-i untuk membentuk X i − bi dan hasil dari perkalian dengan
persamaan (3 - 8). Karena sebuah contoh, operasi yang melibatkan penggantian X i dengan
Sehingga
1 n
y = C x + d dan S y = ∑ ( yi − y )( yi − y )′ = CSC ′
n − 1 j =1
E ( X + Y ) = E ( X ) + E (Y )
E ( AXB ) = AE ( X ) B
µ Z = E ( Z ) = E ( CX ) = C µ x
Σ Z = Cov ( Z ) = Cov ( CX ) = C Σ X C ′
µ y = E (Y ) = E ( CX + d ) = E ( CX ) + E ( d ) = C µ + d
Oleh karena itu, T 2 dihitung dengan y’s dan sebuah nilai hipotesis µY ,0 = C µ0 + d adalah
T 2 = n ( y − µY ,0 )′ SY−1 ( y − µY ,0 )
= n ( C ( x − µ0 ) )′ ( CSC ′ ) ( C ( x − µ0 ) )
−1
= n ( x − µ0 )′ C ′ ( CSC ′ ) C ( x − µ0 )
−1
= n ( x − µ0 )′ C ′ ( C ′ ) S −1C −1C ( x − µ0 )
−1
= n ( x − µ0 )′ S −1 ( x − µ0 )
Persamaan yang terakhir dikenali sebagai nilai dari T 2 dihitung dengan x’s.
Oleh : Risa Nur vauzyah (060933)
1
max L ( µ , Σ ) = e−n p 2 (3-9)
( 2π )
µ ,Σ n2
Σˆ
np 2
dimana Σˆ = ∑ ( x j − x )( x j − x )′ dan µˆ = x = ∑ x j
1 n 1 n
n j =1 n j =1
1 n
exp − ∑ ( x j − µ0 )′ Σ −1 ( x j − µ0 )
1
L ( µ0 , Σ ) = (3-10)
( 2π )
n2
Σˆ 2 j =1
np 2
Untuk menentukan apakah µ0 adalah nilai yang tak mungkin untuk µ , maksimum
max L ( µ , Σ )
n 2
Σˆ
Rasio Likelihood = ∧ = µ ,Σ = (3-11)
max L ( µ0 , Σ ) Σˆ 0
µ ,Σ
Padanan statistik untuk ∧ 2 n = Σˆ Σˆ 0 disebut Wilks' lamda. Jika nilai pengamatan
benar, oleh karena itu ditolak. Secara rinci, uji rasio likelihood untuk H 0 : µ = µ0 melawan
H1 : µ ≠ µ0 , tolak H 0 jika
n2
′
( )( )
n
Σˆ
n 2
∑ x j − x x j − x
=
j =1
Λ=
< cα (3-13)
Σˆ 0
( x j − µ0 )( x j − µ0 )′
n
∑
j =1
dimana cα adalah batas bawah (100α ) th persentil dari distribusi Λ. (Catatan bahwa
statistik uji rasio likelihood adalah sebuah kuasa perbandingan variansi yang diperumum).
Akibat 3.1.
uji pada (5-7) merupakan dasar dati T 2 yang ekivalen dengan uji rasio likelihood dari
H 0 : µ = µ0 melawan H1 : µ ≠ µ0 , karena
T2
Λ = 1+
2n
.
( n −1)
max L (θ )
θ ∈Θ0
Λ= <c (bab 2-16)
max L (θ )
θ ∈Θ
dimana c adalah konstanta tertentu yang dipilih. Secara intuitif, kita tolak H 0 jika
yang lebih kecil dari maksimum likelihood yang dipenuhi oleh variasi θ untuk semua nilai
pada Θ . Ketika maksimum pada pembilang dari persamaan (bab 2-16) lebih kecil dari
maksimum penyebut, Θ0 tidak memenuhi nilai plausibel untuk θ .
Pada setiap aplikasi dari metode perbandingan likelihood, kita akan memerlukan
distribusi sampling dari statistik uji rasio likelihood Λ . Sehingga c dapat dipilih untuk
menghasilkan sebuah uji dengan sebuah taraf signifikansi α tertentu. Bagaimanapun,
ketika ukuran sampelnya besar dan kondisi keteraturan tertentu dipenuhi, distribusi
sampling dari −2 ln Λ yang didekati oleh sebuah distribusi chi-kuadrat.
Akibat 3.2
max L (θ )
θ ∈Θ0
−2 ln Λ = 2 ln Λ adalah aproksimasi dari variabel acak χ v-v
2
max L (θ ) 0
θ ∈Θ
P n ( X − µ ) S −1 ( X − µ ) ≤
( n − 1) p F
p , n − p (α ) = 1 − α
'
(n − p)
dalam ruang dari semua nilai parameter yang mungkin. Dalam kasus ini, daerah akan
menjadi ellipsoid dengan pusat x . Ellipsoid ini adalah daerah kepercayaan 100 (1 − α ) %
untuk µ .
n ( x − µ ) S −1 ( x − µ ) ≤
( n − 1) p F
(α )
'
p ,n− p
(n − p )
1 n
( x j − x )( x j − x ) , dan
n
1
∑ ∑
'
dimana x= x , S = x1 , x2 ,K , xn adalah sample
(n − 1) j =1
j
n j =1
pengamatan.
( x − µ ) Σ −1 ( x − µ ) = c 2
'
, arah dan panjang sumbu-x
p (n − 1)
dari n ( x − µ ) ' S −1 ( x − µ ) ≤ c 2 = Fp ,n − p (α )
(n − p )
λi c / n = λi p(n − 1) Fp , n− p (α ) / n(n − p)
Unit sepanjang vector eigen ei . Berawal di pusat x , sumbu-x dari ellipsoid kepercayaan
adalah
p (n − 1)
± λi Fp ,n − p (α ) ei dimana Sei = λi ei , i = 1, 2,K , p
n( n − p )
Perbandingan dari λi ' s akan membantu dalam mengidentifikasi jumlah relatif dari
pemanjangan sepanjang pasangan sumbu-x.
Oleh : Lucky Heriyanti Jufri (0607103)
dilihat dengan tepat hubungan mengenai nilai plausible untuk µ , apa saja inti dari kesimpulan
yang biasa dimasukkan dalam pernyataan kepercayaan tentang rata-rata komponen tunggal.
Selanjutnya, kita gunakan aturan bahwa pernyataan kepercayaan yang terpisah, sebaiknya
mempertahankan kesimultanaan-nya dengan tingginya probabilitas yang ditentukan. Hal ini
merupakan jaminan dalam menentukan probabilitas terhadap banyaknya pernyataan salah yang
menyebabkan interval kepercayaan simultan. Kita awali dengan mengingat pernyataan kepercayaan
simultan yang berhubungan dengan daerah kepercayaan bersama berdasarkan statistik T 2 .
Z = l1 X 1 + l 2 X 2 + K + l p X p = l ' X
Sebagaimana yang kita ketahui bahwa µ z = E ( Z ) = l ' µ dan σ z2 = Var ( Z ) = l 'Σl . Selain itu,
berdasarkan akibat 4.2, Z berdistribusi N (lµ , l 'Σl) . Jika sample acak X 1 , X 2 ,K , X n dari
populasi berdistribusi N ( µ , Σ) adalah memungkinkan, maka sample Z ' s dapat ditulis dengan
menggunakan kombinasi linier yaitu. Jadi,
Z j = l1 X 1 j + l 2 X 2 j + K + l p X pj = l ' X j , j = 1, 2,K , n
Rata-rata dan variansi dari z1 , z2 ,K , zn adalah z = l ' x dan sz2 = l' S l , dimana x dan S adalah
z − µz n ( l' x − l'µ )
t= = (3-14)
sx l' S l
n
Sehingga diperoleh pernyataan
( 2 ) sn ≤ µ
z − tn −1 α z
z ( 2 ) sn
≤ z + tn −1 α z
atau
( 2)
l' x − tn −1 α
l' S l
n
≤ l' µ ≤ l' x + tn −1 α
2 ( ) l' S l
n
(3-15)
dimana tn −1 α ( 2 ) adalah batas atas 100 (1 − α ) % dari distribusi-t dengan derajat kebebasan (n-
1).
Ketidaksamaan (3-5) dapat dinyatakan sebagai pernyataan mengenai komponen dari vektor
rata-rata µ . Sebagai contoh, dengan l' = [1, 0,K , 0] , l ' µ = µ1 dan ketidaksamaan (3-5)
menghasilkan interval kepercayaan biasa untuk rata-rata dari populasi normal. Dalam kasus ini
l' S l = s11 , jelasnya, kita akan menentukan beberapa pernyataan kepercayaan mengenai komponen
µ , dengan menghubungkan koefisien kepercayaan 1 − α , dengan memilih koefisien vector l yang
berbeda. Bagaimanapun, hubungan kepercayaan dengan semua pernyataan yang diambil bersama
adalah bukan 1 − α .
n ( l' x − l' µ )
t = ≤ tn −1 (α )
'
l Sl 2
t2 = = ≤ tn −1 (α ) (3-16)
l' S l l'S l 2
Daerah kepercayaan simultan diberikan oleh himpunan nilai l' µ yaitu t 2 relatif kecil
untuk semua l . Nampaknya pantas untuk menduga bahwa konstanta tn2−1 α ( 2 ) dalam persamaan
(3-6) akan digantikan oleh nilai yang lebih besar yaitu c 2 , ketika pernyataan dikembangkan untuk
sembarang l .
n ( l' ( x − µ ) )
2
max t = max
2
l l l'S l
(x d ) ' 2
n ( l' ( x − µ ) ) n ( l' ( x − µ ) )
2 2
Akibat 3.3
' p ( n − 1) p ( n − 1)
l X − Fp ,n − p (α ) l ' S l .l ' X + Fp ,n − p (α ) l ' S l
n(n − p) n (n − p)
n ( l' x − l ' µ )
2
T = n( x − µ) S −1
(x − µ) ≤ c ≤ c2
2 ' 2
termasuk '
untuk setiap l, atau
l Sl
l' S l l'S l
l x −c
'
≤lµ ≤l x +c
' '
untuk setiap l. Dengan memilih
n n
c 2 = p ( n − 1) Fp ,n − p (α ) / ( n − p ) memberikan interval yang akan memuat l' µ untuk semua l ,
Ini adalah tepat mengarahkan ke interval yang simultan dari akibat 3.3 sebagai interval-
T 2 , karena pencakupan probalbilitas ditentukan oleh distribusi T 2 . Berturut-turut kita pilih
l' = [1, 0,K , 0] , l ' = [ 0,1,K , 0] , dengan demikian l' = [ 0, 0,K ,1] untuk interval- T 2
p ( n − 1) s11 p ( n − 1) s11
x1 − Fp ,n − p (α ) ≤ µ1 ≤ x1 + Fp ,n − p (α )
(n − p) n (n − p) n
p ( n − 1) s22 p ( n − 1) s22
x2 − Fp , n − p (α ) ≤ µ 2 ≤ x2 + Fp , n − p (α )
(n − p) n (n − p) n (3-18)
M M M
p ( n − 1) s pp p ( n − 1) s pp
xp − Fp , n − p (α ) ≤ µ p ≤ xp + Fp ,n − p (α )
(n − p) n (n − p) n
Catatan bahwa, tanpa modifikasi koefisien 1 − α , kita dapat membuat pernyataan turunan dari
kasus ini l' S l = sii − 2 sik + skk , dan kita mempunyai pernyataan
p ( n − 1) s − 2s + s p ( n − 1) s − 2s + s
xi − xk − F (α ) ii ik kk ≤ µi − µk ≤ xi − xk + F (α ) ii ik kk
( n − p ) p ,n− p n ( n − p ) p ,n − p n (3-19)
satu waktu, seperti yang telah dijelaskan pada persamaan (3-5) dengan l = [ 0,K , 0, l i , 0,K , 0] ,
'
dimana l ' = 1 . Pendekatan ini mengabaikan struktur kovarian dari variable-p dan membawa kita ke
interval
( 2)
x1 − tn −1 α
s11
n
( )
≤ µ1 ≤ x1 + tn −1 α
2
s11
n
( 2)
x2 − tn −1 α
s22
n
≤ µ 2 ≤ x2 + tn −1 α( )
2
s22
n (3-20)
M M M
( 2) ( 2)
s pp s pp
x p − tn −1 α ≤ µ p ≤ x p + tn −1 α
n n
Untuk memberi pencerahan terhadap masalah ini, dengan mempertimbangkan kasus khusus
dimana pengamatannya berdistribusi normal gabungan dan
σ 11 0 L 0
0 σ L 0
Σ=
22
M M O M
0 0 L σ pp
Karena pengamatan pada variable pertama adalah independent, begitupula untuk variable kedua,
dan seterusnya. Aturan yang diperoleh yaitu untuk peristiwa independent dapat digunakan sebelum
sampel dipilih,
= (1 − α )
p
Untuk memperoleh metode utama dalam menentukan inferensi dari sample, kita
akan memperluas konsep interval kepercayaan univariat menjadi daerah kepercayaan
multivariate. Berdasarkan penjelasan pada bab sebelumnya, telah dijelaskan inferensi
sampel dengan menggunakan int erval − T 2 simultan. Namun seringkali kita jumpai
interval yang lebih pendek untuk bilangan m yang kecil, yaitu ketika m = p . Dalam hal
ini, akan lebih mudah untuk menggunakan dan menetapkan interval kepercayaan yang
relatif pendek, yang dibutuhkan untuk membuat kesimpulan (inference). Sehingga kita
dapat menetapkan nilai interval yang lebih pendek dari int erval − T 2 . Metode seperti ini
akan dibahas pada pembahasan berikut ini disertai dengan studi kasusnya.
interval kepercayaan simultan dapat dikembangkan menjadi lebih pendek (lebih tepat) dari
pada interval- T 2 simultan. Metode alternatif untuk perbandingan berganda dinamakan
“Metode Bonferroni” , karena ini dikembangkan dari kemungkinan yang membawa nama
ketidaksamaan tersebut.
= 1 − (α 1 + α 2 + K + α m )
α s
xi ± tn −1 i ii , i = 1, 2,K , m dengan αi = α m . Karena
2 n
(
P X i ± tn −1 α
2m ) sii
n
memuat µi = 1 − α
m
, i = 1, 2,K , m , kita peroleh dari persamaan
(3-11)
α sii α α α
P X i ± tn −1 memuat µi , semua i ≥ 1 − + + L +
2m n 144
m 4
m2444m3
(3-22)
bentuk m
= 1−α
Untuk itu, dengan keseluruhan tingkat kepercayaan lebih besar dari atau sama dengan
1 − α , kita dapat membuat pernyataan m = p :
α s11 α s11
x1 − tn −1 ≤ µ1 ≤ x1 + tn −1
2p n 2p n
α s22 α s22
x2 − tn −1 ≤ µ 2 ≤ x2 + tn −1
2p n 2p n (3-23)
M M M
α s pp α s pp
x p − tn −1 ≤ µ p ≤ x p + tn −1
2p n 2p n
Pernyataan dalam ketidaksamaan (3-13) dapat dibandingkan dengan ketidaksamaan
Ketika ukuran sampel besar, pengujian hipotesis dan daerah kepercayaan untuk µ
dapat dikonstruksi tanpa anggapan normalitas. Untuk jumlah n besar, kita dapat membuat
taksiran tentang rata-rata populasi meskipun distribusi awalnya adalah diskrit.
P[n( X − µ )' S −1 ( X − µ ) ≤ χ p2 (α )] = 1 − α
Misalkan X1, X2, ...., Xn adalah sample acak dari populasi dengan mean µ dan
kovarians Σ . Jika n-p besar, hipotesis H0 : µ = µ 0 ditolak dengan alternative H1 : µ ≠ µ 0
n( X − µ )' S −1 ( X − µ ) > χ p2 (α )
Misalkan X1, X2, ...., Xn adalah sample acak dari populasi dengan mean µ dan
definit positif kovarians Σ . Jika n-p besar, maka
l' X ± χ p2 (α ) (l' Sl / n)
Dimana setiap l memuat l' µ dengan probabilitas 1 - α . Akibatnya kita dapat membuat
interval konfidensi 100 (1- α )%
s11
x1 ± χ p2 (α ) memuat µ1
n
s 22
x 2 ± χ 2p (α ) memuat µ 2
n
s pp
x p ± χ p2 (α ) memuat µ p
n
Sering kali beberapa komponen dari vektor observasi tidak ada. Maka dalam
menyelesaikan masalah tersebut dengan menggunakan teknik EM algorithm, disetiap
iterasi memiliki dua langkah yakni :
Prediksi
Estimasi
Menggunakan statistika cukup untuk estimasi parameter
n
Σ Xj
T1 = j=1
n __ __
Σ X j X 'j = (n −1)S + n X X '
T2 = j =1
Langkah Prediksi :
Untuk setiap Xj(1) adalah komponen vektor yang hilang, dan Xj(2) adalah komponen
~
vektor yang ada. Untuk penduga dan dari langkah Σ
µ~ estimasi digunakan mean distribusi
bersyarat x(1) dan diberikan x(2) untuk menduga nilai yang hilang. Sehingga:
~ ~ ~
~
x j(1) = E ( X (j1) x j ; µ~, Σ) = µ~ (1) + Σ12 Σ −221 ( ~
x j( 2) − µ~ ( 2 ) )
( 2)
~~~~~~~~~
~
= E ( X (j1) X (j1) ' x j ; µ~ , Σ )
(1) (1) (2)
x xj j
~ ~ ~ −1 ~ ~ ~
= Σ11 − Σ12 Σ 22 Σ 21 + X (j1) X (j1)
~~~~~~~~~
~
= E ( X (j1) X (j 2 ) ' x j ; µ~ , Σ )
(1) ( 2 ) ( 2)
x x
j j
=~
x j(1) ~
x j( 2)
Kontribusi pertama dijumlahkan untuk setiap xj dengan komponen hilang. Hasil ini
digabung dengan data sampel menghasilkan T1 dan T2.
Langkah estimasi:
~
~ T1
µ=
n
~ 1~
Σ = T2 − µ~µ~ '
n
Estimasilah populasi normal ini dengan mean µdan Σvariansi, himpunan datanya sebagai
berikut:
− 7 5 −
= 0 2 1 −
X(3,4)
3 6 2 5
Jawab:
kemudian subsitusikan rata-rata tersebut ke nilai yang hilang, sehingga diperoleh estimasi
terhadap variansi, yaitu :
1 1 5 1 3 1
σ~11 = σ~22 = σ~33 = σ~12 = σ~23 = σ~13 =
2 2 2 4 4 1
Langkah pertama adalah Prediksi, dalam memprediksi nilai yang hilang kita menggunakan
µ~
estimasi terhadap dan , disubsitusikan~
Σ ke statistika cukup T1 dan T2. Komponen x1yang
hilang, dipartisi sehingga:
~ ~ ~ ~
x11 = µ~ (1) + Σ12 Σ −221 ( X (j 2) − µ~ ( 2 ) )
diduga
−1
1 3
1
= 6 + ,1 2 4 0 − 1 = 5.73
4 3 5 3 − 4
4 2
~ ~ ~ ~
x112 = σ~11 − Σ12 Σ −221 Σ 21 + ~
x112
−1
1 3
1 1 2 1
= − 1 4 4 + (5.73) 2 = 32.99
2 4 3 5 1
4 2
x11 [x 21 , x31 ] = ~
x11 [ x 21 , x31 ] = 5.73[0,3] = [0,17,18]
~~~~~~~~~~ ~~~
6 1 5
−1
6.4
= + 3 (5 − 4) =
1 4 2 1.3
Kontribusi terhadap T1:
~2 ~~~~~~~
X 142
x14 x14 x 24 X 14 X 24 ~
~~~~~~~ = E x = 5; ~, Σ
µ
x x X X 34
x 242
2
~ 14 24 X 24
14 24
1 1
1 −1
x14 X 14 X 34 ~ ~x14
x ( x34 ) = E X X x34 = 5; µ , Σ = x ( x34 )
~
24 24 34 24
6 .4 32.0
= (5) =
.1.3 6 .5
Penduga Statististika cukup:
~ 24.13 6.03
µ = = 4.30 = 1.08
~ T1 1
n 4
16.00 4.00
Estimasi µ~ dan Σ
~ berakhir ketika :
n( µˆ − µ ) ' Σˆ −1 ( µˆ − µ ) ≤ χ p2 (α )
PENUTUP
4.1 Kesimpulan
1) Dari analisis dan perhitungan yang telah dilakukan pada studi kasus dapat
ditunjukkan µ0′ = [13, 7,11] merupakan suatu nilai plausible untuk µ . Dengan kata lain
vektor rata-rata populasi multivariat akan selalu konsisten dengan data yang dimiliki.
3) Dapat kita lihat dari pernyataan simultan di atas bahwa komponen µ 0 dari melodi,
tempo dan meter tidak terbukti sebagai nilai yang mungkin untuk nilai akhir rata-
rata.(dengan derajat kebebasan 90%, nilai yang kita tetapkan tepat dengan perhitungan
atau tidak)
4.2 Saran
Agar kesalahan dapat terminimalkan maka penyusun memberi saran sebagai
berikut:
Johnson, Richard A. and Dean W. Wichern. Third Edition. Applied Multivariate Statistical
Analysis. New Jersey: Prentice Hall, Englewood Cliffs.
Suryanto, Dr. 1988. Metode Statistika Multivariat. Jakarta: Departemen Pendidikan dan Kebudayaan.