NIM : 211910972
Kelas : 3SE2
Kode : 06EML9O
Ukuran kuadrat jarak dari x ke µ dalam unit simpangan baku dari densitas univariate normal
adalah sebagai berikut.
(4-2)
Bentuk (4-2) dapat digeneralisasi untuk vektor x ukuran p ×1 observasi pada beberapa variabel
sebagai
(4-3)
Vektor μ p ×1 merepresentasikan expected value dari random vektor X dan p × p matriks Σ
adalah varians kovarians dari matriks X. Dapat diasumsikan matriks simetris Σ adalah definite
positif sehingga (4-3) adalah kuadrat jarak tergeneralisasi dari x ke µ.
Sehingga subuah p dimensi normal desnsiti untuk random vektor X ' =[ X ¿ ¿1 , X 2 , … , X p ] ¿
sebagai berikut
(4-4)
dimana −∞< x i <∞ ,i=1,2, … , p. Kita dapat menotasikan p dimensi normal densiti sebagai
N p (μ , Σ) yang merupakan analogi dari normal densitas pada kasus univariat.
Kontur dari konstan densitas untuk p dimensi distribusi normal adalah elipsoid yang
didefiniskan oleh x sehingga
(4-5)
Elipsoid ini terpusat pada μ dan memiliki sumbu ± c √ λ i e i dimana Σ ei =λi ei untuk i=1,2 , … p .
Jika matriks A bersifat simetris, maka akar ciri dari A adalah riil dan memiliki vektor ciri yang
saling bebas (ortogonal). Sumbu setiap elipsoid dengan konstan densitas searah dengan eigen
vektor dari Σ−1 dan panjangnya proporsional terhadap kebalikan dari akar kuadrat dari
eigenvalue dari Σ−1. Jika Σ definite positif sehingga Σ−1 terdeteksi maka
−1
Σ e=λe menyiratkan Σ e= ( 1λ ) e
Sehingga (λ ,e ) adalah sepasang eigenvalue – eigenvektor untuk Σ yang bersesuaian dengan
pasangan (1/ λ , e) untuk Σ−1 dan Σ−1 definite positif.
Dari persamaan kuadrat jarak maka c 2= χ 2p (α ), dimana χ 2p (α ) adalah persentil atas ke-
(100 α ) dari distribusi chi square dengan p degrees of freedom sehingga kontur mengandung
peluang ( 1−α ) ×100 % . Berikut ini p dimensi distribusi normal dan bentuk ellips yang terbentuk
dari x akan memenuhi:
(4-6)
dengan peluang 1−α .
Sifat Tambahan dari Distribusi Multivariat Normal
Berikut ini vektor acak X yang memiliki distribusi normal multivariate:
1. Kombinasi linier dari komponen X berdsitribusi normal
Jika X berdistribusi N p ( μ , Σ ) maka berapapun kombinasi linier dari variabel
'
a X =a1 X 1 +a2 X 2 +…+ a p X p berdistribusi N ( a' μ , a' Σ a). Jika a ' X berdistribusi sebagai
N ( a μ , a Σ a) untuk setiap a maka X juga harus N p ( μ , Σ ) .
' '
4.3 Sampling dari Sebuah Distribusi Multivariate Normal dan Estimasi Maksimum Likelihood
Multivariate Normal Likelihood
Asumsikan vektor p ×1 X 1 , X 2 , … , X n merepresentasikan sebuah random sampel dari
populasi multivariate normal dengan mean μ, dan kovarians matriks Σ . Karena X 1 , X 2 , … , X n
mutually independen dan masing-masing memiliki distribusi N p ( μ , Σ ) , joint desnsity function
dari semua observasi adalah produk dari marginal normal densiti:
(4-7)
Persamaan tersebut dapat dianggap sebagai fungsi dari μ dan Σ untuk set observasi yang tetap
x 1 , x 2 , … , x n disebut likelihood.
Banyak prosedur statistik yang menghasilkan nilai untuk parameter populasi yang ternaik
untuk menjelaskan data yang diamati. Prosedur yang baik adalah memilih parameter yang
memaksimumkan joint desitas dari observasi. Teknik ini disebut maksimum likelihood
estimation, dan nilai maksimum parameter disebut estimasi maksimum likelihood.
Substistusi nilai observasi x 1 , x 2 , … , x n pada fungsi joint densitas likelihood dan
notasikan sebagai L(μ , Σ) untuk menekankan bahwa ini adalah fungsi dari parameter populasi
yang tidak diketahui. Saat vektor x j mengandung angka spesifik hasil observasi, maka
(4-8)
Penduga maksimum likelihood adalah besaran acak. Mereka diperoleh dengan mengganti
^ dan ^Σ yang berkorespondensi dengan random vektor
pengamatan x 1 , x 2 , … , x n untuk μ
X 1 , X 2 , … , X n. Penduga maksimum likelihood X adalah random vektor dan penduga maksimum
likelihood ^Σ adalah random matriks. Sehingga maksimum likelihood adalah
(4-9)
atau karena maka L ¿, ^Σ ¿=konstanta× ( generalized varians )−n / 2
Generalized varians menentukan ouncak daru fungsi likelihood sehingga generalized varians
adalah pengukuran secara natural dari keragaman saat populasi adalah multivariat normal.
Penduga maksimum likelihood memiliki invariance property. Misalkan θ^ adalah
penduga maksimum likelihood dari θ dan pertimbangkan mengestimasi parameter h(θ) yang
merupakan fungsi dari θ . Sehingga estimasi maksimum likelihood dari h(θ) atau sebuah fungsi
^ atau fungsi yang sama dari θ^ .
dari θ adalah h( θ)
Statistik yang Cukup
Misalkan X 1 , X 2 , … , X n adalah random sampel dari sebuah populasi multivariat normal
dengan dengan mean μ dan kovarians Σ maka X dan S adalah sufficient statistics atau statistik
cukup. Hal terpenting dalam statistik cukup untuk populasi normal adalah semua informasi
mengenai μ dan Σ dalam data matriks X terkandung dalam x dan S tidak peduli ukuran sampel n .
yang dijumlahkan
2. Jika A berdistribusi sebagai W m ( A|Σ ) maka CAC ' berdistribusi sebagai W m ( CAC '|CΣC ' )
Densitas tidak ada kecuali ukuran sampel n lebih besar daripada jumlah variabel p. Jika densitas
ada, maka nilai matriks A definite positif adalah
dimana p( j) adalah peluang untuk mendapatkan nilai kurang dari atau sama dengan q( j ) pada
penggambaran tunggal dari sebuah populasi standard normal.
Ide ini diperoleh dari sepasang kuantil (q ( j) , x ( j) ) dengan asosiasi peluang kumulatif yang
sama j− ( 12 )/n. Jika data meningkat dari populasi normal, sepasang (q ( j) , x ( j) ) akan mendekati
(4-13)
dan powerful tes dari normalitas dapat didasarkan pada nilai ini. Kita dapat menolak hipotesis
dari normalitas pada tingkat signifikansi α jika r Q lebih kecil daripada nilai yang terdapat pada
tabel.
Mengevaluasi Normalitas Bivariat
' −1 2
Menetapkan outcome dari bivariat x adalah ( x−μ ) Σ ( x−μ ) ≤ χ 2 (0.5) memiliki peluang
0.5 sehingga kita dapat berekspetasi persentase secara kasar sama yaitu 50% dari sampel amatan
untuk tergambarkan pada elips berikut
' −1 2
semua x merupakan ( x−x ) S ( x−x ) ≤ χ 2( 0.5)
dimana kita harus mengganti μ dengan estimasinya x dan Σ−1 dengan estimasinya sendiri yaitu
−1
S . Jika tidak asumsi normalitas dapat dicurigai.
Metode yang lebih formal menentuka joint normalitas dari data set adalah berdasarkan
kuadrat generalisasi jarak dimana x 1 , x 2 , … , x n adalah sampel pengamatan.
Prosedur ini dapat digunakan tidak terbatas pada kasus bivariate, dapat digunakan untuk semua
p ≥2 .
Saat popukasi multivariat normal dan kedua n dan n− p lebih besar dari 25 atau 30 dan
2 2 2
tiap kuadrat jarak d 1 , d 2 , … , d n harus berisfat seperti chi square random variabel. Meskipun jarak
ini tidak indpenden atau berdistribusi chi square, dapat membantu untuk membuat plot. Hasil
plot ini disebut chi-square plot atau gamma plot.
Untuk membuat plot chi-square adalah sebagai berikut.
2 2 2
1. Urutkan kuadrat jarak dari yang terkecil ke yang terbesar menjadi d (1 ) ≤ d (2 ) ≤ … ≤ d(n)
2. Gambarkan sepasang (( ) )
dimana q c , p j−
1
2
/n adalah kuantil ke-
Kuantil q c , p(( j− 12 ) /n) berhubungan dengan persentil atas dari distribusi chi-square.
plot harus merepresentasikan sebuah garus lurus dari titik origin
dengan slope 1.
4.7 Mendeteksi Outlier dan Cleaning Data
Langkah untuk Mendeteksi Outlier
1. Membuat dot ploy untuk setiap variabel
2. Membuat scatter plot untuk tiap pasang variabel
3. Menghitung nilai standardisasi z jk =( x jk −x k )/ √ skk untuk j=1,2 ,… , n dan tiap kolom
k =1,2 , … , p. Pelajari nilai standardisasi untuk nilai besar atau kecil
4. Hitung generalize kuadrat jarak ( x−x )' S−1 ( x−x ). Pelajari jarak ini untuk nilai yang besar
yang tidak biasa. Dalam plot chi-square dapat terjadi pada titik yang jauh dari origin.
Box Cox sedikit memodifikasi power transformasi dimana kontinyu dalam λ untuk x >0.
(4-14)
Observasi x 1 , x 2 , … , x n diberikan solusi Box Cox untuk power yang sesuai λ adalah solusi yang
memaksimalkan bentuk berikut ini.
(4-15)
Diketahui bahwa x(jλ) didefinisikan dalam (4-14) dan
Mentransformasi Amatan Multivariat
Misalkan λ 1 , λ2 , … , λ p adalah power transformation untuk setiap p karakteristik. Setiap λ k
dapat dipilih dengan memaksimlakan
(4-16)
dimana x 1 k , x 2 k , … , x nk adalah n observasi pada variabel ke-k .
(4-17)
Persamaan (4-17) adalah aritmatika dari rata-rata observasi yang ditransformasi. Transformsi
multivariat ke- j adalah
(4-18)