Anda di halaman 1dari 9

Nama : Ervione Mahala Zulfitri

NIM : 211910972
Kelas : 3SE2
Kode : 06EML9O

DISTRIBUSI NORMAL MULTIVARIAT


4.1 Pendahuluan
Banyak teknik yang digunakan menggunakan data berdistribusi normal tetapi dalam
kenyataannya tidak ada data multivariat yang benar-benar berdistibusi normal sehingga
digunakan pendekatan multivariat normal. Keuntungan dari distribusi multivariate normal adalah
secara matematis dapat ditelusuri dan mendapat hasil yang bagus.

4.2 Fungsi Densitas Distribusi Multivariate Normal


Densitas mutlivariate normal merupakan generalisasi dari univariate normal densiti dengan
p ≥2 dimensi. Distribusi univariate normal dengan mean μ dan varians σ 2 memiliki peluang
(4-1)

Ukuran kuadrat jarak dari x ke µ dalam unit simpangan baku dari densitas univariate normal
adalah sebagai berikut.
(4-2)
Bentuk (4-2) dapat digeneralisasi untuk vektor x ukuran p ×1 observasi pada beberapa variabel
sebagai
(4-3)
Vektor μ p ×1 merepresentasikan expected value dari random vektor X dan p × p matriks Σ
adalah varians kovarians dari matriks X. Dapat diasumsikan matriks simetris Σ adalah definite
positif sehingga (4-3) adalah kuadrat jarak tergeneralisasi dari x ke µ.
Sehingga subuah p dimensi normal desnsiti untuk random vektor X ' =[ X ¿ ¿1 , X 2 , … , X p ] ¿
sebagai berikut
(4-4)
dimana −∞< x i <∞ ,i=1,2, … , p. Kita dapat menotasikan p dimensi normal densiti sebagai
N p (μ , Σ) yang merupakan analogi dari normal densitas pada kasus univariat.
Kontur dari konstan densitas untuk p dimensi distribusi normal adalah elipsoid yang
didefiniskan oleh x sehingga
(4-5)
Elipsoid ini terpusat pada μ dan memiliki sumbu ± c √ λ i e i dimana Σ ei =λi ei untuk i=1,2 , … p .
Jika matriks A bersifat simetris, maka akar ciri dari A adalah riil dan memiliki vektor ciri yang
saling bebas (ortogonal). Sumbu setiap elipsoid dengan konstan densitas searah dengan eigen
vektor dari Σ−1 dan panjangnya proporsional terhadap kebalikan dari akar kuadrat dari
eigenvalue dari Σ−1. Jika Σ definite positif sehingga Σ−1 terdeteksi maka
−1
Σ e=λe menyiratkan Σ e= ( 1λ ) e
Sehingga (λ ,e ) adalah sepasang eigenvalue – eigenvektor untuk Σ yang bersesuaian dengan
pasangan (1/ λ , e) untuk Σ−1 dan Σ−1 definite positif.
Dari persamaan kuadrat jarak maka c 2= χ 2p (α ), dimana χ 2p (α ) adalah persentil atas ke-
(100 α ) dari distribusi chi square dengan p degrees of freedom sehingga kontur mengandung
peluang ( 1−α ) ×100 % . Berikut ini p dimensi distribusi normal dan bentuk ellips yang terbentuk
dari x akan memenuhi:
(4-6)
dengan peluang 1−α .
Sifat Tambahan dari Distribusi Multivariat Normal
Berikut ini vektor acak X yang memiliki distribusi normal multivariate:
1. Kombinasi linier dari komponen X berdsitribusi normal
Jika X berdistribusi N p ( μ , Σ ) maka berapapun kombinasi linier dari variabel
'
a X =a1 X 1 +a2 X 2 +…+ a p X p berdistribusi N ( a' μ , a' Σ a). Jika a ' X berdistribusi sebagai
N ( a μ , a Σ a) untuk setiap a maka X juga harus N p ( μ , Σ ) .
' '

2. Semua subset (himpunan bagian) dari komponen X memiliki distribusi nomal


(multivariat)
Jika secara berturut-turut partisi dari X, vektor mean μ, dan kovarians matriks Σ sebagai
kemudian X 1 berdistribusi sebagai N q (μ 1 , Σ 11).
3. Kovarians nol menyiratkan bahwa komponen yang sesuai terdistribusi secara independen
4. Distribusi bersayarat dari komponen adalah normal (multivariate).

4.3 Sampling dari Sebuah Distribusi Multivariate Normal dan Estimasi Maksimum Likelihood
Multivariate Normal Likelihood
Asumsikan vektor p ×1 X 1 , X 2 , … , X n merepresentasikan sebuah random sampel dari
populasi multivariate normal dengan mean μ, dan kovarians matriks Σ . Karena X 1 , X 2 , … , X n
mutually independen dan masing-masing memiliki distribusi N p ( μ , Σ ) , joint desnsity function
dari semua observasi adalah produk dari marginal normal densiti:

(4-7)

Persamaan tersebut dapat dianggap sebagai fungsi dari μ dan Σ untuk set observasi yang tetap
x 1 , x 2 , … , x n disebut likelihood.
Banyak prosedur statistik yang menghasilkan nilai untuk parameter populasi yang ternaik
untuk menjelaskan data yang diamati. Prosedur yang baik adalah memilih parameter yang
memaksimumkan joint desitas dari observasi. Teknik ini disebut maksimum likelihood
estimation, dan nilai maksimum parameter disebut estimasi maksimum likelihood.
Substistusi nilai observasi x 1 , x 2 , … , x n pada fungsi joint densitas likelihood dan
notasikan sebagai L(μ , Σ) untuk menekankan bahwa ini adalah fungsi dari parameter populasi
yang tidak diketahui. Saat vektor x j mengandung angka spesifik hasil observasi, maka

(4-8)

Estimasi Maksimum Likelihood dari μ dan Σ


Misalkan X 1 , X 2 , … , X n adalah sebuah random sampel dari populasi normal dengan mean
μ dan kovarians Σ , maka
adalah maksimum likelihood estimator dari μ dan Σ . Nilai amatan keduanya x dan
n
(1/n) ∑ (x j −x ¿ )( x j −x) ' ¿ disebut estimasi maksimum likelihood dari μ dan Σ .
j=1

Penduga maksimum likelihood adalah besaran acak. Mereka diperoleh dengan mengganti
^ dan ^Σ yang berkorespondensi dengan random vektor
pengamatan x 1 , x 2 , … , x n untuk μ
X 1 , X 2 , … , X n. Penduga maksimum likelihood X adalah random vektor dan penduga maksimum
likelihood ^Σ adalah random matriks. Sehingga maksimum likelihood adalah

(4-9)
atau karena maka L ¿, ^Σ ¿=konstanta× ( generalized varians )−n / 2
Generalized varians menentukan ouncak daru fungsi likelihood sehingga generalized varians
adalah pengukuran secara natural dari keragaman saat populasi adalah multivariat normal.
Penduga maksimum likelihood memiliki invariance property. Misalkan θ^ adalah
penduga maksimum likelihood dari θ dan pertimbangkan mengestimasi parameter h(θ) yang
merupakan fungsi dari θ . Sehingga estimasi maksimum likelihood dari h(θ) atau sebuah fungsi
^ atau fungsi yang sama dari θ^ .
dari θ adalah h( θ)
Statistik yang Cukup
Misalkan X 1 , X 2 , … , X n adalah random sampel dari sebuah populasi multivariat normal
dengan dengan mean μ dan kovarians Σ maka X dan S adalah sufficient statistics atau statistik
cukup. Hal terpenting dalam statistik cukup untuk populasi normal adalah semua informasi
mengenai μ dan Σ dalam data matriks X terkandung dalam x dan S tidak peduli ukuran sampel n .

4.4 Distribusi Sampling dari X dan S


Distribusi sampling dari sampel kovarians matriks disebut Wishart dsitribution yang
merupakan penjumlahan dari independen produk dari vektor random multivariat normal
m
W m ( ∙|Σ )=distribusi wishart dengan m degrees of freedom=distribusi dari ∑ Z j Z 'j
j=1

dimana Z j masing-masing independen dan berdistribusi sebagai N p (0 , Σ).


Misalkan X 1 , X 2 , … , X n adalah random sampel dengan ukuran n dari distribusi normal p variate
dengan mean μ dan kovarians Σ maka:
1. X berdistribusi sebagai N p ( μ ,(1 /n) Σ)
2. ( n−1 ) S berdistribusi sebagai wishart random matrisk dengan n−1 df
3. X dan S independen
Properti Distribusi Wishart
1. Jika A1 berdistribusi sebagai W m 1 ( A1|Σ ) secara independen dari A2 yang berdsitribusi
W m 2 ( A2|Σ ) maka A1 + A2 berdistribuso sebagai W m 1 +m ( A 1+ A 2|Σ ) dengan derajat kebebasan
2

yang dijumlahkan
2. Jika A berdistribusi sebagai W m ( A|Σ ) maka CAC ' berdistribusi sebagai W m ( CAC '|CΣC ' )
Densitas tidak ada kecuali ukuran sampel n lebih besar daripada jumlah variabel p. Jika densitas
ada, maka nilai matriks A definite positif adalah

A definite positif dimana Γ (∙) adalah


fungsi gamma.

4.5 Sifat dari Sampel Besar dari X dan S


Misalkan banyaknya X ditentukan berdasarkan sebuah angka yang besar independen yang
menyebabkan V 1 ,V 2 , … , V n dimana random variabel V i merepresenstasikan akibat memiliki
pendekatan variasi yang sama. Jika X dijumlahkan maka
X =V 1 +V 2+ …+V n
maka central limit theorem diterapkan dan dapat disimpulkan bahwa X memiliki distribusi yang
mendekati normal. Univariate central limit theorem juga menyatakan bahwa distribusi sampling
dari mean X untuk ukuran sampel besar juga mendekati normal.
Law of Large Number
Misalkan Y 1 ,Y 2 , … , Y n adalah obeservasi independen dari sebuah populasi dengan mean
E ( Y i ) =μ maka
(4-10)
Konvergen dalam peluang untuk μ ketika n meningkat tanpa adanya batasan yaitu untuk
berapapun keakuratan yang ditentukan ε > 0 , P [−ε <Y <ε ] mendekati satu jika n → ∞.
Akibat dari law od large number adalah setiap X i konvergen dalam peluang untuk
μi ,i=1,2, … , p atau X konvergen dalam peluang untuk μ. Selain itu setiap sampel kovarians sik
konvergen dalam peluang untuk σ ik , i , k =1,2, … , p dan S(atau ^Σ=Sn ) konvergen dalam peluang
untuk Σ .
Misalkan X 1 , X 2 , … , X n adalah observasi yang independen dari sembarang populasi
dengan mean μ dan finite kovarians Σ maka mendekati N p (0 , Σ) untuk ukuran
sampel besar dan n relatif lebih besar dari p.
Saat n besar, S hapir sama dengan Σ dengan peluang yang tinggi. Akibatnya mengganti Σ
dengan S dalam mendekati distribusi normal untuk X akan memiliki efek yang kecil pada
perhitingan peluang selanjutnya.
memiliki ditribusi saat X berdistribusi atau sama juga saat
berdistribusi N p (0 , Σ). Distribusi adalah pendekatan distribusi sampling dari
saat X mendekati distribusi normal.
Misalkan X 1 , X 2 , … , X n adalah observasi independen dari populasi dengan mean μ dan
finite (nonsingular) kovarians Σ maka
didekati N p (0 , Σ) dan didekati untuk n− p besar (4-11)

4.6 Menaksir Asumsi Normalitas


Mengevaluasi Normalitas dari Distribusi Univariat Marginal
Misalkan x 1 , x 2 , … , x n merepresentasikan n observasi pada berapapun karakteristik
tunggal X i . Jika x(1) ≤ x ( 2) ≤ … ≤ x(n) merepresentasikan observasi setelah diurutkan berurut
magnitude dan x( j) adalah sampel kuantil. Saat x( j) jelas berbeda maka j observasi lebih kecil
atau sama dengan x( j). Proporsi j /n dari sampel pada atau sebelum x( j) sering didekati dengan

( j− 12 )/n untuk analisis.


Untuk standar distribusi normal, kuantil q( j ) didefinisikan oleh relasi
(4-12)

dimana p( j) adalah peluang untuk mendapatkan nilai kurang dari atau sama dengan q( j ) pada
penggambaran tunggal dari sebuah populasi standard normal.
Ide ini diperoleh dari sepasang kuantil (q ( j) , x ( j) ) dengan asosiasi peluang kumulatif yang

sama j− ( 12 )/n. Jika data meningkat dari populasi normal, sepasang (q ( j) , x ( j) ) akan mendekati

hubungan linier karena σ q ( j) + μ mendekati expected kuantil sampel.


Kelurusan dari Q-Q plot dapat diukur menggunakan koefisien korelasi dari titik titik
dalam plot. Koefisien korelasi dari Q-Q plot adalah sebagai berikut

(4-13)

dan powerful tes dari normalitas dapat didasarkan pada nilai ini. Kita dapat menolak hipotesis
dari normalitas pada tingkat signifikansi α jika r Q lebih kecil daripada nilai yang terdapat pada
tabel.
Mengevaluasi Normalitas Bivariat
' −1 2
Menetapkan outcome dari bivariat x adalah ( x−μ ) Σ ( x−μ ) ≤ χ 2 (0.5) memiliki peluang
0.5 sehingga kita dapat berekspetasi persentase secara kasar sama yaitu 50% dari sampel amatan
untuk tergambarkan pada elips berikut
' −1 2
semua x merupakan ( x−x ) S ( x−x ) ≤ χ 2( 0.5)
dimana kita harus mengganti μ dengan estimasinya x dan Σ−1 dengan estimasinya sendiri yaitu
−1
S . Jika tidak asumsi normalitas dapat dicurigai.
Metode yang lebih formal menentuka joint normalitas dari data set adalah berdasarkan
kuadrat generalisasi jarak dimana x 1 , x 2 , … , x n adalah sampel pengamatan.
Prosedur ini dapat digunakan tidak terbatas pada kasus bivariate, dapat digunakan untuk semua
p ≥2 .
Saat popukasi multivariat normal dan kedua n dan n− p lebih besar dari 25 atau 30 dan
2 2 2
tiap kuadrat jarak d 1 , d 2 , … , d n harus berisfat seperti chi square random variabel. Meskipun jarak
ini tidak indpenden atau berdistribusi chi square, dapat membantu untuk membuat plot. Hasil
plot ini disebut chi-square plot atau gamma plot.
Untuk membuat plot chi-square adalah sebagai berikut.
2 2 2
1. Urutkan kuadrat jarak dari yang terkecil ke yang terbesar menjadi d (1 ) ≤ d (2 ) ≤ … ≤ d(n)
2. Gambarkan sepasang (( ) )
dimana q c , p j−
1
2
/n adalah kuantil ke-

( 12 )/n dari distribusi chi-square dengan p degrees of freedom.


100 j−

Kuantil q c , p(( j− 12 ) /n) berhubungan dengan persentil atas dari distribusi chi-square.
plot harus merepresentasikan sebuah garus lurus dari titik origin
dengan slope 1.
4.7 Mendeteksi Outlier dan Cleaning Data
Langkah untuk Mendeteksi Outlier
1. Membuat dot ploy untuk setiap variabel
2. Membuat scatter plot untuk tiap pasang variabel
3. Menghitung nilai standardisasi z jk =( x jk −x k )/ √ skk untuk j=1,2 ,… , n dan tiap kolom
k =1,2 , … , p. Pelajari nilai standardisasi untuk nilai besar atau kecil
4. Hitung generalize kuadrat jarak ( x−x )' S−1 ( x−x ). Pelajari jarak ini untuk nilai yang besar
yang tidak biasa. Dalam plot chi-square dapat terjadi pada titik yang jauh dari origin.

4.8 Transformasi untuk Mendekati Normal


Transformasi yang Membantu untuk Mendekati Normalitas

Box Cox sedikit memodifikasi power transformasi dimana kontinyu dalam λ untuk x >0.

(4-14)
Observasi x 1 , x 2 , … , x n diberikan solusi Box Cox untuk power yang sesuai λ adalah solusi yang
memaksimalkan bentuk berikut ini.

(4-15)
Diketahui bahwa x(jλ) didefinisikan dalam (4-14) dan
Mentransformasi Amatan Multivariat
Misalkan λ 1 , λ2 , … , λ p adalah power transformation untuk setiap p karakteristik. Setiap λ k
dapat dipilih dengan memaksimlakan

(4-16)
dimana x 1 k , x 2 k , … , x nk adalah n observasi pada variabel ke-k .

(4-17)
Persamaan (4-17) adalah aritmatika dari rata-rata observasi yang ditransformasi. Transformsi
multivariat ke- j adalah

(4-18)

dimana adalah nilai yang secara individu memaksimumkan (4-16).


Prosedur tersbut untuk mendeskripsikan tiap distribusi marginal mendekati normal. Jika
tidak kita dapat memulai menentukan tranformasi dari dan mengiterasi terhadap
nilai
dimana secara kolektif memaksimumkan

dimana S( λ) adalah sampel kovarians matriks yang diperoleh dari

Anda mungkin juga menyukai