Anda di halaman 1dari 6

Sampel Acak, Harga Harapan Mean Sampel dan Matriks Kovarians

Dalam rangka mempelajari variabilitas sampling statistik seperti X dan S n dengan

tujuan akhir membuat kesimpulan, kita perlu membuat asumsi tentang variabel yang
diamati nilainya merupakan data set X.
Misalkan, bahwa data belum diamati, tapi kami berniat untuk mengumpulkan
set pengukuran pada variabel p. Sebelum pengukuran dilakukan, nilai-nilai mereka
secara umum tidak bisa diprediksi tepat. Akibatnya, kami memperlakukan mereka
sebagai variabel acak. Dalam konteks ini, misalkan entri ke-(j,k) dalam matriks data
yang menjadi variabel acak Xjk, setiap set pengukuran Xj pada p variabel adalah vektor
acak ( j=1, 2, ..., n; k=1, 2, ..., p), maka matriks X adalah matriks acak
X(n x p) = Error: Reference source not found = Error: Reference source not found (3-8)
Sebuah sampel acak sekarang dapat didefinisikan.
Jika baris vektor X’1, X’2,…, X’n di (3-8) merupakan pengamatan independen
dari distribusi gabungan yang sama dengan fungsi kepadatan f(x) = f(X1, X2,…, Xp),
kemudian X1, X2,…, Xn dikatakan membentuk sampel acak dari f(x). Secara
matematis, X1, X2,…, Xn bentuk sampel acak cukup jika fungsi kepadatan gabungan
mereka diberikan oleh produk f(x1) f(x2)… f(xn), di mana f(xj) = f(xj1, xj2,…,xjp) adalah
fungsi densitas untuk vektor baris ke-j.
Dua poin penting terkait definisi:
1. Pengukuran p variabel dalam percobaan tunggal, seperti X’j = [Xj1, Xj2,…,Xjp],
biasanya akan berkorelasi. (Pengukuran dari uji coba yang berbeda harus
independen)
2. Independensi pengukuran dari percobaan ke percobaan mungkin tidak
terpenuhi saat variabel tergantung pada runtun waktu, seperti dengan set p
harga saham atau p indikator ekonomi . Pelanggaran asumsi sementara dari
independensi dapat berdampak serius pada kualitas kesimpulan statistik.
Contoh berikut menggambarkan pernyataan ini
Contoh 3.5 (Memilih sampel acak) Sebagai langkah awal dalam merancang sebuah
sistem perizinan untuk memanfaatkan area kano padang gurun tanpa kepadatan
penduduk, manajer sumber daya alam mengambil survei pengguna. Daerah gurun
Total dibagi menjadi sub-wilayah, dan responden diminta untuk memberikan
informasi tentang daerah yang dikunjungi, lama tinggal, dan variabel lainnya.
Metode selanjutnya adalah untuk memilih orang secara acak (mungkin
menggunakan tabel nomor acak) dari semua orang yang memasuki daerah padang
gurun selama minggu tertentu semua orang sama-sama mungkin dalam sampel,
sehingga responden lebih populer diwakili oleh proporsi yang lebih besar dari
canoeists.
Contoh 3.6 (Sampel nonrandom) Karena kekhawatiran dengan pembuangan solid-
limbah masa depan, sebuah penelitian yang dilakukan menyangkut berat kotor
sampah kota yang dihasilkan per tahun di Amerika Serikat (Environmental Protection
Agency). jumlah yang diestimasi dikaitkan dengan x1 = limbah kertas dan kertas
karton dan x2 = sampah plastik, dalam jutaan ton, diberikan selama bertahun-tahun
yang dipilih pada Tabel 3.1.
Table 3.1 Solid Waste

Year 1960 1970 1980 1990 1995 2000 2003

x1 29.2 44.3 55.2 72.7 81.7 87.7 83.1


(paper)

x2 0.4 2.9 6.8 17.1 18.9 24.7 26.7


(plastics)

Seperti dalam Bab 1, gagasan independensi statistik memiliki implikasi


penting untuk mengukur jarak. Jarak Euclidean muncul tepat jika komponen vektor
yang independen dan memiliki varians yang sama. Misalkan kita mempertimbangkan
lokasi kolom ke-k Y’k = [X1k, X2k,…,Xnk]X, dianggap sebagai titik di n dimensi. Lokasi
titik ini ditentukan oleh distribusi probabilitas gabungan f(yk) = f(x1k, x2k,…,xnk). Ketika
pengukuran X1k, X2k,…,Xnk adalah sampel acak, f(yk) = f(x1k, x2k,…,xnk) = fk(x1k) fk(x2k)…
fk(xnk) dan, akibatnya, setiap koordinat xjk memberikan kontribusi sama ke lokasi
melalui identik marginal distribusi fk(xjk)..
Kesimpulan tertentu dapat dicapai mengenai distribusi sampling X dan S n

tanpa membuat asumsi lebih lanjut mengenai bentuk distribusi gabungan yang

mendasari variabel. Secara khusus, kita dapat melihat bagaimana X dan S n tarif

sebagai titik penduga dari populasi sesuai rerata vektor μ dan kovarians matriks Σ.

Result 3.1. X1, X 2 ,..., Xn menjadi sampel acak dari distribusi gabungan yang

memiliki mean vektor  dan matriks kovarians  . Maka X merupakan estimator


mean  , dan matriks kovariansi adalah
1
n

Itu merupakan,
 
E X  (Populasi mean vektor)

 populasi varians- matriks kovarians


 
Cov X 
1
n
  
 dibagi dengan ukuran sampel 
Untuk matriks kovarians S n ,
n 1 1
E  Sn      
n n
Demikian,
 n 
E Sn   
 n  1 

Jadi  n /( n  1) S n dalam estimator berisi tentang  , sementara S n adalah

estimator bias dengan (bias)  E ( S n )    (1 / n)

X  ( X1  X 2  ...  X n ) / n
Bukti. Sekarang, . Penggunaan berulang dari sifat harapan
di (24-2) untuk dua vektor memberikan
1 1 1 
E ( X )  E  X1 X 2 ...  X n 
 n n n 
 1   1  1 
 E  X1   E  X 2   ...  E  X n 
 n   n   n 
1 1 1 1 1 1
 E  X1   E  X 2   ...  E  X n       ...  
n n n n n n

Kemudian,
'
 n  n 
 X    X   '   1n   X j     1n   X e    
 j 1  e 1 

n
  X j    X e    '
1

n 2 j 1

1  n n 
  
Cov X  E X   X     '    
E X j    Xe    ' 
n 2  j 1e 1 

Untuk j  l , setiap entri dalam E ( X j   )( X l   ) ' adalah nol karena entri adalah

kovarians antara komponen X j dan komponen X l , dan ini adalah independen. [Lihat
Latihan 3.17 dan (29/2).]
Karena itu,
1  n 
Cov X     E ( X j   )( X j   ) ' 
n 2  j 1 

karena  E (X j   )(X l   ) ' adalah populasi umum kovarians matriks untuk

masing-masing Xj, kita memiliki

1  n 
Cov X   
 E Xj  Xj   '   12   
    
 ...  
n 2  j 1  n
n hal


1
2
 n    1 
n n
Untuk mendapatkan nilai yang diharapkan dari Sn, pertama kita perhatikan
bahwa ( X ij  X i )(X jk  X k ) adalah (i , k ) th elemen dari (X j  X )( X j  X) ' . Matriks

mewakili jumlah kuadrat dan cross product kemudian dapat ditulis sebagai
n n  n 
  X j  X  X j  X    X j  X X ' j     X j  X    X 
' '

j 1 j 1  j 1 

n
'
  X j X ' j  nX X
j 1
n n
  X j  X   0 dan
'
karena n X   X ' j . Oleh karena itu, nilai yang diharapkan
j 1 i 1

adalah

 
 n '
n
 E   X j X ' j  n X X    E X j X ' j  nE  X X 
'
   
 j 1  j 1

Untuk setiap vektor acak V dengan E (V)  v dan Cov(V)   v , kita memiliki


E VV '    v  v 'v . (lihat latihan 3.16.) Akibatnya,
' 1
E ( X j X ' j )     ' and E (X X ) 
n
   '

Menggunakan hasil ini, kita memperoleh

 E X j X ' j   nE X X   n


n
' 1 
  '  n    '   (n  1)
j 1 n 

 n 
Dan dengan demikian, maka S n  (1 / n)  X j X ' j  n X X  , menjadikan
'

 j 1 
(n  1)
E  Sn   
n
n
Hasil 3.1 menunjukkan bahwa entri (i, k ) th, (n  1)   X ji  X i  X jk  X k  , dari
1
j 1

 n /(n  1) S n adalah estimator objektif dari  ik . Namun, penyimpangan sampel

standart deviasi sij , dihitung dengan n atau n  1 sebagai pembagi, tidak

estimator berisi dari jumlah populasi sesuai  ii . Selain itu, koefisien korelasi rik


tidak berisi dari jumlah populasi ik . Namun, bias E sii   ii , atau E  rik   ik , 
biasanya dapat diabaikan jika ukuran n sampel cukup besar.
Pertimbangan bias memotivasi Definisi stighly modifikasi dari matriks sampel
varians-kovarians. Hasil 3.1 memberikan kita dengan estimator berisi S dari  :
(Rekomendasi) Sample Variance-Matriks Kovarians

1 n
 n 
S  Sn  
 Xj X Xj X
'
 
 n 1  n  1 j 1
n
Disini S, tanpa subscript, mempunyai (i, k ) th entri (n  1)   X ji  X i  X jk  X k  .
1
j 1

definisi sampel kovarians umumnya digunakan dalam banyak uji statistik multivariat.
Oleh karena itu, itu akan menggantikan S n sebagai matriks sampel kovarian di
sebagian materi sepanjang sisa buku ini.