Salinanterjemahanstatis

disebut fungsi, sebagai
p(y) = y/6, y = 1, 2, 3,
p(y) = 0, untuk semua nilai-nilai lain dari y.
Hal ini dapat ditampilkan dalam bentuk grafik seperti ditunjukkan pada Gambar. 2.1.
0,5
Probabilitas
0,4
0,3
0,2
0,1
12
Y
3
Gambar 2.1
Bar Chart
Probabilitas
Distribusi pada
Tabel 2.6
Sifat Distribusi Probabilitas Diskrit
Setiap rumus p(y)yang memenuhi kondisi berikut nilai-nilai diskrit
darivariabel Y dapat dianggap sebagai distribusi probabilitas:
0 p(y) 1
_
p(y) = 1.
Semua distribusi probabilitas yang disajikan di atas terlihat memenuhi kedua kondisi.
Tindakan deskriptif untuk Distribusi Probabilitas
Karena distribusi probabilitas empiris dan teoritis dapat berdua akan dijelaskan
oleh tabel yang sama frekuensi relatif dan / atau histogram, adalah logis
untuk mengharapkan bahwa deskriptor numerik dari keduanya sama. Sejak teoritis
distribusidasarnya menggambarkan suatu populasi, deskriptor distribusi
tersebutdisebut parameter.Sebagai contoh, kami menggunakan huruf Yunani dan
74
untuk mean dan deviasi standar dari distribusi probabilitas teoritis
seperti yang kita lakukan untuk distribusi probabilitas empiris.
Numerik parameter dari distribusi probabilitas diskrit dihitung
dengan menggunakan rumus yang sama dengan yang digunakan untuk distribusi probabilitas
empiris
ditunjukkan pada Bagian 1.5. Secara khusus,
=
_
yp(y),
dan varians, yang kita dilambangkan dengan 2,dihitung sebagai
2 =
_
(y- )2 p(y),
dimana jumlah lebih dari semua nilai-nilai Y.
Sebagai contoh, jika angka 20% dibahas dalam contoh campak berlaku,
rata-rata jumlah individu dalam pasangan setelah telah campak dihitung
dari distribusi probabilitas teoritis adalah
= 0(0.64) + 1(0.32) + 2(0.04) = 0.4.
Artinya, rata-rata jumlah individu per pasangan memiliki campak punya adalah
0,4 untuk seluruh kota. Varians adalah
2 = (0 - 04.)2(064.) + (1 - 04.)2(032.) + - 0(2.4)2(004.)
= 0.1024 + 0.1152 + 0.1024 = 0.320,
dan = 0.566.
Mean dari distribusi probabilitas sering disebut nilaiyang diharapkan
dari variabel acak. Sebagai contoh, jumlah yang diharapkan dari individu dalam
pasangan telah memiliki campak adalah 0,4. Ini adalah jarak jauh harapan dalam
artibahwa jika kita sampel sejumlah besar pasangan, yang diharapkan (rata-rata)
jumlah individu telah memiliki campak akan 0,4. Perhatikan bahwa diharapkan
nilaiyangdapat (dan sering) nilai bahwa variabel acak mungkin tidak pernah mencapai.
Solusi untuk Contoh 2.1 Kita sekarang dapat memecahkan masalah yang dihadapi spesialis
dalam Contoh 2.1. Variabel acak adalah biaya penggantian sekrup di
bagian tunggal untuk empat hasil, yang kita menghitung sebagai berikut:
Hasil Probabilitas Biaya
Screw Sebuah cacat 0,008$ 0.23
Screw Brusak 0,004 $ 0,69
Kedua sekrup yang rusak(0,008) (0,004) = 0,000032
sekrup tidak rusak 1-0. 008-0. 004-0.000.032 $ 0.00
= 0.987.968
Kami sekarang dapat menemukan diharapkan biaya penggantian sekrup yang rusak pada satu
bagian:
= 0.23(0.008) + 0.69(0.004) + 0.92(0.000.032) + 0(0.987.968) = 0.00.463.
Ada 1000 bagian diproduksi dalam sehari; maka biaya harian yang diharapkan adalah
1000 ($0.00.463)=$4.63.
75
The Discrete Distribusi Uniform
Misalkan nilai yang mungkin dari suatu variabel acak dari percobaan adalah
seperangkatnilai integer terjadi dengan frekuensi yang sama. Artinya, bilangan bulat 1
sampai k terjadi dengan probabilitas yang sama. Kemudian peluang mendapatkan setiap
bilangan bulat tertentu dalam rentang yang 1/k dan distribusi probabilitas dapat
ditulis,.
p(y) = 1/k, y = 1, 2 . . , K.
Ini disebut seragamdiskrit (atau persegi panjang) distribusi, dan dapat
digunakan untuk semua populasi jenis ini, dengan k tergantung pada rentangyang ada
nilaidari variabel. Perhatikan bahwa kita mampu mewakili banyak distribusi yang berbeda
dengan satu fungsi dengan menggunakan surat(k dalam hal ini) untuk mewakili
nilaisewenang-wenang karakteristik penting. Karakteristik ini adalah satu-satunya
hal yang berbeda antara distribusi, dan disebut parameter dari
distribusi.Semua distribusi probabilitas yang ditandai dengan satu atau lebih parameter,
dan parameter deskriptif, seperti mean dan varians, yang
fungsi dari parameter dikenal. Misalnya, untuk distribusi ini
= (k + 1)/2
dan
2 = (k2 - 1)/12.
Sebuah contoh sederhana dari sebuah eksperimen menghasilkan variabel acak yang memiliki
distribusi seragam diskrit terdiri dari melempar dadu. Biarkan Y menjadi
variabel acak menggambarkan jumlah bintik-bintik pada wajah atas mati.
Kemudian
p(y) = 1/6, y = 1, 2,.. . , 6,
yang merupakan distribusi seragam diskrit dengan k = 6. Rerata Y adalah
= (6 + 1)/2 = 3.5,
dan varians adalah
2 = (36 - 1)/12 = 2.917.
Catatan bahwa ini adalah contoh di mana variabel acak tidak pernah dapat mengambil
nilairata-rata.
CONTOH 2.5 Simulasi Distribusidistribusi seragam diskrit sering
digunakan dalam studi simulasi. Sebuah studi simulasi adalah persis apa yang terdengar
seperti,
sebuah studi yang menggunakan komputer untuk mensimulasikan fenomena nyata atau proses
sedekatmungkin. Penggunaan studi simulasi sering dapat menghilangkan kebutuhan
untuk percobaan mahal dan juga sering digunakan untuk mempelajari masalah di manayang
sebenarnya
eksperimenadalah mustahil.
Ketika proses yang disimulasikan memerlukan penggunaan distribusi probabilitas
untuk menggambarkan hal itu, teknik ini sering disebut sebagai metode Monte Carlo.
76
Sebagai contoh, metode Monte Carlo telah digunakan untuk mensimulasikan tabrakan
antara foton dan elektron, peluruhan isotop radioaktif, dan
efekmenjatuhkan bom atom di kota.
Bahan dasar dari simulasi Monte Carlo adalah generasi acak
nomor(lihat, misalnya, Owen, 1962). Nomor acak dapat, misalnya,
dihasilkan terdiri dari satu digit memiliki distribusi seragam diskrit
dengan k = 10. Menggunakan angka 0 sampai 9, angka acak tersebut dapat digunakan
untuk mensimulasikan hasil dari Contoh 2.2. Untuk setiap wawancara simulasi kita
menghasilkan angka acak. Jika nilai digit adalah 0 atau 1, hasilnya adalah memiliki
campak masa kanak-kanak; sebaliknya (digit 2 sampai 9) hasilnya tidak.
Hasil memiliki kemudian terjadi dengan probabilitas 0,2. Hasil
percobaanyang melibatkan beberapa tunggal kemudian disimulasikan dengan menggunakan
sepasangtersebut,
bilangan bulat satu untuk setiap individu.
solusi StudiSimulasi biasanya melibatkan sejumlah besarsimulasi,
peristiwa tetapi untuk tujuan ilustrasi kita hanya menggunakan 10 pasang. Asumsikan bahwa
kita
telah memperoleh berikut 10 pasang nomor acak (dari tabel atau
yang dihasilkan oleh komputer):
15 38 68 39 49 54 19 79 38 14
Pada pasangan pertama (15), digit pertama 1 berarti satu
memiliki,sedangkankedua5menunjukkanbelum;
digit oleh karena itu, bagi pasangan ini, y = 1. Untuk
pasangan kedua, y = 0, dan sebagainya. Distribusi frekuensi relatif untuksimulasi
sampelinisepuluh pasang ditunjukkan pada Tabel 2.7.
Hasil ini agak berbeda dari distribusi teoritis yang diperoleh
dengan penggunaan teori probabilitas karena variabilitas yang cukup diharapkan
dalam sampel kecil. Sebuah sampel 1000 akan datang lebih dekat tetapi akan tetap
tidak menghasilkan distribusi teoritis persis.
The Binomial Distribusi
Dalam beberapa contoh dalam bab ini, hasil sudah termasuk hanya dua kemungkinan.
Artinya, seorang individu memiliki atau tidak memiliki campak masa kanak-kanak, koin
mendarat dengan kepala atau ekor, atau spesimen yang diuji tidak atau tidak memilikikanker.
sel-sel Hasil dikotomis ini sangat umum dalam karya eksperimental. Sebagai
contoh, kuesioner cukup sering memiliki pertanyaan yang membutuhkan ya atau tidak
respon, tes medis memiliki hasil positif atau negatif, bank baik berhasil
atau gagal setelah 5 tahun pertama, dan sebagainya. Dalam setiap kasus ini, ada
dua hasil yang kami sewenang-wenang akan mengadopsi label generik sukses
dan kegagalan. The campak contoh adalah eksperimen seperti di mana setiap individu
dalam pasangan adalah trial, dan setiap percobaan menghasilkan hasil dikotomis
(ya atau tidak).
Distribusi binomial probabilitasmenggambarkan distribusiacak
variabel Y,jumlah keberhasilan dalam n percobaan, jika percobaan memenuhi
77
kondisi berikut:
1. Percobaan terdiri dari n. uji identik
2. Setiap hasil uji coba di salah satu dari dua hasil saling eksklusif, satu berlabel
success,yang lain gagal.
3. Probabilitas sukses pada percobaan tunggal adalah sama dengan p.Nilai p
tetap konstan sepanjang percobaan.
4. Uji coba independen.
Rumus atau fungsi untuk menghitung probabilitas untukprobabilitas binomial
distribusidiberikan oleh
p(y) = n!
y!(n- y)!
py(1 - p)n-y,untuk y = 0, 1,.. . , N.
Notasi n!,Disebut faktorial dari n,adalah jumlah yang diperoleh dengan mengalikan
n oleh setiap bilangan bulat nol kurang dari n.Misalnya 7! = 7 6 5 4 3 2 1 =
5040. Menurut definisi, 0! = 1.
Penurunan Binomial Fungsi Probabilitas Distribusi
binomial Distribusi adalah salah satu yang dapat diturunkan dengan penggunaan sederhana
aturanprobabilitasyang disajikan dalam bab ini. Meskipun menghafalini
derivasitidak diperlukan, bisa mengikutinya memberikan wawasan
penggunaanaturan probabilitas. Rumus untuk distribusi probabilitas binomial
dapat dikembangkan dengan terlebih dahulu mengamati bahwa p(y)adalah probabilitas
mendapatkan
persis y keberhasilan dari n percobaan. Kita tahu bahwa ada n uji coba sehinggaada
harus(n - y)kegagalan yang terjadi pada waktu yang sama. Karena percobaan
independen,probabilitas y keberhasilan adalah produk dari
probabilitaskeberhasilan y, individu yang merupakan py dan probabilitas(n- y)kegagalan
adalah (1 - p)n-y.Maka probabilitas y keberhasilandan(n- y)kegagalan adalah
py(1 - p)n-y.
Namun, ini adalah probabilitas hanya salah satu dari banyak urutan y
keberhasilandan(n- y)kegagalan dan definisi p(y)adalah probabilitas
setiap urutan y keberhasilandan(n - y)kegagalan. Kita bisa menghitung
jumlahurutan tersebut dengan menggunakan aturan penghitungan disebut kombinasi.Aturan
ini mengatakan
bahwa ada
_
n
y
_
= n!
y!(n- y)!
cara yang bisa kita dapatkan y item dari n item. Jadi, jika kita memiliki 5 cobaan ada
5!
2 (5-2)!!
=54321
(2 1) (3 2 1)
= 10
cara mengatur 2 keberhasilan dan kegagalan 3. (Pembaca mungkin ingin menuliskan
ini dan memverifikasi bahwa ada sepuluh dari mereka.)
Probabilitas y keberhasilan, maka, diperoleh dengan aplikasi berulang
dari aturan penambahan. Artinya, kemungkinan y keberhasilan diperoleh dengan mengalikan
probabilitas urutan dengan jumlah urutan mungkin,
sehingga rumus di atas.
78
Perhatikan bahwa contoh campak memenuhi kondisi untuk percobaan binomial.
Artinya, kita label memiliki campak anak usia memiliki sukses,
jumlahpercobaan adalah dua (pasangan adalah eksperimen, dan individu sidang), dan
p = 0.2, menggunakan nilai dari studi kesehatan nasional. Kami juga menganggap bahwa
setiap individu memiliki kesempatan yang sama memiliki campak memiliki sebagai seorang
anak, maka p
adalah konstan untuk semua cobaan, dan kami sebelumnya telah mengasumsikan bahwa
kejadian
campak adalah independen antara individu. Variabel acak Y adalah
jumlahdi setiap pasangan yang telah memiliki campak. Menggunakan distribusi
fungsibinomial,kita memperoleh
P(Y = 0) = 2!
0 (2 - 0)!!
0(.2)0(08.)2-0 = 0.64,
P(Y = 1) = 2!
1 (2 - 1)!!
0(.2)1(08.)2-1 = 0.32,
P(Y = 2) = 2!
2 (2 - 2)!!
0(.2)2(08.)2-2 = 0.04.
Probabilitas ini setuju persis dengan mereka yang diperoleh sebelumnya dari
prinsip-prinsip dasar, sebagaimana mestinya.
Perhitungan yang melibatkan distribusi binomial dapat menjadi sangat membosankan,
terutama jika n besar. Untungnya, pendekatan sampel besar yang
bekerja dengan baik bahkan sampel cukup besar tersedia. Penggunaanini
pendekatandisajikan dalam Bagian 2.5 dan aplikasi tambahan disajikan
dalam bab-bab berikutnya.
Distribusi binomial hanya memiliki satu parameter, p (n biasanya dianggap
nilai tetap). Mean dan varians dari distribusi binomial yang
dinyatakan dalam p sebagai
= np,
2 = np(1 - p).
Misalnya studi kesehatan kita, n = 2 dan p = 0.2 memberikan
= 2(0.2) = 0.4,
2 = (2)(0.2)(0.8) = 0.32.
Sekali lagi hasil ini identik dengan nilai-nilai yang sebelumnya dihitung untukini.
contoh
Poisson Distribusi
Distribusi binomial menggambarkan situasi di mana pengamatan ditugaskan
ke salah satu dari dua kategori, dan pengukuran menarik adalah frekuensi
terjadinya pengamatan di setiap kategori. Beberapa data secara alami
terjadi sebagai frekuensi, tetapi tidak harus memiliki kategori tugas.
Contoh data tersebut termasuk jumlah bulanan kecelakaan mobil yang fatal
di sebuah kota, jumlah bakteri pada slide mikroskop, jumlah
79
ikan yang ditangkap di pukat, atau jumlah panggilan telepon per hari untuk switchboard.
Dalam arti frekuensi tersebut dapat dianggap sebagai data binomial
tanpakegagalan. Analisis data tersebut dapat diatasi dengan menggunakan
distribusiPoisson.
Pertimbangkan variabel jumlah kecelakaan mobil yang fatal pada
bulan tertentu.Sejak kecelakaan dapat terjadi setiap sepersekian detik waktu, ada dasarnya
jumlah tak terbatas kemungkinan untuk kecelakaan terjadi. Jika kita menganggap
acara kecelakaan fatal terjadi sebagai sebuah keberhasilan (!), Kami memiliki percobaan
binomial
dimana n tak terbatas. Namun, kemungkinan kecelakaan fatal
yang terjadi pada suatu instan pada dasarnya adalah nol. Kami kemudian memiliki percobaan
binomial
dengan sampel dekat tak terbatas dan hampir nol nilai untuk p,tapi np,
jumlah kejadian, adalah jumlah terbatas. Sebenarnya, formula untuk
distribusiPoisson dapat diturunkan dengan menemukan batas dari rumus binomial
sebagai n mendekati tak terhingga dan p mendekati nol (Wackerly et al., 1996).
Rumus untuk menghitung probabilitas untuk distribusi Poisson adalah
P(y) = ye-
y!
, Y = 0, 1, 2,.. . ,
Di mana y merupakan jumlah kejadian dalam jangka waktu tertentu dan adalah
rata-rata jumlah kejadian dalam periode waktu yang sama. Huruf e adalah
konstan Naperian, yang kira-kira sama dengan 2,71828. Untuk Poisson
distribusibaik mean dan varians memiliki nilai .
Penggunaan rumus untuk menghitung probabilitas tidak terlalu sulit untuk kecil
y dan, terutama ketika menggunakan kalkulator dengan kemampuan eksponensial.
Tabel untuk rentang terbatas tersedia (misalnya, Ott, 1993, Lampiran
Tabel 7).
CONTOH 2.6 Operator jalan tol dan jembatan membutuhkan informasi untuk tollbooths staf
sehingga dapat meminimalkan antrian (garis menunggu) tanpa menggunakan terlalu banyak
operator.
Asumsikan bahwa dalam periode waktu tertentu jumlah mobil per menit mendekati
kepabeanan yang memiliki rata-rata 10. insinyur Lalu Lintas tertarik dengan
probabilitas yang mendekati persis 11 mobil pabean di menit dari 12
siang ke 00:01.
p(11) = 1011e-10
11!
= 0.114.
Dengan demikian, ada sekitar kesempatan 11% bahwa tepat 11 mobil akan mendekatiyang
pabeanmenit pertama setelah tengah hari.
Asumsikan bahwa antrian tidak dapat diterima akan berkembang ketika 14 atau lebih mobil
mendekati
pabean dalam setiap menit. Probabilitas suatu peristiwa tersebut
dapatdihitung sebagai jumlah dari probabilitas 14 atau lebih mobil mendekati
pabean, atau lebih praktis dengan menghitung pelengkap. Artinya,
P(Y 14) = 1 - P(Y 13). Kita dapat menggunakan rumus di atas atau komputer
paketdengan opsi Poisson seperti Microsoft Excel. Menggunakan Excel kita
menemukan P(Y 13) = 0.8645 atau probabilitas yang dihasilkan adalah 1-0.8645 = 0.1355.
80
2.4 Distribusi Probabilitas Kontinu
Ketika variabel acak kepentingan dapat mengambil pada setiap nilai dalam interval, hal itu
disebut variabel acak kontinu. Variabel acak kontinu berbeda dari
variabel-variabel acak diskrit, dan distribusi probabilitas akibatnya terus menerus
berbeda dari yang diskrit dan harus diperlakukan secara terpisah. Sebagai contoh,
setiap variabel acak kontinu memiliki tak terbatas, jumlah tak terhitung kemungkinan
nilai (nilai dalam interval). Oleh karena itu, kita harus mendefinisikan kembali konsep kita
tentang frekuensi relatif untuk memahami distribusi probabilitas kontinu.
Daftarberikut akan membantu dalam pemahaman ini.
Karakteristik dari Probabilitas Distribusi berkelanjutan
Karakteristik dari distribusi probabilitas kontinu adalah sebagai berikut:
1. grafik distribusi (setara dengan grafik batang untuk
distribusi diskrit)biasanya kurva mulus. Sebuah contoh khas terlihat pada Gambar. 2.2.
Kurva digambarkan oleh sebuah persamaan atau fungsi yang kita sebut f (y).ini
Persamaansering disebut kepadatanprobabilitas dan sesuai dengan
p(y)kita digunakan untuk variabel diskrit pada bagian sebelumnya (lihattambahan
diskusiberikut).
2. Total luas di bawah kurva adalah salah satu. Hal ini sesuai dengan jumlah dari
probabilitasyang sama dengan 1 dalam kasus diskrit.
3. Daerah antara kurva dan sumbu horisontal dari nilai untuk nilai
b merupakan probabilitas dari variabel taking acak pada nilai dalam
interval(a, b).Pada Gambar. 2.2 area di bawah kurva antara nilai -1
dan0.5, misalnya, adalah probabilitas menemukan nilai dalam interval ini.
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
-3 -2 -1 0
f
Y
123
Gambar 2.2
Grafik dari
berkelanjutan
Distribusi
81
ini sesuai dengan menambahkan probabilitas hasil yang saling eksklusif
dari distribusi probabilitas diskrit.
Ada kesamaan tetapi juga beberapa perbedaan penting antarakontinu
distribusi probabilitasdan diskrit. Beberapa yang paling penting
perbedaanadalah sebagai berikut:
1. Persamaan f (y)tidak memberikan probabilitas bahwa Y = y seperti yang dilakukan p(y)
dalam kasus diskrit. Hal ini karena Y dapat mengambil jumlah tak terbatas
nilai (nilai dalam interval), dan oleh karena itu tidak mungkin untuk menetapkan
nilaiprobabilitas untuk setiap y.Bahkan nilai f (y)bukan merupakan probabilitas
sama sekali; maka f (y)dapat mengambil nilai non-negatif, termasuk nilai-nilai yang lebih besar
dari 1.
2. Karena daerah di bawah setiap kurva sesuai dengan titik tunggal (untuk
tujuan praktis) nol, peluang mendapatkan persis tertentu
nilaiadalah nol. Dengan demikian, untuk variabel acak kontinu, P(a Y b)
dan P(a <Y <b)adalah setara, yang tentunya tidak benar untukdiskrit.
distribusi
3. Menemukan daerah di bawah kurva mewakili distribusi probabilitas kontinu
melibatkan penggunaan kalkulus dan dapat menjadi cukup sulit. Untuk beberapa
distribusi, daerah bahkan tidak dapat langsung dihitung dan memerlukankhusus.
teknik numerik Untuk alasan ini, daerah yang dibutuhkan untuk menghitung probabilitas
untuk distribusi yang paling sering digunakan telah dihitung
dan muncul dalam bentuk tabel dalam hal ini dan lainnya teks, serta dalam buku-buku
yangsepenuhnya tabel (misalnya, Pearson dan Hartley, 1972). Tentu saja
program komputer statistik dengan mudah menghitung probabilitas tersebut.
Dalam beberapa kasus, keterbatasan rekaman mungkin ada yang membuatacak kontinu
variabelterlihat seolah-olah mereka adalah diskrit. Putaran-off dari nilai-nilai dapat
mengakibatkanvariabel yang terus menerus diwakili secara diskrit. Misalnya,
berat badan orang hampir selalu dicatat untuk pound terdekat,
meskipunberat variabel secara konseptual terus menerus. Oleh karena itu, jika variabel
kontinu, maka distribusi probabilitas yang menggambarkan itu terus menerus,
terlepas dari jenis prosedur perekaman. Seperti dalam kasus distribusi diskrit,
beberapa distribusi kontinu umum digunakan dalamstatistik.
inferensi Bagian ini membahas sebagian besar distribusi yang digunakan dalam teks ini.
Continuous Uniform Distribusi
Sebuah contoh yang sangat sederhana dari distribusi kontinu adalah seragam kontinyu
atau distribusi persegi panjang. Asumsikan variabel acak Y memiliki probabilitas
distribusiyang ditunjukkan pada Gambar. 2.3. Persamaan
f (y) = 1/(b - a), sebuah y b
= 0, di tempat lain
menggambarkan distribusi seperti variabel acak. Perhatikan bahwa persamaan ini
menggambarkan garis lurus, dan daerah di bawah garis ini di atas sumbu horisontal
82
Gambar 2.3
Uniform
Distribusi
berbentuk persegi panjang seperti dapat dilihat oleh grafik pada Gambar. 2.3. distribusi
Parameteradalah a dan b,dan grafik adalah persegi panjang dengan lebar(b - a)dan
tinggi 1/(b - a).
Distribusi ini dapat digunakan untuk menggambarkan banyak proses, termasuk,
misalnya,kesalahan karena pembulatan. Dengan asumsi bahwa setiap bilangan real
mungkin terjadi, pembulatan ke seluruh nomor terdekat memperkenalkan kesalahan round-off
yang nilainya sama mungkin antara = -0.5 dan b = +0.5.
distribusi seragam terus menerus juga banyak digunakan dalamsimulasi
studidengan cara yang sama dengan distribusi seragam diskrit. Area di bawah
kurva distribusi rectangular dapat dihitung dengan menggunakan geometri.
Sebagai contoh, total area di bawah kurva hanya lebar kali
tinggi atau
luas = 1
(b - a)
(b - a) = 1.
Dengan cara yang sama, probabilitas lainnya dihitung dengan mencari luas
persegi panjang yang diinginkan. Sebagai contoh, probabilitas P(c <Y <d),di mana kedua
c dan d berada di interval(a, b),sama dengan(d - c)/(b - a).
Prinsip kalkulus digunakan untuk menurunkan rumus untuk mean dan varians
dari distribusi persegi panjang dalam hal distribusi parameter a dan b
dan
= (a + b)/2
dan
2 = (b - a)2/12.
Normal Distribusi
Sejauh distribusi probabilitas kontinu yang paling sering digunakan adalahnormal
distribusiatau Gaussian. Distribusi normal digambarkan oleh persamaan
f (y) = 1
2
e-(y-)2/2 2, - <y <,
dimana e 2.71.828, yang Naperian konstan.
Fungsi ini cukup rumit dan tidak pernah langsung digunakan untuk menghitung
probabilitas. Namun, beberapa fitur menarik dapat ditentukan dari
83
Gambar 2.4
Normal Standard
Distribusi
fungsi tanpa benar-benar mengevaluasi itu. Fitur-fitur ini dapat diringkas sebagai
berikut:
1. variabel acak Y dapat mengambil nilai apapun dari - sampai +.
2. Distribusi hanya memiliki dua parameter dan 2 (atau ).Ini adalah, pada kenyataannya,
mean dan varians (atau deviasi standar) dari distribusi. Dengan demikian,
mengetahui nilai-nilai kedua parameter benar-benar menentukan
distribusi.Fakta bahwa parameter ini juga dua yang paling sering
digunakan langkah-langkah deskriptif adalah alasan utama mengapa distribusi normal
begitupopuler.
3. Distribusi adalah lonceng berbentuk dan simetris terhadap mean. Hal ini terlihat
dalam grafik distribusi normal dengan = 0 dan = 1, diberikan pada
Gambar. 2.4, dan telah menghasilkan distribusi normal yang disebut sering
sebagai kurva lonceng.
Penggunaan utama dari distribusi probabilitas adalah untuk menemukan probabilitas
terjadinyanilai-nilai tertentu dari variabel acak. Sebagai contoh, jika
diketahuibahwa bobot dari anak laki-laki empat tahun dapat digambarkan dengan normal
distribusidengan rata-rata 40 lbs dan standar deviasi 3, itu mungkin
menarik untuk menentukan probabilitas bahwa secara acakempat tahun
anakmemiliki berat kurang dari 30 lbs. Sayangnya fungsi sebenarnya menggambarkan
distribusiprobabilitas normal (dan kebanyakan distribusi kontinu lainnya)
terlalu rumit untuk mudah digunakan untuk menghitung probabilitas. Oleh karena itu,tersebut
probabilitasharus diperoleh dengan menggunakan tabel atau oleh program komputer
yang, kebetulan, hampir selalu menggunakan pendekatan numerik untuk yang sebenarnya
fungsidistribusiuntuk menghitung probabilitas.
Meskipun sebagian besar probabilitas yang terkait dengan berbagai kesimpulan statistik
yang dihasilkan oleh program komputer yang melakukan analisis, penggunaan
meja untuk memperoleh probabilitas dari variabel acak terdistribusi normal yang
84
disajikan di sini dalam beberapa detail. Kami melakukan ini tidak begitu banyak karena metode
ini
seringdigunakan, melainkan untuk membantu dalam penafsiran probabilitas yang dihasilkan
oleh output komputer.
Karena setiap distribusi normal tertentu didefinisikan oleh dua parameter,
dan ,masing-masing dapat mengambil jumlah tak terbatas nilai-nilai, akan terlihat
bahwa kita perlu jumlah tak terbatas tabel. Untungnya distribusi normal dapat
dengan mudah menjadi standar,yang memungkinkan kita untuk menggunakan satu tabel untuk
setiapnormal.
distribusi
Semua probabilitas (daerah di bawah kurva) terkait dengan nilai tertentu dari
variabel terdistribusi secara normal berhubungan persis dengan jarak dari nilai itu
untuk mean()yang diukur dalam standar deviasi()unit. Misalnya
mempertimbangkan dua distribusi normal ditunjukkan pada Gambar. 2,5 dan 2,6. Yang di
0,04
0,03
0,02
0,01
0,00
f
-20 -10 0 10
Y
20 30 40
Gambar 2.5
LuasNormal.
Distribusi Area ke
kanan dari 20 dengan
= 10 dan = 10
0,20
0,15
0,10
0,05
0.00
f
94 96 98 100
Y
102 104 106
Gambar 2.6
LuasNormal.
Distribusi Daerah ke
Kanan dari 102 dengan
= 100 dan = 2
85
Gambar. 2,5 memiliki = 10 dan = 10, dan satu di Gambar. 2,6 memiliki = 100 dan = 2.
Dalam
kedua tokoh, daerah yang diarsir adalah bahwa untuk Y> (+);yaitu, Y> (10+10) = 20
untuk Gambar. 2,5 dan Y> (100 + 2) = 102 untuk Gambar. 2.6. Penampilan dari
plot (didukung oleh perhitungan matematis) menunjukkan bahwa kedua daerah adalah
sama. Bidang bunga untuk kedua variabel adalah mereka ke kanan
satu standar deviasi dari mean. Ini adalah karakteristik ini dari normal
distribusiyang memungkinkan penggunaan satu meja untuk menghitung probabilitas untuk
distribusi normal dengan mean dan varians. Tabel digunakan untukini
tujuanadalah bahwa untuk = 0 dan = 1, yang disebut normal
distribusistandar.Variabel acak yang terkait dengan distribusi ini biasanya
dilambangkan dengan Z.Area untuk distribusi normal untuk suatu variabel acak Y dengan
mean dan varians ditemukan dengan melakukan transformasi sederhana
asaldan skala. Transformasi ini, yang disebut transformasi standardisasi,
mengubah variabel Y,yang memiliki berarti dan standardeviasi, ke
variabel, Zyang memiliki distribusi normal standar. Transformasi ini
ditulis
Z=Y-
.
Menghitung Peluang Menggunakan Tabel Distribusi Normal
Penggunaan tabel probabilitas untuk distribusi normal diberikan di sini dalam
beberapa detail. Meskipun Anda akan jarang menggunakan prosedur ini setelah
meninggalkanini,
bab mereka akan membantu Anda memahami dan menggunakan tabel probabilitas
distribusilainnya serta menghargai apa komputer output berarti.
Sebuah meja probabilitas untuk distribusi normal standar diberikan dalam
Lampiran Tabel A.1. Tabel ini memberikan daerah di sebelah kanan (lebih besar dari)
Z untuk nilai z dari -3.99 untuk +4.00. Karena bentuk dari
distribusi normal,daerah dan karenanya nilai-nilai probabilitas hampir nol di luar
kisaran ini. Gambar 2.7 menggambarkan penggunaan meja untuk mendapatkan standar
0,4
0,3
0,2
0,1
0,0-3 -2 -1 0 1 2 3
Z
f
Gambar 2.7
Area ke Hak
0,9
86
probabilitas normal. Sesuai dengan tabel, daerah di sebelah kanan z = 0.9 adalah
0,1841, yang merupakan daerah berbayang pada Gambar. 2.7.
Tentunya kita tidak selalu ingin daerah ke kanan. Karakteristik
dari distribusi normal memungkinkan aturan berikut untuk membuat meja kerja:
1. Sejak distribusi normal standar simetris tentang nol, P (Z>z)=
P(Z <-z).Ini diilustrasikan kemudian pada Gambar. 2.11 mana dua daerah yang diarsir
adalah sama.
2. Karena daerah di bawah kurva seluruh adalah satu,
P(Z <z) = 1 - P (Z> z).
Hal ini berlaku terlepas dari nilai z.
3. Kita dapat menambahkan atau mengurangi daerah untuk mendapatkan probabilitas yang
terkait dengan
kombinasinilai-nilai. Sebagai contoh,
P(-1 <Z <15.) = P (Z> -1) - P (Z> 15.) = 0.8413-0.0668 = 0.7745.
Hal ini digambarkan dalam Contoh 2.9.
Dengan aturan ini tabel normal baku dapat digunakan untuk menghitung setiap
probabilitas yang diinginkan terkait dengan distribusi normal standar, dan
denganbantuan transformasi standarisasi, untuk setiap distribusi normal
dengan mean dikenal dan standar deviasi.
CONTOH 2.7 Cari daerah di sebelah kanan 2.0; yaitu, P(Z 2.0).
Solusi Ini membantu untuk menggambar seperti Gambar. 2.8. Daerah yang diinginkan
adalaharea yang teduh, yang bisa langsung diperoleh dari tabel sebagai 0,0228.
Oleh karena itu, P (Z> 2.0) = 0.0228.
0,4
0,3
0,2
0,1
0,0
f
-3 -2 -1 0
Z
123
Gambar 2.8
Area ke Hak
2.0
87
Cari area di sebelah kiri -0.5; yaitu, P(Z 0<-.5).
Solusi Dalam Gambar. 2.9 ini adalah daerah yang teduh. Dari tabel daerah dikanan
sebelah -0.5 adalah 0,6915. Probabilitas yang diinginkan adalah daerah ke kiri; yaitu,
(1 - 06915.) = 0.3085. Atau, kita dapat menggunakan simetri darinormal
distribusidan menemukan daerah setara di sebelah kanan +0.5.
0,4
0,3
0,2
0,1
0,0
f
-3 -2 -1 0
Z
123
Gambar 2.9
Area ke Kiri dari
-0,5
0,4
0,3
0,2
0,1
0,0
f
-3 -2 -1 0
Z
123
Gambar 2.10
Daerah Antara -1,0
dan 1,5
CONTOH 2,9 Find P1(-.0 <Z <15.).
Solusi Dalam Gambar. 2.10, area yang diinginkan adalah antara -1.0 dan 1,5 (berbayang).
Ini diperoleh dengan mengurangkan daerah dari 1,5 + dari daerah dari
88
-1 +.Artinya,
P(-1 <Z <15.) = P (Z> -1) - P (Z> 15.).
Dari tabel, daerah dari 1,5 keadalah 0,0668, dan daerah dari -1 keadalah
0,8413. Oleh karena itu, probabilitas yang diinginkan adalah0. 8413-0.0668 = 0.7745.
CONTOH 2.10 Kadang-kadang kita ingin mencari nilai z yang terkait dengan probabilitas
tertentu.
Sebagai contoh, kita mungkin ingin mencari nilai z yang memenuhi persyaratan
P(|Z |> z) = 0.10.
Solusi Gambar 2.11 menunjukkanyang diinginkan Z nilaidi mana total luas di
luargaris vertikal adalah 0,10. Karena simetri nilai yang diinginkan dari zmemenuhi
pernyataan P (Z> z) = 0.05. Prosedur ini untuk mencari meja untuk
nilai z seperti yang nilainya melebihi dengan probabilitas 0,05. Tidak ada daerah persis
0,05 terlihat dalam tabel, dan terdekat adalah
P (Z> 1.64) = 0.0505,
P (Z> 1.65) = 0.0495.
Kami dapat perkiraan lebih nilai yang tepat dengan interpolasi, yang memberikan z =
1.645.
0,4
0,3
0,2
0,1
0,0
f
-3 -2 -1 0
Z
123
Gambar 2.11
Simetri dari
DistribusiNormal
Kami akan sering peduli dengan menemukan nilai-nilai dari z probabilitas yang diberikan
nilai-nilaiketika kita mulai menggunakan distribusi normal di statistik kesimpulan. Untuk
membuat penulisan rumus mudah, kita akan mengadopsi bentuk notasi sering
disebut z. notasi Menurut notasi ini, z adalah nilai z sehingga
P (Z> z) = .
89
Definisi ini menghasilkan setara pernyataan
P(Z <-z) =
dan, karena simetri dari distribusi normal,
P(-z /2 <Z <z /2) = 1 - .
Lampiran Tabel A.1A memberikan satu set kecil z nilaiuntuk beberapayang sering
probabilitasdigunakan.Dari tabel ini kita dapat melihat bahwa z nilaimelebihi dengan
probabilitas
0,05 (atau z0.05)adalah 1,64485.
Menemukan probabilitas yang terkait dengan distribusi normal selain
standar normal dicapai dalam dua langkah. First use the standardization
transformation. As we have noted, this transformation converts a normally
distributed random variable having mean and variance 2 to the standard
normal variable having mean zero and variance one. The transformation is
Z = (Y )
,
and the resulting Z variable is often called a standard score. The second step
is to find the areas as we have already done.
EXAMPLE 2.11 Suppose that Y is normally distributed with = 10 and 2 = 20 (or =
4.472).
(a) What is P(Y > 15)?
(b) What is P(5 < Y < 15)?
(c) What is P(5 < Y < 10)?
Solution
(a) Step 1: Find the corresponding value of z:
z = (15 10)/4.472 = 1.12.
Step 2: Use the table and find P(Z > 1.12) = 0.1314.
(b) Step 1: Find the two corresponding values of z:
z = (15 10)/4.472 = 1.12,
z = (5 10)/4.472 = 1.12.
Step 2: From the table, P(Z > 1.12) = 0.1314, and P(Z > 1.12) =
0.8686, and by subtraction P(1.12 < Z < 1.12) = 0.8686 0.1314 =
0.7372.
(c) Step 1: z = (10 10)/4.472 = 0, and
z = (5 10)/4.472 = 1.12.
Step 2: P(Z > 0) = 0.5000, and
P(Z > 1.12) = 0.8686, and then
P(1.12 < Z < 0) = 0.8686 0.5000 = 0.3686.
90
Let Y be the variable representing the distribution of grades in a statistics
course. It can be assumed that these grades are approximately normally distributed
with = 75 and = 10. If the instructor wants no more than 10%
of the class to get an A, what should be the cutoff grade? That is, what is the
value of y such that P(Y > y) = 0.10?
Solution The two steps are now used in reverse order:
Step 1: Find z from the table so that P(Z > z) = 0.10. This is z = 1.28
(rounded for convenience).
Step 2: Reverse the transformation. That is, solve for y in the equation
1.28 = (y 75)/10. The solution is y = 87.8.
Therefore, the instructor should assign an A to those students with grades
of 87.8 or higher. Problems of this type can also be solved directly using the
formula y = +z, and substituting the given values of and and the value
of z for the desired probability. Specifically, for this example,
y = 75 + 1.28(10) = 87.8.
2.5 Sampling Distributions
We are now ready to discuss the relationship between probability and statistical
inference. Recall that, for purposes of this text, we defined statistical
inference as the process of making inferences on population parameters using
sample statistics. We have two facts that are key to statistical inference.
These are: (1) population parameters are fixed numbers whose values are usually
unknown and (2) sample statistics are known values for any given sample,
but vary from sample to sample taken from the same population. In fact, it
is nearly impossible for any two independently drawn samples to produce
identical values of a sample statistic.
This variability of sample statistics is always present and must be accounted
for in any inferential procedure. Fortunately this variability, which is called
sampling variation, is readily recognized and is accounted for by identifying
probability distributions that describe the variability of sample statistics. In
fact, a sample statistic is a random variable as defined in Definition 2.11. And,
like any other random variable, a sample statistic has a probability distribution.
DEFINITION 2.15
The sampling distribution of a statistic is the probability distribution
of that statistic.
This sampling distribution has characteristics that can be related to those of
the population from which the sample is drawn. This relationship is usually
provided by the parameters of the probability distribution describing the population.
The next section presents the sampling distribution of the mean, also
91
referred to as the distribution of the sample mean. In following sections we
present sampling distributions of other statistics.
Sampling Distribution of the Mean
Consider drawing a random sample of n observations from a population and
computing y.Repetition of this process a number of times provides a collection
of sample means. This collection of values can be summarized by a relative
frequency or empirical probability distribution describing the behavior of these
means. If this process could be repeated to include all possible samples of
size n, then all possible values of ywould appear in that collection. The relative
frequency distribution of these values is defined as the sampling distribution
of Y for samples of size n and is itself a probability distribution. The next step
is to determine how this distribution is related to that of the population from
which these samples were drawn.
We illustrate with a very simple population that consists of five identical
disks with numbers 1, 2, 3, 4, and 5. The distribution of the numbers can be
described by the discrete uniform distribution with k = 5; hence
= (5 + 1)/2 = 3, and 2 = (25 1)/12 = 2 (see Section 2.3).
Blind (random) drawing of these disks, replacing each disk after drawing,
simulates random sampling from a discrete uniform distribution having these
parameters.
Consider an experiment consisting of drawing two disks, replacing the
first before drawing the second, and then computing the mean of the values
on the two disks. Table 2.8 lists every possible sample and its mean. Since
each of these samples is equally likely to occur, the sampling distribution
of these means is, in fact, the relative frequency distribution of the y values
in the display. This distribution is shown in Table 2.9 and Fig. 2.12. Note
that the distribution of the means calculated from a sample of size two more
closely resembles a normal distribution than a uniform distribution. Using the
Table 2.8
Samples of Size 2 from
Uniform Population
Sample Mean Sample Mean
Disks y Disks y
(1,1) 1.0 (3,4) 3.5
(1,2) 1.5 (3,5) 4.0
(1,3) 2.0 (4,1) 2.5
(1,4) 2.5 (4,2) 3.0
(1,5) 3.0 (4,3) 3.5
(2,1) 1.5 (4,4) 4.0
(2,2) 2.0 (4,5) 4.5
(2,3) 2.5 (5,1) 3.0
(2,4) 3.0 (5,2) 3.5
(2,5) 3.5 (5,3) 4.0
(3,1) 2.0 (5,4) 4.5
(3,2) 2.5 (5,5) 5.0
(3,3) 3.0
92
formulas for the mean and variance of a probability distribution given in
Section 2.3, we can verify that the mean of the distribution of y values is 3
and the variance is 1.
Obviously we cannot draw all possible samples from an infinite population
so we must rely on theoretical considerations to characterize the sampling
distribution of the mean. A useful theorem, whose proof requires mathematics
beyond the scope of this book, states the following:
THEOREM 2.1
Sampling Distribution of the Mean The sampling distribution of Y
from a random sample of size n drawn from a population with mean
and variance 2 will have mean = and variance = 2/n.
We can now see that the distribution of means from the samples of two disks
obeys this theorem:
mean = = 3,
and
variance = 2/2 = 2/2 = 1.
A second consideration, called the central limit theorem, states that if the
sample size n is large, then the following is true:
93
Central Limit Theorem If random samples of size nare taken from any
distribution with mean and variance 2, the sample mean Y will have a
distribution approximately normal with mean and variance 2/n. The
approximation becomes better as n increases.
While the theorem itself is an asymptotic result (being exactly true only if ngoes
to infinity), the approximation is usually very good for quite moderate values
of n. Sample sizes required for the approximation to be useful depend on the
nature of the distribution of the population. For populations that resemble the
normal, sample sizes of 10 or more are usually sufficient, while sample sizes in
excess of 30 are adequate for virtually all populations, unless the distribution
is extremely skewed. Finally, if the population is normally distributed, the
sampling distribution of the mean is exactly normally distributed regardless
of sample size. We can now see why the normal distribution is so important.
We illustrate the characteristics of the sampling distribution of the mean
with a simulation study. We instruct a computer to simulate the drawing of
random samples from a population described by the continuous uniform distribution
with range from 0 to 1 (a = 0, b = 1, see Section 2.4 on the continuous
uniform distribution). We know that for this distribution
= 1/2 = 0.5
and
2 = 1/12 = 0.08333.
We further instruct the computer to draw 1000 samples of n = 3 each, and
compute the mean for each of the samples. This provides 1000 observations on
Y
for samples of n=3 from the continuous uniform distribution. The histogram
of the distribution of these sample means is shown in Fig. 2.13. This histogram
is an empirical probability distribution of Y for the 1000 samples. According
to theory, the mean and variance of Y should be 0.5 and 0.0833/3 = 0.0278,
respectively. From the actual 1000 values of y (not reproduced here), we can
compute the mean and variance, which are 0.4999 and 0.02759, respectively.
The values from our empirical distribution are not exactly those specified
by the theory for the sampling distribution, but the results are quite close.
This is, of course, due to the fact that we have not taken all possible samples.
Examination of the histogram shows that the distribution of the sample mean
looks somewhat like the normal. Further, if the distribution of means is normal,
the 5th and 95th percentiles should be
0.5 (1.645)(
0.0278), or 0.2258 and 0.7742, respectively.

The corresponding percentiles of the 1000 sample means are 0.2237 and 0.7744,
which are certainly close to expected values.
We now repeat the sampling process using samples of size 12. The resulting
distribution of sample means is given in Fig. 2.14. The shape of the distribution
94
of these means is now nearly indistinguishable from the normal, and the mean
and variance of the distribution (again computed from the 1000 values not
listed) show even more precision, that is, a smaller variance of Y than was obtained
for samples of three. Specifically, the mean of these 1000 sample means
is 0.4987 and the variance is 0.007393, which is quite close to the theoretical
values of 0.5 and 0.0833/12 = 0.00694. Also the actual 5th and 95th percentiles
of 0.3515 and 0.6447 agree closely with the values of 0.3586 and 0.6414 based
on the additional assumption of normality.
95

Salinanterjemahanstatis

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Salinanterjemahanstatis

Diunggah oleh

Hak Cipta:

Format Tersedia

disebut fungsi, sebagai

0.0278), or 0.2258 and 0.7742, respectively.

Anda mungkin juga menyukai