Meningkat 15% 7%
Menurun 29 41
Tetap 51 51
Tidak ada opini 5 1
Total 100% 100%
Apakah proporsi pria peminum menurun secara signifikan sejak 1992? Apakah
proporsi perempuan peminum menurun secara signifikan sejak 1992? Apakah proporsi
keseluruhan dari mereka yang mengurangi minum dalam 5 tahun terakhir berubah
sejak 1984? Apakah proporsi mereka yang konsumsinya tetap sama selama 5 tahun
terakhir secara signifikan lebih besar daripada proporsi mereka yang konsumsi
alkoholnya menurun? Metode yang disajikan dalam bab ini akan membantu kita
menemukan jawaban atas pertanyaan-pertanyaan tersebut.
4.0 Alat
Alat excel interaktif untuk melakukan perhitungan pada bab ini dapat ditemukan pada
CD yang menyertai buku ini. Di folder alat bab ini, anda akan menemukan file word
bernama bagian 4.0 (alat). Didalamnya tautan telah disediakan ke alat komputasi yang
relevan untuk bab ini. Dalam teks, kami menggunakan ikon (digambarkan di sebelah
kiri) sebagai pengingat persamaan yang telah kami buat dengan alat. Juga, data untuk
beberapa latihan bab tersedia melalui tautan di bagian itu.
4.1 Pengenalan
Tujuan dari survei sampel adalah untuk membuat kesimpulan tentang parameter
populasi dari informasi yang terkandung dalam sampel. Dua faktor mempengaruhi
jumlah informasi yang terkandung dalam sampel dan karenanya ketepatan prosedur
pembuatan inferensi kami. Yang pertama adalah ukuran sampel yang dipilih dari
populasi. Yang kedua adalah besarnya variasi data; variasi sering dapat dikendalikan
oleh cara memilih sampel. Prosedur untuk memilih sampel disebut contoh desain
survei. Untuk ukuran sampel tetap n, kami akan mempertimbangkan berbagai desain,
atau prosedur pengambilan sampel, untuk mendapatkan n pengamatan dalam sampel.
Karena observasi membutuhkan biaya, desain yang menyediakan penduga parameter
yang tepat untuk a ukuran sampel tetap menghasilkan penghematan biaya untuk
eksperimen. Desain dasar, atau teknik pengambilan sampel, yang disebut simple
random sampling dibahas dalam bab ini.
DEFINISI 4.1
Sampel acak sederhana dapat dipilih dengan menggunakan tabel angka acak.
Sebuah tabel bilangan acak ditunjukkan pada Lampiran A, Tabel A.2. Nomor acak
tabel adalah himpunan bilangan bulat yang dihasilkan sehingga dalam jangka panjang
tabel akan berisi semua sepuluh bilangan bulat (0, 1, . . , 9) dalam proporsi yang kira-
kira sama, tanpa tren dalam pola digit yang dihasilkan. Jadi, jika satu nomor dipilih
dari acakntitik dalam tabel, kemungkinannya sama untuk menjadi salah satu digit 0
hingga 9.
Memilih angka dari tabel dianalogikan dengan menggambar angka dari topi berisi
angka-angka itu pada potongan kertas yang tercampur rata. Misalkan kita ingin sampel
acak sederhana dari tiga orang untuk dipilih dari tujuh. Kita bisa menghitung orang
dari 1 sampai 7, letakkan secarik kertas yang berisi angka-angka ini (masing-masing
satu angka) slip) ke dalam topi, campur, dan tarik tiga, tanpa mengganti nomor yang
ditarik. Secara analog, kita bisa menjatuhkan titik pensil pada titik awal acak di
Lampiran A, Tabel A.2. Misalkan titik jatuh pada baris ke15 kolom 9 dan kami
memutuskan untuk menggunakan digit paling kanan (5, dalam hal ini). Prosedur ini
seperti menggambar 5 dari topi. Kita sekarang dapat melanjutkan ke segala arah untuk
mendapatkan nomor yang tersisa dalam sampel. Sup pose yang kami putuskan
sebelum mulai melanjutkan ke bawah halaman. Nomornya segera di bawah 5 adalah
2, jadi sampel kedua kami adalah nomor 2. Lanjutkan, kami selanjutnya datang ke 8,
tetapi hanya ada tujuh orang dalam populasi kami; maka, 8 harus diabaikan. Dua 5
lagi kemudian muncul, tetapi keduanya harus diabaikan karena orang 5 memiliki
sudah dipilih. (5 telah dihapus dari topi.) Akhirnya, kita sampai pada 1, dan sampel
kami yang terdiri dari tiga orang diisi dengan orang-orang bernomor 5, 2, dan 1.
Contoh 4.1
Untuk penyederhanaan, asumsikan ada N = 1000 catatan pasien dari mana sampel
acak n = 20 akan diambil. Kita tahu bahwa sampel acak sederhana akan diperoleh jika
setiap sampel yang mungkin dari n = 20 catatan memiliki peluang yang sama untuk
menjadi terpilih. Digit dalam Lampiran A, Tabel A.2, dan tabel bilangan acak lainnya,
dibangkitkan untuk memenuhi kondisi pengambilan sampel acak sederhana.
Menentukan rekaman mana yang akan dimasukkan dalam sampel berukuran n = 20.
Perhatikan bahwa titik awal apa pun dapat digunakan dan kita dapat bergerak di
tempat yang telah ditentukan sebelumnya arah. Jika lebih dari satu sampel yang akan
digunakan dalam masalah apapun, masing-masing harus memiliki titik awal yang
unik. Banyak program komputer, seperti MINITAB, dapat digunakan untuk
menghasilkan angka acak.
Solusi
Kita dapat menganggap akun sebagai nomor 001, 002, . . . ,999.000. Artinya, kita
memiliki 1000 nomor tiga digit, di mana 001 mewakili catatan pasien pertama, 999
Catatan pasien ke-999, dan 000 ke- 1000.
Lihat Lampiran A, Tabel A.2 dan gunakan kolom pertama; jika kita membuang dua
angka terakhir dari setiap angka, kita melihat bahwa angka tiga angka pertama yang
terbentuk adalah 104, yang kedua adalah 223, yang ketiga adalah 241, dan seterusnya.
Mengambil sampel acak 20digit, kami memperoleh angka-angka yang ditunjukkan pada
Tabel 4.1.
Jika catatan benar-benar diberi nomor, kami hanya memilih catatan dengan nomor
yang sesuai, dan catatan ini mewakili sampel acak sederhana sebanyak n=20 dari
N=1000 . Jika rekening pasien tidak diberi nomor, kita dapat merujuk ke daftar akun
dan hitung dari tanggal 1 hingga 10, 23, 70, dan seterusnya, hingga angka yang
diinginkan tercapai. Jika bilangan acak muncul dua kali, kemunculan kedua adalah
dihilangkan, dan nomor lain dipilih sebagai penggantinya.
Tabel 4.1 catatan pasien yang terpilih menjadi sampel
104 779 289 510
223 995 635 023
241 963 094 010
421 895 103 521
375 854 071 070
∑ yi
y= i=1
n
untuk memperkirakan μ. Penaksir ini dapat dibenarkan sebagai penduga yang tepat
dengan merujuk untuk diskusi dan contoh di Bagian 3.3. Pengambilan sampel acak
sederhana setara untuk pengambilan sampel acak tanpa penggantian dan dengan bobot
yang sama, seperti yang dijelaskan di sana. Untuk skema pengambilan sampel seperti
n
itu π i= dan penaksir populasi yang tidak bias total, τ, diberikan oleh
N
n n
yi y
τ^ =∑ =¿ ∑ i =N y ¿
i=1 π i i=1 n /N
Karena mean populasi berhubungan dengan total dengan persamaan τ/N = μ, mean
sampel akan menjadi penaksir tak bias dari mean populasi. Itu adalah,
E ( y )=μ
Tentu saja, nilai tunggal dari y memberi tahu kita sangat sedikit tentang rata-rata
populasi μ, kecuali jika kita mampu mengevaluasi kebaikan penduga kita. Oleh karena
itu, selain menaksir μ, kita ingin memberi batasan pada galat pendugaan. Untuk
mencapai ini kita membutuhkan varians dari estimator; untuk sampel acak sederhana
yang dipilih tanpa penggantian dari populasi berukuran N,
( )
2
σ N −n
V ( y )=
n N−1
Mempertimbangkan varians sampel
n
1
s2= ∑ ( y − y )2
n−1 i=1 i
Kembali ke contoh di Bagian 3.3 di mana sampel berukuran n = 2 dipilih dari populasi
{1, 2, 3, 4}, sekarang kita dapat mendemonstrasikan sifat rata-rata sampel yang
dijelaskan dalam rumus ini. Tabel 4.2 menunjukkan enam kemungkinan sampel ukuran 2
dan statistik sampel terkait. (Tiga kolom pertama dari tabel ini identik dengan yang ada
di Tabel 3.2.)
Jika satu pengamatan y dipilih secara acak dari populasi ini, maka y dapat mengambil
salah satu dari empat nilai yang mungkin, masing- masing dengan probabilitas 1⁄4.
Dengan demikian,
¿ 2.50
Tabel 4.2
Pengambilan sampel acak sederhana dari populasi, n=2
Sampel Probabilitas sampel, bobot yang sama τ^ y 2
s ^ ( y)
V
{1,2} 1/6 6 1.5 0.5 0.125
{1,3} 1/6 8 2.0 2.0 0.500
{1,4} 1/6 10 2.5 4.5 1.125
{2,3} 1/6 10 2.5 0.5 0.125
{2,4} 1/6 12 3.0 2.0 0.500
{3,4} 1/6 14 3.5 0.5 0.125
Dan
σ =V ( y )=E( y−μ) =∑ ( y−ω ) p ( y )
2 2 2
5
¿
4
Karena masing-masing rata-rata sampel ini dapat terjadi dengan probabilitas 16, kita
dapat menghitung 𝐸 ( y ) dan 𝑉( y ) . Dari definisi kami tentang nilai yang diharapkan,
E ( y )=∑ y p ( y )
¿μ
dan
¿ ( 2.5 ) ( 16 )
5
¿
12
Perlu diingat kembali bahwa untuk contoh ini σ = 5/4, N = 4, dan n = 2, kita memiliki
( ) ( )
2
σ N −n 5 /4 4−2
=
n N −1 2 4−1
¿ ( )=
5 2 5
8 3 12
Mempertimbangkan variansi sampel, dengan
E ( s2 ) =
( 0.5+ 2.0+4.5+ 0.5+2.0+0.5 ) 5
6
=
3 ()
¿ ( NN−1 ) σ 2
Juga,
(0.125+0.5+1.125+ 0.125+0.5+ 0.125) 5
E ( V^ ( y ) ) = =
6 12
¿V ( y)
Jadi, telah ditunjukkan bahwa
( )
2
σ N−n
E ( y )=μV ( y )=
n N−1
^ ( y ) adalah penaksir tak bias dari V ( y ). Hasil akhir dari bagian ini dapat diringkas
Dan untuk V
sebagai berikut.
Penduga rata-rata populasi μ:
n
∑ yi (4.1)
^μ= y= i=1
n
Varians yang diperkirakan pada (𝒚̅):
(4.2)
( )
2
^ ( y )= 1− n s
V
N n
Bound on the error pada estimasi:
(4.3)
2 √V^ ( y)=2
√( 1−
n s2
N n )
Kuantitas 1 – n/N disebut koreksi populasi hingga (fpc). Perhatikan bahwa faktor koreksi
ini sedikit berbeda dari yang ditemui dalam varians sebenarnya dari y. Ketika n tetap kecil relatif
terhadap ukuran populasi N, fpc mendekati satu. Secara praktis, fpc dapat diabaikan jika 1 – n/N
≥ .95, atau ekuivalen n ≤ (1/20) N, Dalam hal itu, varians yang diperkirakan dari y adalah
kuantitas yang lebih dikenal s 2 /n. Dalam banyak kasus, ukuran populasi tidak didefinisikan
dengan jelas atau tidak diketahui. Misalkan spesimen laboratorium yang sangat kecil dipilih dari
tangki besar gula mentah untuk mengukur kadar gula murni. Bagaimana N akan ditentukan tidak
jelas, tetapi secara umum dapat diasumsikan cukup besar. Oleh karena itu, fpc dapat diabaikan.
Jika sampel pemilih dipilih dari populasi suatu negara bagian, untuk mendapatkan N yang tepat
untuk titik waktu tersebut umumnya tidak mungkin. Sekali lagi, N dianggap besar dan fpc
diabaikan.
Beberapa tulisan menyajikan fpc sebagai (N - n)/N; lebih baik 1 – n/N karena ini
menyoroti peran fraksi pengambilan sampel n/N. Fraksi sampling sering dilambangkan dengan f
= n/N, dalam hal ini fpc dapat direpresentasikan sebagai 1 - f. Nanti di buku ini, ketika rumus
menjadi lebih rumit, dan singkatnya rumus menjadi lebih menarik, kita akan beralih ke notasi
terakhir ini.
Secara teori, jika dua standar deviasi bound on the error (sering disebut margin
kesalahan) dikurangkan dari dan ditambahkan ke mean sampel, interval kepercayaan yang
dihasilkan memiliki sekitar 95% peluang untuk menangkap mean populasi dalam batas-batasnya.
Hasil ini dibangun di atas teori yang mengharuskan rata-rata sampel yang bersangkutan memiliki
distribusi yang mendekati normal. Untuk mengilustrasikan cara kerjanya, kita kembali ke data
berat otak di Bagian 3.4 Gambar 3.4 menunjukkan bahwa, untuk data pada skala asli, distribusi
pengambilan sampel untuk rata-rata sampel ukuran 5 sangat miring. Gambar 3.6 menunjukkan
bahwa, untuk data dalam skala logaritmik, distribusi sampling rata-rata sampel terlihat cukup
normal. Bagaimana perilaku distribusi sampling ini?
Gambar 4.1
Interval kepercayaan untuk sampel dengan bobot, n=5
Gambar 4.2
Interval kepercayaan untuk sampel dengan bobot log, n=5
2 √ V^ ( y)=2
√( 1− )
n s2
N n
= (√ 1− 1000 ) 200 =2√ 1.7808=$ 2.67
200 445.21
Jadi, estimasi nilai rata-rata per akun, μ, menjadi y=$ 94.22 . Karena n adalah besar, rata-rata
sampel harus memenuhi kurang lebih distribusi normal, jadi $94.22 ± $2.67 interval kepercayaan
95% untuk rata-rata populasi.
Contoh 4.3
Sebuah sampel acak sederhana dari n = 9 catatan rumah sakit diambil untuk memperkirakan
jumlah rata-rata uang yang harus dibayar pada N = 484 rekening terbuka. Nilai sampel untuk
sembilan ini catatan tercantum dalam Tabel 4.3. Perkirakan μ, jumlah rata-rata yang belum
dibayar, dan tingkat kesalahan estimasi Anda.
Tabel 4.3
Jumlah uang yang terhutang
y1 33.50
y2 32.00
y3 52.00
y4 43.00
y5 40.00
y6 41.00
y7 45.00
y8 42.00
y9 39.00
Gambar 4.3
Box plot dari perhitungan data rumah sakit
Solusi
Seperti yang disarankan oleh analisis data yang baik, selalu bijaksana untuk membuat plot yang
sesuai dari data untuk melihat apakah sesuatu yang tidak biasa muncul. Gambar 4.3
menunjukkan box plot dari data tersebut, yang menunjukkan bahwa dua pengamatan agak tidak
biasa, dibandingkan dengan yang lain, satu di sisi yang tinggi dan satu di sisi yang rendah.
Mungkin penyelidik harus melihat kedua perhitungan ini lagi untuk melihat apakah keduanya
mewakili sesuatu yang berbeda dari perhitungan lain dalam sampel.
Perkiraan untuk 𝜇 adalah
9
∑ yi 368.00
y= i=1 = =$ 40.89
9 9
2 √ V^ ( y)=2
√( 1− )
n s2
N n
= (√ 1− 1000 ) 200
200 445.21
¿ 2 √ 3.8900=3.944=$ 3.94
Untuk meringkas perkiraan jumlah rata-rata uang yang terhutang per rekening , μ adalah
y=$ 40.89. Meskipun kami tidak dapat memastikan seberapa dekat y dengan μ, kami cukup
yakin bahwa kesalahan estimasi kurang dari $3.94.
Seperti yang telah kita lihat, banyak survei sampel dilakukan untuk memperoleh
informasi tentang total populasi. Auditor federal dalam Contoh 4.1 mungkin akan tertarik untuk
memverifikasi angka komputer untuk total piutang (dalam dolar) untuk N = 1000 akun terbuka.
Jumlah populasi dilambangkan dengan simbol τ. Karena
Nμ=r
kita tahu bahwa penaksir τ adalah N kali penaksir μ. Juga benar bahwa margin kesalahan untuk
memperkirakan total adalah N kali margin kesalahan untuk memperkirakan rata-rata.
( )( )
2 (4.4)
^ ( N y )=N 2 1− n
^ ( τ^ ) =V
V
s
N n
Bound on the error pada estimasi:
(4.6)
√ ( )( )
2
n s (4.4)
2 √ V^ (N y)=2 N 1−
2
N n
Contoh 4.4
Sebuah perusahaan industri khawatir tentang waktu yang dihabiskan setiap minggu oleh para
ilmuwan tertentu yang lembur untuk tugas-tugas biasa. Lembar catatan waktu dari sampel acak
sederhana n = 50 karyawan menunjukkan jumlah rata-rata waktu yang dihabiskan untuk tugas-
tugas ini adalah 10.13 jam, dengan varians sampel s2=2.25 . Perusahaan mempekerjakan N = 750
ilmuwan. Estimasikan jumlah total jam kerja yang hilang setiap minggu untuk tugas biasa dan
beri batasan pada bound on the error pada estimasinya.
Solusi
Kita tahu populasinya terdiri dari N = 750 ilmuwan yang berasal dari sampel acak diperoleh n =
50 lembar catatan waktu. Jumlah rata-rata waktu yang hilang untuk 50 karyawan y=10.31
jam/minggu. Karena itu, estimasi dari τ adalah
τ =N y=750 ( 10.31 )=7732.5 jam
Kedudukan bound on the error pada estimasi, gunakan Persamaan (4.7) untuk memperoleh
2 √V^ ( τ^ )=2 √ ¿ ¿
Dengan demikian, estimasi total waktu yang hilang adalah τ^ = 7732.5 jam. Maka diyakini bahwa
kesalahan estimasi kurang dari 307.4 jam.
4.4 Memilih Ukuran Sampel untuk Memperkirakan Rata-rata dan total Populasi
Pada titik tertentu dalam desain survei, seseorang harus membuat keputusan tentang
ukuran sampel yang akan dipilih dari populasi. Kita telah membahas prosedur pengambilan
sampel (sampling acak sederhana) tetapi tidak mengatakan apa pun tentang jumlah pengamatan
yang akan dimasukkan dalam sampel. Implikasi dari keputusan seperti itu jelas. Observasi
membutuhkan uang. Jika sampel terlalu besar, waktu dan tenaga akan terbuang percuma.
Sebaliknya, jika jumlah pengamatan yang dimasukkan dalam sampel terlalu kecil, kita telah
memberikan informasi yang tidak memadai untuk waktu dan usaha yang dikeluarkan lagi-lagi
menjadi pemborosan.
Jumlah pengamatan yang diperlukan untuk memperkirakan rata- rata populasi 𝜇 dengan
bound on the error pada estimasi besarnya B ditemukan dengan menetapkan 2SD dari estimator,
y sama dengan B dan selesakan pernyataan ini untuk n. Artinya, kita haruss memecahkan
(4.7)
2 √ V ( y)=B
Untuk n
^ ( y ), diberikan oleh
Ingatlah bahwa varians yang diperkirakan dari y , V
( )
2
^ ( y )= 1− n s
V (4.8)
N n
Juga,
( )
2
( ) σ N −n (4.9)
V y=
n N−1
Anda mungkin mengenali Persamaan. (4.9) dari pelajaran yang dikenal dengan pengantar
varians dari y , σ 2 /n, dikalikan dengan faktor
( N −n)
( N −1)
Ukuran sampel yang dibutuhkan sekarang dapat ditemukan dengan memecahkan persamaan
berikut untuk n:
√
(4.10)
2 √ V ( y)=2 (
σ 2 N −n
n N−1
=B )
Solusinya diberikan dalam Persamaan. (4.11).
Ukuran sampel yang diperlukan untuk memperkirakan 𝝁 dengan bound on the error
pada estimasi B:
2
Nσ (4.11)
n=
( N −1 ) D+ σ 2
dimana
2
B
D=
4
Solusi untuk 𝑛 dalam situasi praktis menghadirkan masalah karena varians populasi 𝜎2
tidak diketahui. Karena varians sampel 𝑠2 sering tersedia dari eksperimen sebelumnya, kita
dapat memperoleh perkiraan ukuran sampel dengan mengganti 𝜎2 dengan 𝑠2 dalam Persamaan
(4.11). Kami mengilustrasikan metode untuk menebak nilai 𝜎2 ketika sangat sedikit informasi
sebelumnya yang tersedia. Jika 𝑁 memiliki nilai yang besar, maka (𝑁 − 1) dapat diganti dengan
𝑁 dalam penyebut Persamaan (4.11).
Contoh 4.5
Jumlah rata-rata uang µ untuk piutang rumah sakit harus diestimasi. Meskipun tidak ada data
sebelumnya yang tersedia untuk memperkirakan varians populasi, diketahui bahwa sebagian
besar rekening berada dalam kisaran $100. Ada N=1000 rekening terbuka. Tentukan ukuran
sampel yang diperlukan untuk memperkirakan μ dengan bound on the error pada estimasi B =
$3.
Solusi
Kami membutuhkan estimasi 𝜎2, varians populasi. Karena rentang sering kali sama dengan
4SD (4𝜎), seperempat dari rentang akan memberikan nilai estimasi 𝜎. Karena itu,
Range 100
σ≈ = =25
4 4
dan
2
σ ≈¿
menggunakan persamaan (4.11), kita peroleh
2
Nσ
n=
( N −1 ) D+ σ 2
dimana
2
B
D= =¿ ¿
4
jadi
1000(625)
n= =217.56
999 (2.25 )+ 625
Artinya, kita membutuhkan sekitar 218 pengamatan untuk memperkirakan 𝜇, rata-rata
perhitungan piutang, dengan bound on the error pada estimasi sebesar $3,00. Perhatikan bahwa
alat akan menunjukkan ukuran sampel 213 untuk interval kepercayaan 95% dengan margin
kesalahan $3.
Demikian juga, kita dapat menentukan jumlah pengamatan yang diperlukan untuk
memperkirakan total populasi 𝑟,dengan terikat pada kesalahan estimasi besarnya 𝐵. Ukuran
sampel yang diperlukan ditemukan dengan menetapkan 2SD penduga sama dengan 𝐵 dan
selesaikan ekspresi ini untuk n. Artinya, kita harus memecahkan
2 √ V ( N y )=B
atau, sama dengan
2 N √ V ( y)=B (4.12)
Contoh 4.6
Seorang peneliti tertarik untuk memperkirakan kenaikan berat badan total dalam 4 minggu untuk
N = 1000 anak ayam yang diberi ransum baru. Jelas, untuk menimbang satu per satu setiap anak
ayam akan memakan waktu dan membosankan. Oleh karena itu, tentukan jumlah anak ayam
yang akan dijadikan sampel dalam penelitian ini agar dapat diperkirakan τ dengan bound on the
error pada estimasi sebesar 1000 gram. Banyak penelitian serupa tentang nutrisi anak ayam telah
dilakukan di masa lalu. Menggunakan data dari studi ini, peneliti menemukan bahwa 𝜎2, varians
populasi kira-kira sama dengan 36,00 (gram)2. Tentukan ukuran sampel yang dibutuhkan.
Solusi
Kita dapat memperoleh perkiraan ukuran sampel menggunakan Persamaan. (4.13) dengan 𝜎2
sama dengan 36.00 dan
2 2
B 1000
D= = =0.25
4 4(1000)2
Yaitu,
2
Nσ 1000(36.00)
n= = =125.98
( N −1 ) D+ σ 999 ( 0.25 ) +36.00
2
Oleh karena, itu peneliti perlu menimbang n = 126 anak ayam untuk memperkirakan τ ,
pertambahan berat badan total untuk n = 1000 ekor ayam dalam 0 sampai 4 minggu, dengan
bound on the error pada estimasi sebesar 1000 gram. Perhatikan bahwa alat akan menunjukkan
ukuran sampel 123 untuk interval kepercayaan 95% dengan margin kesalahan 1000 gram.
∑ yi
i=1
Jika kita mengambil suatu sampel acak sederhana berukuran n , proporsi sampel ^padalah
fraksi dari unsur-unsur dalam sampel yang memiliki karakteristik yang diinginkan. Misalnya,
estimasi ^p dari proporsi pemilih yang berhak antara usia 18 dan 21 tahun di suatu distrik tertentu
adalah
jumlah pemilih yang dijadikan sample antara usia18 dan 21 tahun
^p=
jumlah pemilih yang dijadikan sampel
Atau
n
∑ yi
^p= i=1 = y
n
Dengan kata lain, 𝑝̂ adalah rata-rata dari nilai 0 dan 1 dari sampel. Demikian pula, kami dapat
menganggap proporsi populasi sebagai rata- rata dari nilai 0 dan 1 untuk seluruh populasi
(yaitu, ρ=μ ).
∑ yi
^p= y= i=1
n (4.14)
Estimasi Varinsi ^p:
V (
^ = ( ^p )= 1− n ^p q^
N n−1 ) (4.15)
dimana:
q^ =1− ^p
Terikat pada kesalahan estimasi:
Biasanya di sebagian besar teks statistik menggunakan var ( ^p )= ^p q^ /n sedangkan kami telah
menggunakan n−1 sebagai penyebut di sini. Estimasi variansi populasi yang tidak bias adalah
n
p^ q^ , dan ketika Anda membaginya dengan n dengan cara biasa untuk rata-rata sampel,
n−1
hasilnya seperti yang telah kami tunjukkan. Penaksir yang umum digunakan memang bias,
sedikit, tetapi konstruksinya lebih sederhana. Bias dalam penaksir yang umum digunakan
biasanya sangat kecil, jadi penggunaan formulasi yang lebih sederhana memiliki daya tarik yang
dapat dimengerti, tetapi kami telah memilih untuk menggunakan statistik yang tidak bias.
CONTOH 4.7
Sebuah sampel acak sederhana dari n=100 senior perguruan tinggi dipilih untuk memperkirakan
(1) fraksi dari N=300 senior yang melanjutkan ke sekolah pascasarjana dan (2) fraksi siswa yang
memiliki pekerjaan paruh waktu selama kuliah. Misalkan y i dan x i (i=1 , 2 ,. . . ,100 ) menyatakan
jawaban dari sampel siswa ke-i. Kami akan menetapkan y i=0 jika siswa ke-i tidak berencana
untuk menghadiri sekolah pascasarjana dan yi = 1 jika dia melakukannya. Demikian pula,
misalkan x i=0 jika dia tidak pernah bekerja paruh waktu selama kuliah dan x i=1 jika dia pernah.
Dengan menggunakan data sampel yang disajikan dalam tabel terlampir, perkirakan p1, proporsi
senior yang berencana untuk menghadiri sekolah pascasarjana, dan p2, proporsi senior yang
pernah memiliki pekerjaan paruh waktu selama karir kuliah mereka (termasuk musim panas).
Siswa y x
1 1 0
2 0 1
3 0 1
4 1 1
5 0 0
6 0 0
7 0 1
. . .
. . .
. . .
96 0 1
97 1 0
98 0 1
99 0 1
100 1 1
100 100
∑ yi =15 ∑ yi =65
i=1 i=1
SOLUSI
Solusi proporsi sampel dari persamaan. (4.14) di berikan oleh
n
∑ y i 15
^p1= i=1 = =0.15
n 100
dan
n
∑ yi 65
^p2= i=1 = =0.65
n 100
Batas kesalahan pendugaan p1 dan p2 berturut-turut adalah
2 √ V^ (p 1)=2
√( 1−
n ^p1 q^ 1
)
N n−1
=2 (√ 1− 100
300 )
(0.15)(0.85)
99
¿ 2 ( 0.0293 )=0.059
dan
2 √ V^ (p 2)=2
√( 1−
n ^p2 q^ 2
)
N n−1
=2
√( 1−
300)
100 (0.65)(0.35)
99
¿ 2 ( 0.0391 )=0.078
Dengan demikian, kami memperkirakan bahwa 0,15 (15%) dari senior berencana untuk
menghadiri sekolah pascasarjana, dengan batasan kesalahan estimasi sebesar 0,059 (5,9%). Kami
memperkirakan bahwa 0,65 (65%) senior telah melakukan pekerjaan paruh waktu selama kuliah,
dengan batas kesalahan estimasi sebesar 0,078 (7,8%).
Kami telah menunjukkan bahwa proporsi populasi p dapat dianggap sebagai rata-rata ( μ)
dari nilai 0 dan 1 untuk seluruh populasi. Oleh karena itu, masalah penentuan ukuran sampel
yang diperlukan untuk menaksir p ke dalam unit B harus dianalogikan dengan menentukan
ukuran sampel untuk pendugaan μ dengan batasan kesalahan estimasi B. Ingatlah bahwa ukuran
sampel yang diperlukan untuk pendugaan μ diberikan oleh
2
Nσ
n=
( N −1 ) D+ σ 2 (4.17)
dimana D = B2 /4 [lihat Persamaan. (4.11)]. Ukuran sampel yang sesuai diperlukan untuk
memperkirakanp dapat ditemukan dengan mengganti 𝜎2 dalam Persamaan. (4.17) dengan
kuantitas pq.
dimana
2
B
q=1− p dan D=
4
Dalam situasi praktis, kita tidak tahu p. Ukuran sampel perkiraan dapat ditemukan dengan
mengganti p dengan nilai perkiraan. Seringkali, perkiraan seperti itu dapat diperoleh dari survei
serupa di masa lalu. Namun, jika tidak ada informasi sebelumnya yang tersedia, kita dapat
mengganti p=0 ,5 menjadi Persamaan. (4.18) untuk mendapatkan ukuran sampel yang
konservatif (yang mungkin lebih besar dari yang dibutuhkan).
CONTOH 4.8
Pemimpin organisasi mahasiswa di sebuah perguruan tinggi ingin melakukan survei untuk
menentukan proporsi mahasiswa yang mendukung kode kehormatan yang diusulkan. Karena
mewawancarai N=2000 siswa dalam jangka waktu yang masuk akal hampir tidak mungkin,
tentukan ukuran sampel (jumlah siswa yang akan diwawancarai) yang diperlukan untuk
menaksir p dengan batas kesalahan pendugaan sebesar B=0 , 05 . Asumsikan bahwa tidak ada
informasi sebelumnya yang tersedia untuk memperkirakan p.
SOLUSI
Kami dapat memperkirakan ukuran sampel yang diperlukan ketika tidak ada informasi
sebelumnya yang tersedia dengan menetapkan p=0 ,5 dalam Persamaan. (4.18). Kita punya
2
B2 ( 0.05 )
D= = =0.000625
4 4
karenanya,
Npq
n=
( N −1 ) D+ pq
( 2000 )( 0.5 )( 0.5 ) 500
¿ =
( 1999 )( 0.000625 ) + ( 0.5 ) ( 0.5 ) 1.499
¿ 333.56
Artinya, 334 siswa harus diwawancarai untuk memperkirakan proporsi siswa yang mendukung
kode kehormatan yang diusulkan dengan terikat pada kesalahan estimasi B=0.05 .
CONTOH 4.9
Mengacu pada Contoh 4.8, misalkan, selain memperkirakan proporsi siswa yang menyukai
kode kehormatan yang diusulkan, pemimpin pemerintahan siswa juga ingin untuk
memperkirakan jumlah siswa yang merasakan pembangunan serikat siswa secara memadai
melayani kebutuhan mereka. Tentukan ukuran sampel gabungan yang diperlukan untuk survei
perkirakan, P1 proporsi yang mendukung kode kehormatan yang diusulkan, dan P2, proporsi
yang percaya serikat mahasiswa cukup melayani kebutuhannya, dengan batasan pada kesalahan
estimasi besaran B1 = 0.05 dan B2 = 0.07. Meskipun tidak ada informasi sebelumnya tersedia
untuk memperkirakan P1, sekitar 60% dari siswa percaya serikat. cukup memenuhi kebutuhan
mereka dalam survei serupa yang dijalankan tahun sebelumnya.
SOLUSI
Dalam contoh ini, kita harus menentukan ukuran sampel n yang memungkinkan kita
mengestimasi P1 dengan a terikat B1 = 0,05 dan P2 dengan B2 terikat = 0,07. Pertama, tentukan
ukuran sampel yang memenuhi setiap tujuan secara terpisah. Yang lebih besar dari keduanya
kemudian akan digabungkan ukuran sampel untuk survei untuk memenuhi kedua tujuan. Dari
Contoh 4.8, ukuran sampel diperlukan untuk memperkirakan P1 dengan terikat pada kesalahan
estimasi B1= 0,05 adalah n= 334 siswa. Kita dapat menggunakan data dari survei tahun
sebelumnya untuk menentukan ukuran sampel yang dibutuhkan untuk memperkirakan P2. Kita
punya
2
B2 ( 0.07 )
D= = =0.0001225
4 4
Dan karenanya, dengan P2=0 , 60
Npq
n=
( N −1 ) D+ pq
( 200 )( 0.6 )( 0.4 ) 480
¿ =
( 1999 )( 0.0001225 ) + ( 0.6 ) ( 0.4 ) 2.68877
¿ 178.52
Artinya, 179 siswa harus diwawancarai untuk memperkirakan p2, proporsi N = 2000 siswa yang
percaya serikat mahasiswa memenuhi kebutuhannya, dengan terikat pada kesalahan estimasi
sebesar 0,07. Ukuran sampel yang diperlukan untuk mencapai kedua tujuan dalam satu survei
adalah 334, lebih besar dari dua ukuran sampel.
CONTOH 4.10
Ikan menyerap merkuri saat air melewati insangnya, dan terlalu banyak merkuri membuat ikan
tidak layak untuk dikonsumsi manusia. Pada tahun 1994 negara bagian Maine mengeluarkan
peringatan peringatan kesehatan bahwa orang harus berhati-hati memakan ikan dari danau
Maine karena kadar merkuri yang tinggi. Sebelum peringatan, data tentang status danau Maine
dikumpulkan oleh Badan Perlindungan Lingkungan A.S (EPA) yang bekerja dengan negara
bagian. Ikan diambil dari sampel danau secara acak dan kandungan merkurinya diukur dalam
bagian per juta . Tabel 4.4 menunjukkan pilihan
Tabel 4.4
Kandungan merkuri di danau Maine menurut jenis dan bendungannya
data dari sampel acak 35 danau. Danau tipe 1 bersifat oligotrofik (seimbang antara vegetasi
yang membusuk dan organisme hidup), danau tipe 2 bersifat eutrofik (laju peluruhan tinggi dan
sedikit oksigen), dan danau tipe 3 bersifat mesotrofik (antara dua keadaan lainnya). Tabel juga
menunjukkan apakah danau terbentuk di belakang bendungan. (a) Dengan membandingkan
danau tipe 1 dan 2, berapa perkiraan terbaik Anda tentang perbedaan rata-rata kadar merkuri
untuk kedua jenis danau ini? (b) Apakah ada cukup bukti untuk menyimpulkan bahwa rata-rata
kadar merkuri untuk danau tipe 2 berbeda dengan danau tipe 3?
Ringkasan statistik disediakan selanjutnya.
Type Count Mean Media Standar Deviation, s
1 4 0.22 0.20 0.103
2 15 0.74 0.68 0.582
3 16 0.50 0.44 0.272
Solusi
Langkah pertama adalah memplot data untuk melihat apakah ada pola yang tidak biasa muncul.
Gambar 4.4 menunjukkan box plot sejajar untuk pembacaan merkuri yang dibagi berdasarkan
tiga jenis danau. Ada sedikit kemiringan ke nilai yang lebih besar, dan danau tipe 2 memiliki
nilai yang lebih tinggi daripada tipe lainnya.
Gambar 4.4
Kandungan merkuri menurut jenis danau
Pencilan/outlier harus diingat saat menafsirkan hasil analisis statistik ini.
a. Untuk membandingkan rata-rata kandungan merkuri untuk danau tipe 1 dan tipe 2,
estimator dan batas yang sesuai adalah
( y 1− y 2 ± √ V^ ( y 1 ) +V^ ( y 2 ) )
¿(0.22−0.74)± 2
¿−0.52 ±0.32
4 √
0.1032 0.5 8 32
+
15
( y 1− y 2 ± √ V^ ( y 1 ) +V^ ( y 2 ) )
¿(0.74−0.50)± 2
√
0.5 8 32 0.222
15
¿ 0.24 ± 0.33
+
16
Interval hasil pengukuran dari kedua jenis danau menunjukkan angka (-0,09 hingga
0,57) dimana interval ini mencakup nol yang mengartikan bahwa tidak ada perbedaan
signifikan dalam kandungan rata-rata merkuri antara kedua jenis danau. Berdasarkan data ini,
tidak ada cara untuk menyimpulkan bahwa salah satu jenis danau memiliki kandungan merkuri
yang lebih tinggi dari yang lain.
Analisis data yang hati-hati memerlukan pemeriksaan seberapa besar pengaruh pencilan
besar (2,50) pada data danau tipe 2 terhadap analisis. Dengan menghilangkan observasi ini,
kedua interval menjadi sedikit lebih pendek, yaitu (-0,61, -0,17) untuk bagian a dan (-0,12, 0,34)
untuk bagian b. Namun, kesimpulan utama dari bagian b tetap sama.
A. Ya ________
B. Tidak ________
C. Tidak memiliki pendapat _________
Dalam menghadapi jumlah respons "tidak memiliki pendapat" yang cukup besar, kita
ingin membandingkan proporsi yang memilih "ya" dengan proporsi yang memilih "tidak"
dengan melihat perbedaan antara jawaban tersebut. Untuk melihat ini, misalkan kita diizinkan
untuk melihat proporsi respons "ya" dan proporsinya tinggi - katakanlah sekitar 80%. Maka kita
tahu bahwa proporsi respons "tidak" harus rendah, di bawah 20%. Oleh karena itu, kedua
persentase sampel ini tidak hanya saling bergantung, tetapi juga berkorelasi negatif (atau
memiliki kovariansi negatif).
Ini adalah situasi pengambilan sampel multinomial karena setiap responden memiliki tiga
pilihan (lebih dari dua adalah kunci). Untuk dua proporsi sampel p 1 dan p 2yang muncul dari
sampel multinomial berukuran n ,
Dan
V ( ^p1−^p2 ) =V ¿
p 1 ( 1− p 1) p 2 ( 1− p2 ) p 1 p2
¿ + +2
n n n
(Kami mendapatkan tanda + di depan suku ketiga karena kovariansnya sendiri negatif.)
Karena pi diperkirakan oleh ^pi , mudah untuk menemukan estimator yang baik dari varians ini.
Contoh 4.11
Gagasan melarang merokok di tempat kerja telah ada sejak lama. Jajak pendapat Time/
Yankelovich terhadap 800 orang dewasa di negara A yang dilakukan pada 6–7 April 1994 (lihat
Waktu, 18 April 1994) bertanya:
Haruskah merokok dilarang dari tempat kerja, haruskah ada area khusus merokok, atau
haruskah tidak ada batasan?
Hasilnya diberikan pada Tabel 4.5. Berdasarkan sampel sekitar 600 bukan perokok dan 200
perokok, perkirakan (a) perbedaan sebenarnya antara proporsi yang memilih "larang" dan (b)
perbedaan sebenarnya antara proporsi bukan perokok yang memilih "larang" dan "area khusus".
Solusi
a. Proporsi yang memilih "dilarang" saling independen satu sama lain; nilai yang tinggi
pada satu proporsi tidak memaksa nilai yang rendah pada proporsi yang lain, karena
mereka berasal dari sampel yang independen. Dengan demikian, perkiraan yang sesuai
untuk perbedaan ini adalah
¿
¿ 0.36 ± 0.06
Jadi, perbedaan nyata antara 30% dan 42% akan konsisten dengan data ini.
b. Proporsi bukan perokok yang memilih “area khusus” bergantung pada proporsi yang
memilih “dilarang”; jika yang terakhir besar, yang pertama harus kecil.
Tabel 4.5
Hasil survei merokok
Bukan perokok Perokok
Dilarang 44% 8%
Ini adalah proporsi multinomial. Oleh karena itu, estimasi/perkiraan yang tepat
dari selisih/perbedaan sebenarnya adalah:
(0.52−0.44) ±2
√ (0.44)(0.56) (0.52)(0.4 8) (0.44)(0.52)
600
+
¿ 0.0 8 ± 0.0 8
600
+
600
Perbedaan nyata antara 0% dan 16% akan konsisten dengan data ini. Secara khusus, tidak
ada bukti kuat yang mengatakan bahwa, untuk populasi, kedua proporsi ini akan berbeda.
Telah dicatat bahwa batas 2SD pada kesalahan setara dengan perkiraan interval
kepercayaan sekitar 95%. Namun, jika dua interval seperti itu digunakan pada data yang sama,
kemungkinan bahwa kedua interval tersebut mengandung nilai parameter sebenarnya kurang dari
95%. Oleh karena itu, banyak perkiraan interval seharusnya tidak dibangun dari data sampel
yang sama kecuali ada penyesuaian untuk mempertimbangkan penggunaan yang berulang.
Kebanyakan buku tentang metode statistik standar menyajikan berbagai penyesuaian seperti itu,
tetapi tidak dibahas di sini. Sebaliknya, kami mengikuti filosofi membuat hanya beberapa
perbandingan yang bermakna, daripada membuat semua perbandingan yang mungkin, ketika
situasi memerlukan perbandingan.
Contoh 4.12
Sebuah survei terhadap 209 psikolog klinis berlisensi yang dipilih secara acak dari semua
profesional semacam itu di negara bagian B digunakan untuk mempelajari efek usia dan jenis
kelamin pada diagnosis gejala yang berkaitan dengan perasaan depresi pada pasien. Semua
psikolog membaca studi kasus yang sama, kecuali untuk perubahan usia dan jenis kelamin
pasien. Diagnosis yang dihasilkan dilaporkan pada Tabel 4.6. (a) Apakah usia tampaknya
mempengaruhi diagnosis depresi (berlawanan dengan diagnosis penyebab organik)? (b) Apakah
jenis kelamin tampaknya mempengaruhi diagnosis depresi.
Tabel 4.6
Diagonosis umum berdasrkan usia dan jenis kelamin pasien
Solusi
a. Kita dapat membuat banyak perbandingan untuk melihat pengaruh usia terhadap
diagnosis. Namun, untuk membatasi perbandingan tersebut, kita hanya akan
membandingkan usia yang sangat berbeda: 45 tahun dan 85 tahun. Dari semua peserta
yang kita perhatikan, 93% dari mereka yang berusia 45 tahun didiagnosis sebagai depresi
(39 dari 42 orang), sedangkan hanya 69% dari peserta yang berusia 85 tahun yang
didiagnosis sebagai depresi (25 dari 36 orang). Estimasi interval yang tepat adalah
(0.93−0.69)± 2
√ (0.93)(0.07) (0.69)(0.31)
42
¿ 0.24 ± 0.17
+
36
Ada bukti statistik yang mengatakan bahwa orang berusia 85 tahunlebih kecil
kemungkinannya untuk didiagnosis dengan depresi.
b. Sepintas, terlihat bahwa wanita mungkin lebih sering didiagnosis mengalami depresi
daripada pria. Namun, untuk memastikan perbedaan ini, kita perlu melihat interval
estimasi dari perbedaan proporsi tersebut.
(0.77−0. 84)±2
√ (0.77)(0.23) (0. 84)(0.16)
66
¿ 0.07 ± 0.13
+
77
Wanita mungkin tidak didiagnosis sebagai depresi lebih sering pada populasi pasien
tersebut. Perbedaan yang diamati ini bisa jadi hanya karena kesalahan pengambilan
sampel.
4.7 Ringkasan
Tujuan statistik adalah untuk membuat kesimpulan tentang satu atau lebih parameter
populasi dari informasi yang terkandung dalam sampel. Dua faktor yang mempengaruhi
kuantitas informasi dalam penyelidikan yang diberikan. Yang pertama adalah ukuran sampel.
Semakin besar ukuran sampel, semakin banyak informasi yang kita harapkan untuk diperoleh
tentang populasi. Kedua faktor adalah jumlah variasi dalam data. Variasi dapat dikontrol oleh
desain survei sampel, yaitu metode yang digunakan untuk memperoleh observasi.
Dalam bab ini, kita telah membahas jenis desain survei sampel yang paling sederhana,
yaitu, pengambilan sampel acak sederhana. Desain ini tidak berusaha mengurangi efeknya
variasi data pada kesalahan estimasi. Sebuah sampel acak sederhana berukuran n terjadi jika
setiap sampel n elemen dari populasi mempunyai peluang yang sama untuk terpilih. Tabel
bilangan acak cukup berguna dalam menentukan unsur-unsur yang untuk dimasukkan dalam
sampel acak sederhana.
Dalam mengestimasi mean populasi μ dan total τ, kita menggunakan mean sampel dan
jumlah sampel 𝑁𝑦̅, masing-masing. Masing-masing kedua penduga tidak bias; itu adalah E( y̅ ) =
μ dan E(Ny ̅ )=τ . Varians yang diestimasi dan batas kesalahan pendugaan adalah diberikan
untuk kedua penduga.
Kadang-kadang selama perancangan survei yang sebenarnya, peneliti harus memutuskan
seberapa banyak informasi yang diinginkan, yaitu seberapa besar batas kesalahan estimasi yang
dapat ditoleransi. Persyaratan ukuran sampel telah disajikan untuk memperkirakan μ dan τ
dengan batas tertentu pada kesalahan estimasi.
Parameter ketiga yang diestimasi adalah proporsi populasi p. Sifat-sifat ^p telah disajikan
dan terkait dengan sifat-sifat y̅ , penaksir dari rata-rata populasi μ. Memilih ukuran sampel untuk
memperkirakan p dengan batas tertentu pada kesalahan estimasi didasarkan pada prinsip yang
sama yang digunakan dalam memilih ukuran sampel untuk memperkirakan μdanτ .
terkadang penting untuk membandingkan rata-rata atau proporsi dengan mengestimasi
perbedaan di antara keduanya. Variansi dari perbedaan-perbedaan tersebut mudah diestimasi
untuk sampel-sampel yang independen. Satu kasus dependen yang dipertimbangkan adalah
dalam membandingkan proporsi multinomial, jenis yang sering muncul dalam survei sampel.
Studi Kasus
Jika jajak pendapat yang dibahas dalam studi kasus pembuka terdiri dari 1200 orang dewasa
yang dipilih secara acak, maka sekitar setengah dari responden seharusnya perempuan dan
setengahnya laki-laki. Oleh karena itu, ukuran sampel 600 akan digunakan untuk tanggapan
hanya dari pria atau wanita. "Apakah proporsi pria yang minum berkurang secara signifikan dari
tahun 1992 hingga 1994?" adalah pertanyaan tentang dua proporsi yang hampir independen.
Estimasi dan batas kesalahan ditemukan dengan:
( 0.72−0.70 ) ±2
√ ( 0.72 )( 0.2 8 ) ( 0.70 ) ( 0.30 )
600
+
600
=0.02 ±0.05
Dan oleh karena itu, tidak ada penurunan yang signifikan.
Estimasi dan batas untuk proporsi wanita yang serupa menghasilkan interval 0 , 04 ± 0 , 06,
sehingga tidak ada peningkatan yang signifikan dalam proporsi wanita juga. Perbandingan antara
proporsi orang yang mengurangi minum sebelum 1994 dengan mereka yang mengurangi minum
sebelum 1984 melibatkan perbedaan proporsi independen lagi, tetapi di sini ukuran sampelnya
1200 pada kedua kelompok. Estimasi dan batasannya diberikan oleh:
( 0.41−0.29 ) ±2
√ ( 0.41 )( 0.59 ) ( 0.29 ) ( 0.71 )
1200
+
1200
=0.12± 0.04
Ini menunjukkan peningkatan proporsi yang signifikan bagi mereka yang telah
mengurangi minum dan, pada kenyataannya, membenarkan judul artikel di mana data ini
muncul: “Jumlah Peminum Tetap Stabil, tetapi Minum Lebih Sedikit.” Perbandingan proporsi
yang mengalami penurunan minum selama lima tahun terakhir tahun dengan mereka yang tetap
sama (keduanya untuk 1994) melibatkan perbedaan proporsi tergantung. Estimasi dan terikat
pada kesalahan diberikan oleh:
( 0.41−0.51 ) ± 2
√ ( 0.41 ) ( 0.59 ) ( 0.51 )( 0.49 ) 2 ( 0.41 )( 0.51 )
1200
+
1200
+
1200
=−0.01± 0.06
Karena intervalnya tidak tumpang tindih dengan nol, perbedaan antara proporsi sampel
tampaknya mencerminkan perbedaan nyata antara proporsi populasi.
Latihan
Beberapa latihan dibawah ini memerlukan data; cari di Bagian 4.0 untuk mendapatkan link ke
data-data tersebut dalam file Excel.
1. Buat daftar semua kemungkinan sampel acak sederhana berukuran n = 2 yang dapat
dipilih dari populasi {0, 1, 2, 3, 4}. Hitung s2 untuk populasi dan untuk sampel.
2. Untuk sampel acak sederhana yang dihasilkan pada Latihan 4.1, hitung s2untuk setiap
sampel. Tunjukkan secara numerik bahwa
2 N 2
E(s ) σ
N −1
3. Anggap Anda ingin memperkirakan jumlah kelompok gulma tertentu di sebuah ladang.
Apa yang menjadi populasi, dan apa yang akan Anda gunakan sebagai unit sampling?
Bagaimana cara membuat bingkai sampel? Bagaimana cara memilih sampel acak
sederhana? Jika unit sampel adalah area seperti halaman persegi, apakah ukuran yang
dipilih untuk unit sampel memengaruhi akurasi hasil? Apa saja pertimbangan yang harus
dipertimbangkan dalam pemilihan ukuran unit sampling?
4. Dalam situasi berikut, manakah yang dapat Anda generalisasikan secara wajar dari
sampel ke populasi?
a. Anda menggunakan kelas statistik Anda untuk mendapatkan perkiraan persentase
siswa di sekolah Anda yang belajar setidaknya dua jam semalam.
b. Anda menggunakan pendapatan tahunan rata-rata para duta besar PBB untuk
mendapatkan perkiraan pendapatan perkapita rata-rata untuk dunia secara
keseluruhan.
c. Pada tahun 1996, jajak pendapat Gallup mengambil sampel 235 penduduk AS
berusia 18 hingga 29 tahun, untuk memperkirakan persentase dari semua
penduduk AS yang berusia 18 hingga 29 tahun yang mendukung pemotongan
pengeluaran sosial.
5. Deskripsikan jenis bias pemilihan sampel yang akan terjadi dari masing-masing metode
sampel di bawah ini.
6. Anda ingin mengetahui persentase rumah tangga di Negara A yang memiliki anak di
bawah usia 13 tahun yang tinggal di rumah. Setiap hari kerja, mulai dari pukul 9 pagi
hingga pukul 5 sore, pewawancara Anda akan menelepon rumah tangga dalam sampel
Anda. Setiap kali mereka berhasil menghubungi seseorang dalam sampel tersebut,
mereka akan bertanya, "Apakah Anda memiliki anak di bawah usia 13 tahun yang tinggal
di rumah Anda?" Pada akhirnya, Anda akan menghentikan upaya untuk menghubungi
rumah tangga yang tidak dapat dihubungi.
7. Jika ingin memperkirakan jumlah rata-rata negara A yang pernah dikunjungi orang yang
tinggal di sebuah negara dengan menggunakan kriteria responden berusia minimal 40
tahun. Bagaimana tanggapan Anda mengenai kriteria responden minimal 40 tahun
apakah terlalu tinggi atau terlalu rendah? Bias yang mungkin terjadi sampel yang Anda
pilih adalah mereka yang tinggal di Rhode Island?
8. Untuk memperkirakan jumlah rata-rata anak per keluarga di kota tempat Anda tinggal,
Anda menggunakan kelas statistika Anda sebagai sampel praktis. Kemudian Anda
bertanya kepada setiap siswa berapa banyak anak dalam keluarganya. Bagaimana
menurut Anda mengenai rata-rata sampel lebih tinggi atau lebih rendah dari rata-rata
populasi? Jelaskan mengapa!
9. “Televisi hari ini lebih ofensif dari sebelumnya, katakanlah mayoritas 92% pembaca
yang mengambil bagian dalam sebuah dalam sebuah survei. Berapa persentase dari
seluruh publik yang menonton TV AS menurut Anda jika dikatakan "acara hari ini
lebih ofensif dari sebelumnya": lebih dari 92%, sedikit kurang dari 92%, atau hanya
sekitar 92%? Jelaskan mengapa demikian?
10. Bandingkan manfaat kedua metode pengambilan sampel SRS. Jika Anda
mendapatkan daftar semua siswa di kelas bahasa Inggris, kemudian melakukan
pengambilan sampel acak dari siswa tersebut dan mencari berapa banyak siswa
yang terdaftar di setiap kelas bahasa Inggris tersebut!
13. Kumpulan data USPOP dalam Lampiran C mencantumkan angka penduduk per negara
bagian dari sensus tahun 2000. Pilih sampel acak sederhana dari lima keadaan.
Gunakan angka populasi 2000 untuk negara bagian sampel untuk memperkirakan total
populasi salah satu negara dan beri batasan pada kesalahan estimasi. Apakah jawaban
interval Anda termasuk jumlah penduduk yang diberikan dalam tabel? Apakah menurut
Anda setiap interval kepercayaan 95% yang mungkin berdasarkan sampel ukuran 5
akan mencakup total yang sebenarnya? Bandingkan interval dengan anggota kelas
lainnya dan hitung persentase interval yang diamati yang benar-benar menangkap total
sebenarnya.
14. Pejabat taman negara tertarik pada proporsi orang yang berkemah. Mereka memutuskan
untuk mengambil acak sampel sederhana dari pihak berkemah pertama yang
mengunjungi perkemahan. Jika kepala pihak ke-i sampel tidak memikirkan jarak
perkemahan memadai dan jika (i = 1, 2, . . , 30). Gunakan data dalam tabel terlampir
untuk memperkirakan p, proporsi pekemah yang menganggap jarak perkemahan
memadai. Tempatkan batas pada kesalahan estimasi.
15. Gunakan data pada soal nomor 14 untuk menentukan ukuran sampel yang diperlukan
untuk mengestimasi p dengan batas kesalahan estimasi besarnya B = 0,05.
16. Sebuah sampel acak sederhana dari 100 meter air dalam suatu komunitas untuk
memperkirakan konsumsi air rata-rata harian per rumah tangga selama musim
kemarau. Rata-rata sampel dan varians sampel ditemukan menjadi y ̅ = 12,5 dan s2 =
1.252. Jika kita berasumsi bahwa ada N = 10.000 rumah tangga dalam masyarakat,
perkirakan m, dan konsumsi harian rata-rata yang sebenarnya!
17. Dengan menggunakan data pada Latihan 4.16, perkirakan jumlah total gallon air, yang
digunakan setiap hari selama musim kemarau. Tempatkan batas pada kesalahan
estimasi.
18. Pengelola sumber daya lahan permainan hutan prihatin dengan ukuran populasi rusa dan
kelinci selama bulan-bulan musim dingin di hutan tertentu. Sebagai perkiraan ukuran
populasi, mereka mengusulkan penggunaan jumlah rata-rata kelompok penangkapan
untuk kelinci dan rusa per petak seluas 30 kaki persegi. Dari foto udara, hutan dibagi
menjadi N = 10.000
a. Grid 30 kaki persegi. Sebuah sampel acak sederhana n = 500 plot diambil, dan
diamati jumlah kelompok penangkapan untuk kelinci dan rusa. Hasil penelitian ini
dirangkum dalam tabel terlampir.
b. Perkirakan perbedaan ukuran rata-rata kelompok penangkapan per plot untuk kedua
hewan, dengan margin kesalahan yang sesuai
19. Seorang dokter gigi tertarik pada efektivitas pasta gigi baru. Sekelompok N = 1000
anak sekolah berpartisipasi dalam penelitian. Catatan pra-studi menunjukkan ada rata-
rata 2,2 rongga setiap enam bulan untuk kelompok. Setelah tiga bulan penelitian, dokter
gigi mengambil sampel
Jika n = 10 anak. Dengan menggunakan data pada tabel terlampir, perkirakan jumlah
ratarata rongga untuk seluruh kelompok dan beri batas pada kesalahan pendugaan!
20. Departemen permainan ikan suatu negara bagian prihatin dengan arah program
perburuannya di masa depan. Untuk menyediakan potensi yang lebih besar untuk
perburuan di masa depan, departemen ingin menentukan proporsi pemburu yang
mencari semua jenis burung buruan. Sampel acak sederhana n = 1000 dari N = 99.000
pemburu berlisensi diperoleh. Misalkan 430 menunjukkan bahwa mereka berburu
burung, Perkirakan p, proporsi pemburu berlisensi yang mencari burung buruan.
Berilah interval pada kesalahan estimasi tersebut!
21. Dengan menggunakan data pada nomor 19, tentukan ukuran sampel yang harus
diperoleh departemen tersebut untuk memperkirakan proporsi pemburu burung buruan,
mengingat kesalahan pendugaan besarnya B = 0,02.
22. Seorang auditor perusahaan tertarik untuk memperkirakan 𝑁𝑝̂, jumlah total voucher
𝑁 2 𝑉⃛ (𝑝̂ ) perjalanan yang salah diajukan. Dalam sampel acak sederhana n = 50
voucher yang diambil dari kelompok N = 250, 20 salah diajukan. Perkirakan jumlah
voucher dari N = 250 yang salah diajukan dan ikat pada kesalahan estimasi. [Petunjuk:
Jika p adalah proporsi populasi voucher yang salah, maka Np adalah totalnya jumlah
voucher yang salah. Penaksir Np adalah , yang memiliki `varians taksiran yang
diberikan oleh auditor perusahaan].
23. Seorang psikolog ingin memperkirakan waktu reaksi rata-rata terhadap stimulus di
antara 200 pasien di rumah sakit yang mengkhususkan diri pada gangguan saraf.
Sampel acak sederhana n = 20 pasien dipilih, dan waktu reaksi mereka diukur, dengan
hasil sebagai berikut:
𝑦̅ = 2.1 detik, 𝑠 = 0.4 detik
24. Dalam soal 23, seberapa besar sampel yang harus diambil untuk memperkirakan µ
dengan batas dari 1 detik pada kesalahan estimasi? Gunakan 1,0 detik sebagai perkiraan
deviasi standar populasi.
25. Sebuah studi sosiologis yang dilakukan di sebuah kota kecil meminta perkiraan proporsi
rumah tangga yang memiliki setidaknya satu anggota berusia di atas 65 tahun. Kota ini
memiliki 621 rumah tangga menurut direktori kota terbaru. Sebuah sampel acak
sederhana dari n = 60 rumah tangga dipilih dari direktori. Pada akhir pekerjaan
lapangan, dari 60 rumah tangga sampel, 11 rumah tangga berisi setidaknya satu anggota
berusia di atas 65 tahun. Perkirakan proporsi populasi sebenarnya p dan beri batas pada
kesalahan pendugaan!
26. Dalam soal 25, seberapa besar sampel yang harus diambil untuk memperkirakan p
dengan a terikat B = 0,08 pada kesalahan estimasi? Asumsikan proporsi sebenarnya p
kira-kira 0,2.
27. Seorang peneliti tertarik untuk mengestimasi jumlah total “hitungan pohon” (pohon
yang lebih besar dari ukuran yang ditentukan) di perkebunan N = 1500 hektar.
Informasi ini digunakan untuk menentukan total volume kayu untuk pohon di
perkebunan. Sebuah sampel acak sederhana dari n = 100 plot satu hektar dipilih, dan
setiap plot diperiksa untuk jumlah dari jumlah pohon. Rata-rata sampel untuk n = 100
plot satu area adalah dengan a varians sampel dari s 2 = 136. Perkirakan jumlah total
pohon yang dihitung di perkebunan dan tentukan interval batas pada kesalahan estimasi.
28. Dengan menggunakan hasil survei yang dijelaskan dalam soal 27 tentukan ukuran
sampel yang diperlukan untuk memperkirakan τ, jumlah total pohon di perkebunan,
dengan batas kesalahan perkiraan besarnya B = 1500.
29. Dalam sebuah survei terhadap 1000 orang dewasa dari masyarakat umum menunjukkan
bahwa 81% menganggap TV berkontribusi pada penurunan nilai-nilai keluarga. Jika
sampel dipilih secara acak, apa yang dapat Anda katakan tentang proporsi semua orang
dewasa yang berpikir TV berkontribusi pada penurunan nilai-nilai keluarga?
(Diskusikan apakah kondisi untuk menggunakan interval kepercayaan terpenuhi,
berikan interval kepercayaan itu sendiri, dan berikan interpretasi interval yang
digunakan).
30. (Pilihan ganda) Sebuah survei dilakukan untuk menentukan apa yang lebih disukai
orang dewasa di jasa online. Hasil survei menunjukkan bahwa 73% masyarakat
menginginkan layanan email, dengan margin kesalahan plus atau minus 4%. Apa yang
dimaksud dengan frasa “plus atau minus 4%”?
a. Mereka memperkirakan bahwa 4% dari populasi yang disurvei dapat berubah
pikiran antara waktu jajak pendapat dilakukan dan waktu survei diterbitkan.
b. Ada kemungkinan 4% bahwa persentase sebenarnya dari orang dewasa yang
menginginkan layanan email tidak akan berada dalam interval kepercayaan 69-
77%.
c. Hanya 4% dari populasi yang disurvei
d. tidak mungkin mendapatkan proporsi sampel yang diamati sebesar 73% kecuali
yang sebenarnya persentase semua orang dewasa yang menginginkan layanan
email adalah antara 62% dan 68%.
e. Probabilitas bahwa proporsi sampel berada dalam selang kepercayaan adalah 0,0
31. Diketahui bahwa sekitar 2% burung layang-layang memiliki bulu putih di tempat-
tempat bulu biasanya berwarna biru atau merah, tetapi sekitar 14% burung layang-
layang di beberapa tempat memiliki mutasi genetik seperti itu. Apakah para pencari
kembali percaya bahwa perbedaan tersebut dapat secara wajar dikaitkan dengan
kebutuhan atau apakah mutasi yang disebabkan radioaktivitas tergantung pada berapa
banyak burung layang-layang yang diperiksa. Itu ukuran sampel tidak dilaporkan dalam
artikel. Misalkan ukuran sampelnya adalah 500. Berapa yang harus dikatakan para
penelitian pada pers?
32. Pada bulan Maret 2001, sebuah Jajak Pendapat Gallup bertanya, “Bagaimana Anda
menilai kualitas lingkungan secara keseluruhan di negara ini saat ini—sangat baik, baik,
hanya adil, atau buruk?” Dari 1060 orang dewasa secara nasional, 46% memberikan
peringkat sangat baik atau baik. Apakah ini bukti yang meyakinkan bahwa kurang dari
setengah orang dewasa bangsa akan memberikan peringkat sangat baik atau baik?
33. dalam survei nasional baru-baru ini, 16.262 siswa di 151 sekolah menyelesaikan
kuesioner tentang aktivitas fisik. Siswa laki-laki (55,5%) secara signifikan lebih
mungkin daripada siswa perempuan (42,3%) pernah bermain di tim olahraga yang
dijalankan oleh sekolah mereka selama 12 bulan sebelum survei. Sumber: Pusat
Nasional untuk Pengendalian Penyakit dan Pencegahan, 1997 Sistem Pengawasan
Perilaku Risiko Pemuda. Periksa keakuratan pernyataan "secara signifikan lebih
mungkin," dengan asumsi bahwa ada jumlah yang sama dari siswa laki-laki dan
perempuan dalam survei ini dan bahwa sampelnya setara dengan sederhana contoh
acak.
34. Berapa rata-rata suhu tubuh dalam kondisi normal? Apakah sama untuk keduanya? pria
dan wanita? Peneliti medis yang tertarik dengan pertanyaan ini mengumpulkan data
dari banyak pria dan wanita. Sampel acak dari data tersebut tersedia melalui elektronik
Bagian 4.0
a. Perkirakan suhu tubuh rata-rata pria, dengan dua standar deviasi margin dari
kesalahan.
b. Apakah ada bukti bahwa suhu tubuh rata-rata pria berbeda dari suhu tubuh rata-
rata? suhu wanita? Jelaskan secara rinci.
35. Tabel terlampir menunjukkan harga eceran yang disarankan pabrik, jalan raya mil per
galon, dan berat untuk setiap kotak dalam dua sampel kendaraan yang berbeda. Itu
bagian atas tabel menunjukkan sampel acak dari lima model sedan keluarga (yang
mengatur mobil mewah, mobil sport, dan mobil konvertibel) dan bagian bawah
menunjukkan sampel acak dari lima model kendaraan utilitas sport.
Mpg Jalan
Sedans MSRP (dollar) Berat (pon)
raya
Buick
Century 20,020 29 3368
Custom
Chevrolet
Malibu 17,150 29 3051
Chrysler
Concorde 22,510 28 3488
LX
Ford
Taurus LX 18,550 27 3354
Toyota
Camry 20,415 32 3120
LE2
SUVs
Blazer
4WD LX 26,905 20 4049
Explorer
AWD XLT 30,185 19 4278
Jimmy
4WD SLT 30,225 20 4170
27,920 19 4465
Trooper S
Sumber: www.autoweb.com
a. Perkirakan perbedaan rata-rata harga model antara sedan
keluarga dan SUV diperkiraan interval kepercayaan 95%
b. Perkirakan perbedaan berat model rata-rata antara sedan
keluarga dan SUV diperkiraan interval kepercayaan 95%
c. Perkirakan perbedaan rata-rata mil jalan raya per galon antara
model keluarga sedan dan model SUV dalam interval
kepercayaan 95% perkiraan.
d. Di antara interval kepercayaan di atas, menurut Anda mana
yang memiliki "keyakinan" paling kecil?jelaskan
36. Pada akhir September 1994, terdapat sebuah penelitian yang
melibatkan 811 pemilih terdaftar di Kota A yang menunjukkan bahwa
57% dari responden tidak setuju dengan legalisasi perjudian kasino di
Kota A. Laporan artikel dari penelitian tersebut menyatakan bahwa
kesalahan pengambilan sampel sebesar 3,5%.
a. Apakah ini kesalahan pengambilan sampel yang benar untuk
dilaporkan?
b. Sebuah argumen statistik yang valid dibuat bahwa
“kebanyakan warga Kota A tidak menyetujui legalisasi kasino
di negara bagian pada waktu itu?” jelaskan.
c. Para pendukung kasino menyatakan bahwa hasil jajak
pendapat mereka hanya menunjukkan sedikit lebih dari
sepertiga dari total penduduk negara bagian yang menentang
kasino. Apakah ada faktor-faktor tertentu yang dapat
menyebabkan perbedaan hasil antara kedua jajak pendapat
tersebut? Misalnya, apakah faktor hasil polling yang
memengaruhi perbedaan tersebut?
37. Jajak pendapat Gallup menjelaskan kesalahan pengambilan sampel
dengan cara berikut:
22 35
Kepastian maya
4 5
Sangat mungkin
19 35
Agak mungkin
18 15
Sekitar 50–50
6 10
Agak tidak mungkin
12 0
Sangat tidak mungkin
15 0
Benar-benar tidak
4 0
Tidak ada respon
SUMBER: Traynor, K. 1984. Akuntansi Periklanan: Persepsi, Sikap dan Perilaku,Jurnal
Penelitian Periklanan, 23(6): 35–40. Hak Cipta © 1984 oleh Advertising Research
Foundation
Menghitung
Dearah
16
1
2
2
6
3
16
4
8
5
6
6
8
8
5
9
7
10
12 10
1
15
10
16
5
18