Bahan Ajar Sampling
Bahan Ajar Sampling
BAB I
PENDAHULUAN
I. 1 Beberapa Definisi
Dalam berbagai media sering dijumpai hasil jejak pendapat dari masyarakat
tentang isu tertentu, jejak pendapat itu dilakukan untuk mengetahui gambaran
pendapat dari masyarakat di daerah dimana jejak pendapat ini dilakukan. Hal serupa
juga dijumpai dalam publikasi-publikasi penelitian ilmiah baik yang ditulis dalam
rangka penyelesaian studi mahasiswa maupun yang tertera dalam jurnal-jurnal
penelititan. Pada dasarnya semuanya menghendaki gambaran menyeluruh yang
didasarkan pada sebagian objek yang diteliti yang disebut sampel. Gambaran ini
dihasilkan oleh proses generalisasi atau disebut juga dengan proses induksi .Oleh
karena itu, agar diperoleh gambaran yang bisa mengungkapkan keadaan menyeluruh
yang sebenarnya, diperlukan dua hal, yaitu proses induksi yang dilakukan dengan cara
yang tepat, dan sampel yang tergolong baik. Dengan proses induksi yang tepat
diartikan sebagai proses yang menggunakan teknik-teknik analisis yang cocok untuk
permasalahan yang dikaji serta mengikuti kaidah-kaidah yang mendasarinya. Sampel
dikatakan baik apabila dapat menggambarkan semua sifat atau karakteristik dari
keseluruhan objek yang diteliti. Untuk dapat memperoleh sampel seperti ini,
diperlukan teknik yang disebut teknik sampling.
Terdapat beberapa definisi yang diperlukan untuk membahas teknik ini.
I.1. 1 Populasi dan Sampel
Populasi merupakan keseluruhan (totality) objek, baik itu dari hasil
menghitung maupun mengukur, yang dibatasi oleh kriteria tertentu. Objek populasi
tersebut terbagi menjadi dua bagian, yaitu objek yang bisa diraba/kongkret (tangiable)
dan objek yang tidak bisa diraba/abstrak (untangiable). Banyaknya objek yang ada
dalam populasi disebut ukuran populasi (population size) yang biasanya
dilambangkan dengan N. Ukuran populasi ini besarnya ada yang bisa dihitung
(countable) dan juga tidak terhitung (uncountable). Apabila ukuran populasi
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
berapapun besarnya, tapi masih bisa dihitung, maka populasi tersebut dinamakan
populasi terhingga (finite population). Jika ukuran populasi sudah sedemikian
besarnya sehingga sudah tidak bisa lagi dihitung, maka populasi itu dinamakan
populasi takhingga (infinite population). Apabila suatu penelitian dilakukan terhadap
semua anggota populasi, maka prosesnya dinamakan Sensus
Dalam suatu penelitian, seringkali peneliti tidak bisa memeriksa seluruh
anggota populasi (sensus). Oleh karena itu, hanya diambil sebagian saja dari anggota
populasi sehingga diperolehlah sampel yang besarnya dilambangkan dengan n.
Adapun proses pengambilan sebagian anggota populasi tersebut dinamakan sampling.
Gambaran mengenai proses sampling bisa dilihat dari ilustrasi berikut ini :
POPULASI ( N )
SAMPEL ( n )
Alasan -alasan
Parameter
Statistik
x
s
p
Sensus
Proses Induksi
Sampling
banyaknya objek yang akan diteliti maka data akan lebih cepat diperoleh dan
dianalisis.
d. Tingkat ketelitian lebih besar, dalam suatu proses penelitian dari mulai
pengumpulan data, pancatatan, dan penganalisisan data harus dilakukan
dengan benar dan tepat. Apabila kita telah memakai tenaga-tenaga yang
berkualitas baik dan diberi latihan intensif, serta pengawasan terhadap
pekerjaan lapangan diperketat tetapi memberikan volume pekerjaan yang
besar dan cenderung monoton, maka akan menimbulkan kebosanan baik itu
dari pencacah maupun peneliti. Oleh karena itu, akan diperoleh data yang
kurang dapat dipercaya kebenarannya.
e. Penelitian bersifat destruktif (penelitian yang sifatnya merusak), sensus tidak
mungkin dilakukan untuk objek yang sifatnya merusak. Misalnya dalam
menguji golongan darah seseorang, maka tidak mungkin semua darah
dikeluarkan untuk diperiksa. Jadi dalam hal ini, sensus tidak mungkin lagi
untuk dilakukan.
f. Faktor ekonomis, yang dimaksud dengan faktor ekonomis adalah
kesepadanan antara biaya, tenaga dan waktu yang dikeluarkan dengan
informasi yang akan diperoleh. Apabila nilai dari infomasi tersebut tidak
sepadan dengan biaya, tenaga dan waktu, maka sensus menjadi tidak baik lagi
untuk dilakukan.
I. 1. 2 Unit Observasi
Suatu objek dimana perlakuan dilakukan disebut unit observasi. Ini merupakan
unit dasar dari observasi yang terkadang disebut elemen. Dalam penelitian tentang
perilaku masyarakat, maka individu masyarakat adalah unit observasi.
I. 1. 3 Populasi Target
Populasi Target merupakan keseluruhan kumpulan pengamatan/observasi
secara lengkap yang akan dipelajari. Menentukan populasi target merupakan langkah
awal yang penting pada saat seseorang akan melakukan penelitian. Dalam beberapa
keadaan sulit untuk menentukan populasi target. Sebagai contohnya, dalam
pemungutan suara dalam bidang politik, apakah target populasinya harus semua orang
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
dewasa yang layak memilih? Semua pemilih yang terdaftar? Semua orang yang
dipilih pada pemilihan terakhir? Pillihan dari target populasi akan memberikan efek
statistik yang sangat besar terhadap hasilnya. Jadi, dalam setiap penelitian seorang
peneliti pada langkah pertama strateginya harus menentukan secara jelas populasi
targetnya yaitu yang nantinya akan menjadi cakupan kesimpulan penelitian. Oleh
karena itu, apabila dalam sebuah hasil penelitian dikeluarkan kesimpulan, maka
menurut etika penelitian, kesimpulan itu hanya berlaku untuk populasi target yang
telah ditentukan.
I. 1. 4 Populasi yang disampel
Populasi yang disampel adalah populasi dimana sampel akan diambil. Pada
suatu saat tertentu setelah peneliti menentukan secara tegas populasi targetnya,
peneliti tidak bisa memperoleh keterangan mengenai populasi targetnya, sehingga
populasi yang ditelitinya berbeda (lebih kecil) dari populasi sasarannya.
Jadi dalam suatu penelitian survey, idealnya populasi yang disampel adalah
juga populasi target, namun keadaan ideal ini jarang terjadi. Contoh, dalam survey
masyarakat, populasi yang disampel biasanya lebih kecil dari populasi target, seperti
tampak dalam gambar berikut :
Kerangka
sampling
Populasi
Tidak termasuk
dalam kerangka
sampling
Tidak dapat
dijangkau
Menolak
merespon
Tidak dapat
dijangkau
Populasi yang
disampel
Tidak layak
untuk di
survai
Populasi target dan populasi yang disampel dalam survey atau jajak pendapat
terhadap suatu kebijakan dari para pemilih melalui suatu telephone, maka yang
menjadi populasi target adalah semua pemilih yang terdaftar. Namun tidak semua
pemilih mempunyai telephone, dengan demikian pemilih yang mempunyai telephone
dan yang mau menelephone serta berhak merupakan populasi yang disampel.
I. 1. 5 Unit sampling
Unit sampling merupakan segala sesuatu yang oleh peneliti dijadikan kesatuan
(unit) yang nantinya akan menjadi objek pemilihan. Jadi unit sampling itu adalah unit
yang diambil sebagai sampel. Unit sampling ini bentuknya bisa individu yang berdiri
sendiri yang disebut satuan elementer (Elementary Unit), dan bisa juga kumpulan
individu yang disebut Cluster. Misalnya, apabila universitas dibagi ke dalam beberapa
fakultas dan dalam penelitian fakultas ini yang akan dipilih, maka fakultas tersebut
mejadi unit sampling. Tetapi apabila universitas dibagi menjadi beberapa jurusan dan
jurusan ini yang akan dijadikan objek penelitian, maka sekarang yang menjadi unit
samplingnya adalah jurusan.
I. 1. 6 Kerangka sampling
Kerangka sampling (sampling frame) adalah daftar unit sampling yang ada
dalam sebuah populasi. Dalam survey tentang pendapat masyarakat akan suatu
kebijakan, maka bila unit samplingnya adalah rumah tangga, daftar yang berisikan
rumah tangga, nomor rumah serta alamatnya dan karakteristik lain yang berkaitan,
disebut kerangka sampling.
Dalam teori sampling, apabila kita harus menyusun sampel, kemudian
terhadap data yang dikumpulkan dari sampel ini kita ingin melakukan analisis secara
statistis, maka sampel yang kita susun tadi harus merupakan sampel random. Sampel
random hanya bisa disusun apabila ada kerangka sampling. Oleh karena itu untuk bisa
memperoleh sampel random, kerangka sampling mutlak harus ada.
I. 1. 7 Bias
Parameter-parameter populasi hanya bisa diketahui nilainya jika penelitiannya sensus.
Dalam penelititan yang bukan sensus, untuk mengetahui nilai parameter tertentu,
dilakukan penaksiran melalui sampel.
Definisi :
Apabila dari sebuah populasi kita akan menaksir sebuah parameter dengan penaksir
Kita ingin menaksir parameter 2 dengan s2, maka s2 adalah estimator untuk
2
Apabila harga ekspektasi untuk sesuatu penaksir tidak sama dengan parameter yang
ditaksir maka penaksir itu dikatakan bias.
Definisi :
Apabila merupakan penaksir untuk yang memenuhi persyaratan bahwa rata-rata
untuk semua nilainya sama dengan , maka dikatakan adalah penaksir tak bias
untuk .
Definisi:
Apabila parameter yang akan ditaksir adalah dan penaksirnya adalah maka bias
didefinisikan sebagai
B =| E () |
Bias adalah selisih mutlak antara parameter yang ditaksir dengan ekspektasi
penaksirnya.
a. Bias dalam pemilihan unit sampel
Sampel yang baik adalah sampel yang bebas dari bias (bias dalam pemilihan
unit sampel) terjadi bila beberapa bagian dari populasi target tidak ada dalam populasi
yang disampel. Bila suatu survey dirancangkan untuk mempelajari pendapatan rumah
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
tangga yang tinggal menetap (tidak termasuk komuter), maka taksiran rata-rata
pendapatan rumah tangga akan mungkin terlalu besar, sehingga memberikan taksiran
yang bias.
b. Bias dalam pengukuran
Sampel yang baik adalah juga sampel yang mempunyai sifat bahwa responden
merespon pertanyaan dengan akurat. Bias dalam pengkuran terjadi bila instrument
yang digunakan untuk mengukur cenderung akan memberikan hasil yang berbeda dari
yang sesungguhnya. Jadi instrument tersebut gagal untuk dapat mengukur apa yang
sebenarnya harus diukur.Mengukur apa yang seharusnya merupakan hal yang
memang sulit dalam penelitian sosial karena penelitian biasanya berkaitan dengan
pengukuran karakteristik manusia, yang kadang-kadang tidak bersedia untuk
mengatakan hal yang sebenarnya. Dla survey penelitian yang dilakukan terhadap
petani dalam rangka pemberian bantuan makanan maka mereka akan cenderung
merendahkan hasil pertaniannya dengan harapan memperoleh bantuan pangan.
I. 1. 8 Error sampling dan nonsampling
Dalam poling pendapat sering dijumpai pernyataan bahwa sampel yang
diambil menggunakan margin error sebesar 5%. Margin error menggambarkan
besarnya sampling error yang ingin diambil oleh peneliti, yaitu error yang dihasilkan
akibat penelitian menggunakan sampel (bukan populasi), Idealnya error harus sekecil
mungkin, namun bila memperkecil error berakibat bertambah besar sampel. Jika
peneliti mengambil sampel lain yang berbeda, maka jelas akan didapat nilai taksiran
yang juga berlainan. Error sampling biasanya dinyatakan dengan terminology
probabilitas.
Jadi error sampling merupakan selisih antara nilai parameter dengan nilai
statistik penaksirnya.
Definisi:
Apabila merupakan sebuah parameter dan merupakan penaksir bagi maka error
sampling didefinisikan sebagai:
=| |
Error sampling bisa pula berarti semua bentuk error yang ditimbulkan karena proses
sampling. Apabila kekeliruan yang terjadi bukan karena proses sampling maka
kekeliruan itu disebut non-sampling error. Sebagai contoh adalah kekeliruan
pengumpulan data sebagai akibat kekeliruan questioner, pemilihan unit sampel dan
ketidakakuratan merespon. Jadi non-sampling error adalah error yang tidak dapat
ditandai dari variabilitas satu sampel dengan sampel lainnya.
I. 1. 9 Presisi dan Akurasi
Presisi menunjukkan kekonsistenan atau keseragaman dari nilai penaksir.
Makin seragam nilai dari suatu penaksir, maka makin baik presisinya. Dengan kata
lain bahwa datanya semakin homogen. Dalam ukuran statistik, presisi dinyatakan
dengan standard error
X X
X
XXX
X
Pemanah A
XX
XXX
XX
Pemanah B
Pemanah C
dalam arti bahwa hasil dari tembakannya tidak tepat sasaran dengan variasi yang tidak
konsisten. Sedangkan untuk pemanah B menghasilkan suatu tembakan yang konsisten
sehingga bisa dikatakan bahwa dia memiliki presisi yang tinggi, tetapi masih tidak
tepat sasaran atau akurasinya rendah. Untuk pemanah C memberikan kondisi yang
terbaik, yaitu memiliki presisi dan akurasi yang tinggi, artinya selain tepat sasaran,
juga hasil tembakannya konsisten. Dalam masalah sampling, kondisi seperti pemanah
C-lah yang diinginkan.
I. 1. 10 Rencana Sampling (Sampling Plan) dan Rancangan Sampling (Sampling
Design)
Ketika kita melakkukan proses sampling, maka secara tegas kita membedakan
apa yang dimaksud dengan Rencana Sampling dan Rancangan Sampling.
Rencana Sampling merupakan sebuah gambaran garis besar yg menyangkut :
1. Penentuan populasi sasaran
2. Penentuan bentuk dan ukuran satuan sampling
3. Penentuan ukuran sampel ( n )
4. Penentuan cara memilih satuan sampling
Apabila pada rencana sampling di atas kita menambahkan metode penaksiran/metode
analisis, maka rencana sampling meningkat menjadi Rancangan Sampling.
Rancangan Sampling
Rencana Sampling
populasinya tak hingga, maka FPC dianggap sama dengan 1 dan tidak usah
dicantumkan dalam rumus Standard Error.
Bentuk dari FPC itu adalah
N n
, tetapi bentuk ini tidak bisa memberikan
N 1
keterangan mengenai beberapa hal yang penting. Oleh karena itu dalam pembicaraan
ita mengenai sampling, bentuk FPC yang akan kita gunakan adalah :
N n
n
= 1
N
N
yaiotu :
a.
n
, disebut sampling fraction, menyatakan berapa persen sampel yang kita buat
N
(dari populasi). Misalnya jika ada keterangan
n
= 0.15, maka berarti bahwa
N
n
menyatakan besarnya peluang setiap satuan sampling untuk termasuk ke dalam
N
sampel berukuran n.
.
Banyaknya kemungkinan sampel yang bisa diambil tergantung pada
proses pengambilan unit-unit populasinya.
sampling terbagi ke dalam dua tipe, yaitu sampling dengan pengembalian dan
sampling tanpa pengembalian. Sampling dengan pengembalian merupakan suatu
proses pengambilan sampling dimana sampel yang telah terpilih dikembalikan
lagi ke dalam populasi sebelum pemilihan selanjutnya dilakukan, sehingga ada
kemungkinan suatu satuan sampling tertentu akan terpilih lebih dari sekali. Oleh
karena itu, jika sampling dilakukan dengan pengembalian, maka akan terdapat Nn
buah sampel yang berlainan. Adapun sampling tanpa pengembalian merupakan
suatu proses pengambilan sampel dimana satuan sampling yang telah terpillih
tidak dikembalikan lagi ke dalam populasi, sehingga setiap satuan sampling hanya
memiliki kesempatan terpilih satu kali. Oleh karena itu, jika sampling dilakukan
N
N!
tanpa pengembalian, maka akan terdapat =
buah sampel yang
n n !( N n ) !
berlainan.
kemungkinan sampel yang akan terbentuk, maka untuk tiap-tiap sampel yang
bersangkutan juga akan terdapat beberapa rata-rata sampelnya. Anggap rata-rata
ini sebagai data baru, maka akan terbentuk suatu kumpulan data yang terdiri dari
rata-rata dari sampel-sampel. Dari kumpulan rata-rata tersebut dicari rata-rata dan
simpangan bakunya, maka akan diperoleh rata-rata dari rata-rata, disimbolkan
dengan x dan simpangan baku dari rata-rata, disimbolkan dengan x .
Sebagai contoh, pada tabel berikut terdapat data mengenai nilai intelegensi calon
legislatif yang menggunakan ijasah palsu. Terdapat 5 calon legislatif yang
mengunakan ijasah palsu dengan nilai intelegensi masing-masing 50, 60, 70, 80,
dan 90. Dari populasi 5 calon legislatif tersebut, diambil 2 sampel secara
berulang-ulang sampai semua kemungkinan sampel terambil.
No. Caleg
Nilai Intelegensi
50
60
70
80
90
i =1
N
350
=
5
= 70
=
=
(X
i =1
1000
5
= 14,14214
=
Rata-rata
Sampel
Nilai Intelegensi
1;1
50 ; 50
50
1;2
50 ; 60
55
1;3
50 ; 70
60
1;4
50 ; 80
65
1;5
50 ; 90
70
2;1
60 ; 50
55
2;2
60 ; 60
60
2;3
60 ; 70
65
2;4
60 ; 80
70
10
2;5
60 ; 90
75
11
3;1
70 ; 50
60
12
3;2
70 ; 60
65
13
3;3
70 ; 70
70
14
3;4
70 ; 80
75
15
3;5
70 ; 90
80
16
4;1
80 ; 50
65
17
4;2
80 ; 60
70
18
4;3
80 ; 70
75
19
4;4
80 ; 80
80
20
4;5
80 ; 90
85
Nilai Intelegensi
21
5;1
90 ; 50
70
22
5;2
90 ; 60
75
23
5;3
90 ; 70
80
24
5;4
90 ; 80
85
25
5;5
90 ; 90
90
Tabel di atas merupakan distribusi sampel untuk nilai intelegensi. Terlihat dari
tabel di atas bahwa terdapat data baru sebanyak 25 rata-rata. Distribusi dari ratarata tersebut juga bisa disajikan ke dalam bentuk berikut :
Rata-rata
Frekuensi
P(X)
50
0,04
55
0,08
60
0,12
65
0,16
70
0,2
75
0,16
80
0,12
85
0,08
90
0,04
Nilai Intelegensi
Frequency
0
50.0
55.0
60.0
65.0
70.0
75.0
80.0
85.0
90.0
Intelegensi
X =
i =1
25
1750
=
25
= 70
(X
X =
=
i = 25
X )2
25
2500
25
= 10
=
Ternyata terlihat bahwa rata-rata populasi = 70 dengan rata-rata dari ke-25 rata
tersebut sama, tetapi memiliki simpangan baku yang berbeda. Dari populasi
diperoleh simpangan bakunya = 14,14214 sedangkan dari ke-25 rata-rata
diperoleh simpangan baku = 10. Selanjutnya dapat dihitung :
X =
n
14,14214
=
2
= 10
Ternyata berlaku :
X =
X =
Persamaan di atas juga dapat berlaku untuk kasus pengambilan sampel tanpa
pengembalian jika N cukup besar dibandingkan dengan n, dalam hal ini jika
n
5% .
N
b. Apabila
sampling
dilakukan
tanpa
pengembalian,
maka
diperoleh
5
5!
=
= 10 buah kemungkinan sampel, yaitu :
2
(
5
2
)
!
2
!
Caleg yang
Nilai
Rata-rata Nilai
terpilih
Intelegensi
Intelegensi
1;2
50 ; 60
55
1;3
50 ; 70
60
1;4
50 ; 80
65
1;5
50 ; 90
70
2;3
60 ; 70
65
2;4
60 ; 80
70
2;5
60 ; 90
75
3;4
70 ; 80
75
3;5
70 ; 90
80
10
4;5
80 ; 90
85
Sampel
Tabel di atas merupakan distribusi sampel untuk nilai intelegensi jika data yang
diambil tanpa pengembalian. Terlihat dari tabel di atas bahwa terdapat data baru
sebanyak 10 rata-rata. Distribusi dari rata-rata tersebut juga bisa disajikan ke
dalam bentuk berikut :
Rata-rata
Frekuensi
P(X)
55
0,1
60
0,1
65
0,2
70
0,2
75
0,2
Nilai Intelegensi
80
0,1
85
0,1
2.0
1.5
Frequency
1.0
.5
0.0
55.0
60.0
65.0
70.0
75.0
80.0
85.0
Intelegensi
Dari kumpulan rata-rata di atas, diperoleh jumlah rata-rata = 490. Maka rata-rata
untuk ke 25 rata-rata ini adalah :
10
X =
i =1
10
700
=
10
= 70
X =
=
(X
i = 25
X )2
10
750
10
= 8,66
X =
N n
N 1
14,14214 5 2
5 1
2
= 8,66
=
Ternyata berlaku :
X =
X =
N n
N 1
Selanjutnya simpangan baku dari rata-rata tersebut, baik itu yang diambil dengan
pengembalian ataupun tanpa pengtembalian, dinamakan simpangan baku ratarata atau galat baku rata-rata. Ukuran ini menunjukkan variasi rata-rata sampel
sekitar rata-rata populasi .
Y
N
x
n
Oleh karena ada beberapa kemungkinan sampel yang akan terbentuk, maka untuk
tiap-tiap sampel yang bersangkutan juga akan terdapat beberapa proporsi
sampelnya.
terbentuk suatu kumpulan data yang terdiri dari proporsi dari sampel-sampel.
Sebagaimana pada distribusi rata-rata, dari kumpulan proporsi tersebut dicari ratarata dan simpangan bakunya, maka akan diperoleh rata-rata dari proporsi,
disimbolkan dengan p dan simpangan baku dari proporsi, disimbolkan dengan
p =
(1 )
p =
N n
N 1
p =
p =
(1 )
n
s =
s =
2n
/2
/2
- Z
+ Z
Pada gambar di atas menunjukkan menunjukkan sekian standar error dari rata-rata
distribusi sampel. Nilai merupakan taraf signifikansi yang menunjukkan derajat
kekeliruan yang diberikan.
sampling dalam populasi mempunyai peluang yang sama besar untuk terpilih ke
dalam sampel dan peluang itu diketahui sebelum pemilihan dilakukan.Terdapat dua
cara dalam pengambilan sampling acak sederhana ini, yaitu dengan pengembalian
(with replacement), yang mana dalam proses ini adanya kemungkinan bahwa suatu
unit akan terpilih lebih dari satu kali dan tanpa pengembalian (without replacement)
yang mana semua unit yang terpilih tidak akan ada yang sama.
Sampling Acak Sederhana dengan pengembalian
N
Terdapat kemungkinan sampel yang akan terbentuk. Oleh karena itu, peluang
n
terpilihnya beberapa individu dalam suatu sampel S dari n unit adalah :
P (S ) =
n ! (N n )!
1
=
N!
N
n
Sebagai konsekuensi dari definisi ini, apabila dilakukan pemilihan dengan Sampling
Acak Sederhana ke dalam sampel yang berukuran n, maka peluang sesuatu unit akan
terpilih ke dalam sampel itu adalah
n
.
N
2.
2.
Apabila ukuran populasi besar dan ukuran sampel besar maka pemilihan
secara simple random sampling secara manual menyulitkan.
No
Nama
Alamat
001
Awal
002
Arya
Jl. Jakarta 24
Ending
Jl. Cikaso 23
.
.
.
262
3. Tentukan ukuran sampel n
misal n=20
4. Lakukan proses pengambilan sampel
Apabila suatu target populasi telah ditentukan secara tegas dan dari populasi ini
akan disusun sebuah sampel melalui (SRS), maka selanjutnya harus dilakukan proses
pemilihan dari anggota sampelnya. Adapun proses memilih dalam Samping Acak
Sederhana banyak sekali caranya. Dalam buku ini hanya akan dibahas tiga cara yang
sering dilakukan, yaitu :
1. Simple Randomization (SR) / Pengacakan Secara Sederhana
2. Randomization Based on Remainder
3. Randomization Based on Permutation
adalah :
1
xi
n
N n
s =
x ( x )
2
i
n (n 1)
Apabila dari sebuah sampel berukuran n yang dipilih melalui Sampling Acak
Sederhana, kita bisa menghitung (X ) , maka Bound of Error untuk rata-rata
didefinisikan sebagai :
BE = = t
1 ; n 1
2
(X )
secara teori, Bound of Error tersebut menyatakan kekeliruan terbesar yang mungkin
terjadi dengan derajat kepercayaan ( 1 - ) 100%. Secara fisik, Bound of Error adalah
setengah lebar taksiran.
Dalil :
Apabila dari sebuah populasi berukuran nN, kita membentuk sampel berukuran n
melalui sampling Acak sederhana, kemudian dari sampel tersebut kita men variabel X
yang sifatnya (tingkat pengukurannya) nominal dichotomus dengan harga pengukuran
:
xi = 1 jika satuan sampling bersifat A
xi = 0 jika satuan sampling bukan bersifat A
maka eestimator takbias untuk proporsi A dalam populasi didefinisikan sebagai :
1) estomator takbias untuk proporsi
p=
1
xi ; x i = 1 jika A
n
x i = 0 jika B
( p ) =
N n p (1 p )
N n 1
sampel
ditentukan
oleh
sifat
penelitian,
apakah
sifatnya
terkecil yang harus dinyatakan secara signifikan, tergantung pula pada level of
significant ( ) dan kuasa uji (1-)
z S
n0 = / 2
n=
n0
n
1+ 0
n
Keterangan :
S : Simpangan baku untuk variabel yang diteliti dalam populasi
: Bound of error yang bisa ditolelir / dikehendaki
nilai-nilai
yang
kecil
cenderung
cenderung sedikit.
sore
terjadi
penumpukkan
hingga
terjadi
hari,
menjelang
pengunjung
pukul
mulai
pengunjung
antrian.
24.00
Kemudian
ke
atas
Z S
no = / 2
t / 2 (no 1) S
n1 =
t / 2 (n1 1) S
n2 =
Contoh Soal :
Seorang peneliti ingin mengetahui sejauh mana tingkat sadar hukum
masyarakat di daerah A. Untuk itu ia perlu mengambil sampel masyarakat.
Apabila ia menginginkan derajat keyakinan 95% bahwa kalaupun ada
perbedaan rata rata tingkat kesadaran hukum antara hasil sampel dengan rata
rata keseluruhan, perbedaan tersebut jangan lebih dari 5. Maka, bila Jumlah
penduduk dewasa masyarakat daerah A =500.000, ukuran sampel yang
diperlukan adalah:
z S
n0 = / 2
1.96(3.84)
n0 =
= 226.586 227
5
n=
n0
227
= 226.89 227
=
n0
227
1+
1+
500.000
n
catatan:
Skor minimal :40
Skor maksimal : 200
R =160
Diketahui bahwa distribusi skor simetri. Maka
S=(0.24)160= 38.4
II.5.2.2
Menentukan
Ukuran
Sample
Apabila
Tujuan
Penelitiannya
z / 2 0 (1 0 )
n0 =
n=
n0
n 1
1+ 0
N
b.
n=
n0
n 1
1+ 0
N
Rumus ini adalah rumus ukuran sampel minimal yang terbesar , sebab
perkalian 0 (1 - 0) akan merupakan perkalian terbesar nilainya jika dan
hanya jika 0 = 0,5
Contoh:
Seseorang ingin mendapat keterangan berapa persen di suatu daerah yang
tergolong pengangguran, bila derajat keyakinan dipilih 99% dengan bound of
error 5%. Diketahui bahwa banyaknya masyarakat di daerah tersebut adalah
12.000
2
z 2.575
n0 = / 2 =
664
2 2 0.05
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
n=
n0
664
=
= 629.13 630
n0 1
664 1
1+
1+
12.000
n
Adalah
(Z
n=
+ Z1 ) 2 S 2
2
(Z
n=
+ Z1 ) 2 S 2
2
(1.645 + 1.645)2 2S 2
10 2
= 179.55 180
Jadi dperlukan paling sedikit masing 180 perusahaan BUMN dan non BUMN.
B. Menentukan ukuran sampel ila penelitian bertujuan untuk menguji hipotesis
mengenai perbedaan rata rata dengan sampel berpasangan
Gunakan rumus berikut
(Z
n=
Sd
+ Z1 ) S d
2
populasi ke dua.
menyatakan
dianggap bermakna
C. Menentukan ukuran sampel bila penelitian bertujuan untuk menguji hipotesis
tentang kebermaknaan korelasi
Untuk menentukan ukuran sampel yang dperlukan digunakan pendekatan berikut:
Ukuran sampel ditentukan secara iterasi dengan cara berikut. Tentukan ukuran
sampel melalui rumusan :
Pada iterasi pertama, u p ditentukan melalui persamaan berikut
1+
u p = 1 log
2
1
di mana menyatakan perkiraan korelasi yang terjadi antara variabel X dan Y.
Untuk iterasi selanjutnya gunakan
1+
+
u p = 1 log
2
1 2(n 1)
demikian seterusnya sampai diperoleh nilai n yang stabil (konvergen).
Untuk berbagai nilai dan serta nilai , Machin and Campbel telah membuat tabel
ukuran sampel sehingga memudahkan untuk digunakan. (lihat lampiran 1.)
D. Menentukan ukuran sampel bila penelitian bertujuan untuk menguji hipotesis
tentang kebermaknaan R 2 dalam analisis regresi
Bila tujuannya untuk menguji kebermaknaan R 2 dalam analisis regresi,maka
ukuran sampel ditentukan melalui rumus:
n=
dimana f 2 =
L
+ k +1
f2
R2
1 R2
diperkirakan baik
Sampling Acak
Sederhana.
Pada umunya Sampling Sistematik merupakan penyeleksian secara acak pada
suatu unsur dari k unsur yang pertama dan kemudian penyeleksian pada setiap unsur k
sesudahnya. Prosedur ini lebih mudah dibentuk dan biasanya akan meminimalisir
kesalahan yang mungkin dilakukan oleh pewawancara daripada dalam proses
Sampling Acak Sederhana. Sebagai contohnya, akan menjadi lebih sulit apabila
menggunakan Sampling Acak Sederhana untuk menyeksi n = 50 orang pembeli pada
sebuah sudut jalan kota. Pewawancara tidak menentukan pembeli-pembeli mana yang
termasuk dalam sampelnya, karena ia tidak memiliki sampling framenya serta tidak
data-data
yang
diperoleh
dengan
Sampling
Acak
Sederhana.
Pertimbangkan contoh berikut : Kita akan memilih salah satu dari 5 sampel secara
sistematik dari vouicher perjalanan sekumpulan data sebanyak N = 1000. (yaitu, n =
200 voucher) untuk menghitung proporsi dari voucher yang dicatat secara tidak
benar. Satu voucher menggambarkan proses acak dari 5 voucher yang pertama
(sebagai contohnya 3 ) dan setiap voucher sesudahnya menjadsi anggota sampel.
voucher
1
2
3
4
5
6
7
8
9
10
996
997
998
998
999
1000
Dimisalkan bahwa kebanyakan dari 500 voucher pertama telah diisi dengan benar,
tapi berkaitan dengan perubahan yang dialami oleh juru tulis, 500 voucher kedua akan
memiliki kesalahan yang banyak. Apabila proses sampling yang digunakan adalah
dengan Sampling Acak Sederhana, maka secara kebetulan bisa terpilih kebanyakan
(mungkin semua) dari 200 voucher adalah berasal dari salah satunya, baik itu pada
bagian kelompok pertama maupun yang kedua dan sebab itu taksiran untuk p menjadi
kurang sesuai Sebaliknya, Sampling Sistematik akan memilih jumlah yang sama dari
voucher pada kedua kelompok tersebut dan akan memberikan taksiran yang akurat .
pelayanan
di
hotel
tersebut.
Sampling frame yang digunakanya adalah daftar tamu yang hadir pada saat itu.
Berdasarkan tujuan kedatangannya, tamu hotel dibagi menjadi convention, bisnis,
= x sy =
i =1
( 3.1 )
N n s
V (x sy ) =
N n
(3.2)
= Z
V (x sy ) = Z
2
N ns
N n
(3.3)
Jika N tidak diketahui maka fpc, ( N n ) / N pada persamaan (3.2) dan (3.3)
dibuang. Ternyata bahwa taksiran varians dari x sy yang ada pada persamaan (3.2)
identik dengan taksiran varians untuk x yang dperoleh dengan menggunakan
Sampling acak Sederhana. Hal ini tidak menyiratkan bahwa varians populasi yang
bersangkutan sama. Varians dari x diperoleh dari persamaan :
N n 2
V (x ) =
N 1 n
Demikian juga varians dari x sy dapat dituliskan :
V (x sy ) =
2
n
{1 + (n 1) }
dimana adalah koefisien korelasi antara observasi dalam sampel sisitematik yang
sama. Ketika N besar, kedua varians tersebut sama jika observasi dalam sebuah
sampel yang ditetapkan tidak berkorelasi ( 0).
Sebuah taksiran yang tak bias dari V (x sy ) tidak dapat diperoleh dengan
menggunakan data hanya dari satu sampel sistematik. Hal ini tidak berarti bahwa
suatu taksiran dari V (x sy ) tidak pernah bisa diperoleh. Untuk populasi tertentu,
ampling sistematik ekivalen dengan sampling acak sederhana, dan kita dapat
sangling acak sederhana. Sebagai contohnya, seorang peneliti ingin menentukan ratarata jumlah dari yang ditulis oleh dokter tertentu selama tahun sebelumnya.. Jika
frame (kerangka) mengandung daftar dokter-dokter, cukup beralasan untuk
mengasumsikan bahwa nama-nama pada daftrar tersebut tidak berhubungan dengan
banyaknya resep yang ditulis untuk obat tertentu. Oleh karena itu, kita pertimbangkan
bahwa populasinya acak. Suatu sampel sistematik akan ekivelan dengan sampel acak
sederhana untuk kasus tersebut.
Suatu sampel sistematik yag diambil dari populasi yang terurut pada umumny
abersifat heterogen dengan 0,
V (x sy ) V (x )
s2 N n
V (x sy ) =
n N
menyebabkan makin kecilnya galat baku suatu penaksir, yang juga berarti semakin
tinggi presisi penaksir tersebut. Selain itu, variasi data, yang diukur oleh S2, juga bisa
menentukan besarnya galat baku. Dari rumus galat baku rata-rata misalnya, tampak
bahwa makin besar harga S2 (artinya karakteristik populasi heterogen) akan juga
menyebabkan makin besarnya galat baku. Sebaliknya, semakin kecil (karakteristik
populasi relative homogen) akan menghasilkan galat baku yang kecil. Dengan
demikian Sampling Acak Sederhana akan memberikan presisi yang tinggi apabila
karakteristk populasi bersifat homogen. Dalam kasus ini, tampak bahwa pendapatan
bersifat heterogen yang berarti varians pendapatan, S2, juga akan besar. Oleh karena
itu, apabila sampel diambil melalui Sampling Acak Sederhana, akan memberikan
presisi yang rendah.
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
Masuk akal kiranya, agar diperoleh presisi yang tinggi, sampel yang terambil
haruslah sampel yang didalamnya berisi misalnya, masyarakat yang dari semua
golongan pendapatan. Sampel seperti ini dapat diperoleh melalui Sampling Acak
Bestrata. Dalam Sampling Acak Bestrata populasi N dibagi ke dalam beberapa
IV. 2 Notasi
Telah dikatakan bahwa populasi dibagi ke dalam kelompok-kelompok yang
disebut strata. Andaikan populasi dibagi dalam L strata, maka banyaknya unit serta
beberapa besaran karakteristik yang diperlukan dalam stratum dinyatakan dalam
notasi-notasi berikut, Indeks k dalam notasi menyatakan stratum ke-k, jadi k bisa
berharga 1, 2, , L.
Nh
nh
yhi
Wh =
Nh
N
fh
Yh =
y
Nh
hi
yh =
hi
nh
2
h
2
h
(y
=
Yh )
hi
Nh 1
(y
=
Yh )
hi
nh 1
(4.1)
kriteria tertentu.
5. Ukuran sampel sebesar n selanjutnya dialokasikan (disebarkan) ke seluruh
strata, yang kemudian disebut alokasi sampel (sample allocation)
Stratum I
: n1
Stratum I
: n2
Stratum I
: n3
Stratum I
: nL
6. Dari setiap stratum kemudian dipilih satuan sampling melalui teknik Sampel
Acak Sederhana.
Oleh karena dari setiap stratum dilakukan secara Sampling Acak Sederhana, maka
keseluruhan proses disebut Sampling Acak Berstrata. Jika proses memilih dari
setiap stratum dilakukan secara sistematik, maka proses keseluruhan disebut
Sampling Acak Sistematis Berstrata.
N1
N2 .
N3
N = N1 + N2 + N3
n1
n1
n1
n = n1 + n2 + n3
X=
Nh
hi
h =i i =1
(4.2)
X=
Xh
h =1
(4.3)
ukuran-ukuran stratum, yaitu Nh. Kalau sampel dari setiap stratum diambil dengan
menggunakan Sampling Acak Sederhana, maka rata-rata nilai karakteristik dari
sampel dalam setiap stratum bisa ditentukan yaitu
nh
xh =
hi
i =1
nh
(4.4)
x h ini tentu saja merupakan penaksir yang takbias untuk X h . Karena x h ini
Oleh karena itu, taksiran rata-rata nilai karakteristik populasi akan sama dengan
x st =
h =1
(4.5)
Contoh 4. 1 :
Seorang peneliti mengadakan suatu survai untuk mengetahui berapa rata-rata hasil
penjualan lading per bulan milik para petani di suatu daerah. Dikeahui bahwa di
daerah tersebut terdapat 250 petani yang 60 diantaranya tergolong kelompok yang
mempunyai lading luas, 100 tergolong kelompok yang mempunyai ladang lumayan
luas, dan 40 petani tergolong mempunyai ladang kecil. Sampel yang diambil oleh
peneliti adalah 50 petani yang masing-masing kelompok diwakili oleh 15, 25, dan 10
petani. Dalam tiap kelompok petani-petani ini diambil dengan sampling acak
sederhana. Dari petani yang terpilih, rata-rata pendapatannya dihitung, lihat table (IV.
1) diperoleh :
Tabel IV. 1
PENJUALAN HASIL LADANG PER BULAN
MENURUT STRATA LUAS LADANG
(DALAM RATUSAN RIBU RUPIAH)
NO
123
65
34
120
60
30
125
63
25
160
60
28
130
70
27
110
64
25
140
63
30
110
60
35
130
59
20
10
100
63
46
11
110
62
12
120
58
13
125
64
14
120
65
15
152
65
x1 = Rp.125.000,
16
60
17
50
18
55
19
62
20
60
21
60
22
64
23
62
24
40
25
46
Jumlah
1.875.000
1.500.000
300.000
xh
125.000
60.000
30.000
sh
16.053,48
6.416,13
7.149,20
x 2 = Rp. 60.000,
x3 = Rp. 30.000,
maka pukul rata hasil penjualan ladang per bulan di daerah tersebut adalah
x st =
= Rp. 73.500,
L N x
V ( x st ) = V h h
h =1 N
(4.6)
1
N2
N h2
h =1
N h n h S h2
N h nh
(4.7)
atau
L
N nh
V ( x st ) = Wh2 h
h =1
Nh
S h2
nh
(4.8)
N nh
V ( x st ) = Wh2 h
h =1
Nh
L
s h2
nh
(4.9)
menggunakan persamaan (). Dengan demikian galat baku dari rata-rata untuk
sampling berstrata adalah
s x st = V ( x st )
(4.10)
Dari contoh 4.1, melalui sampel yang diambil dari tiap stratum, besarnya varians atau
simpangan baku pendapatan petani dihitung. Dari 15 petani yag mempunyai ladang
luas, juga dari 25 petani serta 10 petani yang mempunyai ladang cukup dan kecil,
simpangan baku pendapatan dihitung. Hasilnya tampak pada tabel III. 1 berturut-turut
adalah :
s1 = Rp. 16.053,48 , s2 = Rp. 6.416,13 , s3 = Rp. 7.149,20 , Maka dengan menggunakan persamaan () varians rata-rata petani di daerah tersebut
besarnya ditaksir oleh :
2
2
2
2
60 60 15 (16053,48) 100 100 25 (6416,13)
V ( x st ) =
+
+
15
25
200 60
200 100
40 40 10 (7149,20 )
10
200 40
2
=1621797,603
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
x st Z 1 s x st < X < x st + Z 1 s x st
2
(4.11)
Contoh 4.2 :
Dalam contoh yang lalu, apabila diinginkan interval taksiran untuk rata-rata
pendapatan hasil ladang dengan = 5 %, maka interval taksiran tersebut adalah :
73.500 (1,96) (1273,498) < X < 73.500 + (1,96) (1273,498)
71003,94 < X < 75996,06
yang berarti bahwa dengan derajat keyakinan 95 % rata-rata penjualan hasil ladang
para petani di daerah tersebut terletak antara Rp. 71.004 , - dan
Rp. 75.996,-.
dengan pi =
pi
1 ni
xij
n j =1
N ni
V (Pst ) = i
Ni
i =1
L
N i pi (1 p i )
ni 1
N
2
(4.12)
V (Pst ) =
1
N2
(N
h =1
ni )N i
pi (1 pi )
ni 1
(4.13)
nh =
sehingga berlaku bahwa
Nh
n
N
; h = 1, 2, ... , L
(4.14)
nh n
=
yang menyatakan berapa bagian sampel diambil
Nh N
dari populasi.
Contoh 4. 3 :
Dari contoh 4.1 nampak bahwa ukuran populasinya terdiri dari 200 petani, dan
masing-masing stratum berukuran N1 = 60, N2 = 100, dan N3 = 40. Dari ukuran ini
akan diambil sampel berukuran 50 petani. Maka dengan alokasi proporsional,
banyaknya petani yang harus diambil dari setiap stratum adalah:
60
50 = 15 pe tan i
200
100
50 = 25 pe tan i
n2 =
200
40
n3 =
50 = 10 pe tan i
200
n1 =
dengan demikian, sampel-sampel yang diambil dari setiap stratum dari contoh di atas
merupakan sampel yang proporsional terhadap ukuran stratum.
Apabila alokasi sampel dilakukan dengan alokasi proporsional, maka x st
dengan variansnya yang masing-masing ditulis dalam persamaan () dan () dapat
disederhanakan menjadi :
L
x st =
nh
hi
h =1 i =1
(4.15)
N n L N h S h2
N h =1 N n
(4.16)
N n L N h s h2
V ( x st ) =
N h =1 N n
(4.17)
V ( x st ) =
yang taksirannya adalah
dengan s h2 menyatakan varians nilai karakteristik yang dihitung dari sampel yang
diambil dari stratum ke-h, dihitung dengan menggunakan rumus (.)
Apabila rumus ini kita gunakan untuk contoh yang lalu, maka
2
100 (6406,13) 2
40 (7149,20) 2
200 50 60 (16053,48)
V ( x st ) =
+
+
50
200
50
200
50
200 200
= 1621797,603
mendapatkan data dari satu unit sebesar B2 rupiah, maka diperlukan sebanyak n2B2
rupiah.
Secara umum, untuk stratum ke-h, diperlukan biaya nhBh rupiah. Oleh karena
itu, biaya yang diperlukan untuk mendapatkan data dari n = nh unit adalah
n B
h
jumlah biaya tetap dan tidak tetap, maka seluruh biaya dapat dituliskan sebagai
berikut :
B = B0 + nh Bh
(4.18)
B = B B0 = nh Bh
(4.19)
Dengan menggunakan fungsi biaya, maka ukuran sampel dapat ditentukan melalui
dua cara: Pertama, dengan biaya sampling tertentu, yakni sebesar B, tentukan ukuran
sampel n, dan alokasikan n ini ke dalam setiap stratum sehingga dicapai presisi yang
maksimal (galat baku taksiran minimal). Ke dua, dengan presisi taksiran yang
dikehendaki, tentukan ukuran sampel n, lalu alokasikan n ini pada setiap stratum
sehingga biaya yang harus dikeluarkansekecil mungkin. Metode alokasi ukuran
sampel ini disebut Alokasi Optimal.
Dengan terminologi lain, alokasi optimal dapat dinyatakan seperti berikut,
tentukan n dan nh sedemikian rupa sehingga untuk B tertentu s x st minimal, atau
tentukan n sehingga untuk s x st tertentu B seminimal mungkin.
Kita perhatikan terlebih dahulu bagaimana menentukan nh untuk ukuran n
tertentu. Apabila alokasi optimal digunakan, maka ukuran sampel setiap stratum
dihitung melalui persamaan:
nh =
Nh Sh
Nh Sh
Bh
Bh
(4.20)
nh =
Nh Sh
n
Nh Sh
(4.21)
ni =
n
L
(4.22)
Pada keadaan tertentu aloksai sma besar bisa menguntungkan, yaitu pada keadaan
yang disebut paired allocation.
N i2 S i2
wi
i =1
L
n=
L
2
2
Z
N + N i S i
i =1
(1 2 )
(4.23)
wi = ni / n ; = bound of error
wi
i =1
L
n=
(4.24)
L
2
N
+
N i i (1 i )
i =1
(
1 )
2
Perhatikan persamaaan dan perbedaan sampling berstrata dan sampling klaster dalam
gambar berikut.
Sampling Klaster
Populasi dari H strata; stratum h memiliki Sampling klaster satu tahap; Populasi dari
nh elemen
N klaster
Untuk presisi yang terbaik, elemen- Untuk presisi yang terbaik, elemenelemen individu di dalam setiap stratum elemen individu di dalam masing-masing
harus memiliki nilai-nilai yang serupa , klaster harus heterogen, dan rata-rata
tetapi rata-rata sertiap statum satu sama klaster harus serupa satu sama lainnya.
lain sedapat mungkin harus berbeda
V.2 Notasi notasi yang digunakan untuk Sampling Klaster Satu Tahap
Dalam sampling acak sederhana, unit-unit yang diambil sebagai sampel adalah
elemen-elemen yang diobservasi. Dalam sampling klaster, unit samplingnya adalah
klaster-klaster, dan elemen-elemen yang diobservasi adalah USD di dalam klasterklaster. Himpunan semestanya, U merupakan populasi dari N USU; S menandakan
sampel dari USU yang dipilih dari populasi USU, dan Si merupakan sampel dari USD
yang dipilih dari USU yang ke-i.
Berikut ini adalah notasi notasi yang akan digunakan dalam sampling klaster
khususnya bila ingin menaksir rata rata populasi:
1 n
mi rata rata ukuran klaster dalam sampel
n i =1
N
i =1
M =
M
rata rata ukuran klaster dalam Populasi
N
rata populasi, , dan total, , serupa dengan taksiran-taksiran pada sampling acak
sederhana. Secara khusus, rata-rata sampel, y , merupakan taksiran yang baik dari
rata-rata populasi, .
Taksiran rata rata populasi adalah rata-rata sampel yang bentuknya adalah:
n
y=
i =1
n
(5.1)
i
i =1
(y ymi )
Nn i
i =1
( y) =
V
2
n 1
NnM
(5.2)
Suatu survai dirancangkan untuk menaksir rata rata pengeluaran untuk keperluan
rumah tangga masyarakat disuatu kota. Karena daftar rumah tangga di daerah tersebut
tidak ada, maka dilakukanlah pengambilan sampel dengan cara klaster. Yang menjadi
klaster adalah Rukun rukun warga (RW) di daerah tersebut. Dari hasil sampel
diperoleh data berikut.
Tabel 5.1
Total Jumlah
RW
Banyaknya
Pengeluaran dari
Rumah
Rumah Tangga
Tangga
(dalam ribuan
Total Jumlah
RW
Banyaknya
Pengeluaran dari
Rumah
Rumah Tangga
Tangga
(dalam ribuan
rupiah)
rupiah
55
2210
11
73
2930
60
2390
12
64
2470
63
2430
13
69
2830
58
2380
14
58
2370
71
2760
15
63
2390
78
3110
16
75
2870
69
2780
17
78
3210
58
2370
18
51
2430
52
1990
19
67
2730
10
71
2810
20
70
2880
= 1303
i =1
yi
i =1
20
mi
52340
= 40.169
1303
i =1
y i2 = y 21 + y 22 + ... + y 252
i =1
20
m i2 = m 21 + m 22 + ... + m 252
i =1
20
y i m i = y1 m1 + y 2 m 2 + ... y 20 m 20
i =1
20
(y i ym i )
i =1
20
=
i =1
y i2
20
2 y yi mi + y
i =1
20
m i2
i =1
mi
m = i =1
n
1303
= 65,15
20
Apabila dimisalkan bahwa total Rukun Warga yang ada di daerah tersebut adalah
sebanyak 100 (N = 100), maka varians dari pengeluarannya adalah:
n
(yi ymi )2
Nn
( y) =
V
i =1
2
n 1
Nn
M
248085,668
100 20
=
(100 )(20 )(65,15)2 20 1
= 0,123
My=M
yi
i =1
n
(5.3)
mi
i =1
(y i
( My ) = M 2 V (y ) = M 2 N n i =1
V
NnM 2
n
(y i
N n i =1
= M2 N2
NnM 2
n
(y i
N n i =1
= N
ym i )
n 1
ym i )
(5.4)
n 1
ym i )
n 1
Contoh :
M y = 5500 (40,167 )
= 220918,5
(M y ) = 220918,5 2 M 2 V
( y)
M y2 V
220918,5 2
(5500)2 (0,123)
220918,5 3858,622
Seringkali banyaknya elemen dalam populasi tidak diketahui ketika akan digunakan n
klaster sampling. Maka penaksir M y tidak dapat digunakan, tetapi dapat digunakan
bentuk taksiran yang lain dari total populasi yang tidak bergantung pada M. Nilai y ,
diperoleh dengan persamaan:
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
y =
1 n
yi
n i =1
(5.5)
adalah rata-rata dari total klaster untuk sampel klaster yang berukuran n. Oleh kareba
itu, y merupakan penaksir yang tak bias untuk rata dari total N klaster dalam
populasi. Begitu juga N y merupakan penaksir yang tak bias untuk jumlah dari total
klaster atau total populasi, .
Adapun penaksir dari total populasi , yang tidak bergantung pada M adalah:
N y =
N n
yi
n i =1
(5.6)
(y i
N n
y)
( Ny ) = N 2 V ( y ) = N 2
V
i =1
n 1
Nn
(5.7)
Jika ternyata variasi di antara ukuran-ukuran klaster besar dan jika ukuran klaster
sangat berkorelasi dengan total klaster, maka varians untuk N y (persamaan 5.7)
pada umumnya lebih besar dari varians untuk My (persamaan 5.4). Penaksir N y
tidak menggunakan informasi yang mengenai ukuran-ukuran klaster m1, m2, , mn
sehingga bisa mangakibatkan rendahnya presisi yang dimiliki.
Contoh :
N y =
100
N n
(52340) = 261700
yi =
n i =1
20
Selanjutnya untuk menentukan varians dari penaksirnya, maka terlebih dahulu dicari
persamaan berikut:
(y i
i =1
y) =
2
i =1
y i2
1 n
yi
n i =1
= 138873600
1
(52340)2
20
= 1899820
maka interval taksiran untuk total pengeluaran untuk pengeluaran rumah tangga
masyarakat adalah :
(Ny )
Ny 2 V
Ny 2
(y i
Nn
y)
i =1
N2
Nn
n 1
261700 2
261700 12648,511
V.6 Menentukan Ukuran Sampel untuk Menaksir Rata-rata dan Total Populasi
Banyaknya informasi dalam suatu sampel klaster dipengaruhi oleh dua faktor
yaitu banyaknya klaster dan ukuran relatif dari klaster.
ketahui, ukuran dari batas-batas kekeliruan (bound of error) dari taksiran tergantung
kepada variasi di antara klaster.
( )
( y) = N n s 2
V
k
NnM 2
dimana
n
s 2k =
(y i
i =1
ym i )
n 1
(5.8)
( )
( y ) = N n 2
V
k
NnM 2
(5.9)
Karena tidak dketahui k atau rata-rata dari klaster M , pemilihan ukuran sampel,
yaitu banyaknya klaster yang perlu untuk memperoleh informasi khusus mengenai
parameter populasi menjadi sulit. Kesulitan ini dapat diatasi dengan menggunakan
metode yang sama dengan penggunaan pada taksiran rasio. Yaitu, digunakansebuah
2
yang
berukuran
elemen
yang
telah
diambil
dari
penelitian
= 2 V( y )
(5.10)
n=
2
N 2k
N D + 2k
(5.11)
2 M 2
D=
4
(5.12)
Apabila kita mengambil nilai pengali dari simpangan baku taksirannya adalah z ,
2
yang merupakan pendekatan dari distribusi normal baku dengan melibatkan resiko
kekeliruan sebesar , maka diperoleh :
= z
V (y )
(5.13)
2 M 2
(z )
(5.14)
Contoh:
Misalkan data pada tabel 5.1 merupakan sampel pendahuluan dari pengeluaran untuk
keperluan rumah tangga msyarakat di suatu kota. Berapa besar sampel yang harus
diambil untuk keperluan survai yang akan datang yang bertujuan untuk menaksir ratarata pengeluaran dengan batas kekeliruan dari taksirannya adalah 25 ribu rupiah?
Jawab:
n
(y i ym i )
s 2k = i =1
n 1
248085,668
= 13057,14
20 1
mi
m = i =1
n
1303
= 65,15
20
D=
2 M 2 (25)2 (65,15)2
=
= 663206,64
4
4
n=
N 2k
N D + 2k
Dengan pola pemikiran yang sama, maka diperoleh persamaan ukuran sampel
yang harus diambil sebagai berikut:
n=
N 2k
(5.15)
N D + 2k
D=
2
4N
(5.16)
atau apabila menggunakan kita mengambil nilai pengali dari simpangan baku
taksirannya adalah z , yang merupakan pendekatan dari distribusi normal baku
2
D=
(z
(5.17)
Contoh:
Dengan menggunakan data pada tabel 5.1 kembali, anggap sebagai data yang
diperoleh merupakan data survai pendahuluan. Ingin diketahui berapa banyak sampel
yang harus diambil untuk menaksir total pengeluaran masyarakat untuk keperluan
rumah tangganya, , dengan batas kekeliruan 3000 ribu rupiah. Dimisalkan bahwa
terdapat 2000 penduduk di kota tersebut.
Jawab
2
(y i ym i )
s 2k = i =1
n 1
248085,668
= 13057,14
20 1
dan
(
3000 )2
D=
=
= 225
4 N 2 4 (100 )2
2
maka diperoleh
n=
N 2k
N D + 2k
p=
ai
i =1
m
mi
(5.18)
i =1
(ai p mi )2
N n
V ( p ) =
2
N nM
i =1
(5.19)
n1
= Z
V ( p ) = Z
(a p mi )2
i
N n i =1
N nM2
n1
(5.20)
dimana Z diperoleh dari tabel distribusi normal baku dengan taraf signifikansi .
2
Apabila kita mengambil nilai = 5%, maka diperoleh nilai Z mendekati 2 , maka
2
=2
(a p mi )2
i
N n
N nM 2
i =1
n 1
(5.21)
persamaan varians di atas merupakan penaksir yang baik hanya jika ukuran sampel,
n,besar, katakanlah n 20. Jika m1 = m2 = = mN , maka p merupakan penaksir tak
bias untuk , dan V ( p ) merupakan penaksir yang tak bias dari varians p yang
sebenarnya untuk setiap ukuran sampel.
Contoh :
Sebagai lanjutan dari contoh sebelumnya, kepada masyarakat ditanyakan pula apakah
masyarakat di kota tersebut menempati rumah sewaan atau rumah milik sendiri.
Hasilnya disajikan dalam tabel 5.2 . Gunakan data pada tabel tersebut untuk menaksir
proprsi penduduk yang tinggal di rumah sewaan.
Tabel 5.2
Banyaknya
Klaster
Rumah
Tangga
( mi )
Banyaknya
Banyaknya
Penyewa
Klaster
( ai )
Rumah
Tangga
( mi )
Banyaknya
Penyewa
( ai )
55
25
11
73
32
60
36
12
64
22
63
26
13
69
19
58
21
14
58
15
71
39
15
63
26
78
30
16
75
40
69
20
17
78
35
58
25
18
51
17
52
24
19
67
22
10
71
30
20
70
20
20
mi = 1303
i =1
20
mi2 = 86171
i =1
ai = 524
i =1
20
ai2 = 14728
i =1
20
ai mi = 34742
i =1
Penyelesaian:
Taksiran terbaik dari populasi penyewa adalah p, ditunjukkan dalam persmaan 5.18,
yaitu :
n
p=
ai
i =1
m
mi
524
= 0 ,40
1303
i =1
(ai p mi )
i =1
a i2
2 p
i =1
ai mi + p mi2
2
i =1
mi
m = i =1
n
1303
= 65,15
20
Apabila dimisalkan bahwa total Rukun Warga yang ada di daerah tersebut adalah
sebanyak 100 (N = 100), maka varians dari proporsi penyewa adalah:
(ai p mi )2
N n
V ( y ) =
i =1
2
n1
NnM
720 ,982
100 20
=
(100 )(20 )(65 ,15 )2 20 1
= 0 ,000358
Taksiran dari proporsi populasi, , dengan batas unit dari kekeliruan taksiran
dinyatakan dengan
2 V ( p) =
Persamaan di atas dapat menjadi solusi untuk menentukan besarnya sampel yang
harus diambil, n dan prosedur solusinya serupa dengan persamaan 5.15, yaitu:
n=
2
N 2k
(5.15)
N D + 2k
s k2 =
(a i p mi )2
i =1
n 1
dan
D=
2 M 2
4
(5.16)
atau apabila menggunakan kita mengambil nilai pengali dari simpangan baku
taksirannya adalah z , yang merupakan pendekatan dari distribusi normal baku
2
D=
2 M 2
(z )
(5.17)
Contoh:
Dimisalkan bahwa data pada tabel 5.2 dianggap sudah kadaluarsa. Selanjutnya
diperlukan suatu penelitian baru yang bertujuan untuk menaksir proporsi penduduk
yang menyewa rumah. Berapa banyak sampel yang harus diambil untuk memberikan
taksiran tersebut dengan batas 0,03 dari kekeliruan penaksiran?
Penyelesaian:
2
Taksiran terbaik dari k adalah yang dihitung dengan menggunakan tabel 5.2
sebagai berikut:
n
(ai p mi )2
i =1
s k2 =
n 1
720,982
= 37 ,946
20 1
mi
m = i =1
n
1303
= 65,15
20
D=
2 m 2
(z )
(0,03)2 (65,15)2
(1,96)2
= 0,994
N 2k
N
D + 2k
(100)(37,946)
(100)(0,994) + (37,946)
= 27 ,62 28
Dengan demikian, klaster yang harus diambil adalah sebanyak 28. Perhatikan bahwa
nilai 28 menunjukkan banyaknya sampel minimal yang harus di ambil. Oleh karena
itu, pengambilan sampel (klaster) yang lebih dari nilai tersebut tidak menjadi masalah
selama tidak ada faktor lain yang menjadi pertimbangan ukuran sampel seperti
masalah biaya, tenaga, waktu, dan lain sebagainya.
BAB VI
SAMPLING KLASTER DUA TAHAP
VI.1 Pendahuluan
Sampling klaster dua tahap merupakan perluasan dari konsep klaster sampling.
Sebagaimana yang telah dibahas pada bab sebelumnya mengenai sampling klaster
secara umum, ternyata klaster pada umumnya merupakan suatu kumpulan dari
elemen-elemen, seperti blok-blok rumah tangga. Sebuah klaster sering mengandung
begitu banyak elemen. Oleh karena itu, diperlukan suatu pengelompokkan kembali
dari elemen-elemen klaster yang telah terbentuk tersebut. Proses pengelompokkan
kedua dari klaster-klater pertama yang terbentuk itu menghasilkan suatu prosedur
sampling klaster dua tahap. Sebagai contohnya adalah apabila akan diteliti pendapat
masyarakat di suatu daerah, dalam hal ini kecamatan merupakan bentuk klaster yang
pertama. Akan tetapi dikarenakan adanya keterbatasan dana penelitian dan didukung
pula poleh suatu kondisi dimana elemen-elemen dalam kecamatan sangat heterogen
yang merupakan imbas dari heterogennya tiap desa, maka desa-desa dari tiap klaster
dijadikan sebagai klaster-kalster dari klaster pertama (kecamatan). Prosedur pemilihan
untuk klaster tahap dua dilakukan sama halnya seperti prosedur pemilihan pada
sampling klaster satu tahap. Oleh karena itu, di sini hanya akan terpilih desa-desa dari
klaster pertama yang terpilih saja. Sehingga hal akan berakibat pada penghematan
biaya apabila dibandingkan dengan memilih desa langsung sebagai klaster tahap
pertama. Hal ini dapat dipahami karena jika desa langsung dijadikan sebagai klaster
pertama, maka muncul suatu kemungkinan bahwa desa-desa yang terpilih sangat
berjauhan yang berakibat pada peningkatan biaya survai atau biaya pengambilan data.
Definisi VI.1
Sampling klaster dua tahap merupakan suatu sampel yang diperoleh dengan diawali
pemilihan sampel peluang dari klaster-klaster pertama yang kemudian memilih
sampel peluang dari elemen-elemen masing-masing klaster yang telah dijadikan
sampel pada tahap sebelumnya.
Pembahasan dalam buku ini hanya akan terbatas pada pemilihan masing-masing tahap
secara sampling acak sederhana. Sebagai contoh, suatu survai nasional terhadap
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
Masalah pertama dalam pemilihan sampel klaster dua tahap adalah pemilihan
klaster yang tepat. Terdapat dua kondisi yang diperlukan, yaitu:
1. Kedekatan geografis dari elemen-elemen dalam klaster
2. Ukuran klaster yang sesuai bagi administer/peneliti
Pemilihan klaster yang sesuai juga tergantung pada apakah diinginkan untuk
membuat sampel sedikit klaster dengan elemen-elemen dalam kalster yang banyak
atau sampel banyak klaster dengan elemen-elemen dalam klasternya yang sedikit.
Akhirnya, pemilihan tergantung pada biaya yang akan dikeluarkan. Klaster-klaster
yang besar cenderung memiliki elemen-elemen yang heterogen, dan karenanya suatu
sampel yang besar diharuskan untuk tiap-tiap klaster agar diperoleh taksiran yang
akurat dari parameter populasi. Sebaliknya, kalster-klaster yang kecil
sering
= Banyaknya elemen yang terpilih dalam secara sampel acak sederhana dari
kklaster ke-i
M
Mi
i =1
M
N
y ij
yi
1
mi
mi
yij
j =1
yi
i =1
merupakan suatu penaksir yang tak bias untuk . Dengan demikian jika persamaan di
atas dibagi dengan M, diperoleh:
N
Mn
yi
i =1
menjadi suatu peaksir yang tak bias untuk . Tetapi penaksir tersebut tidak dapat
dievaluasi karena tidak lagi diketahui total klaster, yi. Bagaimanapun juga, yi dapat
ditaksir dengan M i y i , dan dalam penggantian M i y i untuk yi, dimiliki suatu taksiran
tak bias untuk , yang dapat dihitung dari data sampel.
Penaksir tak bias untuk rata-rata populasi, :
n
M i yi
N
i =1
(6.1)
2
N
nNM 2
nM
M mi
M i2 i
Mi
i =1
n
s i2
m
i
(6.2)
dengan
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
s b2 =
(M i yi M )
i =1
(6.3)
n 1
dan
n
s i2 =
(y ij yi )2
i =1
(6.4)
i = 1, 2, ..., n
mi 1
(6.5)
sebagaimana yang telah dibahas pada bab sebelumnya bahwa nilai pengali 2 diperoleh
dari pendekatan nilai tabel Z untuk = 5 %.
2
= M
= N
M i yi
i =1
N n
2 N
sb +
M mi
M i2 i
Mi
i =1
n
s i2
m
i
dengan s b2 telah dibahas pada persamaan (6.3) dan s i2 pada persamaan (6.4)
Penaksir yang diberikan pada persamaan (6.1) bergantung pada jumlah total dari
elemen-elemen dalam populasi, M. Seringkali M tidak diketahui. Jika kondisinya
seperti itu, maka harus ditaksir dari data sampel. Penaksir untuk M diperoleh dengan
mengalikan rata-rata ukuran klaster,
Mi
i =1
r =
M i yi
i =1
n
Mi
i =1
2
N
nNM 2
nM
M m
M i2 iM i i
i =1
n
s i2
m
i
dengan
n
s 2 =
M i2 ( y i r )2
i =1
n 1
dan
mi
s i2 =
(y ij yi )2
i =1
mi 1
i = 1, 2 , ..., n
Taksiran r adalah bias, tapi bias tersebut dapat diabaikan jika n besar.
Taksiran Proporsi Populasi
p=
M i p i
i =1
n
Mi
i =1
Taksiran varians :
N n 1
V ( p ) =
N n M 2
2
si + 1
nNM 2
M i mi
Mi
M i2
i =1
pi qi
m 1
i
dengan
n
s r2 =
M i2 ( pi p )2
i =1
n 1
dan
q i = 1 pi
= 2 V ( p )
Dalam kasus ini, merupakan hal yang wajar apabila sampel yang diambil pun
memiliki ukuran yang sama untuk tiap klaster, yaitu :
m1 = m2 = = mN = m
M i yi
N
i =1
n
n
N
=
NM
M yi
i =1
1 n
yi
n i =1
1
nm
y ij
i =1 j =1
dimana yij merupakan ukuran ke j dalam klaster ke-i. Kondisi seperti ini dapat
terjadi dalam sampling produk-produk yang berbentuk paket (sebagai contohnya
masing-masing klaster terdiri atas 1 lusin / 24 kaleng sayuran) atau dalam sampling
barang-barang manufacture.
Persamaan (6.2) menjadi:
MSB
1 MSW
) = (1 f 1 )
V (
+ (1 f 2 )
nm
N m
dimana f 1 = n N , f 2 = m M
MSB =
m n
( y i )2
n 1 i =1
dan
MSW =
=
n
1
n(m 1) i =1
(y ij y i )2
1
n
j =1
s i2
i =1
MSB (Between-Claster Mean Square) merupakan rata-rata kuadrat antar klaster dan
MSW (Within-Claster Mean Square) rata-rata kuadrat dalam klaster.
Dari persamaan 6.19 di atas, dapat dibuat suatu rangkaian observasi yang penting
pada karakteristikdari sampling klaster dua tahap sebgai beikut:
MSW
1. Jika N besar, V ( ) =
dan hanya bergantung pada rata-rata klaster. Dengan
nm
demikian, dapat dihasilkan suatu taksiran yang baik dari varians sekalipun
bentuk s i2 merpakan taksiran yang kurang baik untuk varians dalam klaster.
Hal ini bisa terjadi, sebagai contohnya, jika sampling sistematik digunakan
dalam klaster-klaster.
2. Jika m = M (atau f2 = 1), maka samping klaster dua tahap dikurangi menjadi
samping klaster satu tahap, sebagaimana yang telah dibahas pada bab 5.
3. Jika n = N, maka
MSW
) = (1 f 2 )
V (
nm
yang merupakan taksiran varians yang diperoleh dalam suatu sampel acak
stratifikasi dengan n = N strata dan m observasi dari masing-masing strata.
Oleh karena itu, terlihat bahwa m mendekati M , sampling klaster dua tahap
memiliki proses yang sama dengan sampling kalster satu tahap. Ketika n
mendekati N, sampling klaster dua tahap berkelakuan seperti sampling acak
stratifikasi. Jika elemen-elemen di dalam klaster bersifat heterogen, maka harus
dijadikan sebagai sampel dalam penelitian.
Ketika N besar, taksiran varians
1
)=
V (
MSB
nm
dengan
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
dan
2w = varians di antara elemen-elemen dalam klaster-klaster.
2w c1
b2 c 2
tahap karena elemen-elemen dalam klaster cenderung memiliki ukuran yang sama.
Oleh karena itu, akan diberikan taksiran dari dan untuk sampling klaser dua
tahap dimana tahap pertama dari samplingnya mempunyai peluang yang
sebanding dengan ukurannya.
Ditinjau dari sudut kesempatan semua unit sampling untuk terpilih menjadi
anggota sampel, maka sampling terbagi dalam dua bagian yaitu sampling random dan
sampling nonrandom, atau disebut juga sampling peluang dan sampling nonpeluang.
Suatu proses pengambilan sampel dikatakan random bila semua unit sampling
mempunyai peluang untuk bisa terpilih menjadi anggota sampel. Apabila dalam
proses memilih satuan sampling dilibatkan unsur peluang sedemikian rupa sehingga
besarnya peluang setiap satuan sampling untuk terpilih diketahui besarnya, maka
sampling tersebut digolongkan ke dalam sampling peluang.
Pada sampling peluang, peluang tiap elemen untuk terpilih sebegai sampel
harus diketahui. Untuk tujuan ini, maka daftar elemen untuk memilih sampel
(kerangka sampling) harus tersedia. Ke dalam sampling peluang dapat digolongkan
beberapa teknik pengambilan sampel. Selain bagaimana teknik pengambilan sampel
yang harus dikerjakan agar setiap unit mempunyai peluang terambil menjadi anggota
sampel, dalam sampling peluang juga dibahas berapa banyak unit sampling yang
harus diambil.
a. Simpel Random Sampling (SRS)
Sampling Acak Sederhana ini merupakan suatu proses memilih satuan sampling
dari
mempunyai peluang yang sama besar untuk terpilih ke dalam sampel dan peluang itu
diketahui sebelum pemilihan dilakukan.Terdapat dua cara dalam pengambilan
sampling acak sederhana ini, yaitu dengan pengembalian (with replacement), yang
mana dalam proses ini adanya kemungkinan bahwa suatu unit akan terpilih lebih dari
satu kali dan tanpa pengembalian (without replacement) yang mana semua unit yang
terpilih tidak akan ada yang sama.
Variabel yang akan diteliti keadaannya relatif homogen dan tersebar merata
di seluruh populasi.
digunakan secara efektif dalam membentuk atau membedakan strata satu dengan yang
lainnya.
Apabila secara cermat strata sudah terbentuk, maka sampel untuk masingmasing stratum dipilih melalui metode Sampling Acak Sederhana. Karena dilakukan
dengan metode Sampling Acak Sederhana, maka tentunya harus tersedia kerangka
sampling dalam setiap stratum.
d. Cluster Sampling (CS)
maka terdapat unit sampling ke dua (secondary sampling unit) disingkat USD.
Apabila semua unit obervasi (elemen) dari USD menjadi anggota sampel, maka
dikatakan proses pengambilan sampel dilakukan dengan sampling klaster dua
tahap, demikian seterusnya.
berkorelasi sangat dekat dengan respon y. Dengan mengukur y dan satu atau lebih
variabel-variabel tambahan, kita bisa mendapatkan informasi tambahan untuk
menaksir rata-rata populasi. Anda mungkin mengenal penggunaan variabel-variabel
tambahan untuk menaksir rata-rata dari sebuah respon y. Ini merupakan dasar dari
konsep korelasi dan rata-rata, untuk pengembangan dari prediksi persamaan relasi y
dan x dengan metode kuadrat terkecil. Topik ini umumnya terdapat di buku
pengenalan statistika ( Mendenhall, 1987, Bab 10 ).
Pada bab-bab sebelumnya diperlihatkan penaksir-penaksir sederhana dari
parameter-parameter dengan memanfaatkan respon pengukuran,
SURVEY-SURVEY
YANG
MEMBUTUHKAN
PENGGUNAAN
PENAKSIR RASIO
yang besar berdasarkan dari isi gula dari berat pengiriman. Isi gula yang tepat tidak
bisa ditentukan sebelum pembelian dan penyaringan jus buah dari keseluruhan beban;
namun, bagaimana pun hal tersebut bisa kita taksir. Satu metode untuk menaksir hal
diatas yaitu pertama kali kita tentukan rata-rata isi gula dalam tiap jeruk, y ,
kemudian mengalikannya dengan jumlah jeruk N dalam muatan. Kemudian kita
ambil sampel n jeruk secara acak dari muatan untuk menentukan isi gula y untuk
masing-masing jeruk. Rata-rata dari pengukuran , y1, y2, y3,...yn , akan menaksir y
; N y akan menaksir total isi gula dalam muatan, y. Sayangnya, metode ini tidak
mungkin dilakukan karena terlalu membutuhkan banyak waktu dan biaya dalam
menentukan N (yaitu dalam menentukan jumlah jeruk dalam muatan).
Kita dapat menghindari untuk menghitung N dengan mencatat beberapa fakta.
Pertama, isi gula dalam tiap jeruk , y , berkorelasi cukup dekat dengan berat dari
jeruk, x; kedua, rasio dari total gula y dengan total berat dari muatan x sama dengan
rasio dari rata-rata isi gula dalam tiap jeruk y dengan rata rata berat jeruk x. Maka:
y N y y
=
=
x N x x
untuk mengetahui total isi gula dari muatan, kita mendapatkan
y =
y
( x )
x
Kita dapat menaksir y dan x dengan menggunakan y dan x , rata-rata dari isi gula
dan berat jeruk dari sampel n jeruk. Kita juga dapat mengukur x, yang merupakan
total berat dari jeruk dalam muatan truk. Kemudian penaksiran rasio dari total isi gula
y yaitu:
y =
y
( x )
x
y
y = ( x ) =
x
i =1
n
( x )
i =1
Dalam kasus ini jumlah elemen populasi, N, tidak diketahui, dan karena itu
kita tidak dapat menggunakan penaksir sederhana N y untuk menaksir total populasi
pun, jika N diketahui, kita punya pilihan apakah akan menggunakan penaksir N y
atau penaksir rasio untuk menaksir y. Jika y dan x kerkorelasi cukup tinggi, berarti x
memberikan kontribusi untuk memprediksi y, penaksir rasio harus lebih baik dari
N y , yang semata-mata tergantung pada y .
Dalam penjumlahan untuk mendapatkan total populasi y, sering ada parameteparameter lain yang terlibat. Kita mungkin akan menaksir rata-rata populasi y,
dengan menggunakan prosedur penaksiran rasio. Sebagai contoh, misalkan kita akan
menaksir rata-rata isi gula dalam tiap jeruk dalam pengiriman yang berskala besar.
Kita akan menggunakan rata-rata sampel y untuk menaksir y. Bagaimana pun, jika y
dan x berkorelasi, penaksir rasio yang menggunakan informasi dari variabel pembantu
x sering kali memberikan penaksir yang lebih tepat untuk y.
Rasio populasi merupakan parameter lain yang mungkin terlibat sebagai faktor
koreksi. Sebagai contoh, asumsikan kita akan menaksir rasio dari penjualan mobil
untuk tiga bulan pertama dalam tahun ini dengan total penjualan di periode yang sama
di tahun yang lalu. Misalkan x merupakan total penjualan dalam tiga bulan pertama
di tahun yang lalu, sedangkan y total penjualan dalam periode yang sama di tahun ini.
Kita perhatikan dalam penaksiran rasio yaitu:
R=
y
x
Kosep dari penaksiran rasio di gunakan dalam analisis data untuk surveysurvey penting dan secara praktis digunakan oleh pemerintah, dunia bisnis, dan
peneliti di akademik. Sebagai contoh, indeks harga konsumen (IHK) sebenarnya
merupakan rasio dari harga-harga pembelian yang tetap dari barang-barang yang
konstan kualitas dan kuantitasnya untuk dua waktu. Sekarang ini, IHK merupakan
perbandingan harga hari ini dengan harga tahun 1967. IHK berdasarkan pada
pengumpulan data tiap bulan atau setiap beberapa bulan dari 24000 penetapan ( tokotoko, rumah sakit-rumah sakit, dan lain-lain) yang dikumpulkan dari 85 kota di
seluruh negara. IHK digunakan untuk mengukur tingkat inflasi.
The Current Population Survey mendapatkan informasi pengangguran yang
mengalikan rasio sampel dengan jumlah orang ras kulit hitam yang bekerja di area
yang lebih besar yang dimaksudkan sebelumnya.
Index Retail Nielsen bisa menyediakan rasio dari rata-rata harga penjualan
untuk dua merek produk yang bersaing atau satu produk dalam dua waktu yang
berbeda. The SAMI bisa menyediakan rasio jumlah persediaan untuk dua merek yang
bersaing.
Peramalan sering menggunakan teknik penaksiran rasio. Sebagai contoh, rasio
dari total periode pertama penjualan di tahun yang sedang berjalan dengan periode
yang sama di tahun yang lalu, bisa dilakukan dengan cara mengalikan total penjualan
tahun kemarin dengan rasio, untuk menaksir total penjualan tahun ini. Cara yang
serupa juga bisa digunakan untuk pertumbuhan populasi manusia.
Dalam penelitian di akademik, ahli sosiologi menghitung rasio total anggaran
untuk makanan tiap bulannya dengan jumlah penghasilan per bulannya dari suatu
keluarga, atau rasio dari jumlah anak dengan total orang yang bertempat tinggal di
unit-unit rumah. Para peneliti medis dapat menghitung potensi relatif dari suatu obat
baru dengan melihat rasio dari rata-rata jumlah permintaan obat baru dengan yang
diperlukan untuk mendapatkan respon tertentu, dengan rata-rata jumlah dari obat yang
standar yang diperlukan untuk mendapatkan respon yang sama.
Seperti yang bisa anda lihat, kemunkinan untuk mengaplikasikan penaksiran
rasio sangant banyak dan tidak akan berkesudahan. Bagaimana pun, kita akan
menggeser penekanan kita ke cara mendapatkan penaksir y, y, dan R; dan kita akan
mengaplikasikannya
dengan
angka
untuk
masing-masing
penaksir.
Dalam
VII.3
PENAKSIRAN
RASIO
MENGGUNAKAN
SIMPLE
RANDOM
SAMPLING
Kita asumsikan bahwa sampel acak sederhana dengan ukuran n didapatkan
dari populasi terhingga dengan N anggota populasi. Kemudian, bagaimana kita
menaksir rata-rata populasi y, total populasi y, dan rasio populasi R, dengan
memanfaatkan informasi di sampel y dan variabel tambahan x?
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
i =1
n
r=
(7.1)
i =1
n
y
i
i =1
V (r ) = V n
xi
i =1
= N n 1
nN 2
i
( y i rx i ) 2
i =1
n 1
(7.2)
N n 1
2 V (r ) = 2
2
nN i
( y i rxi ) 2
i =1
n 1
(7.3)
Dalam sebuah survei yang menyelidiki tentang trend pada real estate,
seorang peneliti tertarik pada perubahan relatif selama lebih dari 2 tahun
dalam nilai perkiraan rumah pada sebuah komunitas yang khusus. Sampel
acak sederhana dengan n = 20 rumah dipilih dari N = 1000 rumah dalam
komunitas tersebut. Dari pencatatan pajak, peneliti mendapatkan nilai
perkiraan untuk tahun ini ( y ) dan nilai sebenarnya dari 2 tahun yang lalu
( x ) untuk tiap sampel dengan n = 20 rumah. Dia berharap untuk
memperkirakan R, perubahan relatif pada nilai perkiraan untuk N = 1000
rumah, dengan menggunakan informasi pada sampel.
Data dari survei real estate ditunjukkan pada tabel 7.1. Kita telah
menambahkan kolom xi2, yi2 dan xiyi , yang sangat penting untuk
menghitung V (r ) .
Pembahasan
Taksiran R dengan menggunakan data sampel diperoleh dengan
20
yi
r = i20=1
x
i =1
164.7
= 1.07
154.5
Karena itu, kita menaksir bahwa nilai real estate telah naik kurang lebih 7
% selama 2 tahun periode pada daerah yang diteliti.
Tabel 7.1 Data dan perhitungan survei nilai real estate ( dalam $ 10,000 )
Rumah
Nilai
perkiraan
tahun
Nilai sebenarnya
xi
yi
xiyi
yang lalu ( xi )
( yi )
6.7
7.1
44.88
50.41
47.57
8.2
8.4
67.24
70.56
83.88
7.9
8.2
62.41
67.24
74.78
6.4
6.9
40.96
47.01
44.16
8.3
8.4
68.89
70.56
69.72
7.2
7.9
51.84
62.41
56.88
6.0
6.5
36.00
42.25
39.00
7.4
7.6
54.76
57.76
56.24
8.1
8.9
65.61
79.21
72.09
10
9.3
9.9
86.49
98.01
92.07
11
8.2
9.1
67.24
82.81
74.62
12
6.8
7.3
46.24
53.29
49.64
13
7.4
7.8
54.76
60.84
57.72
14
7.5
8.3
56.25
68.89
62.25
15
8.3
8.9
68.89
79.21
73.87
16
9.1
9.6
82.21
92.16
87.36
17
8.6
8.7
73.96
75.69
74.82
18
7.9
8.8
62.41
77.44
69.52
19
6.3
7.0
39.69
49.00
44.10
20
8.9
9.4
79.21
88.36
83.66
Jumlah
154.5
164.7
1210.55
1373.71
1288.95
20
(y
i =1
20
(y
i =1
20
20
20
rxi ) 2 = y i + r 2 xi 2r xi y i
2
i =1
i =1
(7.4)
i =1
(y
i =1
= 1.3157
Dengan menggunakan persamaan (7.3)
n
N n 1
2 V (r ) = 2
2
nN
x
2
( y i rxi )
i =1
n 1
1000 20
1
= 2
20(1000) (7.725) 2
(1.3157)
i =1
= 0.015
19
Jadi, kita menaksir rasio dari nilai real estate sekarang dengan yang dua tahun
yang lalu menjadi r = 1.07 dan kita sungguh yakin bahwa kesalahan penaksiran
kurang dari 0.02. Karena itulah, rasio sebenarnya R untuk polpulasi seharusnya
berada diantara 1.05 dan 1.09. Dengan catatan bahwa rentang kesalahan dari
penaksiran cukup kecil. Karena itu r seharusnya menjadi penaksir yang cocok untuk
R.
Interval konfidensi untuk sampel besar yang didasai oleh teori distribusi
normal, seperti yang ditunjukkan dalam bagian 2, mengaplikasikan contoh rasi
estimasi dengan baik. Dengan demikian sebagai contoh, penaksiran inteval konfidensi
90 % untuk rasio R dalam bentuk
r 1.645 V (r )
Taksiran varians r dapat dituliskan dalam berbagai bentuk. Salah satu yang
lebih khusus yang berguna untuk menunjukkan koefisien korelasi antara x dan y.
Korelasi ini dapat ditaksir oleh
S xy
SxSy
dimana
Sxy =
Sx2 =
1 n
( xi x)( y i y )
n 1 i =1
1 n
(
x
x
i )
n 1 i =1
dan
Sy2
1 n
=
(
y
y
i )
n 1 i =1
V (r ) =
1 f
n
1 2
( S + r 2 S 2 2 r S S )
x
x y
2 y
x
dimana f = n/N, fraksi sampling. Bentuk ini sering digunakan dengan perhitungan
yang ditampilkan dengan paket-paket perangkat lunak dari statistika stansar. Sebagai
contoh, Minitab membaca data pada sampel 7.1 adalah
N
Mean
Stdev
20
7.725
0.947
20
8.235
0.957
20 1 1
2
2
2
V (r ) = 1
. (0.957 ) + (1.07) (0.947) 2(1.07)(0.966)(0.947)(0.957)
1000 20 7.725
= 0.0000567
1/xi dalam kasus ini. Kuadrat terkecil biasa dalam analisi regresi yang terbobot
dengan bobot 1/xi akan menghasilkan r sebagai penaksir . Standar deviasi dari
koefisien regresi akan hampir sama dengan perhitungan 2 V (r ) kita yang pertama,
kecuali untuk koreksi populasi yang terbatas.
Hasil dari MINITAB untuk analisis regresi yang terbobot untuk data pada
contoh 7.1 adalah
7KHUHJUHVVLRQHTXDWLRQLV
\ [
3UHGLFWRU&RHI6WGHYWUDWLRS
1R&RQVWDQ
[
toal isi gula dalam muatan truk jeruk. Penaksir sederhana dari N y tidak dapat
digunakan karena kita tidak mengetahui N, total banyaknya jeruk dalam truk.
Prosedur penaksiran rasio berikut dapat diaplikasikan dalam menaksir y apakah N
diketahui atau tidak.
y=
i =1
n
( x ) = r x
(7.5)
i =1
( y rx )
N n 1
V ( y ) = ( x ) 2 V (r ) = x2
2
nN i
i =1
n 1
(7.6)
dimana x dan x adalah rata-rata populasi dan total, yang berturut-turut, dari variabel
acak x.
Rentang kesalahan dari penaksiran :
n
N n 1
2 V ( y ) = 2 x2
2
nN x
^
( y i rxi ) 2
i =1
n 1
(7.7)
Dengan catatan meskipun kita tidak perlu mengetahui N atau x , kita harus
mengetahui x untuk menaksir y dengan menggunakan prosedur penaksiran rasio.
Contoh 7.2 Dalam sebuah penelitan untuk menaksir total banyaknya gula dalam
muatan truk jeruk, sebuah sampel acak dengan n = 10 jeruk dibuat
menjadi jus dan diukur beratnya. Total berat dari semua jeruk, didapatkan
dengan penimbangan pertama pada truk yang berisi muatan dengan
kemudian truk yang dikosongkan, didapatkan 1800 pon. Taksirlah y ,
total jumlah gula pada jeruk, dan rentang kekeliruan penaksirannya
Tabel 7.2
Jeruk
1
2
3
4
5
6
7
8
9
10
Total
Jumlah gula
(dalam pon)
0.021
0.030
0.025
0.022
0.033
0.027
0.019
0.021
0.023
0.025
0.246
Berat jeruk
(dalam pon)
0.40
0.48
0.43
0.42
0.50
0.46
0.39
0.41
0.42
0.44
4.35
6ROXVL
Gula yang terkandung dalam jeruk biasanya dicatat dalam derajat brix, yang
merupakan pengukur berapa pon gula padat per 100 pon jeruk. Untuk menghitungnya
kita akan menggunakan berapa pon kandungan yang sebenarnya untuk setiap jeruk.
Taksiran y dapat diperoleh dengan menggunakan persamaan (7.5):
10
y = r x =
( x ) =
i =1
10
0.246
(1800) = 101.79 pon
4.35
i =1
1 1
2 V ( y ) = 2 x2 2
n x
(y
rxi ) 2
i =1
n 1
(y
10
10
10
i =1
i =1
i =1
rxi ) 2 = y i2 + r 2 xi2 2r xi y i
i =1
dimana
10
r=
i =1
10
0.246
= 0.0566
4.35
i =1
Dari data,
10
2
i
i =1
10
2
i
i =1
10
y x
i
i =1
x=
4.35
= 0.435
10
10
10
10
10
i =1
i =1
i =1
i =1
1 1
2 V ( y ) = 2 x2 2
n x
(y
rxi ) 2
i =1
n 1
0.000052285
1
1
= 2 (1800) 2
= 6.3
2
9
10 (0.435)
Kesimpulannya, rasio penaksiran total gula dalam truk jeruk adalah y = 101.79 pon,
dengan kekeliruan penaksiran 7.3. Kita yakin bahwa total kandungan gula y berada
pada interval
101.79 6.3
sehingga, intervalnya berada pada 95.49 sampai 108.09 pon.
Selain itu, deskriptif statistik, yang diperlihatkan di bawah ini dari output
Minitab, dapat digunakan untuk menghitung V (r ) , bagian utama dari V ( y ) .
Rata-rata
Stdev
10
0.4350
0.0354
10
0.02460
0.00438
Analisis regresi yang diboboti dengan garis lurus melalui titik pangkalnya
menghasilkan :
Persamaan regresinya adalah
y = 0.0566 x
3UHGLNWRU
Konstanta
.RHI
-
6WGHY
-
UDVLRW
-
-
0.056552
0.001719
32.90
0.000
S
Maka didapat,
2 V ( y ) = 2 x V (r )
= 2 (1800) (0.001719) = 6.19
yang sangat dekat dengan hasil yang diberikan oleh metode perhitungan yang
sebelumnya.
Anda akan mengatakan bahwa populasi berukuran N seringkali diketahui.
Oleh karena itu, peneliti harus memutuskan dalam kondisi bagaimana menggunakan
penaksir rasio y = rx lebih baik dibandingkan dengan menggunakan penaksir
koresponding Ny , dimana kedua penaksir didasarkan pada SRS_Sampling Acak
Sederhana (lihat bagian 7.5). Umumnya, rx mempunyai varians yang lebih kecil
daripada Ny apabila terdapat korelasi positif yang kuat antara x dan y, (dimana ,
koefisien korelasi antara x dan y, lebih besar dari ). Secara intuisi, pernyataan ini
masuk akal karena dalam penaksiran rasio kita menggunakan informasi tambahan dari
penambahan variabel x.
Jika peneliti lebih tertarik dengan rata-rata populasi daripada total populasi,
y =
i =1
n
( x ) = r x
(7.8)
i =1
( y i rxi ) 2
N
n
1
i =1
V ( y ) = x2V (r ) = x2
2
n 1
nN x
(7.9)
Taksiran kekeliruannya :
n
N n
2 V ( y ) = 2
nN
(y
rxi ) 2
i =1
(7.10)
n 1
Catatan bahwa kita tidak perlu mengetahui x atau N untuk menaksir y ketika
menggunakan prosedur rasio; tetapi x harus kita ketahui.
Sebuah perusahaan ingin menaksir rata-rata jumlah uang y yang dibayarkan kepada
karyawan untuk biaya pengobatan selama tiga bulan pertama pada kalender tahunan.
Laporan rata-rata setiap tiga bulan ini didapat dari
sebelumnya. Sampel acak sebanyak 100 karyawan diambil dari populasi sebanyak
1000 karyawan. Hasilnya dinyatakan sebagai berikut. Gunakan data tersebut untuk
memprediksi y dan untuk menempatkan kekeliruan penaksiran.
n = 100,
N = 1000
= 1750
i =1
= 1200
i =1
x = 12500
100
2
i
y = 31,650,
i =1
100
2
i
= 15,620,
i =1
100
y x
i
= 22,059.35
i =1
Solusi
Taksiran untuk y adalah
y = r x
dimana
x =
12,500
= 12.5
1000
Maka
100
y =
i =1
100
1750
(12.5) = 18.23
1200
( x ) =
i =1
Taksiran kekeliruan didapat dengan menggunakan persamaan (7.10); tetapi kita harus
menghitung terlebih dahulu
100
100
100
100
i =1
i =1
i =1
i =1
N n
2 V ( y ) = 2
nN
= 2
(y
rxi ) 2
i =1
n 1
= 0.42
100(1000) 99
Maka taksiran rata-rata jumlah uang yang dibayar kepada karyawan untuk biaya
pengobatan $18.23. Kita sangat yakin bahwa kekeliruan untuk taksiran y kurang
dari $0.42.
Untuk mengingat rumus taksiran rasio dari rata-rata populasi, total, atau rasio, kita
membuat asosiasi berikut. Rasio sampel r dinyatakan dalam rumus berikut
n
r=
i =1
n
i =1
(7.11)
Penaksir R , y , dan y adalah
R = r
(7.12)
y = r x
(7.13)
y = r x
(7.14)
Jadi kita hanya perlu mengetahui rumus r dan hubungannya dengan y dan y .
Taksiran varians bisa diperoleh dengan mengingat rumus dasar,
n
( y i rxi ) 2
N
n
i =1
V (r ) =
2
nN
n 1
(7.15)
Maka
V ( y ) = x2V (r )
V ( y ) = x2V (r )
(7.16)
(7.17)
2 V (r ) = B
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
(6.18)
dengan B adalah bound of error dari penaksiran. Dan V (r ) sebagai penaksir varians
dari r diperoleh melalui persamaan:
n
N n 1
V (r ) =
2
nN x
^
( yi rxi )
i =1
n 1
(7.19)
^
N n 1 2
atau : V (r ) =
2 s
nN x
(7.20)
dengan
n
s2 =
(y
rxi ) 2
i 1
n 1
^
Varians populasi V(r) yang mendekati dapat diperoleh dari V (r ) dengan mengganti
s 2 oleh 2 . Maka jumlah observasi n yang diperlukan untuk menaksir R dengan
bound of error B dapat diperoleh dengan mencari solusi untuk n dari persamaan
berikut ini :
N n 1 2
2 V (r ) = 2
2 =B
nN x
(7.21)
n=
N 2
ND + 2
D=
B 2 x2
4
(7.22)
dengan
diperlukan untuk menghitung s 2 sebagai penaksir dari 2 tidak tersedia, maka kita
mengambil sebuah sampel pendahuluan berukuran n ' .
n'
^ 2
(y
rxi ) 2
i 1
n' 1
kemudian kita substitusikan hasil dari persamaan ini untuk 2 pada persamaan
(7.22), maka kita akan mendapatkan ukuran sampel yang mendekati. Jika x juga
tidak diketahui, maka x dapat digantikan oleh rata-rata sampel x , yang dihitung
dari n ' yang diperoleh pada penelitian pendahuluan.
Contoh7.4
x = 16,300.
178
187
3HPHFDKDQ
Pertama kita menghitung penaksir dari 2 dengan menggunakan data yang diperoleh
dari penelitian pendahuluan
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
10
^ 2
(y
rxi ) 2
i =1
Dengan :
10
10
10
10
i =1
i =1
i =1
i =1
2
i
2
i
i =1
10
x
i =1
x y
i
10
i =1
10
r=
187
= 1.05
178
i =1
10
10
10
10
i =1
i =1
i =1
i =1
^ 2
=
D=
(y
rxi ) 2
i =1
31.625
= 16.3
9
B 2 x2 (0.01) 2 (16.3) 2
=
= 0.006642
4
4
6HNDUDQJ NLWD GDSDW PHQHQWXNDQ XNXUDQ VDPSHO \DQJ GLSHUOXNDQ GHQJDQ PHQJJXQDNDQ
SHUVDPDDQ6HEDJDLFDWDWDQEDKZD
x =
x
N
16.300
= 16.3
1000
dan
B 2 x2 (0.01) 2 (16.3) 2
=
= 0.006642
D=
4
4
dengan demikian
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
^ 2
n=
^ 2
ND +
1000(3.474)
= 343.416
1000(0.006642) + 3.474
Maka untuk menaksir R, tingkat perubahan jam kerja karyawan yang hilang karena
sakit, dengan bound of error dari penaksiran sebesar B = 0.01 jam kita memerlukan
sebanyak 344 orang karyawan untuk diteliti.
Dengan cara yang sama, kita dapat menentukan jumlah observasi n yang
diperlukan untuk menaksir rata-rata populasi y , dengan bound of error dari
penaksiran sebesar B. Ukuran sampel yang diperlukan untuk menaksir y diperoleh
dengan mencari solusi untuk n dari persamaan berikut :
^
2 V ( y ) = B
(7.23)
2 x V (r ) = B
Ukuran sampel yang diperlukan untuk menaksir y dengan bound of error
penaksiran B adalah :
n=
N 2
ND + 2
D=
B2
4
dengan
Sebagai catatan bahwa untuk menentukan n pada persamaan (7.24) kita tidak perlu
mengetahui nilai x ; namun demikian kita tetap memerlukan taksiran dari 2 , yang
bisa kita peroleh atau kita tentukan dari penelitian yang telah dilakukan sebelumnya.
Contoh 7.5
Nilai
taksiran, x
1
2
3
4
5
6
7
8
9
10
23
14
20
25
12
18
30
27
8
31
Nilai
sebenarnya,
y.
25
15
22
24
13
18
35
30
10
29
208
221
(y
^ 2
rxi ) 2
i =1
(y
i =1
10
10
10
i =1
i =1
i =1
rxi ) 2 = y i2 + r 2 xi2 2r xi y i
10
2
i
2
i
i =1
10
x
i =1
x y
i
r=
i =1
10
221
= 1.06
208
i =1
10
10
10
10
i =1
i =1
i =1
i =1
D = B2 / 4 =
n=
1
4
100(4.21)
N 2
=
= 16.56
2
1000(0.25) + 4.21
ND +
Maka untuk menaksir y , rata-rata jumlah pohon per 1-hektar bidang tanah, dengan
bound of error sebesar B = 1.0. kita memerlukan sebanyak 17 bidang tanah untuk
diteliti. Karena pada penelitian pendahuluan kita telah meneliti sebanyak 10 bidang
tanah, maka kita tinggal meneliti sisanya yaitu sebanyak 7 bidang tanah.
Ukuran sampel yang diperlukan untuk menaksir y dengan bound of error
sebesar B bisa didapatkan dengan mencari solusi untuk n dari persamaan berikut :
^
2 V ( y ) = B
(7.25)
2 x V (r ) = B
(7.26)
n=
N 2
ND + 2
D=
B2
4N 2
(7.27)
dengan
Telah ditunjukan sebelumnya bahwa penaksir rasio lebih layak digunakan jika
hubungan antara y dan x adalah linier. Jika kenyataan dari hubungan linier antara
pengamatan ys dan xs, tetapi tidak harus salah satunya , lalu informasi tambahan
disediakan dengan bantuan variabel x yang didapat dari perhitungan taksiran regresi
dari rata-rata y . Harus diketahui y sebelum penaksir dapat dipakai, seperti yang
ada dalam taksiran rasio dari y .
Yang digarisbawahi memperlihatkan hubungan dasar antara ys dan xs yang
kadang menunjuk pada garis regresi dari y atas x.
Penaksir memberikan asumsi bahwa xs adalah variabel tetap dan ys adalah
variabel acaknya. Dapat kita pikirkan nilai x sebagai suatu yang telah diteliti, seperti
pendapatan seperempat bulan pertama tahun yang lalu, dan respon y sebagai variabel
acak yang belum di teliti, seperti pendapatan empat bulan berikutnya dari suatu
perusahaan untuk x yang telah diketahui. Peluang dari penaksir selanjutnya
tergantung hanya dari y untuk pasangan xs.
Penaksir Regresi dari rata-rata populasi y
yL = y + b( x x )
(7.28)
dimana
n
b=
(y
y )( x i x )
i =1
(x
x) 2
i =1
( yi y) b
Nn n 2 i =1
(x
i =1
x) 2
(7.29)
Nn
n
2
i =1
(x
i =1
x) 2
(7.30)
(y
y )( x i x )
i =1
(x
i i
x)
y x
i =1
i =1
n
2
i
nx y
nx 2
i =1
Contoh 7.9
Perolehan nilai test matematika telah diberikan kepada 486 siswa yang terlebih dahulu
masuk perguruan tinggi tertentu. Dari semua siswa tersebut SRS dari n=10 siswa telah
diseleksi dan kemajuan mereka dalam kalkulus diteliti. Hasil akhir nilai kalkulus telah
dilaporkan, seperti telah diberikan pada tabel. Diketahui bahwa y =52 untuk 486
siswa yang mengambil test perolehan tsb. Taksir y untuk populasi ini, dan
tempatkan taksiran batasan kesalahannya.
Siswa
Kalkulus akhir
(x)
(Y)
39
65
43
78
21
52
64
82
57
92
47
89
28
73
75
98
34
56
10
52
75
Penyelesaian
Hasil penghitungan
x = 46
y = 76
n
y x
i i
b=
i =1
n
x i2
nx y
=
nx
36,854 10(46)(76)
23,634 10(46) 2
= 0.766
i =1
(y
y) 2 =
i =1
i =1
2
i
ny 2 = 2056
2
i
nx 2 =2474
i =1
( xi x ) 2 =
x
i =1
juga
n
N n 1
2
2
V ( yL ) =
( y i y ) b
Nn n 2 i =1
(x
i =1
x) 2
486 10 1
2056 (0,766) 2 (2474) = 7,397
=
486
(
10
)
8
Perhitungan untuk penaksir regresi dari rata-rata sejajar dengan analisis regresi
klasik dalam kasus populasi yang tak berhingga.dengan model
E ( y i ) = 0 + 1 xi
untuk (xi,yi) data. Lalu penaksir kuadrat terkecil dari i adalah b, telah didapat dari
persamaan (7.28). juga hasil dari (7.29) menjadi
N n
v ( yL ) =
MSE
Nn
dimana MSE adalah kesalahan rata-rata kuadrat yang biasa dari analisis regresi.
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
Untuk ilustrasi, hasil analisis regresi minitab untuk data dalam contoh 7.9
sebagai berikut:
Persamaan regresi
y = 40.8 + 0.766 x
Predictor
Coef
Stdev
t-ratio
Constant
40.784
8.507
4.79
0.000
0.7656
0.1750
4.38
0.002
DF
SS
MS
Regresi
1450.0
1450.0
19.14
0.002
Error
606.0
75.8
Total
2056.0
476
(75.8) = 7.42
486(10)
dan
2 v( yL ) = 5.45
dimana sangat dekat dengan nilai yang terkandung dalam perhitungan yang lalu.
Pemeriksaaan yang lebih dekat dari data dalam kandungan gula dan berat
jeruk diberikan dalam contoh 7.2 disarankan bahwa penaksir rata-ratanya lebih layak
dari pada penaksir rasio.(Plot ari nilainya akan memperlihatkan bahwa garis regresi
tidak tampak) walau demikian, penaksir regresi dari total adalah bentuk N yL ,
khususnya n harus diketahui. Sejak penaksir rasio juga bekerja dengan baik dalam
kasus ini, menetapkan nomor dari jeruk dalam truk tidak akan mendapatkan biaya dan
waktu tambahan. Dalam kasus N yang lain akan diketahui atau mudah ditemukan.
Dengan demikian, kita harus hati-hati dalam memilih antara penaksir rasio dan
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
penaksir regresi ketika menaksir rata-rata populasi atau total. Akan dibahas lebih
lanjut dalam bagian 6.8.
VII.6 TAKSIRAN PERBEDAAN
metode regresi yang sesuai dengan nilai y atas dan bawah dengan jumlah yang
tergantung perbedaan ( x x ) . Akan tetapi, koefisien regresi b tidak dihitung.
Hasilnya, b dibuat sama.
Metode perbedaan lebih mudah untuk dipakai dibandingkan metode regresi
dan kerap kali bekerja lebih baik. Metode ini biasa digunakan dalam prosedur
pemeriksaan, dan akan kita pertimbangkan beberapa contoh dalam bagian ini.
Rumus dibawah ini bahwa sampling acak sederhana telah digunakan.
Perbedaan penaksir dari populasi y :
(7.31)
yD = y + ( x x ) = x + d
dimana
d = yx
N n
V ( yD ) =
Nn
(d
d )2
i =1
(7.32)
n 1
dimana
d i = y i xi
(d
N n
2 V ( yD ) = 2
Nn
d )2
i =1
n 1
(7.33)
Contoh 7.10
200.00
150.00
100.00
50.00
50.00
150.00
100.00
200.00
sample
1
2
3
4
5
6
7
8
9
10
d
-1
2
-1
3
-2
-3
4
-2
1
3
6ROXVL
Diketahui y = 72.1 , x = 71.7 , dan x = 74
1 n
1 n 2
2
2
( d i d ) =
d i nd
n 1 i =1
n 1 i =1
58 10(0.4) 2
=
= 6.27
9
jadi
n
N n
V ( yD ) =
Nn
(d
d )2
i =1
n 1
180 10
=
(6.27) = 0.59
(180)10
Kita telah melihat bahwa rata-rata sample, penaksir rasio, penaksir regresi, dan
penaksir selisih semuanya bisa digunakan sebagai penaksir rata-rata populasi y .
Bagaimana kita mengetahui penaksir yang mana yang terbaik untuk situasi penarikan
sample tertentu? sebenarnya, kita selalu tidak bisa menjawabnya secara pasti, tetapi
ada beberapa pedoman yang membandingkan sifat-sifat dari penaksir-penaksir
tersebut. Salah satu pedomannya bisa diungkapkan dalam hal efisiensi relatif dari
penaksir.
Andaikan kita mempunyai dua penaksir E1 dan E 2 untuk rata-rata . Jika
kedua E1 dan E 2 adalah penaksir takbias, atau hampir takbias, dari , maka secara
umum kita sebaiknya memilih penaksir dengan varians terkecil sebagai penaksir
terbaik. Hal ini menghasilkan taksiran selang kepercayaan terpendek bagi . Varians
biasanya mengecil ketika ukuran sample membesar, jadi kita harus membandingkan
varians E1 dan E 2 dengan asumsi ukuran sample sama untuk kedua penaksir. Sesuatu
hal yang mudah untuk menjelaskan ukuran relatif dari dua varians dengan melihat
pada rasionya. Rasio ini disebut dengan efisiensi relatif (relative efficiency),
dinotasikan RE, untuk dua penaksir. Kita membentuk rasio efisiensi relatif sehingga
nilainya yang besar mengutungkan bagi penaksir yang disebutkan pertama kali. Jadi,
efisiensi relatif dari E1 ke E 2 (atau E1 terhadap E 2 ) diberikan melalui
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
E V (E2 )
RE 1 =
E 2 V ( E1 )
Jika RE (E1 E 2 ) besar (lebih besar dari 1), maka V ( E 2 ) akan menjadi lebih besar
dari V ( E1 ) yang menguntungkan bagi E1 sebagai penaksir . Harus diingat bahwa
ukuran sampel untuk E1 dan E 2 harus sama dalam kalkulasi ini.
Andaikan RE (E1 E 2 ) = 2 . Hal ini menyatakan secara tidak langsung bahwa
E V ( E )
2
RE 1 =
E 2 V ( E1 )
yang baik), nilai dari RE (E1 E 2 ) akan sangat lebih besar dari 1 yang tentunya akan
betul-betul menunjukan bahwa E1 mungkin menjadi penaksir terbaik.
Sekarang kita menghitung taksiran efisiensi relatif untuk pelbagai kombinasi
dari empat penaksir y yang telah disebutkan diatas. Pertama, bagaimanapun, kita
harus
mempertimbangkan
pertanyaan
kebiasan,
karena
tidak
tepat
untuk
Pada sisi lain, penaksir rasio y secara umum bias, karena r = y x secara
umum penaksir bias dari R = y x . Bias menjadi tidak berarti jika hubungan antara
y dan x jatuh sepanjang garis lurus yang bergerak melalui titik asal. Hampiran untuk
bias relatif dari r diberikan oleh:
sy s
E (r ) R N n s x2
2 x
R
y x
Nn x
dengan adalah koefisien korelasi sampel antara x dan y.
Mengenai bias dari dua penaksir lainnya, penaksir regresi takbias jika
hubungan antara y dan x (regresi y pada x) jatuh sepanjang garis lurus, tidak perlu
melalui titik asal. Penaksir selisih selalu takbias dalam penarikan sampel acak
sederhana.
Dalam membandingkan penaksir rasio dengan rata-rata sampel per elemen y ,
kita mempunyai
E V ( y )
RE 1 =
E 2 V ( y )
=
s y2
s y2 + r 2 s x2 2rs x s y
s y2 + r 2 s x2 2rs x s y < s 2y
atau
r 2 s x2 > 2rs x s y
atau
rs x2 > 2 s x s y
atau
>
1 rs x 1 s x x
=
2 sy
2 sy y
Besaran s x x disebut koefisien variasi. Pada situasi dimana penaksir rasio biasa
digunakan, y adalah nilai yang diperbaharui dari x (pendapatan kuartal pertama dalam
satu tahun dibandingkan dengan pendapatan kuartal pertama tahun sebelumnya, nilai
audit melawan nilai buku, dan lain-lain). Dalam kasus seperti ini, koefisien variasi
Bahan Ajar Sampling - Yudhie Andriyana
Jurusan Statistika, FMIPA Universitas Padjadjaran
dari y seharusnya sangat dekat dengan koefisien variasi dari x. Jadi, dalam situasi
seperti ini, penaksir rasio lebih efisien daripada rata-rata sampelper elemen penaksir
jika >
1
.
2
Secara keseluruhan, penaksir rasio akan lebih efisien daripada y jika variasi
diantara x relatif lebih kecil terhadap variasi diantara y dan korelasi antara x dan y
bernilai positif yang besar. Jika peneliti mempunyai pilihan seperti bagaimana
memilih nilai-x, ia sebaiknya memilih mereka hampir terus-menerus.
Perbandingan sederhana dari penaksir regresi dengan rata-rata per elemen
yL = y + b( x x )
dengan b adalah penaksir kemiringan (slope) dari garis regresi. Varians taksiran dari
N n 1 n
2
2
V ( yL ) =
( y i y ) b ( xi x )2
Nn n 2 i =1
i =1
Jika kita membuat sedikit perubahan dengan mengganti (n-2) oleh (n-1) pada
penyebutnya, kita akan mempunyai
N n 2
2 2
V ( yL )
sy b sx
Nn
dan, karena
b =
sy
sx
V ( yL ) menjadi
N n 2
2
V ( yL )
s y 1
Nn
Hampiran V ( yL ) ini baik sepanjang n agak besar; (n-2) digunakan pada penyebut
untuk mencegah menaksir varians terlalu rendah (underestimation) yang serius dalam
situasi sampel kecil.
Dengan menggunakan hampiran varinas yang telah disederhanakan diatas,
^ yL
RE
y
s2
1
= 2 y 2 =
1 2
s y 1
yang akan lebih besar dari satu jika tidak samadengan nol. Pada faktanya, RE
besarnya bisa menjadi takhingga ketika mendekati satu. Jadi, yL selalu lebih
efisien dari y sebagai penaksir dari y . (akan tetapi, ingat bahwa yL akan
mempunyai masalah bias yang serius kecuali regresi y pada x benar-benar linear.)
Ketika membandingkan taksiran regresi dengan taksiran rasio,
^ yL
RE
y
s y2 + r 2 s x2 2rs x s y
=
s 2y 1 2
^
Pada kasus ini. RE >1 akan menunjukan
r 2 s x2 2rs x s y > 2 s 2y
atau
(s
rs x ) > 0
2
2
karena s y = bs x , maka (bs x rs x ) > 0
yang menunjukan
(b r )2 >0
Jadi, penaksir regresi lebih efisien dari penaksir rasio kecuali b=r, dimana kasus
mereka ekuivalen.Kasus b=r akan terjadi ketika regresi y pada x linear melalui titik
asal dan varians y sebanding dengan x.
GAMBAR 7.2
Situasi yang seperti ditunjukan pada gambar 6.2, dengan kasus penerimaan kas
untuk periode penjualan yang telah ditetapkan yang berhubungan dengan banyaknya
pembeli. Catatan bahwa nilai penerimaan melebar ketika x meningkat.
Penaksir selisih
yD = y + ( x x )
selalu penaksir takbias dari pada penarikan sample acak sederhana, dan varians
taksirannya adalah
n
(d
N n
V ( yD ) =
Nn
i =1
d)
n 1
bisa ditulis
N n 1 n
2
V ( yD ) =
[( y i y ) ( xi x )]
Nn n 1 i =1
N n 2
2
=
s y + s x 2 s x s y
Nn
^ yD
RE
y
s y2
=
s 2 + s 2 2 s s
y
x
x y
2 s x s y > s x2
atau
^
>
sx
2s y
Jika variasi dalam xs dan ys sama, Penaksir difference akan menjadi lebih efisien
dibanding y ketika korelasi antara x dan y lebih besar dari
1
2
^ yL s2y + s2x 2 sx s y
RE ^ =
^ 2
yD
2
sy
sx 2 sx s y > s y
atau
2
^ > 0
sy
sx
Sejak bsx = s y penaksir regresi akan menjadi sama dengan penaksir difference bila
b=1. Di lain pihak, penaksir regresi akan menjadi lebih efisien daripada penaksir
difference.
Sekarng kita akan melihat beberapa nilai numeric dari efisiensi relative untuk
data yang telah kita analisis terlebih dahulu pada bab ini. Data dari table 7.1 dalam
real estate valuation diplotkan dalam gambar 7.3. Melihat point data tersebut yang
jatuh sepanjang garis lurus dengan kemiringan dekat dengan persamaan (dalam
kenyataan, b=0.977 untuk penaksir regresi) dan y mendekati 0. Untuk kasus ini
E( r ) R
R
0.0053
Jadi nilai relative bias untuk penaksir ratio tidak terlalu berpengaruh.
Untuk data ini,
^
yL
RE ^ = 1.13
y
^
dan
^
yD
RE ^ = 1.01
y
^
jadi ketiga penaksir, regresi, ratio, dan difference adalah tentang persamaan yang ada
dalam penaksir varians. Salah satu dari ketiga penaksir tersebut bekerja dengan baik
untuk masalah menaksir y atau y dengan data tersebut. Tapi
^
yL
RE
= 14.96
y
jadi y bias menjadi penaksir yang buruk dari y , sebagai perbandingan salah satu
dari 3 penaksir membuat taksiran dari xs. Di lain pihak, itu membuat 15 kali atau
lebih pengamatan untuk mencapai sukses dalam varians yang sama dengan y adalah
^
^
yL
RE ^ = 16.79
y
^
Hal ini mengimplikasikan akurasi yang lebih baik dalam mencapai sukses dalam
penaksiran y atau y yang dikerjakan oleh penaksir regresi lebih baik dari penaksir
ratio. Penaksir difference tidak dapat digunakan dalam masalah ini.
Dari contoh 7.9, kita mempunyai data nilai akhir kalkulus dengan nilai tes psikotes.
Kemiringan dalam garis ini tidak cukup dekat dengan komunitas (b=0.766) dan y
intercept jauh dari 0. Perhitungannya ditunjukan
^
yL
RE ^ = 4.84
y
^
dan
^
yL
RE ^ = 1.22
yD
^
Disini penaksir regresi biasanya lebih baik dari penaksir ratio, tapi penaksir difference
bias dipakai tetapi kurang efisien.
Untuk data dalam contoh 7.10, ketiga metode, ratio, regresi dan difference
sebenarnya sama; penaksir difference adalah yang paling mudah dihitung jadi itu
adalah pilihan yang masuk akal.
Dalam kesimpulan, analisis dari data bivariate harus selalu dimulai dengan
memplot titiknya. Jika titiknya jatuh sepanjang garis lurus permulaannya maka tepat
sekali mengambil penaksir difference, ketiga metode yang melibatkan xs dan ys
adalah mungkin. Agar penaksir difference bekerja dengan baik, kemiringan dari garis
harus cukup dekat dengan salah satu titiknya. Jika titiknya jatuh sepanjang garis lurus
tidak melalui garis normal, maka penaksir regresi adalah yang terbaik, dalam
hubungan dengan varians. Jika titiknya tidak jatuh sepanjang garis lurus, mungkin y
sebaiknya digunakan (atau untuk penanganan analisis regresi lebih detail).
VII.8 KESIMPULAN
Dengan mengukur variable Y dan variable tambahan X pada masing2 elemen
dalam sample, kita dapatkan informasi tambahan untuk menaksir parameter populasi
yang bersangkutan. Ketika korelasi positif yang kuat ada antara variable X dan Y ,
prosedur penaksiran ratio biasanya menyediakan taksiran yang lebih tepat dari y dan
menyebutkan stratified
e. Quota Sampling
Merupakan suatu tipe sampling dengan menggunakan beberapa kuota sampai
pada kuota yang diinginkan. Tipe sampling ini sangat banyak digunakan
dalam penelitian pemasaran dan dalam penelitian pengumpulan pendapat
(opinion poll)
Contoh : Dalam suatu penelitian mengenai tingkat kepuasan konsumen
terhadap suatu produk rokok akan diambil sampel dengna beberapa ketentuan
berikut :
-
f. Sampling Jenuh
Apabila sutau populasi memiliki anggota yang sedikit (dalam hal ini kurang
dari 30), maka semua elemennya bisa digunakan sebagai sampel. Proses
penarikan sampel seperti ini dinamakan Sampling Jenuh. Jadi dengan kata lain
bahwa sampling jenuh merupakan sensus.
Keuntungan sampling non pleuang adalah dari aspek kemudahan memperoleh unit
sampling. Namun, data yang dikumpulkan berdasarkan sampling jenis ini tidak dapat
digeneralisir atau tidak dapat dianalisis lebih jauh melalui alat analisis statistika.