Karya Ilmiah Buku Metode Statistika
Karya Ilmiah Buku Metode Statistika
Dadan Kusnandar
Naomi Nessyana Debataraja
Muhlasah Novitasari Mara
Neva Satyahadewi
Metode Statistika
Serta Aplikasinya dengan MINITAB, Excel dan R
Dadan Kusnandar
Naomi Nessyana Debataraja
Muhlasah Novitasari Mara
Neva Satyahadewi
ISBN: 978-602-8355-83-4
Buku ini disusun untuk memberikan pengetahuan dasar tentang berbagai teknik
dalam Metode Statistika dan analisis data bagi mahasiswa dan peneliti dari berbagai
disiplin ilmu, baik bidang ilmu eksakta maupun ilmu sosial. Untuk itu, penyusunan
buku ini telah dilakukan sedemikian rupa sehingga para penggunanya tidak perlu
memiliki latar belakang pengetahuan Matematika yang kuat dalam memahami
materi yang dibahas di dalam buku ini.
Penyajian materi dalam buku ini lebih menekankan pada penggunaan Metode
Statistika dalam menganalisis data daripada pembahasan tentang teori Ilmu
Statistik. Namun demikian, pembahasan tentang beberapa asumsi yang melatar-
belakangi penggunaan teknik tertentu disajikan secara ringkas sebagai pelengkap
agar pengguna buku ini dapat menentukan teknik yang tepat dalam menganalisis
data hasil penelitian.
iii
menggunakan data tersebut sebagai contoh dalam buku ini. Ucapan terima kasih
juga penulis sampaikan kepada dosen-dosen pada Fakultas Matematika dan Ilmu
Pengetahuan Alam, Universitas Tanjungpura yang telah memberikan berbagai saran
dan kritik selama penulisan buku ini. Kepada berbagai pihak yang telah membantu
hingga tersusunnya buku ini, penulis sampaikan penghargaan setinggi-tingginya.
Penulis
iv
D a f ta r I si
v
3.3 Permutasi dan kombinasi .......................................................................... 47
3.4 Interpretasi tentang peluang..................................................................... 51
3.5 Beberapa aturan dasar peluang ................................................................ 54
3.6 Peluang bersyarat ...................................................................................... 57
3.7 Variabel acak ............................................................................................. 62
3.8 Distribusi peluang bagi variabel acak diskrit ............................................. 63
3.9 Nilai harapan dan varians .......................................................................... 65
3.10 Distribusi Binomial..................................................................................... 68
3.11 Distribusi Hipergeometrik ......................................................................... 73
3.12 Distribusi Poisson ...................................................................................... 74
3.13 Distribusi peluang bagi variabel acak kontinu ........................................... 76
3.14 Distribusi Normal ....................................................................................... 78
3.15 Pendekatan Normal bagi Distribusi Binomial ............................................ 83
Soal-soal latihan .................................................................................................. 85
4 Pengambilan Sampel dan Distribusi Sampling.................................................... 92
4.1 Pendahuluan.............................................................................................. 92
4.2 Penarikan sampel secara acak ................................................................... 93
4.3 Distribusi sampling bagi nilai rata-rata sampel ( X ) ................................. 96
vi
Soal-soal latihan ................................................................................................ 135
6 Pengujian Hipotesis ........................................................................................... 140
6.1 Pendahuluan............................................................................................ 140
6.2 Konsep pengujian hipotesis ..................................................................... 140
6.3 Pengujian hipotesis tentang rata-rata populasi ...................................... 144
6.3.1 Kasus 1: varians populasi, s2, diketahui nilainya ........................... 144
6.3.2 Kasus 2: varians populasi, s2, tidak diketahui nilainya .................. 148
6.4 Pengujian Hipotesis tentang Proporsi ..................................................... 151
6.5 Pengujian hipotesis tentang varians populasi ......................................... 154
6.6 Pengujian Hipotesis tentang Selisih Rata-rata Dua Populasi
Independen ............................................................................................. 156
6.6.1 Kasus 1: Pengujian Hipotesis tentang Selisih Rata-rata Dua
Populasi Independen, s12 dan s22 Nilainya Diketahui ................... 157
6.6.2 Kasus 2: Pengujian hipotesis tentang selisih rata-rata dua
populasi independen, s12 = s22 tetapi nilainya tidak diketahui..... 161
6.6.3 Kasus 3: Pengujian hipotesis tentang selisih rata-rata dua
populasi independen, s12 ≠ s22 dan nilainya tidak diketahui ........ 166
6.7 Pengujian hipotesis untuk data berpasangan ......................................... 169
Soal-soal latihan ................................................................................................ 172
7 Regresi Linier Sederhana dan Korelasi ............................................................. 180
7.1 Pendahuluan............................................................................................ 180
7.2 Hubungan antara variabel dependen dengan variabel bebas ................ 181
7.3 Analisis regresi linier sederhana .............................................................. 184
7.4 Penduga kuadrat terkecil bagi b 0 dan b1 ................................................. 186
7.5 Koefisien determinasi dan sumber keragaman dalam analisis
regresi ..................................................................................................... 192
7.6 Membaca output komputer .................................................................... 194
7.6.1 MINITAB ......................................................................................... 194
7.6.2 Excel ............................................................................................... 197
7.6.3 Program R ...................................................................................... 198
7.7 Pengujian hipotesis bagi koefisien regresi .............................................. 202
7.8 Pendugaan selang kepercayaan .............................................................. 204
7.9 Koefisien korelasi..................................................................................... 206
7.10 Hubungan antara koefisien korelasi dengan koefisien regresi ............... 209
vii
7.11 Beberapa masalah dalam analisis regresi ............................................... 211
Soal-soal latihan ................................................................................................ 213
8 Pengenalan Analisis Regresi Berganda ............................................................ 217
8.1 Pendahuluan............................................................................................ 217
8.2 Model regresi berganda .......................................................................... 217
8.3 Data PULSE.MTW .................................................................................... 219
8.4 Pemilihan variabel ................................................................................... 222
8.5 Uji t dan selang kepercayaan bagi koefisien regresi ............................... 231
8.6 Multikolinieritas (multicollinierity) .......................................................... 232
8.7 Variabel boneka (dummy variable) ......................................................... 233
Indeks ..................................................................................................................... 238
Bahan bacaan ........................................................................................................ 241
Lampiran ................................................................................................................ 242
Lampiran 1. Tabel bilangan acak ...................................................................... 243
Lampiran 2. Tabel Normal Baku ....................................................................... 244
Lampiran 3. Tabel distribusi t ........................................................................... 245
Lampiran 4. Tabel Distribusi Chi-kuadrat ......................................................... 246
Lampiran 5. Tabel distribusi F .......................................................................... 248
Lampiran 6. Abjad huruf Yunani....................................................................... 251
viii
1 Pe n d a h ul u a n
Berbeda dengan pengertian sehari-hari, istilah populasi dalam Statistika tidak harus
selalu dikaitkan dengan sekelompok orang tertentu. Populasi bisa saja berkaitan
dengan diameter pohon suatu spesies pada umur tertentu, atau berat kering
tanaman dari suatu varietas cabai setelah dipanen, atau penghasilan per bulan dari
golongan masyarakat tertentu. Ukuran deskriptif dari suatu populasi disebut
parameter. Misalnya, untuk kasus dimana populasinya adalah penghasilan
masyarakat per bulan, maka parameter populasi tersebut dapat berupa rata-rata
penghasilan per bulan atau proporsi golongan masyarakat yang berpenghasilan di
bawah suatu nilai standar tertentu. Jika kita hanya mengamati penghasilan per
bulan dari 100 orang dalam golongan masyarakat tadi, maka nilai-nilai yang kita
peroleh merupakan suatu sampel dari populasi tersebut. Ukuran deskriptif dari
suatu sampel disebut statistik.
Istilah Statistik saat ini sering kali dicampur-adukkan dengan istilah Statistika. Pada
umumnya Statistik berarti sekumpulan data yang terdiri atas angka-angka, sehingga
1
kita mengenal istilah Statistik Pertanian, Statistik Penduduk, Statistik Perekonomian,
dan sebagainya. Sedangkan Statistika merupakan suatu disiplin ilmu. Ruang lingkup
Statistika sebagai disiplin ilmu mencakup berbagai teknik pengumpulan dan
penyajian data, baik untuk keperluan analisis data maupun dalam proses
pengambilan keputusan. Salah satu kegunaan utama dari Ilmu Statistika adalah
untuk menyediakan suatu set prosedur yang memungkinkan kita melakukan
inferens, pendugaan dan menentukan keputusan tentang karakteristik suatu
populasi berdasarkan atas informasi sampel yang diambil dari sebagian populasi
tersebut.
Definisi
Statistika adalah suatu cabang Ilmu Matematika yang berkaitan dengan
teknik-teknik pengumpulan, penyajian dan analisis data yang digunakan
dalam proses pengambilan keputusan.
Ilmu Statistika dapat dibagi menjadi dua bagian, yaitu Statistika Deskriptif dan Statis-
tika Inferensial. Cabang ilmu Statistika Deskriptif berkaitan dengan berbagai teknik
pengumpulan, pengorganisasian, penyederhanaan dan penyajian data ke dalam
bentuk yang lebih mudah dipahami, misalnya dalam bentuk tabel atau grafik. Teknik
penyederhanaan data biasanya disertai dengan penjelasan tentang karakteristik-
karakteristik tertentu dari data, seperti ukuran pemusatan atau penyebaran dari
data tersebut. Berbagai teknik yang biasa digunakan dalam Statistika Deskriptif akan
dibahas secara khusus dalam Bab 2.
Saat ini Statistika telah digunakan secara luas dalam penelitian-penelitian di semua
disiplin ilmu pengetahuan. Hal ini terutama sekali terjadi setelah berkembangnya
Metode Statistika Inferensial yang merupakan perkembangan dari teori peluang
(probability theory). Statistika Inferensial berkaitan dengan proses pendugaan dan
penarikan kesimpulan tentang karakteristik suatu populasi berdasarkan atas
informasi sampel.
Salah satu aspek utama dari Statistika Inferensial adalah proses penggunaan nilai
statistik sampel dalam pengambilan keputusan yang berkaitan dengan nilai
parameter populasi yang sebenarnya. Dengan semakin besarnya populasi maka
biaya dan waktu yang diperlukan untuk mendapatkan informasi dari seluruh
populasi akan semakin besar dan semakin sulit dilaksanakan sehingga kesimpulan
mengenai karakteristik populasi harus ditentukan berdasarkan informasi yang
diperoleh dari sampel yang diambil dari populasi tersebut. Teori peluang
mempunyai peranan yang besar dalam menjembatani hubungan antara hasil
sampel dengan populasinya. Kaidah-kaidah dalam teori peluang digunakan untuk
menilai sampai berapa jauh informasi sampel mencerminkan populasinya. Penilaian
tersebut dilakukan melalui pemeriksaan terhadap sifat-sifat distribusi samplingnya.
Aturan dasar tentang teori peluang dan beberapa bentuk distribusi peluang yang
penting akan dibahas dalam Bab 3, sedangkan sifat-sifat distribusi samplingnya
dibahas dalam Bab 4.
2
1.2 Sumber dan Jenis Data
Informasi atau data selalu diperlukan dalam setiap proses pengambilan keputusan.
Akan tetapi, tidak semua data memberikan manfaat dalam pengambilan keputusan.
Jika data yang diperoleh tidak layak atau cacat karena bias, tidak jelas, atau karena
kesalahan-kesalahan lainnya, maka tidak ada satupun alat atau metode yang dapat
memperbaikinya. Oleh karena itu, metode pengumpulan data yang baik dan benar
perlu mendapat perhatian yang serius, agar data yang diperoleh memberikan
manfaat yang maksimal.
Terdapat beberapa metode yang dapat digunakan untuk mendapatkan data yang
diperlukan, yaitu dengan:
· mencari data yang sudah dipublikasikan oleh sumber-sumber tertentu, baik
pemerintah, perusahaan ataupun individu;
· merancang suatu percobaan;
· melakukan survei.
Pemerintah pada setiap tingkatan, baik pusat, propinsi maupun kabupaten, telah
secara rutin mempublikasikan berbagai jenis data melalui Biro/Badan Pusat Statistik
di masing-masing tingkat pemerintahan. Data yang telah dipublikasikan pemerintah
diantaranya mencakup data kependudukan, tenaga kerja, pertanian, dan
perekonomian. Data tersebut digunakan oleh pemerintah sebagai dasar untuk
menentukan kebijakan dan program-program pembangunan di berbagai sektor.
Selain itu, berbagai jenis data juga dikumpulkan oleh perusahaan, lembaga swadaya
masyarakat, dan peneliti dari berbagai institusi. Data yang dikumpulkan oleh pihak
nonpemerintah biasanya hanya digunakan untuk keperluan sendiri dalam
lingkungan yang terbatas dan tidak selalu dipublikasikan untuk umum. Namun
demikian, data tersebut seringkali dapat diakses oleh pihak lain untuk berbagai
keperluan lain. Data yang demikian disebut sebagai data sekunder, karena data
tersebut telah dikompilasi dan telah siap untuk digunakan untuk keperluan analisis
selanjutnya.
Data dapat juga dikumpulkan melalui percobaan. Di dalam suatu percobaan,
pengaturan dan kontrol yang ketat diterapkan terhadap satuan-satuan percobaan
yang mendapat perlakuan tertentu. Misalnya, dalam suatu percobaan untuk
menguji pertumbuhan beberapa varietas padi pada suatu jenis tanah tertentu, maka
keadaan tanah, pengairan dan faktor-faktor lain yang dapat mempengaruhi
pertumbuhan tanaman padi harus dibuat seseragam mungkin. Hal ini dimaksudkan
agar perbedaan pertumbuhan antartanaman yang dihasilkan melalui percobaan
tersebut diharapkan mencerminkan perbedaan varietas.
Metode yang ketiga dalam pengumpulan data adalah melalui survei. Dalam
pelaksanaan suatu survei, pengaturan dan kontrol terhadap satuan percobaan atau
objek yang disurvei tidak diterapkan secara ketat seperti pada pelaksanaan suatu
percobaan. Pengumpulan data melalui survei biasanya dilakukan melalui teknik
3
wawancara, penyebaran kuesioner, diskusi atau pengamatan langsung terhadap
objek yang diteliti.
Data yang dikumpulkan sendiri oleh peneliti, baik melalui suatu percobaan maupun
melalui survei, disebut sebagai data primer. Data yang demikian dikumpulkan secara
khusus agar sesuai dengan keperluan analisis yang diinginkan.
Gambar 1.1 Contoh Jenis Data dengan Bentuk Pertanyaan dan Responsnya
Pada dasarnya data yang diperoleh melalui ketiga metode tersebut dapat
dikelompokkan menjadi dua jenis data, yaitu data kualitatif dan data kuantitatif.
Data kualitatif adalah data yang berbentuk kategori, misalnya data tentang jenis
kelamin, warna kendaraan, dan jenis pekerjaan. Sedangkan data kuantitatif adalah
data yang berbentuk numerik atau angka, misalnya data tentang hasil tanaman per
hektar, penghasilan per bulan, dan berat badan. Data kuantitatif dapat
dikelompokkan lebih jauh menjadi data kuantitatif diskrit dan kontinu. Data yang
diskrit biasanya diperoleh dari hasil membilang, seperti jumlah kendaraan bermotor
per rumah tangga, atau jumlah anggota keluarga. Data yang diskrit hanya dapat
mengambil nilai pada suatu titik tertentu dalam suatu selang atau interval, sehingga
selalu ada jarak atau celah diantara nilai-nilainya. Oleh karena itu, data kuantitatif
yang diskrit biasanya mempunyai nilai berupa bilangan bulat, misalnya 0, 1, 2, dan
seterusnya. Sebaliknya, data yang kontinu biasanya diperoleh sebagai hasil
pengukuran, dan nilainya dapat mengambil sembarang nilai dalam suatu interval
tertentu, misalnya berat badan, tinggi tanaman, atau penghasilan per bulan. Nilai
pengamatan dari data kuantitatif yang kontinu sangat tergantung pada tingkat
ketelitian alat ukurnya. Misalnya suatu pohon yang dilaporkan tingginya adalah 16
meter, jika diukur lebih lebih teliti mungkin hasil pengukurannya 16,2 meter, 16,19
4
meter atau 16,194 meter. Oleh karena itu, data kuantitatif kontinu dapat mengambil
sembarang nilai dalam sistem bilangan nyata.
Dalam suatu survei, jenis data yang ingin dikumpulkan dapat disesuaikan dengan
bentuk pertanyaan yang diajukan kepada responden serta respons dari pertanyaan
tersebut. Contoh bentuk pertanyaan dan respons dari pertanyaan ini dapat dilihat
dalam Gambar 1.1.
Tabel 1.1 Contoh Data Dalam Skala Pengukuran Nominal dan Ordinal
Skala Data kualitatif Kategori
pengukuran
1. Nominal Kepemilikan roda dua õ Ya õ Tidak
Kewarganegaraan õ Indonesia õ Amerika
õ Inggris õ Lainnya
Warna daun õ Hijau tua õ Hijau muda
õ Kuning õ Merah
2. Ordinal Jabatan fungsional dosen õ Guru besar õ Lektor Kepala
õ Lektor õ Asisten Ahli
Nilai akhir matakuliah õA õB õC õD õE
Tingkatan hotel õ ***** õ **** õ *** õ ** õ *
berbintang
Skala pengukuran nominal dan ordinal hanya terdapat dalam data kualitatif. Data
yang diukur pada skala nominal merupakan tingkatan terendah dalam skala
pengukuran. Dalam skala nominal data hanya dikelompokkan ke dalam beberapa
kategori yang berbeda tanpa adanya tingkatan. Setiap objek pengamatan hanya
dapat dikelompokkan ke dalam satu kategori saja. Jika pengelompokkan data ke
dalam beberapa kategori disertai dengan adanya tingkatan dalam kategori tersebut
maka yang terjadi adalah pengukuran dalam skala ordinal. Data yang diukur dalam
skala ordinal mempunyai tingkatan yang lebih tinggi daripada data yang diukur
dalam skala nominal. Namun demikian, skala pengukuran ordinal masih merupakan
skala pengukuran yang lemah, karena kita tidak bisa membuat penyataan numerik
yang berarti tentang perbedaan antar kategori tersebut. Perbedaan kategori
5
tersebut hanya sebatas pada kategori mana yang lebih baik, atau lebih tinggi atau
lebih disukai dan tidak lebih dari itu. Beberapa contoh data dalam skala
pengukuran nominal dan ordinal di sajikan dalam Tabel 1.1 .
Skala pengukuran interval dan rasio berlaku bagi data kuantitatif. Skala pengukuran
interval diperoleh ketika objek pengamatan diukur secara numerik dan interval
antara hasil-hasil pengukuran dapat ditentukan dengan tepat. Skala interval
merupakan skala pengukuran dalam bentuk yang lebih tegas daripada skala nominal
dan ordinal. Dalam skala pengukuran interval, perbedaan antara hasil pengukuran
menghasilkan suatu besaran yang konstan. Misalnya, pada pengukuran suhu suatu
larutan: larutan dengan suhu 50 o C dikatakan 2o lebih tinggi daripada larutan lain
yang suhunya 48o C. Namun demikian, data yang diukur dengan skala interval
mempunyai titik nol sembarang (berubah-ubah). Misalnya, titik nol pada
pengukuran suhu dengan skala Fahrenheit berbeda dengan titik nol pada skala
Celcius. Hal ini berbeda dengan data yang diukur dalam skala pengukuran rasio. Data
yang diukur pada skala rasio selain mempunyai interval pengukuran yang tepat juga
mempunyai titik nol yang tetap. Salah satu contoh pengukuran dalam skala rasio
adalah pada pengukuran umur bola lampu pijar. Perbedaan umur antar setiap bola
lampu pijar dapat ditentukan dengan tepat, misalnya perbedaan antara bola lampu
yang berumur 1000 jam dengan yang berumur 500 jam. Bola lampu pijar yang
berumur 1000 jam dikatakan dua kali lebih tahan daripada bola lampu yang berumur
500 jam. Selain itu, pengukuran ini mempunyai titik nol yang tetap: bola lampu yang
berumur nol jam berarti bola lampu yang sama sekali tidak pernah menyala. Hal ini
berbeda dengan pengukuran suhu larutan; kita tidak bisa mengatakan bahwa
larutan yang mempunyai suhu 100 o C dua kali lebih panas daripada larutan yang
mempunyai suhu 50o C. Beberapa contoh skala pengukuran interval dan rasio
disajikan dalam Tabel 1.2.
Tabel 1.2 Contoh Data dalam Skala Pengukuran Interval dan Rasio
Data Kuantitatif Skala Pengukuran
Suhu (derajat Celcius atau Fahrenheit) Interval
Penanggalan kalender (Masehi, Hijriah, Cina atau Saka) Interval
Tinggi (meter atau inci) Rasio
Umur (tahun atau hari) Rasio
6
1.4 Penggunaan Komputer
Dengan semakin meluasnya ketersediaan komputer pada lembaga pendidikan
akhir-akhir ini, metode pengajaran Statistika di beberapa perguruan tinggi telah
mengalami perubahan yang dramatis. Demikian juga penggunaan Metode Statistika
pada penelitian di berbagai disiplin ilmu telah mengalam i kemajuan yang pesat.
Program-program paket statistika telah banyak diciptakan dan selalu diperbaharui
untuk mengikuti perkembangan di bidang ilmu Statistika dan untuk kemudahan bagi
penggunanya. Dengan menggunakan program-program paket statistika, analisis dan
manipulasi data menjadi jauh lebih mudah, bahkan untuk data yang besar sekalipun.
Perhitungan-perhitungan statistik yang dulu sangat rumit dan sangat menyita waktu
kini dapat dilakukan dengan mudah dan dalam waktu yang sangat singkat hanya
dengan menuliskan beberapa perintah pemrograman atau bahkan cukup dengan
menggunakan mouse saja.
(c) Excel
Gambar 1.2 Tampilan Layar Program Statistika (a) MINITAB, (b) R dan (c) Excel
Dalam buku ini penggunaan Program Paket Statistika MINITAB, R, dan Program Pa-
ket Spreadsheet Excel yang juga mempunyai beberapa aplikasi statistik akan
digunakan sebagai ilustrasi dari aplikasi berbagai metode statistik. Program
MINITAB yang digunakan dalam buku ini adalah MINITAB Release 17.1.0. MINITAB
7
2 St a t i s ti k a De s k r i p tif
2.1 Pendahuluan
Seperti telah dikemukakan dalam Bab 1, Statistika Deskriptif adalah cabang
Statistika yang berkaitan dengan prosedur-prosedur yang digunakan untuk
menjelaskan karakteristik data secara umum. Setiap set data hampir dapat
dipastikan mempunyai keragaman atau variasi, artinya nilai-nilai pengamatan dalam
data tersebut bervariasi, tidak semuanya bernilai sama atau dengan kata lain
terdapat nilai pengamatan yang berbeda dengan nilai pengamatan yang lainnya.
Akan tetapi, keragaman nilai-nilai pengamatan tersebut seringkali mengikuti suatu
pola atau bentuk tertentu yang khas, yang merupakan ciri atau karakteristik data
tersebut. Berbagai prosedur yang biasa digunakan untuk menjelaskan karakteristik
data akan dibahas dalam bab ini. Pada dasarnya prosedur-prosedur tersebut
merupakan teknik dasar dari Statistika Deskriptif yang digunakan untuk
mengelompokkan, menyederhanakan dan menyajikan data ke dalam bentuk yang
mudah dimengerti. Kemudahan dalam memahami data memungkinkan pengguna
data untuk dapat menggali lebih banyak informasi tentang karakteristik data, yang
biasanya tidak kelihatan dalam tampilan data mentahnya. Pada umumnya, terdapat
tiga metode yang biasa digunakan untuk menjelaskan karakteristik suatu set data,
yaitu:
1. Tabel: penyajian data dalam bentuk tabel bertujuan untuk mengelompokkan
nilai-nilai pengamatan ke dalam beberapa kelompok yang masing-masing
mempunyai karakteristik yang sama. Bentuk tabel yang sering digunakan
adalah tabel distribusi frekuensi dan tabel distribusi frekuensi relatif. Kedua
jenis tabel ini dibahas secara khusus dalam Subbab 2.2.
2. Grafik atau diagram: penyajian data dalam bentuk grafik atau diagram
bertujuan untuk memvisualisasikan data secara keseluruhan dengan
menonjolkan karakteristik tertentu dari data tersebut. Beberapa jenis grafik
atau diagram yang biasa digunakan untuk tujuan tersebut diantaranya adalah
histogram, diagram batang dan daun, diagram batang, diagram lingkaran dan
diagram kotak. Penyajian data dalam bentuk grafik akan dibahas dalam Subbab
2.3, 2.4, 2.5, 2.6 dan Subbab 2.10.
10
Berbagai ukuran pemusatan akan dibahas dalam Subbab 2.7 sedangkan
Subbab 2.8 akan membahas berbagai ukuran penyebaran data. Penggunaan
program statistik R, program Minitab dan program spreadsheet Excel untuk
menghitung ukuran pemusatan dan penyebaran data juga dibahas dalam
Subbab 2.9.
11
data maksimum - data minimum
lebar interval =
jumlah interval yang diinginkan
12
Jika data hasil penelitian tersebut disajikan dalam bentuk data mentah seperti dalam
Tabel 2.1, maka akan sedikit sekali informasi yang dapat kita peroleh dari penyajian
data seperti itu. Untuk itu, kita akan menyederhanakan data di atas ke dalam
bentuk tabel distribusi frekuensi dengan jumlah interval kelas = 8 kelas. Langkah
pertama adalah menentukan nilai maksimum dan nilai minimum dari data tersebut,
dalam hal ini masing-masing adalah 14,25 dan 2,95. Kedua nilai tersebut akan
digunakan untuk menentukan lebar interval:
14 ,25 - 2,95
lebar interval = = 1,4125
8
Untuk memudahkan penyusunan interval kelas kita gunakan lebar interval = 1,5 cm.
Informasi ini kemudian kita gunakan untuk menentukan batas-batas interval kelas.
Misalkan untuk batas bawah interval kelas yang pertama kita gunakan nilai 2,9 cm,
maka selanjutnya, interval kelas bagi tabel distribusi frekuensi dapat kita susun
sebagai berikut:
2,9 4,4; 4,4 5,9; ...; 13,4 14,9.
Interval kelas pertama terdiri atas pengamatan yang mempunyai nilai lebih besar
atau sama dengan 2,9 tetapi lebih kecil dari 4,4; interval kelas kedua terdiri atas
pengamatan yang mempunyai nilai lebih besar atau sama dengan 4,4 tetapi lebih
kecil dari 5,9; demikian seterusnya. Setelah lebar interval kelas ditentukan,
pekerjaan yang harus dilakukan adalah menghitung jumlah pengamatan yang
termasuk ke dalam kelas-kelas tersebut. Salah satu cara yang mudah adalah dengan
menggunakan turus (tally), seperti ketika kita menghitung suara dalam suatu
pemungutan suara. Hasil penghitungan tersebut disajikan dalam kolom ke tiga
dalam Tabel 2.2.
Tabel 2.2 Distribusi Frekuensi dan Distribusi Frekuensi Relatif bagi Data
dalam Tabel 2.1
Diameter Pohon Titik Tengah Kelas Frekuensi Frekuensi relatif
(cm) 4,4
2,9 sampai 3,65 3 0,03
4,4 sampai 5,9 5,15 7 0,08
5,9 sampai 7,4 6,65 9 0,10
7,4 sampai 8,9 8,15 22 0,24
8,9 sampai 10,4 9,65 23 0,26
10,4 sampai 11,9 11,15 15 0,17
11,9 sampai 13,4 12,65 9 0,10
13,4 sampai 14,9 14,15 2 0,02
Total 90 1,00
13
Frekuensi relatif bagi tiap interval kelas dihitung dengan membagi frekuensi kelas
tersebut dengan keseluruhan data, dalam hal ini jumlah data sebanyak 90.
Perhatikan bahwa data tersebut sekarang disajikan dalam bentuk yang lebih
sederhana dalam Tabel 2.2. Dari tabel tersebut kita dapat dengan mudah
mengamati bahwa kisaran data terletak antara nilai 2,9 sampai 14,9. Selain itu,
sebagian besar nilai pengamatan terkonsentrasi pada interval kelas ke-4, 5 dan 6,
yaitu pada kisaran 7,4 cm sampai 11,9 cm. Salah satu kelemahan dari penyajian data
dalam bentuk tabel distribusi frekuensi adalah bahwa nilai pengamatan secara
individu tidak lagi kita ketahui, karena data telah dikelompokkan ke dalam kelas-
kelas. Kelemahan ini dapat diatasi jika kita sajikan data tersebut dalam diagram
batang dan daun yang akan kita bahas pada Subbab 2.5.
2.3 Histogram
Histogram digunakan untuk menyajikan data yang telah tersusun dalam bentuk
tabel distribusi frekuensi ke dalam bentuk grafik. Kegunaan utama histogram adalah
untuk menunjukkan bentuk umum dari distribusi data dan untuk memberikan kesan
visual tentang konsentrasi dari sebagian besar pengamatan. Penyajian data dalam
bentuk grafik seringkali lebih efektif daripada penyajian dalam bentuk tabel.
Misalnya, nilai-nilai data yang ekstrim atau data pencilan, dapat dengan mudah kita
ketahui jika data tersebut disajikan dalam bentuk grafik. Selain itu, lokasi pemusatan
data dan penyebaran data di sekitar lokasi pemusatan tersebut dapat juga kita amati
secara visual.
Sumbu mendatar sebuah histogram menunjukkan interval kelas dari distribusi
frekuensi, nilai yang biasa dicantumkan pada sumbu mendatar adalah titik tengah
interval kelas (kadang-kadang juga batas interval kelas). Sedangkan frekuensi setiap
kelas disajikan pada sumbu tegaknya dalam bentuk batang persegi panjang yang
luasnya proporsional dengan frekuensi kelas yang bersangkutan. Histogram bagi
data dalam Tabel 2.2 disajikan dalam Gambar 2.1.a.
Perhatikan bahwa bentuk umum distribusi data menjadi lebih jelas terlihat jika
disajikan dalam histogram: sebagian besar nilai pengamatan terkonsentrasi pada
interval kelas ke-4, 5 dan 6; dan tidak ada indikasi bahwa data tersebut mengandung
nilai-nilai yang ekstrim.
Histogram frekuensi relatif pada dasarnya hampir sama dengan histogram
frekuensi, kecuali bahwa persegi panjang yang digambarkan merupakan frekuensi
relatif bagi setiap inteval kelas. Bentuk kedua jenis histogram ini pada umumnya
sama. Histogram frekuensi relatif bagi data dalam Tabel 2.2 disajikan dalam Gambar
2.1.b.
14
Gambar 2.1 Histogram Frekuensi dan Frekuensi Relatif bagi Data dalam Tabel 2.2
Gambar 2.2. Tampilan Jendela Excel Options Gambar 2.3 Jendela Add-Ins
Pilihan ini mengaktifkan Jendela Excel Option seperti pada Gambar 2.2. Klik pilihan
Add-Ins dalam Jendela Excel Option tersebut kemudian pilih Manage Excel Add-Ins
lalu klik Go. Pilihan ini mengaktifkan Jendela Add-Ins seperti pada Gambar 2.3.
15
Klik pada kotak di samping pilihan Analysis ToolPak dan Analysis ToolPak - VBA,
sehingga kedua kotak tersebut ditandai dengan a , kemudian klik OK (lihat Gambar
2.3).
Untuk membuat distribusi frekuensi dengan program Excel, langkah pertama adalah
menginput data terlebih dahulu (misalnya data disimpan di dalam sel A1 A91,
dengan sel A1 adalah nama data, yaitu Diam 9th). Langkah berikutnya adalah
menentukan batas-batas atas setiap interval kelas dan simpan nilainya dalam salah
satu kolom (misalnya diberi nama bin dan disimpan dalam sel C1 C9). Pilih Menu
DataData Analysis, kemudian pilih Histogram dalam kotak pilihan Analysis
Tools.
16
Pilihan tersebut akan mengaktifkan Jendela Histogram. bin Frequency
Isikan address dari data yang akan dianalisis (A1:A91) ke 4.4 3
dalam Kotak Input Range dan data tentang batas kelas 5.9 7
(C1:C3) ke dalam Kotak Bin Range lalu klik kotak di samping 7.4 9
Labels karena sel A1 dan C1 adalah label bagi data dan 8.9 22
batas kelas. Klik tombol Output Range dan isikan address 10.4 23
dari output histogram (misalnya E1) ke kotak di 11.9 15
13.4 9
sampingnya, kemudian klik OK. Output dari rangkaian
14.9 2
perintah tersebut menghasilkan suatu distribusi frekuensi
More 0
bagi data yang bersangkutan (nilai-nilai dalam kolom bin
adalah batas atas masing-masing kelas).
Dengan program R penyusunan data ke dalam tabel distribusi frekuensi dilakukan
dengan menuliskan perintah berikut:
hist(x)
hist(x, nclass = n)
hist(x, breaks = b, ...)
D9 adalah nama variabel dimana data tersebut disimpan dalam R dan col=blue
adalah kode warna yang digunakan untuk batang histogram.
17
Perhatikan bahwa tabel distribusi frekuensi yang dihasilkan tidak sama dengan Tabel
2.2 atau Gambar 2.1. Hal ini terjadi karena batas kelas dan lebar interval yang
digunakan tidak sama. Keadaan ini dimungkinkan karena memang tidak ada aturan
yang baku dalam menyusun tabel distribusi frekuensi. Namun demikian, keduanya
menunjukkan bentuk umum distribusi data dan konsentrasi pemusatan data yang
hampir sama.
Tabel 2.3 Data Nilai Ujian Akhir Mata Kuliah Metode Statistika dari 50 Orang
Mahasiswa
77 61 59 60 79 71 92 73 35 61
88 59 58 57 60 56 56 58 65 62
48 73 42 45 73 56 40 71 71 78
58 85 73 66 59 49 47 68 80 78
70 87 67 55 74 68 60 53 53 69
Dengan diagram batang dan daun, setiap nilai pengamatan dipisahkan menjadi digit
kepala dan digit ekor. Digit kepala akan menjadi batang dan digit berikutnya akan
menjadi daun dari diagram ini. Sebagai ilustrasi, data dalam Tabel 2.3 akan kita
gunakan untuk menyusun diagram batang dan daun.
Nilai-nilai pengamatan dari data dalam Tabel 2.3 semuanya bernilai puluhan. Dalam
hal ini angka-angka puluhan dapat dijadikan digit kepala dan angka satuan dijadikan
digit ekor. Karena nilai pengamatan berkisar antara 35 dan 92, maka kita akan
mempunyai tujuh buah batang (digit kepala) yang mencerminkan angka-angka
puluhan, yaitu 3, 4, 5, ..., 9. Ke tujuh batang ini berfungsi sama seperti interval kelas
18
dalam tabel distribusi frekuensi, dalam hal ini menentukan posisi baris dimana nilai
pengamatan diletakkan. Digit ekor dari nilai pengamatan tersebut kemudian
dituliskan pada baris yang bersangkutan. Pengamatan pertama bernilai 77 maka
angka 7 (digit ekor) dituliskan sebagai daun pertama dekat batang bernilai 7 (digit
kepala). Berikutnya, data kedua bernilai 61 maka angka 1 (digit ekor) dituliskan
sebagai daun pertama dekat batang bernilai 6 (digit kepala). Demikian seterusnya
sampai semua nilai pengamatan terdaftarkan dalam diagram batang dan daun.
Untuk sepuluh data pertama, bentuk diagram batang dan daun akan terlihat sebagai
berikut:
3 5
4
5 9
6 101
7 7913
8
9 2
Setelah semua nilai pengamatan didaftarkan, diagram batang dan daun kemudian
dirapikan dengan cara menyusun nilai-nilai dalam setiap baris ke dalam urutan dari
kecil ke besar. Diagram batang dan daun bagi data dalam Tabel 2.3 disajikan dalam
Gambar 2.6.
Beberapa informasi yang dapat kita peroleh dari sajian Gambar 2.6 diantaranya
adalah bahwa
1. bentuk distribusi datanya hampir simetris
2. nilai pengamatan terkecil adalah 35 dan nilai maksimumnya adalah 92
3. lokasi pemusatan data terletak pada nilai 60-an
4. sebagian besar pengamatan terkonsentrasi pada nilai 50-an sampai 70-an
5. tidak terdapat indikasi adanya data pencilan
3 5
4 025789
5 3356667888999
6 000112567889
7 0111333347889
8 0578
9 2
Gambar 2.6 Diagram Batang dan Daun bagi Data dalam Tabel 2.3
Jika dilakukan secara manual, penyusunan data ke dalam bentuk diagram batang
dan daun akan sangat menyita waktu dan cukup membosankan, apalagi jika jumlah
datanya sangat besar. Dengan bantuan komputer penyusunan diagram batang dan
19
daun menjadi jauh lebih mudah dan lebih cepat. Perintah R untuk menghasilkan
diagram batang dan daun adalah
stem(x, scale = 1, width = 80, atom = 1e-08)
dimana
x adalah sebuah vektor numerik;
scale digunakan untuk mengontrol panjangnya plot;
width adalah lebar plot yang diinginkan;
atom adalah batas toleransi.
Perintah dan output dari program R untuk data dalam Tabel 2.3 adalah sebagai
berikut:
> stem(Nilai)
3 | 5
4 | 025789
5 | 3356667888999
6 | 000112567889
7 | 0111333347889
8 | 0578
9 | 2
Perintah untuk membuat diagram batang dan daun dalam MINITAB terdapat dalam
menu
GraphStem-and-Leaf...
Perintah tersebut mengaktifkan jendela Stem-and-Leaf seperti terlihat dalam
Gambar 2.7. Kotak Increment dalam jendela tersebut digunakan untuk menentukan
besaran bagi digit kepala dalam diagram batang dan daun (dalam hal ini kita
gunakan nilai 10 untuk menyatakan puluhan).
20
Perhatikan bahwa output yang dihasilkan oleh program MINITAB sama seperti yang
dihasilkan oleh program R.
MTB > Stem-and-Leaf 'nilai';
SUBC> Increment 10.
Stem-and-leaf of nilai N = 50
Leaf Unit = 1.0
1 3 5
7 4 025789
20 5 3356667888999
(12) 6 000112567889
18 7 0111333347889
5 8 0578
1 9 2
Terdapat informasi tambahan yang diberikan oleh MINITAB dalam menyajikan dia-
gram batang dan daun. Kolom pertama dari output tersebut menunjukkan frekuensi
kumulatif yang diurutkan dari atas ke bawah dan dari bawah ke atas sampai
keduanya bertemu di kelas median. Misalnya, nilai 1 pada baris pertama adalah nilai
frekuensi pada baris pertama. Nilai 7 pada baris kedua adalah frekuensi kumulatif
baris pertama dan baris kedua, demikian juga nilai pada baris ketiga. Sementara itu,
nilai pada baris ke empat ditandai dengan tanda kurung (12). Tanda tersebut
menunjukkan bahwa nilai 12 adalah nilai frekuensi pada baris tersebut dan bukan
frekuensi kumulatif. Baris dengan tanda tersebut adalah baris dimana terdapat nilai
median dari data. Setelah itu, nilai-nilai pada kolom ke satu adalah frekuensi kumu-
latif dari baris-baris di bawahnya. Misalnya, nilai 18 adalah frekuensi kumulatif dari
baris ke 5, 6 dan 7, demikian seterusnya.
21
pendidikannya, sedangkan data dalam kolom ketiga adalah proporsi jumlah
karyawan pada tingkat pendidikan yang bersangkutan.
Data kualitatif biasa disajikan secara grafis dalam bentuk diagram batang (bar chart)
atau diagram lingkaran (pie chart). Diagram batang umumnya digunakan untuk
menampilkan frekuensi dari data kualitatif, sedangkan diagram lingkaran digunakan
untuk data proporsi atau frekuensi relatif. Tampilan kedua diagram tersebut untuk
data dalam Tabel 2.4 disajikan dalam Gambar 2.8. Karyawan yang berpendidikan
sarjana sangat sedikit jumlahnya jika dibandingkan dengan karyawan pada tingkat
pendidikan lainnya, sehingga tidak mungkin ditampilkan secara grafis (karena tidak
akan kelihatan). Oleh karena itu, dalam Gambar 2.8, karyawan yang berpendidikan
sarjana digabungkan dengan kelompok karyawan yang berpendidikan sarjana
muda. Sehingga kategori sarjana dalam kedua gambar tersebut sebenarnya adalah
gabungan antara kategori sarjana dengan sarjana muda.
Gambar 2.8 Diagram Batang dan Diagram Lingkaran untuk Data dalam Tabel 2.4
Untuk menunjukkan bahwa sumbu mendatar dalam diagram batang adalah kategori
dari data kualitatif, batang-batang dalam diagram tersebut tidak digambarkan
secara rapat, tetapi ada jarak di antaranya. Sumbu mendatar dalam diagram batang
tidak selalu mencerminkan urutan, sehingga posisi setiap batang dalam sumbu
22
mendatar dapat bertukar tempat. Hal ini berbeda dengan histogram dimana sumbu
mendatar merupakan pengelompokan dari data kuantitatif yang nilai-nilainya
diurutkan dari kecil ke besar atau sebaliknya. Untuk menunjukkan hal tersebut
setiap batang dalam histogram digambarkan secara rapat satu sama lainnya.
Luas setiap juring dalam diagram lingkaran menggambarkan persentase
pengamatan dari setiap kategori secara proporsional. Untuk membuat diagram
lingkaran secara manual dibutuhkan busur derajat untuk mengukur besar sudut dari
setiap juring. Karena satu lingkaran besarnya adalah 360 o maka setiap 1% nilai
pengamatan digambarkan dengan sudut sebesar (0,01)( 360 o) = 3,6o. Sebagai
contoh, sudut juring bagi kategori SD besarnya adalah (24)( 3,6o) = 86,4o.
Selain diagram batang dan diagram lingkaran, diagram garis (line chart) juga sering
digunakan untuk menampilkan data kualitatif secara visual. Diagram garis sering
digunakan pada keadaan dimana kategori data tersebut merupakan satuan waktu
kalender misalnya tahun, semester atau bulan. Jika diagram batang digunakan untuk
memvisualisasikan besaran atau jumlah, maka diagram garis digunakan untuk
menonjolkan bentuk trend atau pola perkembangan dari waktu ke waktu, oleh
karena itu sering juga disebut sebagai diagram atau grafik time-series.
Contoh 2.2
Data berikut ini adalah data hipotesis tentang banyaknya customer yang dilayani
oleh petugas Bank X pada tahun 2016.
Data tersebut disajikan dalam bentuk diagram garis dalam Gambar 2.9. Perhatikan
bahwa kecenderungan customer yang dilayani per bulan pada bank tersebut dapat
terlihat dengan jelas dalam diagram tersebut. Jumlah customer per bulan dapat juga
ditampilkan dalam diagram garis dengan mencantumkan angka customer pada
setiap titik dalam diagram tersebut.
Bulan Customer Bulan Customer
Januari 948 Juli 709
Pebruari 826 Agustus 685
Maret 802 September 717
April 850 Oktober 635
Mei 723 Nopember 666
Juni 623 Desember 776
Diagram batang, diagram lingkaran dan diagram garis banyak digunakan dalam
laporan-laporan pemerintah, dunia bisnis dan media massa. Terdapat banyak sekali
variasi dari ketiga diagram tersebut. Namun demikian, tujuan dari semua diagram
tersebut adalah untuk menyajikan dan menyederhanakan data secara jelas dan
dalam bentuk yang menarik serta mudah dipahami.
23
1000
900
700
600
500
Jan Peb Mar Apr Mei Jun Jul Ags Sep Okt Nop Des
Gambar 2.9 Diagram Garis dari Data Customer yang dilayani oleh Bank X
Program Spreadsheet Excel mempunyai fasilitas pembuatan berbagai grafik yang
canggih dan mudah digunakan. Fasilitas tersebut terdapat dalam group Chart yang
terkandung dalam tab Insert (Gambar 2.10).
24
Definisi
Modus dari suatu set data didefinisikan sebagai nilai pengamatan yang paling
sering terjadi (frekuensinya paling tinggi)
Contoh 2.3
Data berikut ini adalah suatu sampel dari pengamatan terhadap jumlah bunga per
tangkai dari tanaman Anggrek hitam (Coelogyne pandurata Lindl) hasil penelitian
Akbar Sidik Q.M, Fakultas Pertanian, Universitas Tanjungpura (2002)
8 7 8 8 10 9 7 7 7 9 8 10 3 7 9
Modus dari data tersebut adalah 7, karena nilai ini paling sering terjadi dibandingkan
nilai pengamatan lain.
õ
Tidak setiap data memiliki modus. Jika setiap pengamatan dalam suatu set data
hanya muncul satu kali, maka data tersebut tidak memiliki modus. Sebaliknya, suatu
set data bisa memiliki beberapa modus. Hal ini dapat terjadi ketika beberapa nilai
pengamatan muncul beberapa kali dengan frekuensi yang sama.
Contoh 2.4
Data berikut ini tidak memiliki modus karena setiap pengamatan masing-masing
muncul dengan frekuensi yang sama: 2, 3, 4, 5, 7, 9, 11.
Data berikut ini memiliki dua modus, yaitu 2 dan 7: 2, 2, 2, 3, 4, 7, 7, 7, 9. Perhatikan
bahwa nilai 2 dan 7, masing-masing muncul dengan frekuensi tertinggi yaitu
sebanyak tiga kali.
õ
Bagi data yang telah dikelompokkan ke dalam tabel distribusi frekuensi, kita dapat
mendefinisikan kelas modus sebagai interval kelas dengan frekuensi tertinggi. Na-
mun demikian kita tidak tahu lagi nilai-nilai pengamatan yang sebenarnya dan hanya
tahu berapa banyak data yang terdapat dalam kelas modus tersebut. Oleh karena
itu, titik tengah dari kelas modus dianggap sebagai nilai pendekatan terhadap mo-
dus dari data tersebut.
Ukuran pemusatan yang kedua adalah median. Ukuran pemusatan ini sering
digunakan untuk menentukan titik tengah dari suatu set data.
Definisi
Median dari suatu set data didefinisikan nilai pengamatan yang terletak di
tengah-tengah ketika data diurutkan berdasarkan besarannya.
Untuk suatu set data yang kecil dengan jumlah datanya ganjil, maka median adalah
data yang terletak di tengah urutan; sedangkan jika jumlah datanya genap median
dihitung sebagai rata-rata dari dua data yang terletak di tengah urutan.
25
Contoh 2.5
Untuk menentukan median dari data dalam Contoh 2.3, kita harus mengurutkan
dulu data tersebut, sebagai berikut:
3 7 7 7 7 7 8 8 8 8 9 9 9 10 10
Berdasarkan urutan tersebut, dapat dengan mudah kita tentukan bahwa median
dari data tersebut adalah 8.
õ
Untuk menentukan median dari data yang sudah disusun dalam bentuk tabel
distribusi frekuensi, pertama-tama tentukan kelas median lebih dulu. Kelas median
adalah interval kelas yang mengandung median. Median kemudian diduga dengan
rumus berikut:
w æn ö
median = L + ç - cfb ÷ .................................................. ..................... [2.1]
fm è 2 ø
dimana
L= batas bawah dari interval kelas median
w= lebar interval
fm = frekuensi kelas median
n= jumlah pengamatan
cfb = jumlah frekuensi dari semua kelas (frekuensi kumulatif) sebelum kelas
median
Contoh 2.6
Tabel berikut ini adalah data diameter pohon dalam Tabel 2.2. Nilai-nilai pada kolom
kumulatif frekuensi dan diperoleh dengan menjumlahkan frekuensi dari kelas-kelas
sebelumnya.
26
Karena jumlah data keseluruhan adalah 90, maka median adalah pengamatan yang
ke 46 pada urutan data. Oleh karena itu, kelas median adalah interval kelas pertama
yang frekuensi kumulatifnya lebih besar dari 46. Kelas interval ini akan mengandung
nilai median di dalamnya, dalam hal ini kelas median adalah interval kelas yang ke
5. Maka
L = 8,9 w = 1,5 fm = 23 n = 90 dan cfb = 41
oleh karena itu nilai dugaan bagi median dari data tersebut adalah:
1,5 æ 90 ö
median = 8,9 + ç - 41 ÷ = 9,16
23 è 2 ø
Perhatikan bahwa jika dihitung dengan menggunakan data mentahnya, maka nilai
median dari data tersebut adalah 9,3.
õ
Ukuran pemusatan yang terakhir yang akan kita bahas dalam buku ini adalah rata-
rata. Ukuran pemusatan ini mungkin yang paling sering kita dapati dalam kehidupan
sehari-hari.
Definisi
Rata-rata dari suatu set data didefinisikan sebagai jumlah dari semua nilai
pengamatan dibagi dengan jumlah data.
Nilai rata-rata mempunyai peranan yang sangat penting dalam pembahasan pada
bab-bab berikutnya, oleh karena itu, rata-rata sering dilambangkan secara khusus.
Rata-rata populasi biasa dilambangkan dengan Huruf Yunani m (dibaca myu),
sedangkan rata-rata sampel dilambangkan dengan y atau x (dibaca y-bar atau x-
bar).
Misalkan y1, y2, ..., yn adalah nilai-nilai pengamatan dari suatu sampel berukuran n.
Nilai rata-rata sampel ( y ) dinyatakan sebagai
1 n
y = å yi .................................................. .......................................... [2.2]
n i =1
n
dimana å yi adalah notasi penjumlahan dari n buah nilai pengamatan, yaitu:
i =1
n
å yi = y1 + y2 + + yn
i =1
Contoh 2.7
Rata-rata jumlah bunga per tangkai dalam Contoh 2.3 adalah
27
8+7+8+ + 9 11
117
y= = = 7,8
15 15
õ
Bagi data yang sudah disusun ke dalam tabel distribusi frekuensi, nilai rata-ratanya
dapat diduga dengan rumus berikut:
å fi ´ mi
y= i
.................................................. ...................................... [2.3]
å fi
i
dimana fi = frekuensi dari interval kelas ke-i; dan mi = titik tengah kelas ke-i
Rumus di atas hanya merupakan nilai dugaan (pendekatan) bagi rata-rata, karena
dalam distribusi frekuensi kita tidak lagi mengetahui nilai pengamatan yang
sebenarnya. Oleh karena itu, jika data mentahnya (nilai pengamatan yang belum
dikelompokkan ke dalam interval kelas) tersedia, nilai rata-rata sebaiknya dihitung
dari nilai data mentah tersebut.
Contoh 2.8
Sebagai ilustrasi kita akan melakukan pendugaan nilai rata-rata bagi data diameter
pohon dalam Tabel 2.2
Diameter pohon Titik tengah kelas (mi) Frekuensi(fi) fi×mi
2,9 sampai 4,4 3,65 3 10,95
4,4 sampai 5,9 5,15 7 36,05
5,9 sampai 7,4 6,65 9 59,85
7,4 sampai 8,9 8,15 22 179,30
8,9 sampai 10,4 9,65 23 221,95
10,4 sampai 11,9 11,15 15 167,25
11,9 sampai 13,4 12,65 9 113,85
13,4 sampai 14,9 14,15 2 28,30
Total 90 817,50
Nilai-nilai dalam kolom terakhir adalah hasil kali dari nilai-nilai dalam kolom kedua
dan kolom ketiga. Sehingga nilai rata-rata dihitung dengan cara membagi total
kolom ketiga dengan total kolom kedua, yaitu
817,50
y= = 9,0833
90
Perhatikan bahwa jika dihitung dengan menggunakan data mentahnya, maka rata-
rata dari data tersebut adalah 9,084.
õ
28
Ketiga ukuran pemusatan yang telah dibahas dalam bagian ini masing-masing
mempunyai kelebihan dan kekurangan tersendiri. Misalnya, nilai rata-rata
merupakan nilai statistik yang penting dalam statistika inferensial karena nilai rata-
rata untuk data sampel dianggap memberikan nilai dugaan yang baik bagi rata-rata
populasinya. Modus digunakan ketika kita ingin mengetahui nilai pengamatan
dengan frekuensi tertinggi. Oleh karena itu, modus sering digunakan untuk
mengukur popularitas dan merupakan salah satu ukuran pemusatan bagi data
kualitatif. Sebaliknya, pada keadaan tertentu median dapat memberikan informasi
yang lebih baik tentang pusat distribusi daripada rata-rata. Sebagai contoh, jika kita
mengamati distribusi gaji karyawan dalam suatu perusahaan besar, akan kita
temukan bahwa sebagian besar gaji karyawan berkisar antara 2 3 juta rupiah,
tetapi akan terdapat beberapa karyawan, terutama para eksekutif, dengan gaji yang
jauh lebih besar. Dalam hal ini, median mungkin merupakan ukuran pemusatan
yang lebih baik dari rata-rata karena median tidak dipengaruhi oleh nilai-nilai yang
ekstrim. Jika kita gunakan nilai rata-rata, maka gaji para eksekutif tersebut akan
membuat nilai rata-rata menjadi jauh lebih tinggi. Tabel 2.5 menyajikan karakteristik
penting dari berbagai ukuran pemusatan tersebut.
29
Bagi data dengan distribusi yang simetris, maka rata-rata, median dan modus akan
mempunyai nilai yang sama (Gambar 2.11.a). Jika distribusi datanya condong ke kiri
(skewed to the left) maka rata-rata akan merupakan nilai yang paling kecil,
sedangkan modus merupakan nilai yang terbesar diantara ketiganya (Gambar
2.11.b). Sebaliknya jika distribusinya condong ke kanan (skewed to the right) maka
rata-ratalah yang merupakan nilai terbesar dan modus adalah nilai terkecil (Gambar
2.11.c). Perhatikan bahwa dari ketiga kasus distribusi tersebut, median selalu
merupakan nilai yang di tengah.
Frekuensi relatif
Frekuensi relatif
m = Md = Mo m Md Mo
( a ) D is tr ib u s i s im e tr is ( b ) D is tr ib u s i c o n d o n g k e k ir i
Frekuensi relatif
Mo Md m
( c ) D is tr ib u s i c o n d o n g k e k a n a n
Gambar 2.11 Hubungan antara Rata-Rata (m), Median (Md) dan Modus (Mo)
a
Frekuensi relatif
30
Sebagai ilustrasi, dalam Gambar 2.12 disajikan tiga data set yang mempunyai ukuran
pemusatan () yang sama tetapi dengan keragaman data yang berbeda. Perhatikan
bahwa ketiga set data tersebut sama-sama terpusat di titik , tetapi bentuk
distribusi ketiga set data tersebut berbeda satu sama lainnya.
Ukuran penyebaran/keragaman data yang paling sederhana adalah kisaran (range).
Kisaran didefinisikan sebagai selisih antara nilai pengamatan terbesar dengan nilai
pengamatan terkecil dalam suatu set data. Untuk data yang sudah dikelompokkan
ke dalam tabel distribusi frekuensi nilai kisaran data adalah selisih antara batas atas
interval kelas terakhir dikurangi dengan batas bawah interval kelas pertama.
Walaupun sangat mudah dihitung, kisaran hanya memberikan informasi yang
sangat terbatas tentang penyebaran data terhadap rata-ratanya. Perhatikan bahwa
grafik distribusi b) dan c) pada Gambar 2.12 mempunyai rata-rata dan kisaran yang
sama, tetapi nampak jelas bahwa keragaman data dari kedua distribusi tersebut
berbeda satu sama lainnya.
Definisi
Nilai persentil ke-p dari suatu set data yang telah diurutkan besarannya adalah
suatu nilai yang membagi dua urutan data tersebut sedemikian rupa sehingga
sebanyak p% dari data terletak dibawah nilai tersebut dan (100 p)% nya
terletak di atas nilai tersebut.
Frekuensi relatif
30% 70%
Persentil ke-30
31
n +1
adalah nilai pengamatan yang terletak pada urutan ke ; kuartil tengah
4
2(n + 1)
(median) adalah nilai pengamatan yang ke ; dan kuartil atas (Q3) adalah nilai
4
3 ( n + 1)
pengamatan yang ke dalam urutan tersebut. Jika posisi lokasi kuartil-kuartil
4
tersebut bukan merupakan bilangan bulat, maka nilainya ditentukan dengan
interpolasi.
Frekuensi relatif
IQR
median
kuartil bawah kuartil atas
32
Contoh 2.9
Sebagai ilustrasi kita akan melakukan pendugaan nilai kuartil bawah dan kuartil atas
bagi diameter pohon dalam Tabel 2.2
Diameter pohon Titik tengah kelas (mi) Frekuensi(fi) fi×mi
2,9 sampai 4,4 3,65 3 10,95
4,4 sampai 5,9 5,15 7 36,05
5,9 sampai 7,4 6,65 9 59,85
7,4 sampai 8,9 8,15 22 179,30
8,9 sampai 10,4 9,65 23 221,95
10,4 sampai 11,9 11,15 15 167,25
11,9 sampai 13,4 12,65 9 113,85
13,4 sampai 14,9 14,15 2 28,30
Total 90 817,50
Letak kuartil bawah (Q1) dari suatu data adalah pada posisi persentil ke-25. Dalam
kasus ini persentil ke-25 terdapat di dalam kelas interval ke-4, maka
L = 7,4 w = 1,5 fi = 22 n = 90 dan cfb = 19
oleh karena itu nilai dugaan bagi persentil ke-25 dari data tersebut adalah:
1,5 æ 25 ´ 90 ö
Q1 = P25 = 7,4 + ç -19 ÷ = 7,64
22 è 100 ø
Kuartil atas (Q3) terletak pada posisi persentil ke-75. Untuk kasus ini persentil ke-75
terdapat di dalam interval kelas ke 6, sehingga
L = 10,4 w = 1,5 fi = 15 n = 90 dan cfb = 64
oleh karena itu nilai dugaan bagi persentil ke-75 dari data tersebut adalah:
1,5 æ 75 ´ 90 ö
Q3 = P75 = 10,4 + ç - 64 ÷ = 10,75
15 è 100 ø
Definisi
Kisaran antar kuartil (interquartile range = IQR) dari suatu set data
didefinisikan sebagai selisih antara kuartil atas dengan kuartil bawah
Kisaran antar kuartil (IQR) dapat digunakan untuk membandingkan keragaman atau
variasi antar dua data set, akan tetapi IQR ada kalanya kurang memberikan
informasi yang bermanfaat tentang keragaman suatu set data. Untuk itu kita perlu
menentukan suatu ukuran keragaman yang lebih sensitif yang dapat digunakan baik
untuk membandingkan keragaman antar dua set data maupun untuk
menginterpretasikan keragaman dalam suatu set data. Salah satu ukuran
keragaman yang sampai saat ini dianggap paling penting dan paling sering
digunakan adalah varians (variance) dan simpangan baku (standard deviation).
33
Definisi
Varians (variance) didefinisikan sebagai rata-rata dari kuadrat simpangan
nilai-nilai pengamatan terhadap nilai rata-ratanya
Untuk data populasi, y1, y2, ..., yn, varians populasi biasa dilambangkan dengan huruf
Yunani s2 (dibaca sigma kuadrat), dihitung sebagai berikut:
å ( yi - m )
2
s 2
= .................................................. ............................... [2.5]
n
sedangkan untuk data sampel, varians sampel biasa dilambangkan dengan s2,
dihitung sebagai berikut:
å ( yi - y )
2
s 2
= .................................................. ......................................... [2.6]
n -1
Simpangan baku dihitung sebagai akar dari varians, oleh karena itu, simpangan baku
populasi (s) dihitung dengan
å ( yi - m )
2
å ( yi - y )
2
(å yi )
2
ë û
Rumus (2.8) lebih merupakan rumus teoritis bagi varians sampel, sedangkan untuk
perhitungan, Rumus (2.9) lebih mudah diimplementasikan.
Contoh 2.10
Hitung rata-rata, median, modus dan kisaran antar kuartil dari sampel berikut ini:
5,5 6,6 8,2 13,4 13,0 15,7 3,9 5,8 12,5 5,7
· Rata-rata dari ke 10 pengamatan tersebut adalah
å yi 5,5 + 6,6 + 8,2
2+ +5
5,7 90,3
y= = = = 9,03
n 10 10
34
Untuk menghitung varians sampel kita perlu menghitung å yi2 lebih dulu,
2 2 2 2 2
å yi = 5,5 + 6,6 + 8,2 + 5,77 = 97
973,69
· sehingga varians sampel dari data tersebut adalah
é ( yi ) ù 1 é
2
å ( 90,3) ù
2
1 ê
s =
2
n -1 ê
å yi - n úú = 9 êê973,69 - 10 úú = 17,58678 » 17,59 .
2
ë û ë û
· Modus dari ke 10 pengamatan tersebut tidak ada.
Untuk data yang telah disusun ke dalam tabel distribusi frekuensi, varians populasi
diduga dengan rumus berikut:
å ( mi - m ) ´ fi
2
s2 = i
.................................................. ....................... [2.10]
n
sedangkan varians sampel diduga dengan
å ( mi - y ) ´ fi
2
s2 = i
.................................................. ........................ [2.11]
n -1
dimana mi adalah titik tengah kelas ke i; fi adalah frekuensi kelas ke i
Simpangan baku populasi dan sampel masing-masing dihitung sebagai akar dari
Rumus 2.10 dan 2.11 berturut-turut.
Contoh 2.11
Dalam Contoh 2.8 telah kita hitung bahwa rata-rata diameter pohon dalam Tabel
2.2 adalah 9,083 cm. Varians untuk data tersebut dapat dihitung dengan bantuan
tabel berikut.
Titik tengah kelas
Diameter pohon
(mi)
Frekuensi (fi) mi - y (mi - y )2 ( mi - y )2 ´ fi
2,9 sampai 4,4 3,65 3 -5,433 29,5175 88,5525
4,4 sampai 5,9 5,15 7 -3,933 15,4685 108,2795
5,9 sampai 7,4 6,65 9 -2,433 5,9195 53,2755
7,4 sampai 8,9 8,15 22 -0,933 0,8705 19,1510
8,9 sampai 10,4 9,65 23 0,567 0,3215 7,3945
10,4 sampai 11,9 11,15 15 2,067 4,2725 64,0875
11,9 sampai 13,4 12,65 9 3,567 12,7235 114,5115
13,4 sampai 14,9 14,15 2 5,067 25,6745 51,3490
Total 90 506,6010
506,601
s2 = = 5,6921
89
35
Jika dihitung dengan menggunakan data mentahnya, varians dari data tersebut
adalah 5,3914.
õ
Data yang terkonsentrasi di sekitar nilai rata-ratanya akan mempunyai varians dan
simpangan baku yang lebih kecil daripada data yang menyebar dari nilai rata-
ratanya. Oleh karena itu, simpangan baku (dan varians) merupakan salah satu
karateristik penting bagi setiap distribusi.
Definisi: Aturan Empiris
Bagi suatu set data yang mempunyai distribusi berbentuk seperti gundukan
yang simetris (berbentuk seperti genta/lonceng), maka interval
y ± s akan mengandung sekitar 68% dari semua nilai pengamatan,
y ± 2s akan mengandung sekitar 95% dari semua nilai pengamatan,
y ± 3s akan mengandung sekitar 99% dari semua nilai pengamatan.
36
Gambar 2.15 Tampilan Jendela Display Descriptive Statistics MINITAB
Output dari Program MINITAB adalah sebagai berikut:
MTB > Describe 'Diameter'.
Descriptive Statistics
MTB >
Penjelasan:
N adalah jumlah data dalam variabel Diameter
Mean adalah rata-rata variabel tersebut
Median adalah median variabel tersebut
Tr Mean adalah rata-rata variabel tersebut tanpa mengikut sertakan 5% data
terkecil dan 5% data terbesar dalam perhitungannya
StDev adalah simpangan baku sampel dari variabel tersebut
SE Mean adalah galat baku dari rata-rata (standard error of the mean) yang
(
dihitung dengan cara membagi nilai StDev dengan akar N StDev N . )
Statistik ini akan dibahas lebih lanjut dalam Bab 4
Min adalah nilai minimum
Max adalah nilai maksimum
Q1 dan Q3 masing-masing adalah nilai kuartil bawah dan kuartil atas
Excel
Untuk ilustrasi, misalkan data dalam Tabel 2.1 disimpan dalam spreadsheet Excel
pada kolom A, baris ke 2 sampai baris 91, sedangkan baris pertama berisi Diameter,
37
sebagai label bagi data tersebut. Dalam Excel, perintah untuk menghitung ukuran
pemusatan dan penyebaran data dilakukan dengan memilih tab
DataData Analysis
lalu pilih Descriptive Statistics dalam jendela Data Analysis. Pilihan ini akan
mengaktifkan jendela Descriptive Statistics. Lengkapi jendela tersebut seperti
terlihat dalam Gambar 2.16 lalu klik OK.
38
Program R
Ukuran pemusatan dan ukuran penyebaran data dapat diperoleh dengan perintah
summary dalam R. Perintah summary pada dasarnya merupakan fungsi generik yang
digunakan untuk mendapatkan hasil dari berbagai fungsi pemodelan. Ketika
summary digunakan terhadap data variabel, perintah ini akan menampilkan nilai
minimum, kuartil bawah, median, rata-rata, kuartil atas dan nilai maksimum.
>
> summary(D9)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.950 7.762 9.300 9.084 10.650 14.250
39
Diagram kotak akan lebih mudah dibuat jika data tersebut telah diurutkan lebih dulu
(dari kecil ke besar, atau sebaliknya), misalnya dalam bentuk diagram batang dan
daun.
Contoh 2.12
Data di bawah ini adalah hasil pengukuran berat basah dari 78 ring sampel tanah
(data hasil penelitian Dr G.Z. Anshari, dkk, 2002 (tidak dipublikasikan):
85 120 89 119 98 119 120 126 131 114 104 101 118
121 122 123 129 114 121 88 101 34 132 124 97 92
102 107 102 101 110 136 118 119 115 93 111 107 113
110 134 120 117 112 110 70 142 106 107 65 114 104
105 124 107 130 84 129 100 72 111 132 117 83 96
115 94 108 132 113 135 94 91 117 94 133 86 102
Untuk memudahkan dalam membuat diagram kotak, data tersebut dapat disusun
lebih dulu ke dalam bentuk diagram batang dan daun. Untuk kasus ini, diagram
tersebut adalah sebagai berikut:
1 3 4
1 4
1 5
2 6 5
4 7 02
10 8 345689
19 9 123444678
35 10 0111222445677778
(21) 11 000112334445577788999
22 12 000112344699
10 13 012223456
1 14 2
Karena n = 78, maka
· median adalah data yang ke (78 + 1)/2 = 39,5 atau rata-rata dari data yang ke-
39 dan ke-40, yaitu 111
· Q1 adalah data yang ke (78 + 1)/4 = 19,75 sehingga Q1 = 98 + 0,75(100 98) =
99,5
· Q3 adalah data yang ke 3(78 + 1)/4 = 59,25 sehingga Q3 = 120 + 0,25(121 120)
= 120,25
· Kisaran antar kuartil (IQR) = Q3 Q1 = 120,25 99,5 = 20,75
· Batas dalam bawah (lower inner fence) = Q1 1,5 × IQR = 68,375
· Batas dalam atas (upper inner fence) = Q3 + 1,5 × IQR = 151,375
· Batas luar bawah (lower outer fence) = Q1 3 × IQR = 37,25
· Batas luar atas (upper outer fence) = Q3 + 3 × IQR = 182,5
· Nilai rendah terdekat: 70
· Nilai atas terdekat: 142 (= nilai maksimum)
40
Oleh karena itu, dalam data ini terdapat dua buah nilai pencilan, yaitu 65 yang
merupakan pencilan ringan dan 34 yang merupakan pencilan ekstrim.
142.00
120.25 Q3
berat_basah
111.00 Md
99.50 Q1
70.00
34.00
Beberapa informasi yang dapat kita peroleh dari tampilan suatu diagram kotak
diantaranya adalah sebagai berikut:
1. Pusat distribusi data ditunjukkan oleh garis median di dalam kotak
2. Panjang kotak menunjukkan ukuran penyebaran/keragaman data, dalam hal
ini adalah kisaran antar kuartil
3. Posisi garis median dalam kotak juga dapat digunakan sebagai suatu indikasi
ke-simetri-an data di sekitar pusat distribusinya.
4. Panjang garis yang menghubungkan nilai kuartil (ujung kotak) dengan nilai-nilai
terdekatnya dapat digunakan sebagai tambahan informasi tentang
kecondongan (skewness) di ujung-ujung distribusi data
5. Kemungkinan adanya nilai pencilan dalam data
Perintah untuk membuat diagram kotak dalam Minitab dapat diakses dengan
memilih menu
GraphBoxplot
Sedangkan dalam R, perintah untuk membuat diagram kotak adalah
boxplot(x,...)
Dari boxplot (Gambar 2.19) dapat dilihat bahwa terdapat dua titik yang berada di
luar Boxplot. Titik-titik tersebut disebut titik outlier. Titik outlier pada Gambar 2.19
adalah 65 dan 34.
41
Boxplot of Berat_Basah
150
125
Berat_Basah
100
75
50
Soal-Soal Latihan
2.1 Sebutkan tiga metode yang biasa digunakan untuk menjelaskan karakteristik
data. Jelaskan masing-masing tujuan penggunaannya.
2.2 Jelaskan perbedaan antara tabel distribusi frekuensi dan tabel distribusi
frekuensi relatif.
2.3 Apakah perbedaan antara ukuran pemusatan dan ukuran penyebaran data?
2.4 Apakah fungsi dari ukuran penyebaran data?
2.5 Ukuran pemusatan data yang manakah (modus, median, rata-rata) yang
sangat sensitif terhadap nilai-nilai yang ekstrim?
2.6 Ukuran pemusatan data apakah yang digunakan untuk menunjukkan nilai
dengan frekuensi tertinggi?
2.7 Jika di dalam data terdapat nilai-nilai yang ekstrim, ukuran pemusatan
manakah yang sebaiknya digunakan?
2.8 Ukuran pemusatan yang manakah yang memperhitungkan semua nilai dalam
proses perhitungan data?
2.9 Jika dalam suatu set data, sebuah nilai yang agak lebih besar dari nilai rata-
rata data tersebut diganti dengan nilai yang jauh lebih besar, bagaimanakah
pengaruhnya terhadap nilai rata-ratanya, apakah menjadi lebih besar, lebih
kecil ataukah tetap sama saja? Bagaimana pula pengaruhnya terhadap
median?
2.10 Jelaskan kelebihan penyajian data dalam bentuk diagram batang dan daun
dibandingkan dengan distribusi frekuensi
2.11 Data berikut ini adalah nilai ujian Metode Statistika dari 49 orang mahasiswa
FMIPA pada suatu perguruan tinggi.
80 75 63 76 47 83 75
42
3 Te o r i Pel ua ng d a n Di s t rib u s i
Pe l u an g
3.1 Pendahuluan
Teori peluang adalah bagian integral dari Ilmu Statistika, dan merupakan salah satu
bagian terpenting dalam teori Statistika Inferensial. Seperti telah dikemukakan
dalam Bab 1, Statistika Inferensial berkaitan dengan metode pendugaan dan
penarikan kesimpulan terhadap karakteristik suatu populasi berdasarkan informasi
yang diperoleh dari sampel. Dalam proses pendugaan atau penarikan kesimpulan
tersebut terkandung suatu unsur ketidak-pastian, karena pada kenyataannya
proses tersebut jarang sekali didukung oleh informasi atau input yang sempurna.
Secara statistik derajat/tingkat ketidak-pastian tersebut dikuantifikasikan dengan
menggunakan teori peluang. Sebagai ilustrasi, perhatikan contoh berikut ini.
Seorang calon kepala desa menyatakan bahwa dirinya akan mengalahkan
pesaingnya dalam pemungutan suara yang akan dilaksanakan dalam beberapa
bulan mendatang. Karena merasa ragu dengan pernyataan tersebut, seorang
wartawan lokal mewawancarai 20 orang calon pemilih di desa tersebut. Ke 20 orang
tersebut dapat dianggap sebagai suatu sampel acak dari seluruh calon pemilih di
desa tersebut. Jika ternyata tak seorangpun dari ke 20 responden menyatakan akan
memilih calon kepala desa tersebut, apakah kesimpulan anda?
Jika pernyataan kepala desa tersebut benar, maka sedikitnya 50% calon pemilih
akan memilih dia, dan hal ini seharusnya tercerminkan dalam sampelnya. Akan
tetapi, karena dari sampel tersebut menunjukkan bahwa tak satupun calon pemilih
akan memilih dia, dapat kita simpulkan bahwa pernyataan calon kepala desa
tersebut adalah tidak benar, dan kemungkinan besar dia akan kalah dalam
pemungutan suara mendatang.
Jika seandainya 9 calon pemilih menyatakan akan memilih kepala desa tersebut dan
sisanya (11 orang) menyatakan akan memilih calon lain (dalam hal ini kita anggap
hanya ada dua calon kepala desa). Dapatkah kita simpulkan bahwa pernyataan
kepala desa tersebut tidak benar? Bagaimana jika hasil sampel tersebut
menunjukkan perbandingan 6 lawan 14, atau 3 lawan 17? Pada batas angka
perbandingan berapakah kita dapat menyatakan bahwa pernyataan calon kepala
desa tersebut adalah tidak benar? Untuk menjawab pertanyaan-pertanyaan
tersebut kita harus mengetahui bagaimana menentukan nilai peluang dari hasil
sampel. Dengan mengetahui nilai peluang tersebut kita dapat memutuskan untuk
setuju atau tidak dengan pernyataan kepala desa tersebut.
46
3.2 Percobaan acak
Definisi
Suatu percobaan adalah suatu proses atau kegiatan yang menghasilkan satu
kejadian (outcome) dari berbagai kejadian yang mungkin dihasilkan. Jika
terjadinya kejadian tersebut tidak dapat diduga dengan pasti maka perco-baan
tersebut disebut sebagai percobaan acak (random experiment).
Ruang sampel (sample space) adalah kumpulan dari semua kejadian yang
mungkin timbul akibat dilakukannya suatu percobaan.
Berikut ini adalah beberapa contoh percobaan acak dan kejadian-kejadian
yang mungkin dihasilkannya:
Salah satu ciri yang menonjol dari suatu percobaan acak adalah bahwa kejadian yang
dihasilkan tidak dapat ditentukan dengan pasti sebelum percobaan tersebut
dilaksanakan. Artinya, jika percobaan tersebut diulang, walaupun dalam kondisi
yang sama, maka kejadian yang timbul dapat berbeda sama sekali dengan hasil
percobaan sebelumnya.
47
subbab ini akan kita bahas prinsip-prinsip dasar dalam menghitung jumlah
unsur/kejadian yang mungkin timbul akibat dilaksanakannya suatu percobaan.
Aturan 3.1
Jika timbulnya suatu kejadian A dapat terjadi melalui n kemungkinan, dan kejadian
B dapat terjadi melalui m kemungkinan, maka:
i. kejadian A atau B dapat terjadi melalui n + m kemungkinan, asalkan kedua
kejadian tersebut tidak dapat terjadi secara bersama-sama
ii. kejadian A dan B dapat terjadi melalui n × m kemungkinan
Contoh 3.1
i. Misalkan A adalah terambilnya satu kartu spade () dari satu set kartu remi
dan B adalah terambilnya satu kartu diamond ( ). Kedua kejadian tersebut
masing-masing dapat terjadi melalui 13 kemungkinan, karena dalam satu
set kartu remi terdapat 13 kartu spade dan 13 kartu diamond. Maka
terpilihnya satu kartu spade atau satu kartu diamond dapat terjadi melalui
13 + 13 = 26 kemungkinan.
ii. Jika dari satu set kartu remi tersebut diambil dua kartu sedemikian rupa
sehingga salah satunya adalah kartu spade dan kartu yang lainnya adalah
diamond, maka dalam hal ini akan terdapat 13 × 13 = 169 kemungkinan,
karena setiap kartu spade dapat berpasangan dengan salah satu dari ke 13
kartu diamond.
Aturan 3.1 tersebut dapat diperluas dan berlaku untuk lebih dari dua kejadian.
Sehingga, jika kejadian A, B dan C masing-masing dapat terjadi melalui m, n dan p
kemungkinan, maka kejadian A atau B atau C dapat terjadi melalui m + n + p
kemungkinan, dan kejadian A dan B dan C dapat terjadi melalui m × n × p
kemungkinan.
Penggunaan Aturan 3.1.ii sering kali bermanfaat ketika kita diminta untuk
menentukan jumlah susunan/urutan dari suatu set objek tertentu. Sebagai ilustrasi
perhatikan Contoh 3.2 berikut ini.
Contoh 3.2
Misalnya kita bermaksud untuk menentukan jumlah susunan dari huruf-huruf a, b
dan c. Pada posisi pertama untuk setiap susunan kita mempunyai tiga pilihan, yaitu
huruf a, b atau c. Jika posisi pertama sudah terisi, maka untuk posisi kedua kita
hanya mempunyai dua pilihan, yaitu dua huruf yang belum digunakan. Dan untuk
posisi terakhir, kita hanya mempunyai satu pilihan. Dengan demikian, susunan
ketiga huruf tersebut dapat terjadi melalui 3 × 2 × 1 = 6 kemungkinan. Keenam
susunan tersebut, atau biasa juga disebut permutasi, adalah sebagai berikut:
48
abc, acb, bac, bca, cab, cba
õ
Dalam contoh di atas kita dapat dengan mudah mendaftarkan semua susunan
(permutasi) yang mungkin terjadi karena hanya terdapat 6 permutasi.
Secara umum, jumlah permutasi dari n unsur yang berbeda adalah
n × (n 1) × (n 2) × ... × 3 × 2 × 1
Hasil kali dari bilangan-bilangan di atas biasa dinotasikan dengan n! (dibaca n
faktorial). Sehingga 2! = 2 × 1 = 2, 3! = 3 × 2 × 1 = 6, dan seterusnya.
Dapat ditunjukkan bahwa
n!
(n - 1)! = .................................................. ......................................... [3.1]
n
Catatan: berdasarkan definisi, 1! = 1 dan 0! =1
Aturan 3.2
Jumlah permutasi dari n unsur yang berbeda adalah n!
Dengan Aturan 3.2, dapat dengan mudah kita tentukan bahwa jumlah permutasi
dari 4 huruf a, b, c dan d adalah 4! = 24. Jika dari ke 4 huruf tersebut, misalnya kita
hanya mengambil 2 huruf saja, maka dalam hal ini kita hanya mempunyai dua posisi
yang dapat ditempati oleh ke 4 huruf tersebut. Pada posisi pertama kita mempunyai
4 pilihan dan pada posisi kedua kita hanya mempunyai 3 pilihan. Dengan demikian
akan terdapat 4 × 3 = 12 permutasi. Ke 12 permutasi tersebut adalah
ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc
Secara umum, hal ini dirumuskan dalam aturan 3.3 berikut ini:
Aturan 3.3
Jika dari n unsur yang berbeda diambil r unsur (r ! n), maka jumlah
permutasinya dinotasikan dengan nPr (dibaca jumlah permutasi tingkat r dari n
unsur), dimana
n!
n Pr = .................................................. ....................................... [3.2]
(n - r )!
Sampai sejauh ini perhatian kita terfokus pada n unsur yang berbeda satu sama
lainnya. Ada kalanya kita perlu menentukan jumlah permutasi dari n unsur yang
tidak semuanya berbeda. Sebagai ilustrasi, misalnya huruf-huruf a dan b dalam
Contoh 3.2 kita ganti kedua-duanya dengan huruf x. Maka ke 6 permutasi dalam
Contoh 3.2 tersebut berubah menjadi
49
xxc, xcx, xxc, xcx, cxx, cxx
Perhatikan bahwa dari ke 6 permutasi tersebut hanya 3 permutasi saja yang
berbeda, yaitu xxc, xcx dan cxx. Dengan demikian, jumlah permutasi dari 3 huruf
dimana 2 huruf diantaranya adalah sama, hanya terdapat sebanyak 3!/2! = 3
permutasi yang berbeda. Misalnya kita mempunyai 4 huruf yang berbeda satu sama
lainnya, yaitu a, b, c dan d, maka dari ke 4 huruf tersebut akan terdapat sebanyak
4!= 24 permutasi yang berbeda. Jika huruf a dan b kita ganti dengan x, dan huruf c
dan d kita ganti dengan y, maka dari keempat huruf tersebut hanya akan kita peroleh
permutasi sebagai berikut: xxyy, xyxy, xyyx, yyxx, yxyx dan yxxy. Artinya kita hanya
mempunyai 4!/(2! 2!) = 6 permutasi saja. Secara umum, hal ini dirumuskan dalam
Aturan 3.4 berikut ini.
Aturan 3.4
Jika suatu set objek yang terdiri atas n unsur dapat dikelompokkan menjadi k
kelompok yang berbeda, dimana kelompok ke 1 terdiri atas n1 unsur yang
sama, kelompok ke 2 terdiri atas n2 unsur yang sama, demikian seterusnya,
sehingga kelompok ke k terdiri atas nk unsur yang sama, maka dari ke n unsur
n!
tersebut akan dapat disusun sebanyak permutasi yang berbeda.
n1 ! n2 ! nk !
Contoh 3.3
Satu set lampu hias mempunyai 9 buah soket untuk bola lampu. Jika kita
mempunyai 3 bola lampu berwarna merah, 4 bola lampu berwarna kuning dan 2
bola lampu berwarna biru, tentukan jumlah susunan yang dapat kita buat untuk me-
nempatkan ke 9 buah bola lampu ke dalam soketnya.
Penyelesaian
Jumlah permutasi yang mungkin dapat kita susun dari ke 9 buah bola lampu tersebut
adalah
9!
= 1260
3!4!2!
Jadi ke 9 buah bola lampu tersebut dapat ditempatkan ke dalam soketnya melalui
1260 cara.
Dalam menyusun unsur-unsur tersebut, ada kalanya kita hanya tertarik pada jumlah
susunan yang berbeda tanpa menghiraukan urutan dalam setiap susunan. Susunan
atau permutasi yang demikian disebut kombinasi. Misalnya jika dari 4 huruf a, b, c
dan d diambil dua huruf, maka kombinasi yang mungkin tersusun adalah
ab, ac, ad, bc, bd, cd
50
Perhatikan bahwa dalam kombinasi, urutan dalam setiap susunan tidak dibedakan,
misalnya ab tidak dibedakan dengan ba, sedangkan dalam permutasi kedua susunan
tersebut dibedakan satu sama lainnya. Sehingga dapat dikatakan bahwa ab dan ba
adalah dua permutasi yang berbeda dari kombinasi huruf yang sama.
Aturan 3.5
Jika dari n unsur yang berbeda diambil r unsur, maka jumlah kombinasinya
dinotasikan dengan nCr (dibaca jumlah kombinasi tingkat r dari n unsur),
dimana
n!
n Cr = .................................................. ................................... [3.3]
r !× (n - r )!
Contoh 3.4
Dari 4 orang anggota partai politik A dan 3 orang anggota partai politik B di DPR akan
dibentuk suatu kepanitiaan yang terdiri atas 3 orang. Tentukan jumlah susunan
kepanitiaan yang mungkin dibentuk jika 2 orang anggota partai A dan satu orang
anggota partai B harus menjadi anggota panitia tersebut.
Penyelesaian
Jumlah susunan yang mungkin dibentuk dengan cara memilih 2 orang dari 4 orang
anggota partai A adalah
4!
4 C2 = =6
2!× 2!
Jumlah susunan yang mungkin dibentuk dengan cara memilih 1 orang dari 3 orang
anggota partai B adalah
3!
3 C1 = =3
1!× 2!
Dengan Aturan 3.2.ii, maka jumlah susunan kepanitian yang mungkin dibentuk yang
terdiri atas 2 orang anggota partai A dan satu orang anggota partai B adalah 6 × 3 =
18 kemungkinan.
51
Pada pendekatan klasik, peluang suatu kejadian diinterpretasikan berdasarkan atas
asumsi simetris dari sifat percobaan. Misalnya pada percobaan pelemparan sebuah
mata uang yang seimbang, hanya ada dua kejadian yang mungkin dihasilkan, yaitu
timbulnya sisi muka atau sisi belakang. Dengan asumsi simetris kita menganggap
bahwa kedua permukaan tersebut mempunyai peluang yang sama untuk terjadi.
Oleh karena itu, peluang timbulnya sisi muka sama dengan peluang timbulnya sisi
belakang yaitu sama dengan ½ (1 dari 2 kejadian). Secara umum, jika suatu
percobaan dapat menghasilkan n kejadian, maka dengan pendekatan klasik,
peluang terjadinya salah satu kejadian tersebut adalah 1/n.
Peluang terjadinya suatu kejadian A dituliskan dengan notasi P(A). Misalnya, pada
percobaan pelemparan mata uang, peluang dihasilkannya sisi muka adalah:
P(sisi muka) = ½
Penggunaan pendekatan klasik dalam menentukan nilai peluang sangat tergantung
pada asumsi bahwa semua kejadian yang mungkin dihasilkan mempunyai peluang
yang sama. Jika asumsi tersebut tidak dapat dipenuhi, maka nilai peluang yang
dihasilkan dengan pendekatan klasik akan salah.
Interpretasi peluang dengan menggunakan pendekatan konsep frekuensi relatif
merupakan suatu pendekatan empiris. Misalkan suatu percobaan diulang sebanyak
n kali. Jika dari percobaan-percobaan tersebut timbul kejadian tertentu, misalnya
kejadian A, sebanyak f kali, maka jika n cukup besar, nilai proporsi f/n dapat
digunakan sebagai suatu pendekatan bagi nilai peluang terjadinya kejadian A (dalam
Bab 2, telah kita bahas bahwa nilai f/n adalah frekuensi relatif dari kejadian A).
Dengan pendekatan konsep frekuensi relatif, nilai peluang bagi suatu kejadian
didefinisikan sebagai frekuensi relatif dari kejadian tersebut pada pengamatan atau
pengulangan suatu percobaan dalam jumlah yang besar.
Pada keadaan tertentu, kedua pendekatan di atas mungkin tidak dapat digunakan
untuk menentukan nilai peluang suatu kejadian karena berbagai alasan. Dalam hal
ini nilai peluang suatu kejadian dapat ditentukan secara subjektif berdasarkan
penilaian masing-masing orang. Misalnya, suatu perusahaan merencanakan untuk
memproduksi suatu produk baru yang belum pernah diuji-coba sama sekali.
Eksekutif perusahaan mungkin akan bertanya Berapa peluang bahwa perusahaan
akan menghasilkan keuntungan dari pembuatan produk tersebut? Bagaimana kita
menentukan nilai peluangnya? Dalam hal ini terdapat dua kemungkinan, yaitu
perusahaan akan mendapat keuntungan atau perusahaan akan menderita kerugian,
tetapi sangat tidak beralasan kalau kita katakan bahwa peluang masing-masing
kejadian adalah setengah. Selain itu, pendekatan frekuensi relatif juga tidak dapat
digunakan karena percobaannya tidak dapat diulang.
Contoh lain, misalkan seorang dokter menyatakan bahwa peluang seorang
pasiennya untuk bertahan hidup lebih dari satu tahun adalah 40%. Pernyataan
52
peluang tersebut semata-mata penilaian subjektif dari dokter tersebut dan tidak
dapat diuji secara objektif.
Contoh 3.5
Dalam percobaan pelemparan sebuah dadu yang seimbang akan terdapat enam
kejadian yang mungkin dihasilkan, yaitu timbulnya sisi dadu bermata 1, 2, 3, 4, 5,
atau 6. Berapakah peluang timbulnya sisi dadu bermata genap?
Penyelesaian:
Nilai peluang dari kejadian ini dapat dengan mudah dihitung jika kita gunakan
asumsi simetris, dan hal ini cukup beralasan karena dadu tersebut seimbang.
Kejadian timbulnya sisi dadu bermata genap terjadi jika pada percobaan tersebut
dihasilkan sisi 2, 4 atau 6. Karena secara keseluruhan hanya ada enam kejadian yang
mungkin timbul, maka dengan asumsi simetris masing-masing kejadian akan
mempunyai nilai peluang 1/6. Oleh karena itu, peluang terjadinya sisi dadu ber-
mata genap adalah:
P(sisi dadu bermata genap) = 3/6 = 0,5
53
3.5 Beberapa aturan dasar peluang
Sebelum membahas aturan-aturan dasar dari teori peluang ada beberapa istilah
penting yang sering digunakan yang perlu kita ketahui lebih dulu, diantaranya
adalah:
1. Dua kejadian A dan B disebut kejadian bebas atau independen
(independent) jika terjadinya kejadian A tidak mempengaruhi terjadi atau
tidaknya kejadian B, dan sebaliknya.
2. Komplemen dari suatu kejadian A adalah semua kejadian lain yang
mungkin timbul selain kejadian A. Komplemen kejadian A ditulis dengan
notasi A (Gambar 3.1.a).
3. Dua kejadian A dan B disebut saling asing (mutually exlusive) jika kedua
kejadian tersebut tidak mungkin terjadi secara bersama-sama, artinya jika
kejadian A terjadi, maka kejadian B tidak mungkin terjadi, dan sebaliknya
(Gambar 3.1.b).
4. P(A atau B) adalah peluang terjadinya salah satu kejadian, baik A maupun
B, yaitu P(A atau B) = P (A È B)
5. P(A dan B) adalah peluang terjadinya kejadian A dan B secara bersama-
sama, yaitu P(A dan B) = P (A Ç B) .
A
A A B A B
(a) A dan komplemennya (b) A dan B saling asing (c) A dan B tidak saling
asing
Aturan 3.6
Nilai peluang suatu kejadian, misalnya kejadian A, selalu terletak antara nol dan
satu:
0 £ P(A) £ 1 ............................................... ........................................... [3.4]
Nilai peluang suatu kejadian dapat dipandang sebagai frekuensi relatif kejadian
tersebut dari percobaan yang diulang dalam jumlah yang besar. Telah kita ketahui
bahwa frekuensi relatif adalah suatu nilai yang terletak antara nol dan satu. Oleh
karena itu, nilai peluang suatu kejadian akan terletak antara nol dan satu; dan tak
satupun kejadian yang mempunyai nilai peluang negatif atau lebih besar dari 1.
Peluang suatu kejadian akan bernilai nol jika kejadian tersebut mustahil terjadi, dan
peluang suatu keajian akan bernilai satu jika kejadian tersebut pasti terjadi.
54
Aturan 3.7
Jika A adalah komplemen dari kejadian A, maka
P(A) = 1 P(A) ................................. ................................................... . [3.5]
Contoh 3.6
Jika dua buah mata uang yang seimbang dilemparkan, maka akan terdapat empat
kejadian yang mungkin terjadi, yaitu:
MM: kedua mata uang menunjukkan sisi muka
MB: mata uang pertama menunjukkan sisi muka dan mata uang kedua
menunjukkan sisi belakang
BM: mata uang pertama menunjukkan sisi belakang dan mata uang kedua
menunjukkan sisi muka
BB: kedua mata uang menunjukkan sisi belakang
Peluang bahwa kedua mata uang menunjukkan sisi muka (terjadinya MM), adalah
P({MM}) = 0,25
Komplemen dari MM adalah kejadian dimana kedua mata uang tersebut tidak
menunjukkan sisi muka. Hal ini terjadi jika MB atau BM atau BB yang timbul, dan ini
mempunyai peluang 0,75 atau sama dengan 1 0,25. Sehingga
P({MM}) = 1 P({MM})
= 1 0,25
= 0,75
Perhatikan bahwa
P({MM}) = P({MB, BM, BB})
õ
Aturan 3.8
Jika A dan B adalah dua kejadian yang saling asing, maka peluang terjadinya
kejadian A atau kejadian B adalah
P(A atau B) = P(A) + P(B) ...................................................................... [3.6]
Aturan 3.9
Jika A dan B adalah dua kejadian yang tidak saling asing, maka peluang
terjadinya kejadian A atau kejadian B adalah
P(A atau B) = P(A) + P(B) P(A dan B) ................................................. [3.7]
Aturan 3.8 dan 3.9 di atas akan lebih jelas dan lebih mudah dipahami jika
menggunakan bantuan diagram Venn (lihat Gambar 3.1.b dan 3.1.c).
55
Contoh 3.7
Catatan pembukuan sebuah koperasi simpan pinjam menunjukkan bahwa dari
keseluruhan anggotanya yang berjumlah 100 orang, terdapat 30 orang yang belum
membayar iuran bulanan, 60 orang yang mempunyai pinjaman kepada koperasi dan
20 orang yang belum membayar iuran bulan dan juga mempunyai pinjaman. Jika
dari daftar anggota koperasi tersebut dipilih satu orang anggotanya secara acak,
tentukan peluang bahwa orang tersebut belum membayar iuran bulanan atau
mempunyai pinjaman kepada koperasi.
Penyelesaian:
Kejadian bahwa orang tersebut belum membayar iuran bulanan (dinotasikan
dengan A) dan bahwa orang tersebut mempunyai pinjaman kepada koperasi
(dinotasikan dengan B) adalah dua kejadian yang
tidak saling asing. Oleh karena itu,
A
P(A atau B) = P(A) + P(B) P(A dan B) B
0,1 0,2
= 0,3 + 0,6 0,2 = 0,7 0,4
Contoh 3.8
Sebuah perusahaan minuman memiliki sebuah mesin untuk mengisi botol-botol
minuman secara otomatis. Mesin tersebut disetel untuk mengisi botol-botol
tersebut dengan 330 ml minuman produk perusahaan tersebut. Untuk menguji
tingkat ketelitian mesin tersebut, diambil secara acak 1000 botol, hasil
pengamatannya adalah sebagai berikut:
Kejadian Isi (ml) Jumlah botol Peluang
A < 330 45 0,045
B 330 905 0,905
C > 330 50 0,050
Total 1000
Berapakah peluang bahwa isi suatu botol akan kurang atau terlalu penuh?
56
Penyelesaian:
Ketiga kejadian di atas merupakan kejadian yang saling asing, karena ketiganya tidak
dapat terjadi secara bersama-sama, misalnya kalau A terjadi maka B dan C tidak akan
terjadi, demikian juga jika B terjadi, maka A dan C tidak akan terjadi.
Oleh karena itu, Aturan 3.8 dapat digunakan untuk menentukan P(A atau C), yaitu:
P(A atau C) = P(A) + P(C)
= 0,045 + 0,05 = 0,095
Peluang bahwa sebuah botol akan kurang penuh atau terlalu penuh adalah 0,095.
Aturan 3.10
Peluang terjadinya kejadian A dengan syarat bahwa kejadian B telah terjadi
dihitung dengan rumus:
P(A dan B)
P(A|B) = , asalkan P(B) ¹ 0 ............................................... . [3.8]
P(B)
Dalam contoh tentang pengambilan sebuah kartu remi di atas, kita diminta untuk
menentukan P(As|kartu hitam). Dalam hal ini, informasi yang diketahui adalah
terpilihnya kartu warna hitam. Dalam satu set kartu remi, kita tahu terdapat 26
kartu warna hitam (13 kartu dan 13 kartu ), yang dua diantaranya adalah kartu
As. Oleh karena itu, peluang terpilihnya kartu As jika diketahui bahwa kartu yang
terpilih tersebut berwarna hitam adalah
57
jumlah kartu As berwarna hitam
P ( As|kartu hitam ) =
jumlah kartu berwarna hitam
2
=
26
Nilai peluang tersebut, dapat juga dihitung dengan menggunakan Aturan 3.10
sebagai berikut:
Misalkan kejadian A adalah terpilihnya kartu As, dan kejadian B adalah terpilihnya
kartu berwana hitam. Maka
2
P(A dan B) = P(As berwarna hitam) = , dan
52
26
P(B) = P(kartu berwarna hitam) = , maka
52
P(A dan B) 2 52 2
P(A|B) = = =
P(B) 26 52 26
Contoh 3.9
Seorang orang tua murid yang anak laki-lakinya tidak diterima di suatu SMA
memprotes kebijakan sekolah dan menyatakan bahwa sekolah tersebut telah
melakukan diskriminasi yang merugikan murid laki-laki. Untuk mendukung
argumennya, dia menunjukkan data penerimaan murid di sekolah tersebut (Tabel
3.3). Dia menyatakan bahwa dari 689 pelamar ke sekolah tersebut, sebanyak 290
orang (42,1%) calon murid laki-laki tidak diterima. Sebaliknya, hanya 159 orang
(23,1%) calon murid perempuan yang tidak diterima di sekolah tersebut. Betulkah
tuduhan orang tua murid tersebut bahwa sekolah tersebut telah melakukan
diskriminasi dalam penerimaan murid baru?
58
gabungan (joint probability table). Hal ini dilakukan dengan cara membagi nilai
frekuensi dalam tiap sel dengan frekuensi total (dalam hal ini = 689).
Tabel 3.4 Tabel Peluang Gabungan dari Data dalam Tabel 3.3
Status Peluang
Diterima Ditolak marjinal
Laki-laki 0,244 0,421 0,665
Perempuan 0,104 0,231 0,335
Peluang marginal 0,348 0,652
Dari Tabel 3.4 terlihat bahwa walaupun peluang laki-laki untuk ditolak menjadi
murid SMA tersebut lebih besar dari murid perempuan, peluang laki-laki untuk
diterima ternyata juga lebih besar dari murid perempuan. Oleh karena itu, untuk
membuktikan tuduhan bahwa SMA tersebut telah melakukan diskriminasi, kita
perlu membandingkan tingkat penolakan murid laki-laki dan tingkat penolakan
murid perempuan. Hal ini dapat dilakukan dengan menentukan nilai peluang
bersyarat.
Untuk menilai apakah sekolah tersebut telah melakukan diskriminasi terhadap calon
murid laki-laki, kita perlu membandingkan nilai P(pendaftar ditolak karena dia laki-
laki) dengan P(pendaftar ditolak karena dia perempuan). Secara matematis, kedua
peluang tersebut dapat dituliskan sebagai P(ditolak|laki-laki) dan
P(ditolak|perempuan).
Dari Tabel 3.4 kita peroleh bahwa
P(ditolak dan laki-laki) 0,421
P(ditolak|laki-laki) = = = 0,633
P(laki-laki) 0,665
dan
P(ditolak dan perempuan) 0,231
P(ditolak|perempuan) = = = 0,688
P( perempuan) 0,335
Kedua nilai peluang tersebut menunjukkan bahwa 63,3% murid laki-laki dan 68,8%
murid perempuan tidak diterima SMA tersebut. Oleh karena itu, tingkat penolakan
untuk murid perempuan sebenarnya agak lebih tinggi daripada tingkat penolakan
untuk murid laki-laki. Namun demikian, kedua peluang tersebut nilainya tidaklah
terlalu berbeda jauh, oleh karena itu dapat kita katakan tuduhan bahwa sekolah
tersebut telah melakukan diskriminasi antara penerimaan murid perempuan dan
laki-laki adalah tidak benar
59
Perhatikan bahwa dalam contoh di atas, nilai peluang bersyarat tidak sama dengan
nilai peluang marjinalnya, dengan kata lain P(A | B) P(A). Hal ini menunjukkan
bahwa peluang terjadinya A tergantung pada terjadi atau tidaknya B. Dengan
demikian, kedua kejadian tersebut kejadian A dan B tidak saling bebas atau tidak
independen. Namun demikian, ada kalanya bahwa P(A | B) = P(A), artinya, terjadi
atau tidaknya B tidak mempengaruhi terjadi atau tidaknya A. Dalam keadaan yang
demikan, kejadian A dan B disebut sebagai dua kejadian yang saling bebas atau
kejadian yang independen. Contohnya, dalam pengambilan kartu remi di atas, kita
tahu bahwa dalam satu set kartu terdapat 4 kartu As. Sehingga P(As) = 4/52 = 2/26.
Nilai peluang ini sama dengan nilai peluang bersyarat P(As|kartu hitam). Dengan
demikian, terpilihnya kartu As tidak tergantung pada terpilih atau tidaknya kartu
berwarna hitam, maka terpilihnya kartu As dan terpilihnya kartu hitam adalah dua
kejadian yang independen.
Aturan 3.10 dapat dimanipulasi untuk mendapatkan rumus untuk menentukan nilai
P(A dan B), yaitu peluang bahwa kejadian A dan B terjadi secara bersama-sama.
Aturan 3.11
Peluang terjadinya kejadian A dan B secara bersama-sama ditentukan dengan
rumus:
P(A dan B) = P(A) ´ P(B|A) .......................................... ......................... [3.9]
dan
P(A dan B) = P(B) ´ P(A|B) .......................................... ....................... [3.10]
Jika A dan B adalah dua kejadian yang independen, maka P(B|A) = P(B),
sehingga
P(A dan B) = P(A) ´ P(B) ............................................ ......................... [3.11]
Contoh 3.10
Seorang penjual kelapa muda baru saja mendapat kiriman 20 buah kelapa yang 5
diantaranya sudah terlalu tua. Jika seseorang mengambil 2 buah kelapa secara acak,
tentukanlah peluang bahwa
a. kelapa yang diambilnya kedua-duanya adalah kelapa tua
b. kelapa yang terambil kedua-duanya adalah kelapa muda
c. kelapa yang terambil salah satunya adalah kelapa tua
Penyelesaian:
Misalkan
T1 adalah kejadian terambil kelapa tua pada pengambilan pertama
M1 adalah kejadian terambil kelapa muda pada pengambilan pertama
T2 adalah kejadian terambil kelapa tua pada pengambilan kedua
60
M2 adalah kejadian terambil kelapa muda pada pengambilan kedua
a. Keadaan pada pertanyaan (a) melibatkan kejadian T1 dan kejadian T2. Dengan
asumsi simetris, maka P(T1) = 5/20 dan P(T2|T1) = 4/19, karena setelah pada
pengambilan pertama terambil kelapa tua, yang tersisa adalah 19 buah kelapa
yang 4 buah diantaranya adalah kelapa tua. Oleh karena itu, dengan
menggunakan Aturan 3.6 diperoleh
P(T1 dan T2) = P(T1) ´ P(T2|T1)
5 4 20
= ´ = = 0,053
20 19 380
b. Keadaan pada pertanyaan (b) melibatkan kejadian M1 dan kejadian M2.
Dengan asumsi simetris, maka P(M1) = 15/20 dan P(M2|M1) = 14/19, karena
setelah pada pengambilan pertama terambil kelapa muda, yang tersisa adalah
19 buah kelapa yang 14 buah diantaranya adalah kelapa muda. Oleh karena itu
P(M1 dan M2) = P(M1) ´ P(M2|M1)
15 14 210
= ´ = = 0,553
20 19 380
c. Terdapat dua kemungkinan kejadian berkaitan dengan pertanyaan c, yaitu jika
i. {kelapa tua terambil pada pengambilan pertama dan kelapa muda
terambil pada pengambilan kedua} atau
ii. {kelapa muda terambil pada pengambilan pertama dan kelapa tua
terambil pada pengambilan kedua}.
Dengan kata lain, kita diminta menentukan P[(T1 dan M2 ) atau (M1 dan T2)]
P(T1 dan M2) = P(T1) ´ P(M2|T1)
5 15 75
= ´ = = 0,197
20 19 380
P(M1 dan T2) = P(M`) ´ P(T2|M1)
15 5 75
= ´ = = 0,197
20 19 380
Perhatikan bahwa kejadian (T1 dan M2) dan (M1 dan T2) adalah saling asing,
maka dengan menggunakan Aturan 3.3 kita peroleh
P éë( T1 dan M2 ) atau (M2 dan T1 ) ùû = P(T1 dan M2) + P(M2 dan T1)
= 0,197 + 0,197 = 0,394
61
T2 P(T1 dan T2)=P(T1) P(T2|T1)= 5 ´ 4 = 0,053
4/19 20 19
T1
5/20 15/19
M2 P(T1 dan M2)=P(T1) P(M2|T1)= 5 ´ 15 = 0,197
20 19
X 0 1 2
62
Dalam percobaan ini, misalnya kita hanya tertarik untuk mengamati jumlah sisi
muka yang timbul, kita sebut saja X. Nilai-nilai X akan bervariasi secara acak dari
satu pelemparan ke pelemparan lainnya, maka X merupakan suatu variabel acak.
Pada kenyataannya X merupakan suatu fungsi yang memetakan hasil percobaan
tersebut ke dalam nilai-nilai numerik, dalam hal ini nilai-nilai X yang mungkin terjadi
adalah 0, 1, dan 2 (lihat Gambar 3.3).
Definisi:
Variabel acak (random variable) adalah suatu fungsi yang memetakan setiap
kejadian dalam suatu ruang sampel dari suatu percobaan acak ke dalam nilai-
nilai numerik.
Variabel acak dibedakan atas variabel acak diskrit dan variabel acak kontinu
berdasarkan pada nilai-nilai variabel acak tersebut. Suatu variabel acak X disebut
variabel acak diskrit (discrete random variable) jika nilai-nilai X hanya terdiri atas
bilangan bulat positif. Variabel acak diskrit biasanya diperoleh dari hasil membilang,
sehingga selalu ada celah diantara nilai-nilainya. Beberapa contoh variabel acak
diskrit diantaranya adalah jumlah sisi muka yang timbul pada pelemparan dua mata
uang, jumlah anakan produktif per rumpun tanaman padi, jumlah SKS yang diambil
seorang mahasiswa pada semester tertentu, dan jumlah hasil pro-duksi yang afkir
dalam suatu proses produksi.
Notasi P(X = x) atau p(x) digunakan untuk menyatakan nilai peluang bagi X = x.
Misalnya dalam kasus pelemparan dua mata uang yang seimbang dengan mudah
dapat kita tentukan bahwa
P(X = 2) = P({MM}) = 0,25
dan
P(X = 1) = P({MB,BM}) = 0,5
Berbeda dengan variabel acak diskrit, maka nilai-nilai suatu variabel acak kontinu
dapat mengambil sembarang nilai dalam sistem bilangan nyata, sehingga dapat
dikatakan tidak terdapat celah antara nilai-nilainya. Variabel acak kontinu biasanya
diperoleh dari hasil pengukuran seperti waktu, panjang atau jenis pengukuran
lainnya. Misalnya, jika X adalah indeks prestasi kumulatif seorang sarjana pertanian,
maka nilai variabel acak X adalah suatu bilangan x dimana 2,0 £ x £ 4,0.
63
Sebagai ilustrasi, kita lihat kembali percobaan dua keping mata uang yang seimbang.
Andaikan X adalah jumlah sisi muka yang timbul dari setiap percobaan, maka x
hanya akan mungkin bernilai 0, 1 atau 2 (lihat Gambar 3.3). Dengan asumsi simetris,
maka setiap kejadian dalam ruang sample S akan mempunyai peluang = 0,25 (lihat
Tabel 3.5).
Tabel 3.5 Hubungan antara Nilai x dengan Unsur dari Ruang Sampel S
Kejadian (unsur S) x Peluang
MM 2 0,25
MB 1 0,25
BM 1 0,25
BB 0 0,25
Seperti telah kita lihat sebelumnya (Gambar 3.3), percobaan tersebut hanya
mungkin menghasilkan tiga nilai x, yaitu 0, 1 dan 2, masing-masing dengan peluang
sebagai berikut:
P(X = 0) = p(0) = 0,25; P(X = 1) = p(1) = 0,5; P(X = 2) = p(2) = 0,25
Oleh karena itu, distribusi peluang bagi X, dapat dirumuskan sebagai berikut:
ì 0,25 jika x = 0 atau 2
p(x) = í
î 0,50 jika x = 1
Distribusi peluang bagi variabel acak X dapat juga disajikan pada tabel (Tabel 3.6)
dan Gambar 3.4. Metode penyajian yang digunakan, baik dalam bentuk rumus,
tabel atau grafik, semata-mata tergantung pada selera peneliti yang bersangkutan.
Satu hal yang perlu diingat adalah bahwa cara penyajian tersebut diharapkan akan
memudahkan pembaca untuk memahaminya.
0 0,25 0.5
1 0,50
2 0,25
0.25
0 x
0 1 2
64
Aturan 3.12
Misalkan X adalah suatu variabel acak diskrit yang dapat bernilai x1, x2, ..., xn,
maka
1. Peluang untuk setiap nilai xi terletak antara nol dan satu:
0 £p(xi) £ 1 untuk i = 1, 2, ..., n................................................. ..... [3.12]
2. Jumlah peluang untuk semua nilai xi sama dengan satu:
n
å p(xi ) = 1 .................................................. ................................... [3.13]
i =1
Dengan terdefinisinya distribusi peluang suatu variabel acak X, maka kita dapat
menentukan peluang bagi berbagai nilai X. Misalnya, peluang bahwa nilai X terletak
antara a dan b, dinotasikan dengan
P(a £ X £ b), diperoleh dengan cara menjumlahkan nilai-nilai peluang p(x) untuk
semua x yang terletak antara a dan b. Untuk contoh di atas,
P(0 £ X £ 1) = p(0) + p(1) = 0,25 + 0,50 = 0,75
Definisi tersebut menunjukkan bahwa Nilai harapan dari suatu variabel acak X
adalah rata-rata tertimbang dari semua nilai X yang mungkin, dimana pembobotnya
adalah nilai peluang bagi setiap nilai X tersebut. Dengan menggunakan Rumus 3.14
di atas, maka nilai harapan bagi X dalam Tabel 3.5 adalah
E(X ) = 0 × 0,25 + 1 × 0,50 + 2 × 0,25 = 1,0
65
Aturan 3.13 Beberapa aturan tentang nilai harapan
Misalkan X dan Y masing-masing adalah variabel acak, dan c adalah suatu
konstanta, maka:
1. E(c) = c
2. E(cX ) = c × E(X )
3. E(X + Y ) = E(X ) + E(Y )
4. E(X - Y ) = E(X ) - E(Y )
5. Jika X dan Y keduanya adalah variabel acak yang independen, maka
E(XY ) = E(X ) × E(Y )
Untuk dapat menjelaskan penyebaran dari distribusi tersebut secara lebih baik kita
memerlukan suatu ukuran penyebaran bagi variabel acak X. Dalam bab 2, telah kita
bahas berbagai ukuran penyebaran, yang salah satu diantaranya adalah varians yang
dihitung dengan rumus berikut:
å ( xi - m )
2
1
= å ( xi - m ) ×
2
s 2= .............................................. [3. 15]
n n
Varians bagi variabel acak X didefinisikan dengan cara yang sama, hanya nilai 1/n
diganti dengan p(xi). Oleh karena itu, varians dari suatu variabel acak X merupakan
rata-rata tertimbang dari kuadrat simpangan nilai-nilai X terhadap rata-ratanya.
Definisi:
Misalkan X adalah suatu variabel acak diskrit yang dapat bernilai x1, x2, ..., xn,
dengan peluang masing-masing adalah p(x1), p(x2), ..., p(xn), maka varians bagi
X dihitung dengan rumus berikut:
n
s 2 = å ( xi - m ) × p(xi ) .................................................. ..................... [3.16]
2
i =1
66
3. Var (X + c) = Var (X )
4. Jika X dan Y keduanya adalah variabel acak yang independen, maka
Var (X + Y ) = Var (X ) + Var (Y )
dan
Var (X - Y ) = Var (X ) + Var (Y )
Contoh 3.11
Misalkan Y adalah variabel acak diskrit dengan distribusi peluang sebagai berikut:
Y 1 2 3 4
P(y) 0,4 0,3 0,2 0,1
a. tentukan nilai harapan dan varians bagi Y
b. tentukan nilai harapan dan varians bagi X = 3Y 2
Penyelesaian:
a. Salah satu cara yang mudah untuk menentukan nilai harapan dan varians
dari suatu variabel acak adalah dengan menggunakan bantuan tabel seperti
Tabel 3.7
n
Var (Y ) = s 2 = å ( yi - m ) × p(yi ) = 1,0 (jumlah dari kolom terakhir)
2
i =1
b. X = 3Y 2
E(X) = E(3Y 2) = 3E(Y) 2 = 3(2) 2 = 4
Var(X) = Var(3Y 2) = 32. Var(Y) = 9
67
3.10 Distribusi Binomial
Di era reformasi ini jajak pendapat nampaknya sudah merupakan hal yang biasa
dalam kehidupan kita. Berbagai media massa, baik media cetak maupun media
elektronik, telah sering melakukan jajak pendapat untuk berbagai persoalan.
Bahkan beberapa persoalan penting yang dihadapi oleh badan legislatif, baik MPR,
DPR maupun DPRD, sering kali harus diputuskan melalui pemungutan suara (voting).
Jajak pendapat dan voting merupakan contoh dari suatu peristiwa pengambilan
sampel yang biasa disebut Percobaan Binomial. Dalam jajak pendapat atau voting
setiap partisipan biasanya hanya mempunyai dua pilihan, misalnya A atau B
(walaupun biasanya ada juga partisipan yang memilih untuk abstain, yang demikian
ini biasanya suaranya tidak diperhitungkan). Salah satu karakteristik penting dari
Percobaan Binomial adalah bahwa percobaan tersebut hanya mungkin
menghasilkan ada dua kejadian. Secara konvensional kedua pilihan (kejadian)
tersebut biasa dikategorikan sebagai gagal atau berhasil, atau biasa juga di
notasikan dengan 0 atau 1.
Definisi:
Suatu Percobaan Binomial mempunyai ciri-ciri sebagai berikut:
a. Percobaan Binomial terdiri atas n ulangan yang identik
b. Dalam setiap ulangan hanya mungkin dihasilkan dua kejadian, yaitu
berhasil atau gagal
c. Peluang untuk berhasil dalam setiap ulangan adalah p, dan nilai p bersifat
konstan
d. Setiap ulangan bersifat bebas dari ulangan lainnya, artinya hasil dari suatu
ulangan tidak mempengaruhi hasil ulangan lainnya.
Contoh lain dari Percobaan Binomial adalah pelemparan mata uang yang seimbang
sebanyak 15 kali. Dalam setiap pelemparan hanya ada dua kemungkinan, yaitu
timbulnya sisi muka (berhasil) dan timbulnya sisi belakang (gagal). Dengan asumsi
simetris, maka peluang timbulnya sisi muka pada setiap pelemparan adalah p = 0,5.
Variabel acak yang dihasilkan dari suatu Percobaan Binomial disebut sebagai
variabel acak binomial. Pada kasus di atas, variabel acak yang menjadi perhatian
kita misalnya adalah jumlah sisi muka yang timbul pada ke-15 lemparan tersebut.
Oleh karena itu, variabel acak binomial adalah variabel acak diskrit yang hanya dapat
bernilai 0, 1, 2, ..., n. Disitribusi peluang dari Variabel Binomial, disebut sebagai Dis-
tribusi Peluang Binomial, yang merupakan distribusi peluang bagi terjadinya nilai 1
(berhasil) sebanyak x kali dari n ulangan.
Contoh 3.12
Pemerintah Indonesia baru-baru ini melakukan kebijakan untuk mengurangi subsidi
pemerintah bagi bahan bakar minyak. Sebuah survei dilaksanakan dengan
mewawancara 100 orang penduduk secara acak untuk mengetahui proporsi
68
penduduk Indonesia yang setuju dengan kebijakan tersebut. Dapatkah survei
tersebut digolongkan sebagai suatu Percobaan Binomial?
Penyelesaian:
Untuk menjawab pertanyaan tersebut, kita periksa apakah semua ciri Percobaan Bi-
nomial dipenuhi atau tidak oleh survei tersebut:
a. Apakah survei tersebut terdiri atas n ulangan yang identik? Ya, dalam survei
tersebut terdapat n = 100, semuanya bisa dikatakan identik
b. Apakah dalam setiap ulangan hanya mungkin dihasilkan dua kejadian? Ya,
setiap orang yang diwawancara hanya boleh menjawab setuju atau tidak
setuju terhadap kebijakan tersebut
c. Apakah peluang seseorang untuk setuju bersifat konstan dalam setiap
ulangan? Ya, dengan asumsi bahwa total penduduk Indonesia jauh lebih
besar dari jumlah sampel yang diambil, maka peluang, dalam hal ini proporsi
penduduk yang setuju, dapat dikatakan konstan
d. Apakah setiap ulangan bebas satu sama lainnya? Ya, pendapat seseorang
pada suatu wawancara tidak mempengaruhi pendapat orang lainnya dalam
wawancara berikutnya.
Karena semua ciri Percobaan Binomial terpenuhi, maka survei tersebut dapat
digolongkan sebagai suatu Percobaan Binomial. õ
Jika dalam survei tersebut populasi penduduk yang diwawancarai terbatas
jumlahnya, misalnya hanya untuk satu wilayah rukun tetangga saja, maka peluang
seseorang untuk setuju pada setiap kali wawancara tidak lagi konstan. Misalnya jika
dalam wilayah rukun tetangga tersebut terdapat 150 orang penduduk yang 25 orang
diantaranya setuju terhadap kebijakan tersebut. Maka peluang untuk mendapatkan
jawaban setuju pada wawancara pertama adalah 25/150. Jika orang pertama
menjawab tidak setuju, maka peluang untuk mendapatkan jawaban setuju pada
wawancara kedua adalah 25/149 demikian seterusnya. Misalkan setelah
mewawancara 80 orang penduduk diperoleh jawaban setuju sebanyak 10 orang dan
jawaban tidak setuju sebanyak 70 orang, maka peluang untuk mendapatkan
jawaban setuju pada wawancara ke-81 adalah 15/70. Keadaan ini menunjukkan
bahwa peluang untuk berhasil bervariasi atau tidak konstan. Maka dalam kasus ini
survei tersebut bukan merupakan suatu Percobaan Binomial.
Pada kenyataannya, jarang sekali terjadi keadaan yang secara sempurna memenuhi
kriteria Percobaan Binomial, akan tetapi pelanggaran terhadap kriteria-kriteria
tersebut umumnya sangatlah kecil sehingga percobaan binomial masih dapat
digunakan sebagai suatu pendekatan yang cukup baik.
Aturan 3.15
Distribusi Peluang Binomial ditentukan oleh rumus berikut:
69
P(X = x) = n C x px (1 - p)n- x , untuk x = 0, 1, 2, ..., n .......................... [3.17]
dimana n = jumlah ulangan
p = peluang untuk berhasil pada setiap ulangan
n!
nCx =
x !× (n - x)!
Contoh 3.13
Sebuah perusahaan obat mempromosikan bahwa salah satu jenis produksinya
sangat efektif untuk pengobatan suatu jenis penyakit tertentu. Namun demikian,
perusahaan tersebut mengakui bahwa sekitar 10% pasien yang menggunakan obat
tersebut dapat terkena akibat sampingan yang tidak diinginkan. Misalkan seorang
dokter telah memberikan obat tersebut untuk 4 orang pasien yang men-derita
penyakit tersebut. Berapakah peluang bahwa ke-4 orang pasien tersebut akan
terkena akibat sampingan karena penggunan obat tersebut?
Penyelesaian:
Contoh ini memenuhi kriteria-kriteria yang disyaratkan untuk Percobaan Binomial,
dengan n = 4 dan p = 0,1. Oleh karena itu, peluang bahwa ke-4 tersebut terkena
akibat sampingan dari obat tersebut dapat dihitung dengan menggunakan rumus
untuk Distribusi Peluang Binomial dengan x = 4, yaitu:
4!
P( X = 4) = ( 0,1)4 (1 - 0,1)4-4 = 0,0001
4!× (4 - 4)!
Jadi, peluang bahwa ke-4 orang pasien tersebut semuanya akan terkena akibat
sampingan obat tersebut adalah 0,0001.
Dalam Percobaan Binomial, setiap pasangan (n, p) mendefinisikan suatu Distribusi
Peluang Binomial secara khusus. Artinya, untuk n yang sama tetapi nilai peluang p-
nya berbeda, akan menghasilkan distribusi peluang yang berbeda pula. Keadaan ini
diilustrasikan dalam Gambar 3.5.
0 x 0 x 0 x
0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
n = 4; p = 0,3 n = 4; p = 0,5 n = 4; p = 0,7
70
Aturan 3.16
Jika X adalah suatu variabel acak binomial, maka
E(X) = m = np ................................................ ...................................... [3.18]
dan
Var(X) = s2 = np(1 p) .................................................. ..................... [3.19]
Contoh 3.14
Catatan sebuah toko swalayan menunjukkan bahwa 20% orang yang berbelanja di
toko tersebut menggunakan kartu kredit untuk membayar belanjaannya. Misalkan
pada suatu pagi terdapat 10 orang yang berbelanja di toko tersebut.
a. Tentukan peluang bahwa 3 orang diantaranya membayar dengan kartu
kredit
b. Tentukan peluang bahwa paling sedikit 2 orang diantaranya membayar
dengan kartu kredit
c. Tentukan peluang bahwa paling sedikit 4 orang tetapi tidak lebih dari 6
orang yang membayar dengan kartu kredit
d. Tentukan nilai harapan dan varians dari jumlah orang yang berbelanja
dengan kartu kredit
Penyelesaian:
Misalkan X adalah jumlah orang yang berbelanja di toko tersebut yang membayar
belanjaannya dengan kartu kredit. Dalam kasus ini kita dihadapkan pada percobaan
binomial dengan n = 10 dengan p = 0,2.
a. Peluang bahwa tiga orang dari ke-10 orang tersebut membayar dengan
kartu kredit adalah:
10!
P( X = 3) = 0,23 (1 - 0,2)10-3 = 0,201
3!× (10 - 3)!
b. Peluang bahwa paling sedikit 2 orang diantaranya membayar dengan kartu
kredit dapat lebih mudah dihitung dengan menggunakan sifat distribusi
peluang yaitu bahwa
P(X = 0) + P(X = 1) + P(X = 2) + ...+ P(X = 10) = 1, oleh karena itu,
P( X ³ 2) = P( X = 2) + P( X = 3)) + + P( X = 10)
= 1 - [P( X = 0) + P( X = 1)]
= 1 - (0,107 + 0,269) = 0,624
71
c. Peluang bahwa paling sedikit 4 orang tetapi tidak lebih dari 6 orang yang
membayar dengan kartu kredit adalah
P(4 £ X £ 6) = P( X = 4) + P( X = 5) + P( X = 6)
= 0,088 + 0,027 + 0,005 = 0,120
d. E(X) = n ´ p = 2
Var(X) = n ´ p ´ (1 p) =1,6
72
4 Pe n g a m bil a n Sam p el d a n Di s t ri b u si
Sa m pli n g
4.1 Pendahuluan
Ilmu Statistika pada dasarnya berkaitan dengan penarikan kesimpulan/generalisasi, yang meliputi
pendugaan dan pengujian tentang karakteristik populasi berdasarkan informasi yang diperoleh dari
sampel. Misalnya, seorang wartawan mengatakan bahwa 75% penduduk menghendaki agar seorang
putra daerah dapat terpilih sebagai bupati di daerah tersebut, berdasarkan hasil wawancaranya
dengan beberapa orang penduduk di suatu tempat. Pernyataan ini merupakan kesimpulan wartawan
tersebut tentang keadaan suatu populasi (penduduk di daerah tersebut) berdasarkan sampel yang
diambilnya (beberapa orang penduduk yang diwawancarainya). Dalam kasus ini, parameter
populasinya adalah proporsi keinginan seluruh masyarakat di daerah tersebut, sedangkan statistik
sampelnya adalah proporsi keinginan dari penduduk yang diwawancarainya saja.
Contoh lain, misalnya suatu perguruan tinggi bermaksud untuk menaikkan uang kuliah bagi
mahasiswanya. Salah satu pertimbangan dalam menentukan besar kenaikan uang kuliah tersebut,
diantaranya adalah rata-rata penghasilan orang tua mahasiswa di perguruan tinggi tersebut. Untuk
mengetahui hal ini, dilakukan survei terhadap 100 mahasiswa yang masing-masing ditanya tentang
besar penghasilan orang tuanya per bulan. Dalam kasus ini kita melakukan pendugaan terhadap
parameter populasi, yaitu rata-rata penghasilan per bulan dari seluruh orang tua mahasiswa di
perguruan tinggi tersebut, dengan mengunakan statistik sampel, yaitu rata-rata penghasilan per bulan
dari ke 100 orang tua mahasiswa yang disurvei. Prosedur pendugaan parameter populasi akan
dibahas secara rinci dalam Bab 5.
Pada kasus yang lain, misalnya diketahui bahwa rata-rata produksi padi di suatu daerah di Kalimantan
Barat adalah 2,65 ton/ha. Akhir-akhir ini Dinas Pertanian di daerah tersebut telah memperkenalkan
suatu varietas unggul kepada petani untuk dikembangkan di daerah tersebut. Diharapkan introduksi
varietas unggul tersebut dapat meningkatkan produksi padi di daerah tersebut. Untuk menguji
anggapan tersebut, maka Dinas Pertanian mengambil sampel berupa beberapa petak sawah di daerah
tersebut yang ditanami oleh varietas unggul dimaksud (hal ini biasa dilakukan dengan mengambil
sampel melalui ubinan), lalu dihitung rata-rata produksinya. Dalam kasus ini kita dihadapkan pada
pengujian hipotesis tentang rata-rata produksi padi di daerah tersebut. Prosedur pengujian hipotesis
tentang parameter populasi akan dibahas dalam Bab 6.
Alasan utama dilakukannya pengambilan sampel dalam mengamati suatu fenomena pada umumnya
adalah karena keterbatasan dalam pembiayaan, tenaga dan waktu yang tersedia. Penggunaan
Statistika Inferensial sangat membantu dalam mengambil kesimpulan tentang keadaan populasi
dengan berdasarkan pada informasi yang berasal dari suatu sampel yang ukurannya jauh lebih kecil
dari ukuran populasinya.
Dalam setiap kasus di atas, nilai statistik dihitung semata-mata berdasarkan atas sampel yang diambil
dari suatu populasi, dan kesimpulan tentang parameter populasi diambil berdasarkan informasi dari
sampel tersebut. Kita tidak pernah tahu secara pasti apakah kesimpulan tersebut salah atau benar,
karena nilai statistik sampel dapat berubah tergantung pada nilai pengamatan yang terkandung dalam
sampel tersebut. Oleh karena itu, statistik sampel juga merupakan suatu variabel acak karena dari
suatu populasi yang sama dapat diambil berbagai sampel yang berbeda, masing-masing dengan
statistik sampel yang berbeda pula. Sebagai suatu variabel acak, statistik sampel mempunyai distribusi
81
peluang tersendiri yang disebut distribusi sampling. Keragaman statistik sampel tersebut akan sangat
tergantung pada ukuran populasi, ukuran sampel dan metode penarikan sampelnya.
Definisi
Distribusi peluang statistik sampel disebut distribusi sampling (sampling distribution) dari
statistik tersebut.
Bab ini akan membahas beberapa distribusi sampling yang dianggap penting karena sering digunakan
dalam Ilmu Statistika. Sedangkan aplikasi dari distribusi sampling tersebut akan dibahas secara lebih
rinci dalam Bab 5 dan 6.
82
Contoh 4.1
Misalnya kita akan mengambil suatu sampel berukuran n = 9 dari suatu populasi yang terdiri atas 672
orang penduduk di suatu kampung. Untuk itu, setiap penduduk kita beri kode dengan nomor mulai
dari 0 sampai 671 (atau dari 1 sampai 672). Ke-9 orang yang akan kita pilih sebagai sampel acak
ditentukan dengan menggunakan Tabel Lampiran 1. Misalkan titik awalnya adalah baris ke 13 kolom
ke 7 dengan arah menurun. Dengan cara ini maka nomor yang terpilih adalah seperti tercantum dalam
tabel berikut:
675 Í 213 P 923 Í 892 Í
884 Í 587 P 852 Í 029 P
442 P 232 P 649 Í 551 P
710 Í 726 Í 202 P 461 P
833 Í 239 P 893 Í
Perhatikan bahwa kita harus mengambil lebih dari 9 nomor dari tabel tersebut karena beberapa
nomor yang terpilih harus kita coret (ditandai dengan Í) karena lebih besar dari 671 (kode tertinggi
yang kita berikan untuk penduduk di kampung tersebut). Sehingga sampel acak yang dimaksud terdiri
atas penduduk dengan nomor kode berikut:
442 202
213 29
587 551
232 461
239
õ
Karena setiap anggota populasi diusahakan agar mempunyai peluang yang sama untuk terpilih sebagai
anggota sampel, maka nilai peluang bagi sampel yang diambil secara acak dapat kita tentukan. Nilai
peluang tersebut dapat kita gunakan untuk membuat inferens tentang karakteristik populasinya.
Sampel yang diambil secara tidak acak (nonrandom samples) tidak kita ketahui peluangnya sehingga
tidak dapat kita gunakan untuk melakukan inferens. Selain itu, sampel yang demikian seringkali
terdistorsi oleh bias, yang terjadi karena terciptanya suatu keadaan yang terlalu mewakili atau
kurang mewakili bagian tertentu dari populasinya.
Pengambilan sampel secara acak dapat dilakukan baik dengan program MINITAB maupun Excel.
Untuk itu, daftar individu yang akan disampel harus disimpan dulu dalam suatu kolom, misalnya dalam
kolom C1 untuk MINITAB atau dalam kolom A untuk Excel.
Dalam MINITAB penarikan sampel dilakukan dengan memilih menu
Calc Random Data Sample From Columns...
Perintah tersebut akan mengaktifkan jendela Sample From Columns seperti terlihat dalam Gambar
4.1.
83
Gambar 4.1 Tampilan Jendela Penarikan Sampel dalam MINITAB
Dalam Excel penarikan sampel dilakukan dengan memilih menu
Tools Data Analysis
lalu pilih Sampling dalam jendela Data Analysis. Perintah tersebut akan mengaktifkan jendela
Sampling seperti terlihat dalam Gambar 4.2.
Untuk memberikan ilustrasi tentang betapa pentingnya distribusi sampling dalam statistik inferensial,
perhatikan persoalan berikut ini. Sebuah perusahaan besar yang bergerak di bidang pasar swalayan
mempunyai ratusan toko yang tersebar di hampir setiap kota besar dengan rata-rata volume
penjualan setiap harinya adalah Rp40 juta per toko. Dalam rangka meningkatkan volume
penjualannya, perusahaan tersebut mengadakan promosi, dimana selama masa promosi tersebut,
setiap pembeli mendapat potongan harga sebesar 10%. Misalkan selama masa promosi tersebut
diambil secara acak 30 buah toko milik perusahaan tersebut, dan dari sampel tersebut diketahui
bahwa rata-rata penjualan per harinya adalah Rp41 juta, dapatkah kita simpulkan bahwa promosi
tersebut telah secara efektif meningkatkan volume penjualan perusahaan tersebut?
Dalam kasus di atas, kita dihadapkan pada persoalan yang berkaitan dengan pendugaan dan pengujian
tentang parameter populasi m, yaitu rata-rata volume penjualan per hari dari semua toko yang dimiliki
oleh perusahaan tersebut. Jika promosi tersebut telah secara efektif meningkatkan volume penjualan,
84
maka m haruslah lebih besar dari Rp40 juta. Akan tetapi, informasi yang kita punyai hanyalah statistik
x dari 30 buah toko yang merupakan suatu sampel acak. Melihat kenyataan tersebut kita dapat serta
merta berkesimpulan bahwa promosi tersebut telah meningkatkan volume penjualan perusahaan
tersebut, karena x (= Rp41 juta) lebih besar dari Rp40 juta. Akan tetapi, hal ini belum tentu
sepenuhnya benar. Pengambilan keputusan tentang parameter populasi m sangat tergantung pada
seberapa dekat nilai statistik x terhadap nilai parameter m. Jika kita percaya bahwa nilai x sangat
mendekati nilai m, maka dapat kita simpulkan bahwa m lebih besar dari Rp40 juta. Akan tetapi, jika
nilai x sangat berbeda dengan nilai m, maka nilai m yang sebenarnya mungkin masih sekitar Rp40 juta,
atau bahkan dapat saja lebih kecil dari Rp40 juta. Sayangnya, dari informasi yang tersedia, kita tidak
dapat menentukan hubungan kedekatan antara x dengan m. Untuk menjawab persoalan tersebut
kita harus mengetahui distribusi sampling dari x .
Untuk memberikan gambaran tentang distribusi sampling secara lebih jelas, perhatikan contoh
sederhana berikut ini. Misalkan dalam suatu wadah terdapat empat buah kelereng yang yang ditandai
dengan angka 5, 6, 7 dan 8. Misalkan keempat kelereng tersebut dapat kita anggap sebagai suatu
populasi dari variabel X, yaitu angka yang tertera pada setiap kelereng tersebut. Maka, distribusi
peluang bagi variabel X adalah
x 5 6 7 8
p(x) ¼ ¼ ¼ ¼
dan rata-rata populasinya (nilai harapan bagi X) adalah
mx = å x × p(x) = 5(1 4) + 6(1 4) + 7(1 4) + 8( 1 4) = 6 1 2
serta varians populasinya adalah
s 2 = å ( xi - m x ) × p(x)
2
= ( 5 - 6 21 ) × ( 1 4 ) + ( 6 - 6 21 ) × ( 1 4 ) + ( 7 - 6 21 ) × ( 1 4 ) + ( 8 - 6 21 ) × ( 1 4 ) = 1 41
2 2 2 2
Andaikan rata-rata populasi tesebut ( mx) tidak kita ketahui dan kita bermaksud menduga nilainya
dengan mengambil suatu sampel berukuran n = 2. Pada prakteknya, biasanya kita hanya mengambil
satu sampel saja sehingga hanya akan ada satu nilai x saja, tetapi untuk melihat hubungan antara x
dengan mx, kita akan memeriksa semua kemungkinan sampel berukuran n = 2. Misalkan sampel
tersebut diambil dengan pengembalian, artinya kita ambil satu buah kelereng lalu angka yang tertera
pada kelereng tersebut kita catat, kemudian kelereng tersebut kita kembalikan ke dalam wadah
sebelum kita mengambil kelereng yang kedua. Dengan cara ini, akan terdapat 16 kemungkinan
sampel yang dapat terambil yang masing-masing menghasilkan satu nilai rata-rata sampel x . Karena
rata-rata sampel x tersebut nilainya bervariasi secara acak dari satu sampel ke sampel lainnya, maka
x dapat dianggap sebagai suatu nilai dari sebuah variabel baru, yaitu X , yang dibangkitkan oleh
prosedur pengambilan sampel tersebut. Ke-16 kemungkinan sampel tersebut beserta nilai rata-
ratanya disajikan dalam Tabel 4.1.
Tabel 4.1 Daftar Semua Kemungkinan Sampel Berukuran n = 2, dengan Pengembalian, dari
Suatu Populasi Berukuran N = 4
No. Sampel x No. Sampel x No. Sampel x
1 5; 5 5 7 6; 7 6½ 13 8; 5 6½
2 5; 6 5½ 8 6; 8 7 14 8; 6 7
3 5; 7 6 9 7; 5 6 15 8; 7 7½
4 5; 8 6½ 10 7; 6 6½ 16 8; 8 8
5 6; 5 5½ 11 7; 7 7
6 6; 6 6 12 7; 8 7½
85
Karena setiap sampel mempunyai peluang yang sama untuk terambil, maka peluang masing-masing
sampel tersebut adalah 1/16. Perhatikan bahwa nilai rata-rata sampel bervariasi, mulai dari 5 sampai
8, tergantung pada nilai X yang terambil sebagai sampel. Nilai x = 5 terjadi hanya satu kali, sehingga
peluangnya adalah 1/16, sedangkan nilai x = 5½ dapat terjadi melalui dua cara, yaitu jika sampel yang
terambil adalah (5; 6) atau (6; 5), sehingga peluangnya adalah 2/16. Peluang bagi nilai-nilai x lainnya
dapat ditentukan dengan cara yang sama. Keseluruhan nilai-nilai tersebut membentuk suatu
distribusi peluang bagi rata-rata sampel yang disebut juga distribusi sampling bagi X . Distribusi
sampling bagi X disajikan dalam Tabel 4.2.
p(x) p(x)
0.25 0.25
0 0
5 6 7 8 x 5 5,5 6 6,5 7 7,5 8 X
86
Keadaan ini menunjukkan bahwa varians dari rata-rata sampel lebih kecil daripada varians
s 2 1,25
populasinya, dan hal ini berlaku umum. Perhatikan bahwa s x2 = = = 0,625 . Artinya, semakin
n 2
besar ukuran sampelnya maka varians rata-rata sampelnya akan semakin kecil. Simpangan baku dari
rata-rata sampel, s x , disebut sebagai galat baku (standard error) bagi rata-rata, dan merupakan suatu
ukuran keragaman nilai rata-rata dari satu sampel ke sampel lainnya.
Andaikan sampel yang kita ambil tanpa pengembalian, artinya kita ambil dua buah kelereng sekaligus,
maka dengan cara ini akan terdapat 6 kemungkinan sampel yang terambil (Tabel 4.3). Dengan cara
inipun, kita peroleh bahwa rata-rata dari ke-6 nilai rata-rata sampel sama dengan rata-rata populasi,
yaitu 6½. Sedangkan variansnya adalah s x2 = 512 = 0,4167
Tabel 4.3 Daftar Semua Kemungkinan Sampel Berukuran n = 2, Tanpa Pengembalian, dari
Suatu Populasi Berukuran N = 4
No. Sampel x
1 5; 6 5½
2 5; 7 6
3 5; 8 6½
4 6; 7 6½
5 6; 8 7
6 7; 8 7½
Secara umum, dapat ditunjukkan bahwa rata-rata dan varians dari suatu distribusi sampling X
tergantung pada nilai rata-rata dan varians populasinya serta ukuran sampelnya.
Aturan 4.1
Jika suatu sampel acak berukuran n diambil dari suatu populasi yang mempunyai rata-rata m dan
varians s2, maka:
i) distribusi sampling dari X akan mempunyai nilai harapan sama dengan m
E ( X ) = m x = m .................................................. .................................................. [4.1]
ii) jika populasinya tidak terbatas (sangat besar) atau jika penarikan sampelnya dilakukan
dengan pengembalian maka varians dari X adalah
s2
Var ( X ) = s x2 = .................................................. ............................................[4.2]
n
iii) jika penarikan sampel dilakukan tanpa pengembalian dari suatu populasi yang berukuran N
(terbatas) maka varians dari X adalah
s2 æ N-n ö
Var ( X ) = s x2 = .................................................. ..............................[4.3]
n çè N - 1 ø÷
Dalam contoh di atas terlihat betapa distribusi sampling dari X mempunyai bentuk seperti genta yang
simetris (Gambar 4.3.b), padahal populasi asalnya mempunyai bentuk distribusi yang seragam
(Gambar 4.3.a). Sesungguhnya keadaan ini berlaku umum, yaitu bahwa, bentuk distribusi sampling
dari X akan semakin mendekati Distribusi Normal dengan semakin besarnya ukuran sampelnya dan
hal ini tidak tergantung pada bentuk distribusi populasi asalnya. Keadaan ini dirumuskan dalam
sebuah dalil yang sangat penting dalam statistik, yaitu Dalil Limit Pusat (central limit theorem).
87
Aturan 4.2 Dalil limit pusat
Misalkan x1, x2, ..., xn adalah suatu sampel acak yang diambil dari suatu populasi yang mempunyai
rata-rata m dan varians s2. Misalkan pula rata-rata sampel tersebut adalah X . Jika n cukup besar
maka distribusi sampling bagi X akan mendekati Distribusi Normal dengan rata-rata m dan
s2
varians .
n
Dalil tersebut mungkin tidak akan terlalu bermanfaat jika pendekatan terhadap Distribusi Normal
tersebut hanya berlaku ketika n sangat besar. Namun demikian, kenyataan menunjukkan bahwa
pendekatan tersebut ternyata cukup baik pada banyak kasus, bahkan ketika ukuran sampelnya kecil.
Beberapa konvensi yang sering digunakan berkaitan dengan penerapan Dalil Limit Pusat ini
diantaranya adalah sebagai berikut:
1. pada umumnya, distribusi sampling dari X akan mendekati distribusi Normal jika ukuran
sampelnya lebih besar dari 30
2. jika distribusi populasi asalnya simetris, maka distribusi sampling dari X akan mendekati
distribusi Normal jika ukuran sampelnya lebih besar dari 15
3. jika populasi asalnya berdistribusi Normal, maka distribusi sampling dari X juga akan
berdistribusi Normal berapapun ukuran sampelnya
Dalil tersebut memungkinkan kita untuk membuat inferens tentang rata-rata populasi tanpa harus
secara khusus mengetahui bentuk distribusi populasinya. Oleh karena itu, dalil limit pusat mempunyai
peranan yang penting dalam penggunaan statistik inferensial untuk menarik kesimpulan tentang
keadaan populasi.
Contoh 4.2
Sebuah perusahaan pupuk organik cair menjual produksinya dalam botol kemasan berisi 1 liter.
Diketahui bahwa isi botol tersebut sebenarnya berdistribusi Normal dengan rata-rata 1,02 liter dan
simpangan baku 0,04 liter.
a. Jika seseorang membeli satu botol pupuk cair tersebut, tentukan nilai peluangnya bahwa
botol tersebut berisi paling tidak 1 liter larutan
b. Jika seorang ketua kelompok tani membeli 20 botol untuk keperluan anggota kelompok
taninya, tentukan peluangnya bahwa rata-rata dari ke-20 botol tersebut paling sedikit adalah
1 liter per botol.
Penyelesaian
a. Dalam hal ini kita harus menentukan nilai P(X > 1) jika diketahui bahwa X berdistribusi Normal
dengan m =1,02 dan s = 0,04. Oleh karena itu, nilai peluangnya dapat ditentukan dengan
bantuan Tabel Normal Baku (Tabel Lampiran 2) dengan terlebih dahulu mentransformasi nilai
variabel X menjadi Z. Nilai z untuk x = 1 adalah
x-m 1 - 1,02
z= = = -0,5
s 0,04
dari tabel normal baku diperoleh bahwa P(X > 1) = P(Z > 0,5) = 0,6915
b. Untuk kasus kedua, kita diminta untuk menghitung peluang bahwa rata-rata dari suatu sampel
berukuran n = 20 lebih dari 1 liter. Artinya kita ingin mengetahui P( X > 1). Dengan Dalil Limit
Pusat kita tahu bahwa X merupakan variabel acak yang berdistribusi Normal dengan
s 0,04
mx = m = 1,02 dan s x = = = 0,00894 . Dengan transformasi Z, maka
n 20
88
æ x - m x 1 - 1,02 ö
P ( X > 1) = P ç > ÷
è sx 0,00894 ø
= P ( z > -2,24 ) = 0,9875
Pada awal Subbab 4.3 ini, dikemukakan persoalan yang dihadapi oleh perusahaan pasar swalayan
dalam mengevaluasi rata-rata volume penjualan selama masa promosi. Pada dasarnya, persoalannya
adalah: jika dari suatu sampel yang berukuran n = 30 diperoleh rata-rata penjualan per hari ( x )
sebesar Rp41 juta per toko, dapatkah kita kita katakan bahwa rata-rata penjualan per hari dari seluruh
toko yang dimiliki perusahaan tersebut ( m) lebih besar dari Rp40 juta?
Misalkan simpangan baku populasi volume penjualan per harinya (s) adalah Rp10 juta. Dengan dalil
limit pusat kita ketahui bahwa x akan mendekati distribusi Normal dengan m x = m dan
s 10.000.000
sx = = = 1.825.742 . Jika kita asumsikan bahwa rata-rata volume penjualan selama
n 30
masa promosi adalah Rp40 juta, maka
æ x - m x 41.000.000 - 40.000.000 ö
P ( X > 41.000.000 ) = P ç > ÷
è sx 1.825.742 ø
= P ( z > 0,55) = 0,2912
Keadaan ini menunjukan bahwa x mempunyai peluang yang cukup besar untuk bernilai sebesar Rp41
juta. Artinya, untuk populasi tersebut (dengan m = Rp40 juta dan s = Rp10 juta), diperolehnya nilai
rata-rata sampel sebesar Rp41 juta merupakan suatu hal yang tidak istimewa. Sehingga dapat kita
simpulkan bahwa rata-rata populasi volume penjualan perusahan tersebut selama masa promosi
adalah masih sekitar Rp40 juta. Dengan demikian, dapat kita katakan bahwa promosi yang dilakukan
oleh perusahaan tersebut tidak berhasil meningkatkan volume penjualannya.
Akan tetapi, andaikan simpangan baku populasi volume penjualan per harinya (s) adalah Rp2,5 juta,
s 2.500.000
maka s x = = = 456.435 sehingga
n 30
æ x - m x 41.000.000 - 40.000.000 ö
P ( X > 41.000.000 ) = P ç > ÷
è sx 456.435 ø
= P ( z > 2,19 ) = 0,0143
Hal ini menunjukkan bahwa kecil sekali kemungkinannya untuk memperoleh suatu nilai x yang lebih
dari Rp41 juta, jika rata-rata populasi sebenarnya adalah Rp40 juta. Oleh karena itu, dalam kasus ini
kita dapat mengatakan bahwa promosi yang dilakukan perusahaan tersebut telah berhasil
meningkatkan rata-rata volume penjualan per harinya.
Kedua kesimpulan yang saling bertentangan tersebut semata-mata dihasilkan karena adanya
perbedaan nilai simpangan baku populasinya (ingat bahwa simpangan baku mencerminkan
penyebaran data atau variasi data). Dalam kasus pertama (s = Rp10 juta), volume penjualan
perusahaan tersebut sangat bervariasi dari satu toko ke toko lainnya. Sehingga walaupun rata-rata
penjualan per bulan seluruh tokonya adalah Rp40 juta, dapat dipastikan bahwa volume penjualan
beberapa buah tokonya bahkan lebih dari Rp41 juta. Sebaliknya, pada kasus kedua, variasi volume
penjualan sangatlah kecil (s = Rp2,5 juta), sehingga jarang sekali ada toko yang volume penjualannya
mencapai Rp41 juta.
89
4.4 Distribusi sampling bagi selisih rata-rata sampel
Di dalam melakukan suatu penelitian kita seringkali dihadapkan pada persoalan yang melibatkan dua
populasi yang berbeda. Misalnya, ketika kita mencoba untuk menjawab persoalan yang dinyatakan
dalam bentuk pertanyaan-pertanyaan seperti berikut ini:
1. Apakah rata-rata produksi padi varietas A sama dengan rata-rata produksi padi varietas B?
2. Samakah rata-rata alokasi waktu senggang yang digunakan oleh eksekutif muda wanita
dengan yang digunakan oleh eksekutif muda pria untuk bersosialisasi dengan masyarakat di
sekitarnya?
3. Apakah rata-rata produksi padi per hektar di daerah S sama dengan rata-rata produksi padi
per hektar di daerah T?
Dalam setiap kasus tersebut kita mempunyai dua populasi yang berbeda: populasi pertama dengan
rata-rata m1 dan varians s12, dan populasi kedua dengan rata-rata m2 dan varians s22. Misalkan X1
adalah rata-rata dari sampel acak yang berukuran n1 yang diambil dari populasi pertama dan X2 adalah
rata-rata dari sampel acak yang berukuran n2 yang diambil dari populasi kedua.
Telah kita bahas sebelumnya bahwa X1 dan X2 masing-masing adalah variabel acak yang nilainya
bervariasi dari satu sampel ke sampel lainnya. Oleh karena itu, selisih dari kedua rata-rata sampel
tersebut, X1 - X2 , juga merupakan suatu variabel acak yang nilai-nilainya juga bervariasi dari satu
sampel ke sampel lainnya. Distribusi dari selisih antara nilai rata-rata sampel, x1 - x2 , disebut sebagai
distribusi sampling dari statistik X1 - X2 . Jika n1 cukup besar, maka de-ngan menggunakan Dalil Limit
Pusat, distribusi sampling bagi X1 akan mendekati distribusi Normal, hal yang sama juga berlaku untuk
distribusi sampling bagi X2 . Dengan demikian, jika n1 dan n2 cukup besar maka distribusi sampling
bagi X1 - X2 pun akan mendekati Distribusi Normal walaupun populasi asalnya mungkin tidak
berdistribusi Normal.
E ( X1 - X 2 ) = m x1 - x2 = m1 - m2 .................................................. ....................................[4.4]
90
Contoh 4.3
Rata-rata tinggi badan mahasiswa suatu perguruan tinggi adalah 162 cm dengan simpangan baku 4
cm, sedangkan rata-rata tinggi badan mahasiswinya adalah 158 cm dengan simpangan baku 5 cm. Jika
diambil secara acak 36 orang mahasiswa dan 49 orang mahasiswi, berapakah peluang bahwa rata-rata
tinggi badan sampel mahasiswa tersebut akan 6 cm lebih tinggi dari sampel mahasiswi?
Penyelesaian:
Diketahui: m1 = 162; s1 = 4; n1 = 36
m2 = 158; s1 = 5; n1 = 49
Dengan Aturan 4.3, maka distribusi sampling bagi X1 - X2 akan mendekati Distribusi Normal dengan
rata-rata dan simpangan baku sebagai berikut:
mx1 - x2 = 162 - 158 = 4
42 52
s x21 - x2 = + = 0,977
36 49
untuk x1 - x2 = 6, kita peroleh
6-4
z= = 2,01 ,
0.997
sehingga
P ( X1 - X2 ³ 6 ) = P ( Z ³ 2,01) = 0,0222
91
Aturan 4.4 Distribusi sampling bagi P
Misalkan suatu sampel acak berukuran n diambil dari suatu Populasi Binomial dengan rata-rata
m = np dan varians s2 = np(1-p), maka distribusi sampling bagi P akan mendekati Distribusi
Normal dengan nilai harapan
Contoh 4.4
Dalam suatu pemilihan kepala desa diketahui bahwa 55% pemilih memilih salah satu kandidat kepala
desa, sebut saja A. Misalkan kita ambil suatu sampel acak yang terdiri dari 100 orang pemilih,
berapakah peluang bahwa kita akan salah menduga pemenang pemilihan kepala desa tersebut?
Penyelesaian:
Dalam kasus ini diketahui bahwa p = 0,55 dan n = 100. Untuk dapat menggunakan pendekatan
Distribusi Normal periksa lebih dulu bahwa np ³ 5 dan n(1-p) ³ 5. Untuk kasus ini np = 55 dan n(1 p)
= 45, sehingga variabel acak P akan mendekati Distribusi Normal dengan rata-rata p = 0,55 dan
varians s2 = p(1 p)/n = 0,002475.
Kita akan salah menduga pemenang pemilihan tersebut jika dari hasil sampel diperoleh nilai p < 0,5,
yaitu kurang dari 50% pemilih memilih kandidat A. Dengan demikian, kita diminta menentukan
P( p < 0,5). Faktor koreksi kekontinuannya adalah 0,5/100 = 0,005, sehingga nilai z untuk p = 0,5 +
0,005 = 0,505 adalah
0,505 - 0,55
z= = -0,90
0,002475
Dengan demikian peluang bahwa kita akan salah menduga pemenang pemilihan kepala desa tersebut
adalah
92
P( p < 0,5) P(Z < 0,90) = P(Z > 0,90) = 0,1841
4.6 Distribusi t
Sampai sejauh ini kita telah membahas berbagai distribusi sampling yang umumnya dapat
dikelompokkan ke dalam dua kasus berikut:
1. Populasi asalnya berdistribusi Normal dan varians populasinya diketahui nilainya
2. Distribusi populasi asalnya mungkin tidak diketahui, akan tetapi ukuran sampelnya cukup
besar (n > 30)
(x - m)
Pendekatan Distribusi Normal Baku melalui Transformasi z = selalu kita lakukan untuk
s n
menentukan nilai-nilai peluang bagi distribusi sampling dari statistik yang dimaksud. Walaupun nilai
s tidak diketahui, jika ukuran sampelnya cukup besar, maka simpangan baku sampel s merupakan
penduga yang baik bagi s, sehingga nilai s / n dapat digunakan sebagai penyebut dalam
(x - m )
transformasi z tersebut dan z = masih mendekati Distribusi Normal Baku.
s n
Akan tetapi, jika ukuran sampelnya kecil (n < 30), maka nilai varians sampel s2 akan sangat berfluktuasi
(x - m )
dari satu sampel ke sampel lainnya dan nilai-nilai tidak lagi berdistribusi Normal Baku. Dalam
s n
hal ini kita berhadapan dengan suatu distribusi dari suatu statistik T, yang nilai-nilainya adalah
(x - m )
t= ...................................................................................................... [4.10]
s n
Distribusi dari statistik T tersebut pertama kali diperkenalkan oleh William S. Gosset (1876-1937) pada
tahun 1908. Waktu itu dia menggunakan nama samaran Student dalam mempublikasikan hasil
temuannya tersebut, sehingga distribusi tersebut disebut sebagai distribusi t-Student (Students t
distribution) atau biasa disebut sebagai distribusi t. Waktu itu W.S. Gosset mengasumsikan bahwa
sampelnya diambil dari suatu populasi yang berdistribusi Normal. Namun demikian, dapat
ditunjukkan bahwa populasi yang tidak berdistribusi Normalpun masih akan menghasilkan nilai-nilai T
yang sangat mendekati Distribusi t, asalkan mempunyai bentuk distribusi seperti genta.
Beberapa sifat Distribusi t
1. Distribusi t mempunyai beberapa persamaan dengan Distribusi Normal Baku, yaitu sama-
sama simetris terhadap titik 0, mempunyai bentuk distribusi seperti genta dengan kisaran dari
-µ sampai +µ, dan nilai harapannya adalah 0
2. Distribusi t tergantung pada suatu parameter n, yang disebut sebagai derajat bebas (degrees
of freedom), dimana n = n 1. Jika ukuran sampelnya semakin besar, maka derajat
bebasnyapun akan semakin besar dan bentuk distribusinya akan semakin mendekati bentuk
Distribusi Normal Baku.
3. Varians dari Distribusi t selalu lebih besar dari 1. Untuk n > 2, varians dari Distribusi t adalah
n
n -2
4. Suatu Distribusi t dibedakan dengan Distribusi t yang lainnya oleh derajat bebasnya.
Gambar 4.4 memberikan suatu ilustrasi bahwa dengan semakin besarnya derajat bebas dari distribusi
t maka bentuk distribusinya semakin mendekati Distribusi Normal Baku. Kecenderungan ini juga dapat
93
dilihat pada nilai-nilai t dalam Tabel Distribusi t (Lampiran 3). Nilai-nilai tersebut semakin mendekati
nilai Z ketika derajat bebasnya semakin besar. Nilai t akhirnya sama dengan nilai Z ketika derajat
bebasnya = .
distribusi t, n = 2
-4 -2 0 2 4
Aturan 4.5
Misalkan x dan s2 masing-masing adalah rata-rata dan varians dari suatu sampel berukuran n
yang diambil dari suatu populasi Normal dengan rata-rata populasi m dan varians s2 yang tidak
diketahui besarnya, maka
(x - m )
t=
s n
adalah sebuah nilai dari variabel acak T yang mempunyai Distribusi t dengan derajat bebas
n=n1
Karena variabel acak T merupakan variabel acak yang kontinu, maka nilai-nilai peluangnya dinyatakan
sebagai luas di bawah kurva distribusi t yang bersangkutan. Akan tetapi, karena setiap derajat bebas
mendefinisikan suatu distribusi t tertentu, maka sangat tidak mungkin untuk menyajikan luas daerah
di bawah setiap kurva Distribusi t dalam sebuah tabel. Tabel Lampiran 3 hanya menyajikan nilai-nilai
t yang membuat luas daerah di salah satu ujung distribusinya sama dengan a, untuk beberapa nilai a
tertentu saja, yaitu 10%, 5%, 2,5%, 1% dan 0,5%. Dalam tabel tersebut nilai-nilai a dicantumkan pada
judul kolom, sedangkan nilai-nilai t tercantum dalam badan tabel. Kolom paling kiri dari tabel tersebut
menyajikan derajat bebas dari distribusinya.
a
a
-t a 0 ta t
94
5 Pendugaan
5.1 Pendahuluan
Telah dikemukakan sebelumnya bahwa Statistika Inferensial berkaitan dengan
pembuatan inferens atau generalisasi atau penarikan kesimpulan terhadap
karakteristik tertentu dari suatu populasi berdasarkan informasi dari sampel yang
diambil dari populasi tersebut. Secara garis besar, penarikan kesimpulan tentang
populasi tersebut dapat dibagi menjadi dua topik utama, yaitu pendugaan dan
pengujian hipothesis tentang parameter populasi. Teori tentang pendugaan
parameter populasi akan di bahas di dalam bab ini, sedangkan teori tentang
pengujian hipotesis akan kita bahas pada Bab 6.
Sesuai dengan namanya, pendugaan terhadap suatu parameter populasi bertujuan
untuk menentukan nilai pendekatan atau nilai dugaan bagi parameter populasi
tersebut dengan menggunakan statistik sampel. Penduga bagi parameter populasi
dapat berupa penduga titik (point estimate) atau penduga selang (interval
estimate). Penduga titik diperoleh dengan menentukan suatu nilai tunggal, yang
dihitung dari data sampel sebagai penduga bagi parameter populasi tersebut.
Misalnya nilai rata-rata sampel x yang dihitung dari suatu sampel berukuran n
merupakan suatu penduga titik bagi parameter populasi m. Demikian juga p = x n
merupakan suatu penduga titik bagi proporsi p dari suatu Percobaan Binomial.
Dalam melakukan pendugaan, kita umumnya hanya mengambil satu sampel dari
sekian banyak kemungkinan sampel, dan nilai dugaan bagi parameter populasi
semata-mata dihitung berdasarkan sampel yang terambil tersebut. Sehingga
kesalahan dalam melakukan pendugaan akan sangat mungkin untuk terjadi. Oleh
karena itu, suatu nilai dugaan tidak diharapkan akan menduga parameter populasi
secara tepat, akan tetapi nilai dugaan tersebut diharapkan tidak terlalu jauh
menyimpang dari nilai yang diduganya. Dengan kata lain, penduga yang kita
inginkan adalah suatu statistik yang distribusi samplingnya mempunyai rata-rata
yang sama dengan nilai parameter populasinya.
Definisi:
Suatu statistik q dikatakan sebagai penduga tak bias (unbiased estimator) bagi
()
parameter q jika E q = q . Andaikan q adalah suatu penduga tak bias bagi
parameter q, maka q dikatakan sebagai penduga yang paling efisien jika
()
Var q lebih kecil dari semua penduga tak bias lainnya.
115
q2
q3
q1
q
q
116
sebutan selang kepercayaan (confidence interval) karena di dalamnya terkandung
suatu pengertian bahwa selang tersebut akan mengandung parameter populasi
dengan tingkat kepercayaan atau nilai peluang tertentu.
0,95
x1 x2 x3
a 0.0
-4.0 -3.0 -2.0 -1.0 1.0 m
2.0 3.0 4.0 b
5.0 6.0 7.0 8.0
117
Misalkan untuk menduga rata-rata populasi m, diambil sampel berukuran n dari
suatu populasi berdistribusi Normal dengan rata-rata populasi m dan variansi s 2 .
Telah kita tunjukkan pada bab 4 Subbab 4.3 bahwa distribusi sampling bagi X akan
berdistribusi Normal dengan rata-rata m x = m dan simpangan baku s x = s n.
Oleh karena itu variabel acak Z akan berdistribusi Normal Baku, dengan
X -m
Z= .................................................. .......................................... [5.1]
s n
Kita dapat menentukan suatu selang dimana Z akan terletak dalam selang tersebut
dengan nilai peluang tertentu menggunakan Tabel Normal Baku (Tabel Lampiran 2).
Misal untuk peluang 0,95 maka
P(z /2 < Z < z /2) = 0,95
dengan! = 1 0,95!=!0,05!sehingga! /2!=!0,05/2!=!0.025.!Dari Tabel Normal Baku
didapat nilai z /2!!sedemikian sehingga P(Z > Z /2) = 0,025 adalah 1,96. Oleh karena
itu
P(1,96< Z < 1,96) = 0,95
x -m
Dengan mensubstitusikan nilai Z = , maka pernyataan peluang tersebut
s n
setara dengan
æ x -m ö
P çç -1, 96 < < 1, 96 ÷÷ = 0, 95
è s n ø
0,95
0,025 0,025
- 1,96 0 1,96 z
118
æ s s ö
P ç x - 1, 96 < m < x + 1, 96 ÷ = 0, 95 ........................................ [5.2]
è n nø
Interprestasi dari Persamaan [5.2] tersebut adalah parameter populasi m akan
æ s ö æ s ö
terletak dalam suatu selang antara nilai ç x - 1,96 ÷ dan ç x + 1,96 ÷ dengan
è nø è nø
peluang 0,95. Dengan demikian selang kepercayaan 95% bagi m adalah
s s
x - 1,96 < m < x + 1,96 .................................................. .......... [5.3]
n n
atau biasa juga dinyatakan dalam bentuk
s
x ± 1,96 .................................................. ........................................ [5.4]
n
Nilai z/2 disebut sebagai nilai kritis (critical value) yang merupakan nilai z dari
variabel acak normal baku yang membuat luas daerah diujung kanan kurva sama
dengan a/2 (lihat Gambar 5.4). Nilai tersebut berkaitan erat dengan nilai peluang
yang disebut sebagai koefisien kepercayaan (confidence coefficient). Nilai kritis
akan berbeda nilainya untuk koefisien kepercayaan yang berbeda. Misalnya, jika
koefisien kepercayaan yang diinginkan adalah 99% maka nilai kritisnya adalah nilai
z/2 yang membuat luas daerah di ujung kanan kurva normal baku sama dengan /2=
(1 0,95)/2 = 0.025, sehingga z0,005 = 2,58. Secara umum, hubungan antara nilai
kritis dengan koefisien kepercayaan bagi variabel acak yang berdistribusi Normal
baku dapat dituliskan sebagai berikut
( )
P - za 2 < Z < za 2 = 1 - a .................................................. .................. [5.5]
1 - a`
a a
2 2
-z a/2 0 z a/2 z
119
s s
x - za 2 < m < x + za 2 .................................................. ............. [5.6]
n n
atau
s
x ± za 2 .................................................. ......................................... [5.7]
n
dimana za/2 adalah nilai kritis dari variabel acak normal baku yang membuat
luas daerah di ujung kanan kurva sama dengan a/2
Aturan 5.1 dapat juga diterapkan terhadap populasi normal yang nilai variansnya
(s2) tidak diketahui, asalkan ukuran sampelnya lebih besar dari 30. Untuk kasus ini,
s dapat diganti dengan simpangan baku sampel s.
Contoh 5.1
Seorang petugas quality control sebuah perusahaan kayu lapis melakukan
pengukuran terhadap ketebalan veneer yang akan digunakan sebagai lapisan paling
atas dari kayu lapis produksi perusahaan tersebut. Dari 50 sampel yang diperiksanya
diperoleh rata-rata ketebalan veneer 0,85 mm dengan simpangan baku 0,05 mm.
Tentukan selang kepercayaan 90%, 95% dan 99% bagi rata-rata ketebalan veneer
produksi perusahaan tersebut.
Penyelesaian
Karena ukuran sampelnya cukup besar (> 30), maka distribusi sampling bagi X akan
mendekati distribusi Normal dan simpangan baku populasi s dapat didekati dengan
nilai simpangan baku sampel s = 0,05 mm.
Dengan menggunakan Tabel Normal Baku (Tabel Lampiran 2) kita peroleh bahwa
nilai kritis dari z untuk koefisien kepercayaan 90% adalah z0,05 = 1,645. Sehingga
selang kepercayaan 90% bagi rata-rata ketebalan veneer (m) adalah
0,85 - (1,645)(0,05 50) < m < 0,85 + (1,645)(0,05 50)
atau
0,838 < m < 0,862
Untuk koefisien kepercayaan 95%, dari Tabel Lampiran 2 kita peroleh z0,025 = 1,96.
Sehingga selang kepercayaan 95% bagi rata-rata ketebalan veneer (m) adalah
0,85 - (1,96)(0,05 50) < m < 0,85 + (1,96)(0,05 50)
atau
0,836 < m < 0,864
120
Sedangkan untuk koefisien kepercayaan 99%, dari Tabel Lampiran 2 kita peroleh
z0,005 = 2,575. Sehingga selang kepercayaan 99% bagi rata-rata ketebalan veneer (m)
adalah
0,85 - (2,575)(0,05 50) < m < 0,85 + (2,575)(0,05 50)
atau
0,832 < m < 0,868
Perhatikan bahwa semakin tinggi koefisien kepercayaan maka selang kepercayaan
yang dihasilkan akan semakin lebar.
Selanjutnya ketik
>z.test(x,sigma.x=NULL, conf.level = 0.95)
Keterangan:
x Data sampel
sigma.x Standar deviasi dari populasi x jika variansi populasi diketahui atau
standar deviasi dari sampel x jika variansi populasi tidak diketahui
namun ukuran sampel lebih dari atau sama dengan 30
conf.level Tingkat kepercayaan
Jika kita hanya memiliki informasi ringkasan datanya saja seperti pada Contoh 5.1,
dapat digunakan perintah
zsum.test(mean.x, sigma.x = NULL, n.x = NULL, conf.level = 0.95)
Keterangan:
Mean.x Rata-rata sampel x
sigma.x Standar deviasi dari populasi dimana x diambil
n.x Ukuran sampel x
conf.level Tingkat kepercayaan
Dari soal diketahui rata-rata sampel adalah 0,85, simpangan baku 0.05 mm dan
ukuran sampel 50 untuk membuat estimasi interval konfidensi rata-rata populasi
ketebalan veneer dengan tingkat kepercayaan 90% menggunakan RConsole ketik
perintah berikut
>zsum.test(0.85, sigma.x = 0.05, n.x = 50, conf.level = 0.90)
121
One-sample z-Test
data: Summarized x
z = 120.2082, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
0.8383691 0.8616309
sample estimates: Batas bawah dan batas atas
estimasi selang kepercayaan
mean of x
90%
0.85
1 - a!
a a
2 2
-t a/2 0 t a/2 t
122
Dalam Gambar 5.5 nilai kritis ta/2 adalah nilai t yang membuat luas daerah di ujung
kanan kurva t sama dengan a/2. Nilai-nilai t tersebut dapat ditentukan dengan
menggunakan Tabel distribusi t dalam Tabel Lampiran 3. Hubungan antara nilai
kritis ta/2 dengan koefisien kepercayaan bagi variabel acak T dapat dinyatakan
sebagai berikut:
( )
P -ta 2 < T < ta 2 = 1 - a .................................................. ................... [5.9]
atau
æ x -m ö
P ç -ta 2 < < ta 2 ÷ = 1 - a .................................................. ......... [5.10]
ç s n ÷
è ø
Bentuk Persamaan [5.10] ekuivalen dengan
æ s s ö
P ç x - ta 2 < m < x + ta 2 ÷ = 1 - a ............................................ [5.11]
è n nø
yang merupakan selang kepercayaan bagi m dengan tingkat kepercayaan (1 a).
Aturan 5.2 Selang kepercayaan bagi m,!s! tidak diketahui dan n < 30
Jika dari suatu populasi Normal dengan rata-rata populasi m diambil suatu
sampel berukuran n (n < 30) diperoleh nilai rata-rata sampel x dan simpangan
baku sampel s, maka selang kepercayaan (1 a)100% bagi m adalah
s s
x - ta 2 < m < x + ta 2 .................................................. ........... [5.12]
n n
atau
s
x ± ta 2 .................................................. ....................................... [5.13]
n
dimana ta/2 adalah nilai kritis dari variabel acak T yang berdistribusi t dengan
derajat bebas
n = n 1, yang membuat luas daerah di ujung kanan kurva distribusi t sama
dengan a/2.
Pada prakteknya Aturan 5.2 dapat digunakan terhadap populasi yang tidak Normal
asalkan distribusinya tidak terlalu condong (skewed) dan ukuran sampelnya tidak
terlalu kecil.
Contoh 5.2
Sebuah sampel berukuran 10 keping kayu lapis diambil secara acak dari suatu proses
produksi perusahaan kayu lapis. Lebar ke-10 keping kayu lapis tersebut adalah
sebagai berikut (cm): 122, 121, 122, 123, 120, 122, 124, 122, 121, 123. Dengan
123
asumsi bahwa lebar kayu lapis tersebut berdistribusi mendekati normal, tentukan
selang kepercayaan 95% bagi rata-rata lebar kayu lapis produksi perusahaan
tersebut.
Penyelesaian
Rata-rata sampel ke-10 keping kayu lapis tersebut adalah x = 122 cm dengan
simpangan baku sampel s = 1,15 cm. Dari Tabel Lampiran 3 kita peroleh nilai t0,025 =
2,2622 untuk derajat bebas n = 9. Oleh karena itu, selang kepercayaan 95% bagi
rata-rata lebar kayu lapis produksi perusahaan tersebut adalah
122 - (2,2622)(1,15 / 10) < m < 122 + (2,2622)(1,15 / 10)
atau
121,18< m < 122,82
Contoh soal di atas dapat diselesaikan dengan bantuan R Commander dengan mem-
ilih Statistics Means Single-sampe-t test
124
Output dari R Commander untuk Contoh 5.2 di atas adalah sebagai berikut:
Jika kita hanya memiliki informasi ringkasan datanya saja, dapat digunakan package
BSDA dengan perintah
> tsum.test(mean.x, s.x = NULL, n.x = NULL, conf.level = 0.95)
Keterangan:
Mean.x Rata-rata sampel x
s.x Standar deviasi dari sampel x
n.x Ukuran sampel x
conf.level Tingkat kepercayaan
Untuk Contoh 5.1, kita dapat mengatakan bahwa dengan tingkat kepercayaan 90%,
galat penarikan sampel yang terjadi karena menduga m dengan nilai rata-rata
sampel x = 0,85 mm adalah tidak lebih dari 0,012 mm.
125
x - za ×s n x m x + za ×s n
2 2
Simpangan
(galat penarikan sampel)
Aturan 5.3
Dengan tingkat kepercayaan (1 a)100%, galat penarikan sampel yang terjadi
karena menduga rata-rata populasi dengan rata-rata sampel adalah tidak lebih
dari za 2 × s n .
Aturan 5.3 tersebut dapat kita gunakan untuk menentukan besar ukuran sampel
yang dapat menjamin bahwa galat penarikan sampel tersebut tidak lebih dari suatu
nilai tertentu, misalnya e. Hal ini dapat dilakukan dengan menentukan nilai n
sehingga za 2 × s n = e.
Aturan 5.4
Galat penarikan sampel yang terjadi karena menduga rata-rata populasi m
dengan rata-rata sampel x pada tingkat kepercayaan (1 a)100%, tidak akan
lebih dari e jika ukuran sampelnya adalah
2
æ za 2 × s ö
n=ç ÷ .................................................. ................................... [5.14]
è e ø
Pada prinsipnya, Aturan 5.4 hanya dapat digunakan jika kita mengetahui varians
populasi, s. Akan tetapi, kenyataannya jarang sekali kita dihadapkan pada keadaan
tersebut. Dalam kasus yang demikian, nilai s biasanya diduga lebih dulu dengan
mengambil suatu sampel pendahuluan dari populasi yang bersangkutan dengan
ukuran sampel n > 30.
Contoh 5.3
Untuk persoalan dalam Contoh 5.1, tentukanlah berapa ukuran sampel yang harus
diambil, agar kesalahan pendugaan pada tingkat kepercayaan 95% tidak lebih dari
0,01 mm.
126
Penyelesaian
Nilai simpangan baku sampel s = 0.05 mm yang diperoleh dari pengambilan sampel
sebelumnya (berukuran 50) akan kita gunakan sebagai penduga bagi s. Dengan
menggunakan Aturan 5.3, maka
é (1,96 ) × ( 0,05) ù
2
n=ê ú = 96,04
ë 0,01 û
Oleh karena itu, agar kesalahan pendugaan pada tingkat kepercayaan 95% tidak
lebih dari 0,01 mm maka ukuran sampel yang sebaiknya diambil adalah 97.
Dalam Subbab 4.5, telah kita bahas bahwa nilai proporsi sampel p = x n dalam
sebuah Percobaan Binomial merupakan penduga yang baik bagi proporsi populasi
p. Pada Aturan 4.4, telah pula kita ketahui bahwa
p - p
z= .................................................. .................................. [5.15]
p × (1 - p)
n
merupakan suatu variabel acak yang mempunyai distribusi mendekati Distribusi
Normal Baku. Oleh karena itu, dengan menggunakan sifat simetris Distribusi
Normal, untuk nilai kritis za/2 berlaku
æ p - p ö
P ç - za /2 < < za /2 ÷ = 1 - a .............................................. [5.16]
ç p × (1 - p) n ÷
è ø
dapat ditunjukkan bahwa Persamaan [5.16] tersebut ekuivalen dengan
( )
P p - za /2 p × (1 - p) n < p < p + za /2 p × (1 - p) n = 1 - a ................. [5.17]
Namun demikian, batas atas dan batas bawah selang dalam pernyataan peluang
[5.17] di atas masih mengandung nilai p yang tidak diketahui nilainya. Jika nilai n
cukup besar, nilai p pada batas atas dan batas bawah tersebut dapat diganti dengan
p = x n . Penggantian tersebut tentu saja akan menghasilkan suatu galat (error),
akan tetapi galat yang dihasilkan sangatlah kecil jika ukuran sampelnya cukup besar.
Oleh karena itu, pernyataan peluang [5.17] tersebut dapat dituliskan sebagai
berikut:
( )
P p - za /2 p × (1 - p) n < p < p + za /2 p × (1 - p) n » 1 - a ................. [5.18]
127
6 P e n g uj ia n Hip o te s is
6.1 Pendahuluan
Di dalam Bab 5 telah kita bahas bagaimana Statistika Inferensial digunakan untuk
melakukan pendugaan terhadap parameter populasi. Dalam bab ini akan kita bahas
hal-hal yang berkaitan dengan penarikan kesimpulan tentang parameter populasi
melalui pengujian hipotesis. Seperti juga dalam pendugaan parameter populasi,
distribusi sampling dari statistik sampel mempunyai peranan yang penting dalam
pengujian hipotesis. Penarikan kesimpulan tentang parameter populasi akan sangat
tergantung pada sampel yang dianalisis untuk keperluan tersebut. Pengujian
hipotesis yang dibahas dalam buku ini disebut pengujian parametrik karena
berkaitan dengan pengujian hipotesis tentang parameter populasi.
Definisi
Suatu hipotesis statistik adalah suatu pernyataan atau asumsi yang mungkin
salah dan mungkin juga benar tentang parameter populasi
Kebenaran atau ketidak-benaran suatu hipotesis statistik tidak pernah diketahui
secara pasti, kecuali jika kita memeriksa/meneliti seluruh populasinya. Hal ini
seringkali tidak mungkin dilakukan karena berbagai kendala, baik waktu, biaya
maupun tenaga yang harus dialokasikan untuk hal tersebut. Oleh karena itu,
pemeriksaan terhadap kebenaran atau ketidak-benaran hipotesis tersebut
umumnya dilakukan melalui pengambilan sampel dari populasi tersebut.
140
tersebut adalah benar. Prosedur pengujian hipotesis terdiri atas komponen-
komponen berikut:
1. Hipotesis nol
2. Hipotesis alternatif atau hipotesis penelitian
3. Statistik uji
4. Daerah kritis atau daerah penolakan hipotesis
Hipotesis nol adalah asumsi atau anggapan yang berkaitan dengan nilai parameter
populasi yang akan diuji. Hipotesis nol umumnya menyatakan bahwa nilai
parameter populasi tersebut sama dengan suatu nilai tertentu. Hipotesis alternatif
merupakan suatu pernyataan alternatif jika asumsi atau anggapan tentang
parameter populasi tersebut ternyata salah atau ditolak. Secara umum, terdapat
tiga bentuk format pasangan hipotesis nol dan hipotesis alternatif dalam pengujian
hipotesis. Misalkan q adalah parameter populasi dan q0 adalah anggapan tentang
nilai parameter tersebut, maka ketiga pasangan hipotesis tersebut adalah sebagai
berikut:
(i) H0: q = q0
H1: q q0 (hipotesis dua arah)
(ii) H0: q = q0
H1: q > q0 (hipotesis satu arah)
(iii) H0: q = q0
H1: q < q0 (hipotesis satu arah)
Sebagai contoh, dalam percobaan pelemparan mata uang sebanyak 50 kali, kita
mungkin tertarik untuk mengetahui keseimbangan mata uang tersebut. Oleh
karena itu, hipotesis nol dari percobaan ini adalah bahwa mata uang tersebut
diasumsikan seimbang. Jika mata uang tersebut seimbang, maka proporsi
timbulnya sisi muka harus sama dengan proporsi timbulnya sisi belakang, dengan
kata lain p = 0,5. Maka hipotesis nol-nya dapat dirumuskan sebagai berikut:
H0: p = 0,5
Sebagai tandingan terhadap H0, hipotesis alternatif untuk percobaan tersebut dapat
dirumuskan dalam tiga bentuk, yaitu bahwa mata uang tersebut tidak seimbang, H1:
p ¹ 0,5, atau mata uang tersebut berat ke sisi muka, H1: p > 0,5, atau mata uang
tersebut berat ke sisi belakang, H1: p < 0,5.
Seandainya percobaan tersebut menghasilkan timbulnya sisi muka sebanyak 23 kali,
dapat kita katakan bahwa mata uang tersebut memang seimbang, karena hasil
tersebut mendukung hipotesis bahwa p = 0,5. Namun demikian, hasil tersebut juga
mendukung hipotesis bahwa p = 0,45. Oleh karena itu, dengan menerima hipotesis
tersebut kita hanya punya keyakinan bahwa nilai proporsi tersebut terletak sekitar
0,5. Lain halnya jika percobaan tersebut menghasilkan timbulnya sisi muka
sebanyak 15 kali. Maka dalam kasus ini, hasil percobaan tersebut memberikan
141
cukup bukti untuk menolak hipotesis nol tersebut, dan dapat disimpulkan bahwa p
¹ 0,5.
Untuk memilih salah satu dari kedua hipotesis tersebut (H0 atau H1) diperlukan suatu
kriteria pengujian yang ditentukan berdasarkan pada suatu statistik uji. Penentuan
statistik uji tersebut didasarkan atas statistik sampel dan distribusi samplingnya.
Dengan demikian, statistik uji merupakan suatu variabel acak yang nilai-nilainya
digunakan untuk mengambil keputusan apakah menolak atau menerima hipotesis
nol. Nilai-nilai statistik yang digunakan untuk menolak hipotesis nol disebut sebagai
daerah kritis atau daerah penolakan hipotesis, sedangkan nilai-nilai yang digunakan
untuk menerima hipotesis nol disebut sebagai daerah penerimaan. Daerah
penolakan dan daerah penerimaan hipotesis dibatasi oleh suatu nilai yang disebut
sebagai titik kritis. Penentuan statistik uji dan daerah kritis pengujian akan dibahas
secara lebih rinci dalam sub-subbab berikutnya dari bab ini.
Dalam setiap pengujian hipotesis, kita harus selalu memutuskan apakah menerima
atau menolak H0 dan selalu ada kemungkinan bahwa kita membuat kesalahan dalam
pengambilan keputusan tersebut. Kesalahan tersebut terjadi ketika kita menolak
suatu hipotesis yang benar, atau menerima hipotesis yang salah. Kedua jenis
kesalahan ini diberi nama secara khusus dalam pengujian hipotesis, yaitu:
Salah jenis I (Type I error): kesalahan ini terjadi ketika kita menolak H0 padahal
H0 benar. Peluang terjadinya kesalahan ini dinyatakan dengan a, dan disebut
sebagai taraf nyata (level of significance)
Salah jenis II (Type II error): kesalahan ini terjadi ketika kita menerima H0
padahal H0 salah dan H1 benar. Peluang terjadinya kesalahan ini dinyatakan
dengan b. Komplemen dari b, yaitu (1 b) disebut sebagai kuasa pengujian
(power of statistical test)
Idealnya daerah penerimaan dan penolakan ditentukan agar meminimumkan a dan
b sekaligus, tetapi hal ini tidak mungkin dilakukan, karena peluang terjadinya kedua
kesalahan tersebut berkaitan satu sama lainnya. Untuk suatu ukuran sam-pel
tertentu, jika daerah penolakan dirubah agar memperkecil a, maka b secara
otomatis akan bertambah besar, demikian sebaliknya, jika a diperbesar, maka b
akan mengecil.
Prosedur yang umum dilakukan oleh peneliti adalah dengan menentukan taraf
nyata a pada suatu nilai tertentu, hal ini akan secara otomatis menentukan nilai b
bagi percobaan tersebut. Taraf nyata yang biasa digunakan adalah a sama dengan
0,1, 0,05 atau 0,01. Untuk nilai a tertentu, nilai b dapat diperkecil dengan
memperbesar ukuran sampelnya. Hubungan antara kedua jenis kesalahan tersebut
dapat dilihat dalam Tabel 6.1.
142
Tabel 6.1 Hubungan antara a dan b
Keadaan sebenarnya
Keputusan H0 benar H0 salah
Tolak H0 Salah jenis I Benar
(peluang = a) (peluang = 1 b)
Terima H0 Benar Salah jenis II
(peluang = 1 a) (peluang = b)
Titik q0 Titik q
kritis kritis
143
Langkah ke (ii) dari prosedur di atas, yaitu penentuan statistik uji, merupakan salah
satu langkah yang krusial, karena statistik tersebut digunakan untuk menentukan
daerah penerimaan dan penolakan hipotesis, yang pada akhirnya digunakan untuk
mengambil keputusan apakah menerima atau menolak H0. Taraf nyata a digunakan
untuk menentukan titik kritis dari statistik uji tersebut, sedangkan bentuk H1
digunakan untuk menentukan arah daerah kritis pengujian (lihat Gambar 6.1). Jika
H1 merupakan suatu hipotesis dua arah, maka daerah kritis pengujian terletak di
ujung-ujung kurva distribusi sampling statistik tersebut. Jika H1 merupakan
hipotesis satu arah, maka daerah kritis pengujian terletak di salah satu ujung kurva
distribusi sampling yang bersesuaian dengan arah dari H 1.
Statistik uji tersebut telah kita ketahui merupakan suatu variabel acak yang
berdistribusi Normal Baku. Oleh karena itu, titik kritis pengujian dapat ditentukan
144
dengan menentukan nilai kritis bagi variabel acak Z untuk taraf nyata a. Hal ini dapat
ditentukan dengan menggunakan Tabel Lampiran 2. Setelah itu, daerah kritis dapat
ditentukan sesuai dengan bentuk hipotesis H 1. Nilai statistik uji sampel kemudian
dapat dihitung dengan
x - m0
zhitung = ................................................. ................................... [6.2]
s n
Contoh 6.1
Seorang peneliti ingin mengetahui keberhasilan produksi suatu varietas padi yang
baru-baru ini diperkenalkan kepada petani di suatu daerah tertentu. Berdasarkan
data sebelumnya diketahui bahwa rata-rata produksi padi di daerah tersebut adalah
2,5 ton/ha dengan simpangan baku 0,6 ton. Dari suatu sampel berukuran 20
diperoleh nilai rata-rata produksi sebesar 2,678 ton/ha. Dapatkah dia simpulkan
bahwa rata-rata produksi padi di daerah itu sekarang telah lebih dari 2,5 ton/ha?
Penyelesaian:
Langkah 1: Penentuan hipotesis
Anggapan yang ada saat ini adalah bahwa rata-rata produksi padi di daerah
tersebut adalah 2,5 ton/ha. Oleh karena itu, hipotesis nol dari penelitian ini
adalah H0: m = 2,5 ton. Dengan diperkenalkannya suatu varietas padi baru,
maka tidaklah berlebihan jika kita berharap bahwa rata-rata produksi padi di
daerah tersebut akan mengalami peningkatan. Oleh karena itu, hipotesis
penelitian kita (H1) adalah bahwa H1: m > 2,5 ton. Dengan demikian pasangan
hipotesis yang akan diuji adalah sebagai berikut:
H0: m = 2,5
H1: m > 2,5
Langkah 2: Penentuan statistik uji
Statistik uji yang digunakan adalah
X -m
Z=
s n
145
Misalkan taraf nyata yang digunakan adalah a = 0,05. Hipotesis H1 dalam
persoalan ini merupakan hipotesis satu arah, maka daerah kritis pengujian
terletak di ujung kanan kurva distribusinya. Dengan demikian, titik kritisnya
adalah za = z0,05 = 1,645 (diperoleh dari Tabel Lampiran 2). Sehingga daerah
kritisnya adalah zhitung > 1,645 dan daerah penerimaan hipotesis nol adalah jika
zhitung 1,645
Langkah 4: Penentuan nilai statistik uji sampel
Dari persoalan di atas, diketahui bahwa simpangan baku populasi adalah s =
0,6. Dari sampel berukuran n = 20, diperoleh rata-rata sampel, x = 2,678 .
Maka nilai statistik uji berdasarkan sampel tersebut adalah:
x - m0 2,678 - 2,5
zhitung = = = 1,327
s n 0,6 20
Langkah 5: Kesimpulan
Karena nilai zhitung terletak di daerah penerimaan hipotesis nol, maka H0
diterima. Artinya walaupun rata-rata sampel (2,678 ton/ha) terlihat lebih besar
dari anggapan tentang rata-rata populasi (2,5 ton/ha), kita belum mempunyai
bukti yang cukup untuk menolak anggapan tersebut.
õ
R commander hanya menyediakan fasilitas uji hipotesis tentang rata-rata populasi
dengan uji t. Prosedur pengujian hipotesis tentang rata-rata populasi dimana nilai
varians populasinya diketahui atau uji Z dapat dilakukan dengan bantuan R console
dengan terlebih dahulu menginstal package BSDA. Setelah package terinstal, pack-
age perlu di load terlebih dahulu dengan mengetikkan perintah
>library(BSDA)
Keterangan
X Data sampel
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau "two.sided"
Mu Hipotesis nilai rata-rata populasi
sigma.x Standar deviasi dari populasi x jika variansi populasi diketahui diketahui atau standa
deviasi dari sampel x jika variansi populasi tidak diketahui namun ukuran sampe
lebih dari atau sama dengan 30
conf.level Tingkat kepercayaan
146
Jika kita hanya memiliki informasi ringkasan datanya saja seperti pada Contoh 6.1,
dapat digunakan perintah berikut:
zsum.test(mean.x, sigma.x = NULL, n.x = NULL, , alternative =
"two.sided", mu = 0,conf.level = 0.95)
data: Summarized x
z = 1.3267, p-value = 0.0923
alternative hypothesis: true mean is greater than 2.5
95 percent confidence interval:
2.45732 NA
sample estimates:
mean of x
2.678
Untuk menarik kesimpulan dapat dilakukan dengan melihat p value. Nilai p-value
merupakan besarnya peluang melakukan kesalahan apabila kita memutuskan untuk
menolak H0. Nilai p value diperoleh dari Tabel Normal Baku. Untuk Uji Hipotesis satu
arah nilai p-value adalah
p value = P(Z>zhitung) = P(Z<-zhitung)
sehingga untuk uji Hipotesis dua arah nilai
p value = P(Z>zhitung) + P(Z<-zhitung) = 2 P(Z>zhitung) = 2 P(Z<-zhitung)
Nilai p-value selanjutnya dibandingkan dengan tingkat signifikansi, . Jika p value
lebih kecil dari tingkat signifikansi maka H0 ditolak. Hal ini disebabkan karena jika kita
memutuskan menolak H0 (menganggap statement H0 salah), kemungkinan kita
melakukan kesalahan masih lebih kecil daripada yang merupakan ambang batas
147
maksimal dimungkinkannya kita salah dalam membuat keputusan. Dari output ter-
lihat bahwa nilai p value lebih besar dari pada tingkat signifkansi 0.05 maka H0
diterima.
Statistik uji T tersebut merupakan suatu variabel acak yang berdistribusi t dengan
derajat bebas
n = n 1. Untuk taraf nyata a tertentu, titik kritis pengujian dapat ditentukan
dengan menentukan nilai kritis bagi variabel acak T, dalam hal ini kita dapat
menggunakan nilai-nilai dalam Tabel Lampiran 3. Prosedur pengujian hipotesis
selanjutnya dapat dilakukan mengikuti prosedur dalam Subbab 6.3.1, kecuali bahwa
nilai statistik uji dari sampelnya dihitung dengan rumus berikut:
x - m0
thitung = .................................................. .................................... [6.4]
s n
Contoh 6.2
Lihat kembali Contoh 5.2. Produksi kayu lapis dikatakan baik jika rata-rata lebar kayu
lapis yang diproduksi adalah 120 cm. Berdasarkan 10 sampel pada Contoh 5.2,
apakah perlu diadakan perbaikan mesin produksi kayu lapis?
Penyelesaian
Langkah 1: Penentuan hipotesis
H0: m = 120
H1: m ¹ 120
Langkah 2: Statistik uji
148
Statistik uji yang digunakan adalah
X -m
T=
S n
Langkah 5: Kesimpulan
Karena nilai thitung terletak di daerah penolakan hipotesis nol, maka H0 ditolak.
Dengan demikian, untuk kasus ini kesimpulan yang kita peroleh rata-rata lebar
kayu lapis yang diproduksi sudah tidak sama dengan 120 sehingga perlu diada-
kan perbaikan/penyetelan kembali mesin produksi.
Contoh soal 6.2 di atas dapat diselesaikan dengan bantuan R Commander dengan
cara yang sama dengan penyelesaian Contoh 5.2, yakni klik
Statistics Means Single-sampe-t test
Pada box Single-Sample t-Test berikut isikan Null hypothesis: mu = 120
Sehingga output dari R Commander untuk Contoh 5.2 di atas adalah sebagai berikut:
149
One Sample t-test
data: lebar
t = 5.4772, df = 9, p-value = 0.0003916
alternative hypothesis: true mean is not equal to 120
95 percent confidence interval:
121.174 122.826
sample estimates:
mean of x
122
Dari output terlihat bahwa t hitung terletak di daerah kritis atau bisa dilihat dari nilai
p value, pada kasus ini p value < 0.05, jadi H0 ditolak.
Jika kita hanya memiliki informasi ringkasan datanya saja, dapat digunakan package
BSDA dengan perintah
> tsum.test(mean.x, s.x = NULL, n.x = NULL, alternative = "two.sided",
mu = 0, conf.level = 0.95)
Keterangan:
mean.x Rata-rata sampel x
s.x Standar deviasi dari sampel x
n.x Ukuran sampel x
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau
"two.sided"
mu Hipotesis nilai rata-rata populasi
conf.level Tingkat kepercayaan
Contoh 6.3
Ujilah kembali persoalan dalam Contoh 6.1 jika seandainya varians populasinya
tidak diketahui, namun diketahui bahwa simpangan baku sampelnya adalah 0,6 ton.
Penyelesaian:
Langkah 1: Penentuan hipotesis
H0: m = 2,5
H1: m > 2,5
Langkah 2: Statistik uji
Statsitik uji yang digunakan adalah
X -m
T=
S n
150
Langkah 3: Penentuan daerah kritis
Dengan taraf nyata a = 0,05. Titik kritisnya adalah ta = t0,05 = 1,7291 (diperoleh
dari Tabel Lampiran 3 dengan derajat bebas = 19). Sehingga daerah kritisnya
adalah t > 1,7291 dan daerah penerimaan hipotesis nol adalah jika z !1,7291
Langkah 4: Penentuan nilai statistik uji dari sampel
Dari sampel berukuran n = 20, diperoleh rata-rata sampel, x = 2,678 dan
simpangan baku sampel
s = 0,609. Maka nilai statistik uji berdasarkan sampel tersebut adalah:
x - m0 2,678 - 2,5
thitung = = = 1,307
s n 0,609 20
Langkah 5: Kesimpulan
Karena nilai thitung terletak di daerah penerimaan hipotesis nol, maka H0
diterima. Dengan demikian, untuk kasus ini kesimpulan yang kita peroleh sama
dengan sebelumnya.
Tabel 6.2 Kriteria Penentuan Statistik Uji dalam Pengujian Hipotesis tentang m
Varians populasi Ukuran sampel Statistik uji
X -m
Diketahui nilainya Tidak merupakan syarat Z=
s n
X -m
Tidak diketahui nilainya n > 30 Z=
s n
X -m
Tidak diketahui nilainya n < 30 T=
S n
Seperti halnya dalam pendugaan selang kepercayaan bagi m, maka dalam pengujian
hipotesis tentang m terdapat dua jenis pengujian. Penggunaan kedua jenis
pengujian tersebut tergantung pada diketahui atau tidaknya varians populasi s dan
ukuran sampelnya. Kriteria penentuan jenis statistik uji yang digunakan pada
berbagai kasus pengujian hipotesis tentang m disajikan dalam Tabel 6.2.
151
populasi m. Dalam pengujian hipotesis tentang proporsi juga terdapat tiga jenis
pasangan hipotesis, yaitu:
(i) H0: p = p0
H1: p p0 (hipotesis dua arah)
(ii) H0: p = p0
H1: p > p0 (hipotesis satu arah)
(iii) H0: p = p0
H1: p < p0 (hipotesis satu arah)
dimana p0 adalah suatu nilai yang merupakan anggapan atau asumsi tentang nilai
proporsi populasi. Statistik uji yang digunakan dalam pengujian hipotesis tentang
proporsi populasi diturunkan dari distribusi sampling bagi proporsi sampel, p , yaitu
p - p
Z= .................................................. ............................... [6.5]
p × (1 - p ) n
Telah kita ketahui bahwa statistik uji Z tersebut akan berdistribusi Normal baku.
Daerah kritis dan daerah penerimaan hipotesis ditentukan dengan cara yang sama
seperti pada pengujian hipotesis tentang m, yaitu dengan memperhatikan taraf
nyata a dan bentuk hipotesis alternatifnya. Nilai statistik uji dari sampel dihitung
dengan rumus
p - p0
zhitung = .................................................. ..................... [6.6]
p0 × (1 - p0 ) n
Contoh 6.4
Berdasarkan pengalamannya, seorang penangkar benih telah mengetahui bahwa
persentase berkecambahnya benih suatu jenis tanaman tertentu adalah 38%.
Untuk mencoba meningkatkan persentase tersebut, benih tanaman tersebut
direndamnya lebih dulu dalam suatu larutan kimia. Setelah perlakuan tersebut, dari
100 benih dihasilkan 45 benih yang tumbuh berkecambah. Dapatkah kita simpulkan
bahwa perlakuan tersebut telah meningkatkan persentase berkecambahnya benih
tanaman tersebut?
Penyelesaian:
Langkah 1: Penentuan hipotesis
Respons dari penelitian ini adalah benih yang tumbuh dan tidak tumbuh.
Sehingga merupakan data dalam skala pengukuran nominal. Data yang
demikian biasa dilambangkan dengan 1 dan 0 (1 untuk benih yang tumbuh dan
0 untuk benih yang tidak tumbuh). Proporsi p adalah parameter yang menjadi
152
perhatian kita. Dalam persoalan di atas, kita ingin mengetahui apakah
perlakuan perendaman benih tersebut dapat meningkatkan persentase
tumbuhnya benih tanaman tersebut. Oleh karena itu pasangan hipotesis yang
akan kita uji dapat diumuskan sebagai berikut:
H0: p = 0,38
H1: p > 0,38
Langkah 2: Statistik uji
Statistik uji yang digunakan adalah
p - p
Z=
p × (1 - p ) n
dimana statistik uji Z adalah variabel acak yang berdistribusi Normal Baku.
Langkah 3: Penentuan daerah kritis
Dengan taraf nyata a = 0,05. Titik kritisnya adalah za = z0,05 = 1,645 (diperoleh
dari Tabel Lampiran 2). Sehingga daerah kritisnya adalah zhitung > 1,645 dan
daerah penerimaan hipotesis nol adalah jika zhitung 1, 645
Langkah 4: Penentuan nilai statistik uji dari sampel
Dari sampel berukuran 100 diperoleh p = 0,45 , maka nilai statistik uji
berdasarkan sampel tersebut adalah
p - p0 0,45 - 0,38
zhitung = = = 1,44
p0 × (1 - p0 ) n 0,38 (1 - 0,38 ) 100
Langkah 5: Kesimpulan
Karena nilai zhitung terletak di daerah penerimaan hipotesis nol, maka H0 tidak
ditolak. Kita simpulkan bahwa tidak cukup bukti untuk menyatakan bahwa
perlakuan perendaman benih tersebut telah meningkatkan persentase
berkecambahnya benih tanaman tersebut. Perhatikan bahwa, walaupun
percobaan tersebut menghasilkan 45% benih yang berkecambah, tetapi bukti
tersebut tidak cukup kuat untuk menyatakan bahwa proporsi populasinya
telah lebih dari 38%.
Contoh 6.4 di atas dapat diselesaikan dengan bantuan R Commander dengan cara
yang sama dengan penyelesaian Contoh 5.4, yakni klik
Statistics Manage variables in active data set convert
numeric variables to factors
Pada box Single-Sample Propotion Test isikan Null hypothesis: p = 0.38
153
atau diselesaikan dengan bantuan R Console menggunakan package stats dengan
mengetikkan perintah berikut
> prop.test(x, n, p = NULL,alternative = c("two.sided", "less",
"greater"), conf.level = 0.95)
Keterangan:
x Banyaknya sukses atau matrix dengan 2 kolom yang berturut-turut
berisikan jumlah sukses dan gagal.
n Banyaknya percobaan
p
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau
"two.sided"
conf.level Tingkat kepercayaan
(i) H0: s2 = s 02
H1: s2 s 02 (hipotesis dua arah)
(ii) H0: s2 = s 02
H1: s2 > s 02 (hipotesis satu arah)
154
(iii) H0: s2 = s 02
H1: s2 < s 02 (hipotesis satu arah)
Dalam Subbab 5.7 telah kita ketahui bahwa statistik
( n - 1 ) s2
c =
2
................................................. .................................... [6.7]
s2
merupakan nilai suatu variabel acak yang berdistribusi mengikuti kaidah Distribusi
Chi kuadrat dengan derajat bebas n 1. Dalam Bab 5, statistik tersebut kita gunakan
untuk menentukan selang kepercayaan bagi varians populasi s2. Oleh karena itu,
statistik tersebut dapat juga digunakan sebagai statistik uji dalam pengujian
hipotesis tentang varians populasi s2. Nilai statistik uji sampel ditentukan dengan
( n - 1 ) s2
c hitung
2
= .................................................. .............................. [6.8]
s 02
Daerah kritis dan daerah penerimaan hipotesis untuk taraf nyata tertentu dengan
menggunakan bantuan tabel Chi kuadrat (Tabel Lampiran 4).
Contoh 6.5
Sebuah timbangan di suatu laboratorium dapat digunakan untuk menimbang benda
sampai pada satuan miligram terdekat. Tingkat ketelitian timbangan tersebut
diukur oleh simpangan bakunya. Jika simpangan bakunya lebih besar dari 1
miligram maka berdasarkan prosedur baku di laboratorium, timbangan tersebut
harus segera untuk dikalibrasi. Untuk mengetahui apakah timbangan tersebut
sudah saatnya dikalibrasi kembali, 5 orang laboran secara independen melakukan
penimbangan dengan menggunakan suatu ukuran standar 5 gram dan hasilnya
adalah sebagai berikut (gr):
5,002 4,999 5,001 5,000 5,003
Perlukah timbangan tersebut dikalibrasi? Gunakan a = 0,1.
Penyelesaian:
Pasangan hipotesis yang akan kita uji adalah
H0: s2 = 1
H1: s2 > 1
Untuk menguji hipotesis tersebut kita perlu menghitung varians sampel s2 lebih dulu
(perhatikan bahwa satuan pengukuran data tersebut harus diubah ke dalam satuan
miligram):
1 é
x2 - ( å x ) nù
2
s2 =
n -1 ê
ë å úû
155
1é
125.050.015 - (25.005) 5ù = 2,5
2
s2 =
4ë û
Nilai statistik uji sampelnya adalah:
( n - 1 ) s2 4 ´ 2,5
c 2
hitung = = = 10
s 2
0 1
Hipotesis H1 dalam kasus ini menunjukkan suatu jenis pengujian satu arah, maka
untuk taraf nyata a = 0,1 dengan derajat bebas n 1 = 5 1 = 4, dari Tabel Lampiran
4 kita peroleh bahwa titik kritis pengujian adalah c 0,1;
2
4 = 13,277 . Dengan demikian,
156
untuk parameter kedua populasi tersebut dan statistik sampelnya disajikan dalam
Gambar 6.2.
Pertanyaan yang seringkali harus dijawab dalam membandingkan rata-rata dua
populasi adalah apakah kedua rata-rata populasi tersebut sama besar? Pertanyaan
tersebut biasa dinyatakan dalam bentuk selisih antar kedua nilai rata-rata tersebut.
Jika rata-ratanya sama, maka tentunya selisihnya harus sama dengan nol. Oleh
karena itu, hipotesis nol dari persoalan tersebut dapat dinyatakan sebagai berikut:
H0: m1 m2 = 0
Sedangkan hipotesis alternatifnya dapat berbentuk
1. H1: m1 m2 ¹ 0, atau
2. H1: m1 m2 < 0, atau
3. H1: m1 m2 > 0
6.6.1 Kasus 1: Pengujian Hipotesis tentang Selisih Rata-rata Dua Populasi Inde-
penden, s12 dan s22 Nilainya Diketahui
Jika kita mempunyai dua populasi Normal dengan rata-rata masing-masing adalah
m1 dan m2 dengan varians s12 dan!s22, maka penduga yang paling efisien bagi selisih
rata-rata populasi m1 - m 2 adalah statistik X1 - X2 (selisih rata-rata sampel yang
diambil dari masing-masing populasi). Oleh karena itu, statistik uji yang digunakan
untuk menguji hipotesis tentang selisih rata-rata dua populasi (m1 m2) ditentukan
berdasarkan atas selisih rata-rata sampel tersebut ( X1 - X 2 ) dan distribusi
samplingnya. Dalam Subbab 4.4 telah kita ketahui bahwa statistik
( X1 - X2 ) - (m1 - m2 )
Z= .................................................. ...................... [6.9]
s 12 s 22
+
n1 n2
adalah variabel acak yang berdistribusi Normal Baku. Oleh karena itu, statistik
tersebut biasa digunakan sebagai statistik uji dalam pengujian hipotesis tentang
selisih rata-rata populasi Normal. Titik kritis untuk taraf nyata a tertentu ditentukan
dengan menggunakan Tabel Normal Baku (Tabel Lampiran 2) dan dengan
memperhatikan jenis hipotesis alternatifnya.
Statistik uji Z tersebut dapat ditentukan jika varians kedua populasi tersebut, s12
dan!s22, diketahui nilainya. Oleh karena itu, pengetahuan tentang nilai kedua
varians tersebut merupakan salah satu persyaratan penggunaan statistik uji Z.
Harus diakui, bahwa persyaratan tersebut pada prakteknya seringkali tidak dapat
dipenuhi. Pengetahuan tentang nilai kedua varians tersebut biasanya hanya
semata-mata berdasarkan atas pengalaman atau hasil-hasil penelitian terdahulu
tentang objek penelitian yang sama. Oleh karena itu, ketika nilai varians
157
populasinya tidak diketahui, nilai-nilai tersebut biasa diganti dengan nilai varians
sampelnya masing-masing. Hal ini tentu saja akan mempengaruhi hasil analisis,
terutama tingkat kepercayaan atau taraf nyatanya tidak akan tepat seperti kalau
menggunakan nilai varians populasi yang sesungguhnya. Namun demikian,
pendekatan tersebut menjadi semakin baik jika ukuran kedua sampel yang dianalisis
semakin besar. Pendekatan tersebut umumnya sudah cukup baik jika n1 dan n2
masing-masing lebih besar dari 30.
Nilai statistik uji kemudian dihitung berdasarkan informasi yang diperoleh dari
kedua sampel independen yang diambil dari populasinya masing-masing dengan
rumus berikut:
(x1 - x2 ) - (m1 - m2 )
zhitung = .................................................. .............. [6.10]
s 12 s 22
+
n1 n2
atau jika n1 > 30 dan n2 > 30 statitik ujinya dapat ditentukan dengan rumus berikut
(x1 - x2 ) - (m1 - m2 )
zhitung = .................................................. .............. [6.11]
s12 s22
+
n1 n2
Tabel 6.3 Kriteria Pengujian pada Taraf Nyata a bagi Berbagai Pasangan
Hipotesis yang Diuji
Pasangan hipotesis Titik kritis Kriteria pengujian
H0: m1 m2 = 0 § Tolak H0 jika zhitung < za/2 atau zhitung > za/2
za/2
H1: m1 m2 ¹ 0 § Terima H0 jika za/2 < zhitung < za/2
H0: m1 m2 = 0 § Tolak H0 jika zhitung > za
za
H1: m1 m2 > 0 § Terima H0 jika zhitung < za
H0: m1 m2 = 0 § Tolak H0 jika zhitung < za
za
H1: m1 m2 < 0 § Terima H0 jika zhitung > za
Contoh 6.6
Untuk meningkatkan pertumbuhan berat badan ayam pedaging, seorang peternak
ayam menambahkan sejumlah tepung ikan ke dalam pakan yang biasa dia beri-kan.
Pakan tambahan tersebut diberikan kepada sejumlah anak ayam selama 45 hari.
Misalkan populasi 1 adalah anak ayam yang mendapat pakan tambahan dan
populasi 2 adalah anak ayam yang mendapat pakan yang biasa selama periode yang
158
7 R e g re si L in ie r S e de rh a na d a n
K o rel as i
7.1 Pendahuluan
Di dalam Bab 5 dan 6 telah kita bahas berbagai teknik pendugaan dan pengujian
hipotesis tentang rata-rata populasi dan selisih rata-rata dari dua populasi.
Persoalan yang kita pecahkan dalam bab-bab tersebut umumnya relatif mudah dan
sederhana karena walaupun berkaitan dengan dua populasi, kedua populasi
tersebut umumnya diasumsikan bersifat independen, artinya tidak ada keterkaitan
antara satu populasi dengan populasi yang lainnya. Dalam kehidupan sehari-hari,
sering kali kita temui bahwa nilai suatu variabel (Y) dipengaruhi oleh nilai variabel
lain (X), atau berkaitan dengan nilai variabel lain. Bentuk hubungan antar kedua
variabel tersebut adalah persoalan yang akan kita bahas dalam analisis regresi dan
korelasi. Sebagai contoh, kita mungkin tertarik untuk meneliti hubungan antara pola
konsumsi seseorang dalam suatu komunitas tertentu (Y) dengan penghasilannya per
bulan (X), atau hubungan antara pendapatan suatu perusahaan (Y) dengan biaya
yang dikeluarkan oleh perusahaan tersebut untuk pemasangan iklan dalam media
cetak (X), atau pengaruh pemberian berbagai dosis suatu jenis pupuk tertentu (X)
terhadap peningkatan produksi padi varietas tertentu (Y).
Dalam setiap kasus di atas, variabel Y merupakan variabel dependen atau variabel
respons yang nilai-nilainya tergantung pada nilai-nilai variabel X, yang disebut
sebagai variabel independen atau variabel bebas. Analisis regresi digunakan untuk
membangun suatu model matematis untuk menjelaskan bentuk hubungan antar
kedua variabel tersebut (jika hubungan tersebut ada). Misalnya, jika kita
beranggapan bahwa terdapat hubungan linier antara pola konsumsi seseorang
dengan penghasilannya, maka untuk menguji anggapan tersebut kita akan
mengambil sampel yang terdiri atas beberapa orang anggota komunitas tersebut
dan memeriksa pola konsumsi dan penghasilan mereka. Jika anggapan tersebut
benar, maka nilai-nilai pengamatan akan mencerminkan pola hubungan kedua
variabel tersebut.
Dalam bab ini konsep-konsep dasar tentang hubungan keterkaitan antar variabel
tersebut akan kita bahas melalui analisis regresi dan korelasi. Namun demikian,
pembahasan tersebut akan kita batasi hanya untuk kasus-kasus yang sederhana
saja, yaitu kasus yang hanya melibatkan dua variabel saja. Pembahasan untuk kasus-
kasus yang melibatkan hubungan keterkaitan antar lebih dari dua variabel biasanya
dibahas dalam topik yang khusus, yaitu dalam bahasan tentang analisis regresi
berganda (multiple regression analysis), atau analisis variabel ganda (multivariate
analysis) yang merupakan topik bahasan dalam Ilmu Statistik tingkat lanjut. Dalam
buku ini analisis regresi berganda dibahas secara singkat dalam Bab 8.
180
7.2 Hubungan antara variabel dependen dengan variabel bebas
Untuk model regresi yang hanya melibatkan satu variabel dependen dan satu
variabel bebas, bentuk hubungan antar kedua variabel tersebut biasanya dapat
diperiksa dengan memetakan setiap pasangan pengamatan (x, y) dalam suatu
diagram pencar (scatter diagram). Pemetaan data ke dalam suatu bentuk diagram
pencar tidak saja bermanfaat dalam memeriksa bentuk hubungan antar kedua
variabel, tetapi juga dalam mengeksplorasi data secara keseluruhan, misalnya dalam
memeriksa kemungkinan adanya nilai pencilan, melihat bentuk distribusi data, atau
memeriksa kecenderungan (trend) dalam data. Diagram pencar digunakan untuk
memvisualisasikan bentuk hubungan antar ke dua variabel tersebut. Dalam diagram
tersebut, variabel dependen selalu dipetakan dalam sumbu tegak dan variabel
bebas dipetakan dalam sumbu mendatar. Sebagai ilustrasi, berbagai bentuk
diagram pencar disajikan dalam Gambar 7.1.
Data dalam Gambar 7.1.a dan 7.1.b mengindikasikan bentuk hubungan antara
variabel X dan Y yang cenderung linier. Data dalam kedua gambar tersebut terlihat
mengelompok di sekitar suatu garis lurus. Gambar 7.1.c menunjukkan suatu bentuk
hubungan antara variabel X dan Y yang mungkin dapat dijelaskan melalui suatu
persamaan eksponensial atau kuadratik. Sedangkan data dalam Gambar 7.1.d tidak
menunjukkan adanya bentuk hubungan yang kuat antara variabel X dan Y. Hal ini
terlihat betapa data dalam gambar tersebut terpencar secara sembarang, tanpa
menunjukkan adanya suatu keteraturan.
Y Y
X
X
(a) (b)
Y Y
X X
(c) (d)
181
Pemetaan pasangan data (x, y) ke dalam suatu diagram pencar merupakan suatu
langkah awal dalam menganalisis hubungan antara kedua variabel tersebut.
Beberapa informasi yang dapat kita peroleh dengan mengamati suatu diagram
pencar dari pasangan data (x, y) diantaranya adalah:
§ ada atau tidaknya kecenderungan bahwa data tersebut mengelompok di
sekitar suatu garis lurus, atau bentuk kurva sederhana lainnya
§ bagaimana kecenderungan bentuk hubungan antara variabel X dan Y;
misalnya adakah kecenderungan bahwa nilai-nilai y menaik dengan
bertambahnya nilai x, ataukah sebaliknya, artinya nilai-nilai y cenderung
menurun dengan bertambahnya nilai x.
§ bagaimana kekuatan hubungan antara variabel X dan Y; kedua variabel
tersebut dikatakan mempunyai hubungan atau keterkaitan yang erat jika
data dalam diagram pencar tersebut mengelompok di sekitar suatu garis
lurus atau kurva sederhana lainnya: semakin dekat jarak antara data dengan
garis atau kurva tersebut, maka semakin kuat hubungan kedua variabel
tersebut
§ kemungkinan adanya nilai pencilan dalam data
Hubungan antara variabel pengamatan X dan Y dapat dinyatakan dalam suatu model
atau pernyataan matematis. Salah satu bentuk yang paling sederhana adalah model
linier, yaitu:
Y = b0 + b1 X ....................................................................................... [7.1]
Dalam Model [7.1] tersebut, b 0 dan b1 keduanya merupakan konstanta yang tidak
diketahui nilainya. Dalam persamaan tersebut variabel X merupakan penduga bagi
variabel Y. Secara grafis, persamaan tersebut menyatakan persamaan sebuah garis
lurus yang memotong sumbu tegak Y di titik b 0 dengan kemiringan (slope) b1 .
Koefisien kemiringan suatu garis lurus menyatakan besar kenaikan/penurunan garis
tersebut dengan bertambahnya nilai X sebesar satu satuan. Artinya,
§ jika b1 > 0, maka garis tersebut akan menaik sebesar b1 satuan dengan
bertambahnya nilai X sebesar satu satuan, tetapi
§ jika b1 < 0 maka garis tersebut akan menurun sebesar b1 satuan dengan
bertambahnya nilai X sebesar satu satuan, dan
§ jika b1 = 0 maka garis tersebut merupakan garis yang mendatar
(horizontal).
Gambar 7.2 menyajikan contoh dua buah persamaan garis lurus. Gambar 7.2.a
menyajikan sebuah garis lurus dengan b 0 = 1 dan b1 = 2 yang dinyatakan dengan
persamaan Y = 1 + 2X. Perhatikan bahwa garis tersebut memotong sumbu Y di titik
182
(0, 1) dan menaik sebesar 2 satuan setiap pertambahan nilai X sebesar satu satuan.
Gambar 7.2.b menyajikan sebuah garis lurus dengan b 0 = 6 dan b1 = 1,5 yang
dinyatakan dengan persamaan Y = 6 1,5X. Garis tersebut memotong sumbu Y di
titik (0, 6) dan turun sebesar 1,5 satuan setiap pertambahan nilai X sebesar satu
satuan.
Y 8
Y
titik potong
7 koef. kemiringan=
dengan sumbu Y
+2/1 = 2
+2 6
+1
4
3 +1
-1,5
titik potong 2
dengan sumbu Y koef. kemiringan=
1
-1,5/1 = -1,5
X 0 X
-1 0 1 2 3
-1 -1 0 1 2 3
a. Y = 1 + 2X b. Y = 6 1,5X
Contoh 7.1
Seorang tukang pisang goreng menjual dagangannya dengan harga Rp1.000,- per
biji. Jika X adalah jumlah pisang goreng yang terjual pada suatu hari tertentu, dan Y
adalah jumlah pendapatan kotor per hari, maka hubungan antara Y dan X dapat
dinyatakan melalui model berikut:
Y = 1.000X
183
Hubungan tersebut merupakan hubungan deterministik karena nilai Y dapat
ditentukan dengan pasti jika nilai X diketahui besarnya, yaitu dengan cara
mensubstitusikan nilai X tersebut ke dalam persamaan di atas.
Contoh 7.2
Dalam memproduksi suatu jenis barang, sebuah perusahaan harus mengeluarkan
sejumlah biaya yang terdiri atas biaya tetap sebesar Rp1.000.000,- dan biaya
variabel sebesar Rp300 per satuan hasil produksinya. Jika X adalah jumlah produksi
barang tersebut, dan Y adalah total biaya produksi, maka hubungan antara Y dan X
dapat dinyatakan sebagai berikut:
Y = 1.000.000 + 300X
Hubungan tersebut juga merupakan suatu bentuk hubungan deterministik.
Contoh 7.3
Pengetahuan tentang pola pengeluaran rumah tangga untuk keperluan rekreasi
keluarga merupakan salah satu aspek yang menjadi bahan pertimbangan pengusaha
hiburan untuk memperluas atau mempertahankan usahanya di suatu daerah. Pada
umumnya, besar pengeluaran suatu keluarga untuk keperluan rekreasi cenderung
meningkat dengan meningkatnya pendapatan keluarga tersebut. Akan tetapi, besar
pengeluaran suatu rumah tangga untuk keperluan rekreasi tidak semata-mata
dipengaruhi oleh besar pendapatan tetapi juga dipengaruhi oleh berbagai faktor
lain.
Misalkan X adalah pendapatan per bulan suatu rumah tangga, dan Y adalah
pengeluaran rumah tangga tersebut untuk keperluan rekreasi keluarga. Dalam kasus
ini, untuk suatu nilai X tertentu, nilai Y tidak dapat ditentukan secara tepat karena
terdapat faktor/variabel lain yang mempengaruhi nilai Y tersebut. Oleh karena itu,
hubungan antara variabel X dan Y untuk kasus ini merupakan hubungan stokastik.
Model probabilistik yang mengaitkan pengeluaran rumah tangga kei, yaitu Yi,
dengan pendapatan rumah tangga kei, yaitu X = xi , adalah sebagai berikut:
Yi = b0 + b1 xi + e i .................................................................................. [7.2]
184
Y. Analisis regresi berkaitan dengan hubungan stokastik antara variabel dependen Y
dengan variabel bebas X. Oleh karena itu, tujuan penggunaan analisis regresi adalah
untuk membangun suatu model probabilistik yang dapat digunakan untuk
meramalkan atau menduga nilai variabel dependen (Y), berdasarkan pada nilai-nilai
variabel bebas (X). Analisis regresi merupakan suatu topik yang cakupannya sangat
luas, tetapi dalam bab ini, pembahasannya akan kita batasi hanya pada teknik
regresi linier sederhana, yaitu tentang pendugaan satu variabel Y oleh satu variabel
X saja.
Salah satu asumsi yang digunakan dalam suatu model regresi linier sederhana
adalah bahwa setiap nilai variabel X berkaitan dengan suatu distribusi dari nilai-nilai
variabel Y. Kita gunakan notasi
E(Yi|X = xi) atau E(Yi|xi) untuk menyatakan nilai harapan bersyarat (conditional
expected value) bagi variabel acak Yi untuk nilai variabel bebas tertentu, yaitu X = xi,
sedangkan fungsi kepekatan variabel acak Y tersebut dinotasikan dengan f(y|x).
Asumsi lain yang digunakan dalam suatu model regresi linier sederhana adalah
bahwa hubungan antara nilai harapan bagi Yi dengan nilai xi dapat dinyatakan
melalui persamaan berikut:
E (Yi |xi ) = b0 + b1 xi .............................................................................. [7.3]
f(y|x)
X
x1 x2
E(Y1|x1)
E(Y2|x2)
E(Y|X) = b 0 + b 1X
185
mempunyai rata-rata yang berbeda, diasumsikan bahwa populai tersebut
mempunyai varians s2 yang sama.
Telah dikemukakan sebelumnya bahwa terdapat faktor-faktor lain selain variabel X
yang mempengaruhi nilai-nilai variabel Y, sehingga menyebabkan nilai individual Yi
bervariasi di sekitar E(Yi|xi). Faktor-faktor lain tersebut dinotasikan dengan ei yang
disebut sebagai faktor galat (error term). Karena nilai-nilai ei juga bervariasi maka
nilai-nilai tersebut merupakan suatu variabel acak yang disebut variabel acak galat
(error random variabel):
e i = Yi - E (Yi | xi )
................................................................................ [7.4]
= Yi - ( b 0 + b1 xi )
186
Method). Misalkan b0 dan b1 masing-masing nilai dugaan bagi parameter b 0 dan b1
, maka nilai dugaan bagi Yi, dinotasikan dengan y i adalah
yi = b0 + b1 xi ......................................................................................... [7.6]
Karena Persamaan [7.6] tersebut diperoleh berdasarkan atas data sampel,
persamaan tersebut disebut sebagai garis regresi sampel (sample regression line)
yang merupakan penduga bagi garis regresi populasi dalam Persamaan [7.3]. Faktor
galat bagi data sampel biasa disebut sebagai sisaan (residuals), dan dinotasikan
dengan ei, dimana ei adalah selisih antara nilai pengamatan yi dengan nilai
dugaannya, yi , yaitu
ei = yi - yi
................................................................................... [7.7]
= yi - b0 - b1 xi
Dengan demikian, nilai sisaan merupakan simpangan dari nilai dugaan terhadap nilai
pengamatannya, sehingga dapat digunakan untuk mengukur kesalahan pendugaan.
Jika nilai pengamatan bagi variabel dependen lebih besar dari nilai dugaannya
(y i > y ) , maka sisaan akan bernilai positif; dan jika nilai pengamatan tersebut lebih
kecil dari nilai dugaannya (y i < y ) , maka sisaan akan bernilai negatif. Suatu
pendugaan yang sempurna terjadi jika y i = y , dimana sisaannya akan bernilai nol.
Y Y = b0 + b1 X
yi
(x i , yi )
e i = y i - y i
y i
X
xi
..................................................................... [7.8]
= å ( yi - b0 - b1 xi )
2
187
dengan menentukan garis regresi sampel yang meminimumkan jumlah kuadrat
sisaan (JKS).
Boks 7.1:
Nilai-nilai b0 dan b1 diperoleh dengan menentukan turunan pertama dari JKS
terhadap b0 dan b1 dan kemudian menyamakannya dengan nol:
å e 2 = å (y - y )
2
JKS =
= å (y - b0 - b1 x )
2
Substitusikan nilai b0 =
åy -b åx ke dalam persamaan di atas, maka
1
n n
æåy å x ö÷ x + 2b x 2 = 0
- 2å xy + 2ç - b1 å 1å
ç n n ÷ø
è
å y å x - 2b (å x )
2
- 2å xy + 2 1 + 2b1 å x 2 = 0
n n
(å x )2 å y å x
b1 å x 2
- b1 = - å xy
n n
b1n å x 2 - b1 (å x )2 = å y å x - nå xy
n å xy - å x å y
b1 =
n å x 2 - (å x )
2
Dengan metode kuadrat terkecil, nilai dugaan bagi parameter regresi b 0 dan b1
masing-masing adalah b0 dan b1 dimana
b0 = y - b1 x .......................................................................................... [7.9]
188
dan
b1 =
å ( x - x )( y - y ) ........................................................................ [7.10]
å(x - x )
2
atau
nå xy - å x å y
b1 = ....................................................................... [7.11]
nå x 2 - ( å x )
2
Tabel 7.1 Berat Basah (gr) dan Berat Kering (gr) Sampel Tanah
No Brt basah Brt kering No Brt basah Brt kering No Brt basah Brt kering
1 98,56 28,99 27 98,56 28,99 53 111,28 40,90
2 113,97 29,07 28 113,97 29,07 54 86,22 34,32
3 79,93 23,02 29 79,93 23,02 55 81,99 30,81
4 57,14 26,27 30 57,14 26,27 56 77,77 24,51
5 71,63 17,38 31 71,63 17,38 57 82,46 24,08
6 134,14 28,25 32 134,14 28,25 58 90,54 32,82
7 100,06 33,71 33 100,06 33,71 59 108,26 37,25
8 108,32 24,98 34 108,32 24,98 60 94,16 29,94
9 128,60 33,67 35 128,60 33,67 61 104,71 22,52
10 134,33 42,89 36 134,33 42,89 62 88,82 21,01
11 112,58 25,67 37 112,58 25,67 63 90,73 31,07
12 93,08 19,51 38 93,08 19,52 64 87,44 22,46
13 89,05 25,60 39 89,05 25,60 65 112,50 27,01
14 108,75 24,61 40 74,38 34,66 66 114,43 64,44
15 111,26 32,00 41 89,45 31,66 67 65,40 24,15
16 86,13 36,77 42 105,04 34,42 68 84,87 25,47
17 89,35 27,40 43 102,80 38,31 69 71,07 34,56
18 107,10 30,21 44 100,25 31,31 70 94,44 42,80
189
19 103,40 33,63 45 124,29 41,12 71 93,82 29,21
20 88,77 27,79 46 109,52 28,84 72 121,63 34,78
21 107,12 29,36 47 104,43 42,75 73 92,24 24,90
22 124,28 46,50 48 87,18 27,90 74 91,90 30,45
23 126,44 35,06 49 95,89 31,76 75 91,96 38,64
24 121,04 33,50 50 120,82 31,93 76 90,88 26,16
25 112,03 24,25 51 67,50 23,13 77 99,56 33,04
26 77,89 28,00 52 94,16 34,61 78 107,90 36,87
Penyelesaian:
Untuk menduga nilai-nilai b0 dan b1, kita perlu menghitung å x i , å y i , å xi y i dan
å xi2 , dalam hal ini nilai-nilai tersebut adalah sebagai berikut:
nå x i y i - å x i å y i
b1 =
nå xi2 - ( å xi )
2
dan
b0 = y - b1 x
= 30,56 - 0,1782 ´ 98,9619
= 12,927
Oleh karena itu, persamaan regresi sampelnya adalah
yi = 12,927 + 0,1782xi
Suatu model persamaan regresi biasanya digunakan untuk tujuan pendugaan. Hal
yang perlu diperhatikan dalam melakukan pendugaan tersebut adalah bahwa kita
190
hanya bisa melakukan pendugaan dalam suatu kisaran nilai variabel bebas yang
tertentu. Kisaran nilai tersebut terdiri atas semua nilai variabel X yang terletak
antara nilai data terkecil sampai nilai data terbesar, yang kita gunakan untuk
menyusun model tersebut. Artinya, dalam melakukan pendugaan tersebut, kita
hanya dapat melakukan interpolasi dalam kisaran nilai X tersebut, tetapi tidak dapat
melakukan ekstrapolasi.
Misalnya, dalam contoh di atas, kita peroleh persamaan garis regresi
yi = 12,927 + 0,1782xi
dimana X adalah berat basah sampel tanah (gr) dan Y adalah nilai dugaan bagi berat
kering sampel tanah (gr). Untuk contoh di atas, nilai terkecil bagi X adalah 57,14 gr
dan nilai terbesar adalah 134,33 gr. Nilai b0 = 12,927 adalah titik potong garis regresi
tersebut dengan sumbu tegak Y. Akan tetapi, untuk kasus ini nilai tersebut tidak
dapat diinterpretasikan sebagai nilai dugaan bagi berat kering tanah ketika berat
basah sampel tanah tersebut adalah 0 gr, karena dua alasan: alasan pertama adalah
bahwa nilai X = 0 terletak di luar kisaran nilai variabel X ; alasan kedua adalah karena
pernyataan tersebut sama sekali tidak masuk akal.
Ketika nilai X = 0 terletak di luar kisaran data sampel, maka nilai b0 sama sekali tidak
memberikan interpretasi yang bermanfaat, bahkan mungkin akan menyesatkan,
karena setiap usaha penginterpretasiannya akan memerlukan ekstrapolasi, yaitu
melakukan pendugaan untuk nilai X yang terletak di luar kisaran data sampel. Selain
itu, untuk nilai-nilai X yang terletak di luar kisaran data pengamatan, hubungan
antara variabel X dan Y mungkin tidak lagi linier, sehingga pendugaan tersebut dapat
mengakibatkan kesalahan yang fatal.
60
Y = 12,927 + 0,1782X
Berat kering (gr)
40
20
0
50 70 90 110 130
Berat basah (gr)
Gambar 7.5 Diagram Pencar dan Persamaan Regresi untuk Data dalam Tabel 7.1
Sebaliknya, kemiringan garis regresi sering kali memberikan interpretasi yang lebih
bermanfaat. Untuk contoh di atas, nilai b1 = 0,1782 menunjukkan bahwa untuk
setiap kenaikan berat basah tanah sebesar satu gram, secara rata-rata akan
menaikkan berat kering sampel tanah sebesar 0,1782 gr.
191
Persamaan regresi di atas kita peroleh dengan menggunakan metode kuadrat
terkecil, sehingga garis tersebut merupakan garis lurus terbaik yang meminimumkan
JKS. Namun demikian, hal ini bukan merupakan jaminan bahwa garis tersebut
mencerminkan keadaan data dengan baik. Salah satu indikator yang dapat
digunakan untuk mengetahui sampai sejauh mana persamaan suatu garis regresi
mencerminkan keadaan data secara keseluruhan adalah dengan menghitung
simpangan baku sisaan (residual standard deviation), se, yang dihitung dengan
rumus berikut:
å( yi - b0 - b1 xi )
2
JKS
se = = i
........................................................ [7.12]
n-2 n-2
atau
å yi2 - b0 å yi - b1 å xi yi
se = i i i
.......................................................... [7.13]
n -2
dimana n adalah jumlah pengamatan, sedangkan bilangan 2 (dalam n 2) berasal
dari jumlah parameter yang diduga dalam persamaan regresinya, yaitu b 0 dan b1 .
Walaupun kelihatan lebih rumit, rumus dalam Persamaan [7.13] lebih mudah
digunakan dalam melakukan perhitungan secara manual.
Simpangan baku sisaan, se, mengukur pencaran atau keragaman data di sekitar garis
regresinya. Semakin kecil nilai se, maka nilai-nilai Y akan semakin terkonsentrasi di
sekitar garis regresi tersebut. Sebaliknya, semakin besar nilai se, maka semakin besar
pula pencaran data dari garis regresinya.
Untuk Contoh 7.4, simpangan baku sisaannya adalah:
77029,6492 - 12,927 ´ 2383,68 - 0,1782 ´ 240412,2558
se =
78 - 2
3379,241
= = 6,6681
76
Perhatikan bahwa simpangan baku sisaan (se = 6,6681) tidak terlalu berbeda jauh
nilainya dari simpangan baku sampel variabel Y (sy = 7,3718), hal ini menunjukkan
bahwa garis regresi tersebut tidak sepenuhnya cocok mencerminkan hubungan
antara X dan Y. Artinya, berat kering sampel tanah tidak dapat diduga dengan baik
hanya dengan mengukur berat basah sampelnya saja.
192
keragaman. Salah satu diantaranya adalah jumlah kuadrat total (JKT), yang
merupakan ukuran keragaman nilai Yi di sekitar nilai rata-ratanya Y . Dalam ( )
analisis regresi linier sederhana, jumlah kuadrat total dapat diuraikan menjadi
jumlah kuadrat regresi (JKR), yang mencerminkan hubungan antara variabel X dan
Y, dan jumlah kuadrat sisaan (JKS), yang mencerminkan keragaman karena faktor-
faktor lain selain hubungan antara X dan Y tersebut. Interpretasi grafis dari ukuran-
ukuran keragaman tersebut dapat dilihat dalam Gambar 7.6.
Y yi
Jumlah kuadrat y i = b 0 + b1 x i
sisaan
xi
X
i n
dan
1
JKR = å ( yi - y ) = b0 å yi + b1 å xi yi - ( yi ) ........................... [7.16]
2
å
2
i n
193
serta
Untuk Contoh 7.4 di atas, kita peroleh bahwa JKT = 4184,388 dan JKR = 805,147 serta
JKS = 3379,241.
Ukuran keragaman yang lain adalah adalah koefisien determinasi, R2. Koefisien
determinasi merupakan bagian keragaman dari variabel Y yang dijelaskan oleh
persamaan regresinya. Nilai R2 dihitung dengan rumus berikut:
JKR
R2 = ............................................................................................. [7.18]
JKT
Untuk Contoh 7.4 di atas, kita peroleh bahwa
805,147
R2 = = 0,1924
4184,388
Nilai R2 tersebut menunjukkan bahwa persamaan garis regresi linier
y i = 12,927 + 0,1782x i menjelaskan 19,24% dari keragaman berat kering sampel
tanah. Hal ini berarti, sekitar 81% dari keragaman tersebut tidak terjelaskan oleh
persamaan regresinya.
7.6.1 MINITAB
Setiap program statistik menyajikan hasil analisisnya dengan cara yang berbeda,
akan tetapi informasi dasar yang disajikan pada umumnya sama. Pasangan data (x,
y) biasanya diinput ke dalam dua kolom (variabel) yang berbeda, misalnya dalam
program MINITAB kedua variabel tersebut dalam Contoh 7.4 masing-masing
disimpan dalam kolom C1 dengan nama B_basah dan kolom C2 dengan nama
B_kering. Analisis regresi dapat dilakukan dengan memilih menu
Stat Regression Regression...
Perintah tersebut akan mengaktifkan jendela Regression seperti terlihat dalam
Gambar 7.7.
Isikan variabel dependen (Y) ke dalam kotak Response: (dalam hal ini B_kering)
dan variabel bebas (X) ke dalam kotak Predictors: (dalam hal ini B_basah), lalu
klik OK.
194
Gambar 7.7 Jendela Regression dalam MINITAB
Regression Analysis
Analysis of Variance
Source DF SS MS F P
Regression 1 805.15 805.15 18.11 0.000
Error 76 3379.24 44.46
Total 77 4184.39
Unusual Observations
Obs B_basah B_kering Fit StDev Fit Residual St Resid
4 57 26.270 23.108 1.907 3.162 0.49 X
30 57 26.270 23.108 1.907 3.162 0.49 X
66 114 64.440 33.316 0.995 31.124 4.72R
Output dari program paket statistik MINITAB untuk Contoh 7.4 disajikan dalam
Tabel 7.2. Dalam tabel tersebut, dua baris pertama dari output MINITAB adalah
perintah dalam MINITAB untuk analisis regresi. Nilai b0 = 12,297 dan b1 = 0,17818
195
tercantum dalam kolom Coef dari output tersebut. Selain itu, output tersebut
juga menyajikan statistik lain, diantaranya adalah
S, simpangan baku sisaan: se = 0,668
R-Sq, koefisien determinasi: R2 = 19,2%
Regression SS, jumlah kuadrat regresi: JKR = 805,15
Error SS, jumlah kuadrat sisa: JKS = 3379,24
Total SS, jumlah kuadrat total, JKT = 4184,39
Jumlah-jumlah kuadrat tersebut biasa disusun dalam suatu tabel analisis keragaman
(analysis of variance). Dalam output MINITAB, tabel analisis keragaman disajikan di
bawah judul Analysis of Variance. Kolom Source di bawah judul
tersebut mendefinisikan sumber-sumber keragaman dalam analisis regresi, yang
merupakan penguraian dari keragaman total, yaitu keragaman karena model regresi
(Regression) dan keragaman karena faktor lain (Error). Kolom DF adalah
derajat bebas bagi masing-masing sumber keragaman (source of variance),
sedangkan kolom SS adalah jumlah kuadratnya, dan kolom MS adalah kuadrat
tengah (Mean squares) bagi masing-masing sumber keragaman. Nilai kuadrat
tengah, biasa dinotasikan dengan KT, dihitung dengan cara membagi jumlah kuadrat
dengan derajat bebas bagi sumber keragaman yang bersesuaian, yaitu
JKR
KTR = ......................................................................................... [7.19]
k -1
dan
JKS
KTS = ......................................................................................... [7.20]
n-k
dimana KTR dan KTS, masing-masing adalah kuadrat tengah regresi dan kuadrat
tengah sisa.
Kolom F dalam tabel analisis keragaman menyajikan nilai statistik F, dimana
JKR (k - 1)
F= .................................................................................... [7.21]
JKS (n - k)
Statistik F tersebut berdistribusi mengikuti kaidah distribusi F dengan derajat bebas
n1 = k 1 dan n2 = n k. Dalam output tersebut nilai statistik F tercantum dalam
kolom F yaitu = 18,11. Nilai statistik tersebut kemudian dibandingkan nilai teoritis
distribusi F dengan derajat bebas n1 = 1 dan n2 = 76, yang menghasilkan nilai P =
0.000. Dalam analisis regresi linier sederhana statistik F tersebut menguji pasangan
hipotesis H0: b1 = 0 vs H1: b1 ! 0 (pengujian hipotesis ini dibahas secara lebih rinci
pada Subbab 7.7).
Output tersebut juga menampilkan nilai koefisien determinasi terkoreksi, R-
Sq(adj). Nilai tersebut dihitung dengan rumus berikut:
196
k -1
2
Rterkoreksi = R2 -
n-k
( )
1 - R2 ................................................................ [7.22]
dimana k adalah jumlah koefisien regresi (dalam hal ini adalah dua, yaitu b0 dan b1);
dan n adalah jumlah pengamatan (dalam hal ini adalah 78). Nilai koefisien
determinasi terkoreksi sering digunakan ketika model regresinya menjadi lebih
kompleks, misalnya dalam analisis regresi berganda.
7.6.2 Excel
Dengan Excel kedua variabel tersebut dalam Contoh 7.4
masing-masing disimpan dalam kolom B dengan nama
cell B1 Brt.Basah dan kolom C dengan nama cell C1
Brt.Kering. Simpan worksheet Excel tersebut
dengan nama regresi.sederhana.
Analisis regresi dapat dilakukan dengan memilih tab
menu
Data Data Analysis Regression
Perintah tersebut akan mengaktifkan jendela Regression seperti terlihat dalam
Gambar 7.8.
197
Output dari program paket statistik Excel untuk Contoh 7.4 disajikan dalam Tabel
7.3.
Regression Statistics
Multiple R 0.438653
R Square 0.192417
Adjusted R Square 0.181791
Standard Error 6.668111
Observations 78
ANOVA
Df SS MS F Significance F
Regression 1 805.147 805.147 18.10796 5.89E-05
Residual 76 3379.241 44.4637
Total 77 4184.388
7.6.3 Program R
Analisis regresi juga dapat dilakukan dengan menggunakan software open source R,
dalam hal ini digunakan R Commander. Untuk menjalankan R Commander, kita bisa
menggunakan perintah
> library(Rcmdr)
Pengisian data secara langsung menggunakan R Commander dapat dilakukan me-
lalui menu Data/New data set . Setelah itu, jendela dialog pengisian nama dataset
akan ditampilkan, seperti yang terlihat pada Gambar 7.9.
Pada jendela dialog New Data Set, tuliskan tanah.gambut sebagai nama data
set baru tersebut. Kemudian klik OK, dan jendela dialog RGUI Data Editor akan
terbuka seperti pada Gambar 7.10.
198
8 P e n g e n al a n A n a li si s Re gre s i
B e rg a n d a
8.1 Pendahuluan
Regresi berganda (multiple regression) adalah regresi dengan dua atau lebih variabel
X, sehingga merupakan perluasan dari regresi linier sederhana. Dalam banyak hal,
perluasan dari regresi linier sederhana ke regresi linier berganda sangat jelas dan
mudah dipahami. Namun demikian, regresi linier berganda tentu saja agak lebih
kompleks karena melibatkan lebih banyak variabel yang dapat menimbulkan
permasalahan statistik yang berbeda. Beberapa konsep dasar tentang regresi
berganda akan kita bahas dalam bab ini.
Dalam kasus ini, k adalah jumlah parameter regresi dalam model (bi). Nilai harapan
bagi variabel Y sama dengan b 0 jika x1 = x2 = ... = xk-1 = 0. Koefisien bagi xk, yaitu bk,
adalah perubahan dalam nilai rata-rata Y untuk setiap peningkatan xk sebesar satu
satuan jika nilai variabel X lainnya tetap. Seperti juga dalam regresi linier sederhana,
nilai pengamatan bagi variabel Y dirumuskan sebagai penjumlahan antara nilai
harapannya dengan suatu variabel galat:
Yi = E (Yi | xi ) + e i ................................................................................... [8.3]
217
Seperti juga dalam regresi linier sederhana, prosedur pendugaan bagi koefisien-
koefisien regresi dapat dilakukan dengan metode kuadrat terkecil. Model regresi
sampel untuk Model [8.2] adalah
yi = b0 + b1 xi 1 + b2 xi 2 + b3 xi 3 + + bk -1 xi ,k -1 ........................................... [8.4]
Dengan metode kuadrat terkecil, nilai-nilai b0, b1, b2, ..., bk-1 diperoleh sedemikian
rupa sehingga meminimumkan jumlah kuadrat sisa, JKS:
JKS = å (yi - yi )2
i
.................................................................................. [8.5]
= å ei2
i
Untuk kasus yang melibatkan n nilai pengamatan dengan k buah koefisien regresi, Y
adalah suatu matriks berukuran n × 1 yang merupakan nilai-nilai pengamatan bagi
variabel Y; X adalah suatu matrik berukuran n × k yang setiap kolomnya merupakan
nilai-nilai pengamatan bagi masing-masing variabel X, kecuali kolom pertama dari
matriks X yang merupakan kolom yang bernilai 1; b adalah matriks berukuran k × 1
yang merupakan koefisien regresi dan e adalah matriks berukuran n × 1 yang
merupakan nilai-nilai galat:
218
8.3 Data PULSE.MTW
Untuk keperluan praktis, berbagai ilustrasi akan kita gunakan data tentang
pengukuran denyut nadi yang tersimpan dalam file PULSE.MTW yang terdapat
dalam program MINITAB (data tersebut merupakan salah satu sampel data dari
program MINITAB dan tersimpan dalam sub directory DATA dimana program
MINITAB disimpan, misalnya C:\MTBWIN\DATA). Data tersebut berasal dari suatu
percobaan sederhana yang melibatkan 92 orang mahasiswa. Setiap mahasiswa
diukur tinggi dan berat badannya, selain itu dicatat juga jenis kelamin, kebiasaan
merokok dan kebiasan berolahraga serta denyut nadinya pada saat beristirahat.
Sebagian dari mereka diminta berlari-lari di tempat selama satu menit, setelah itu
semua mahasiswa diukur lagi denyut nadinya (Tabel 8.1).
Activity
Weight
Weight
Smoke
Smoke
Height
Height
Pulse1
Pulse2
Pulse1
Pulse2
Ran
Ran
Sex
Sex
No
No
219
Activity
Activity
Weight
Weight
Smoke
Smoke
Height
Height
Pulse1
Pulse2
Pulse1
Pulse2
Ran
Ran
Sex
Sex
No
No
38 72 74 2 1 1 69.00 170 2 84 72 68 2 2 2 68.00 110 2
39 62 66 2 2 1 70.00 155 2 85 82 80 2 2 2 63.00 116 1
40 76 76 2 2 1 72.00 215 2 86 76 76 2 1 2 62.00 108 3
41 68 66 2 1 1 67.00 150 2 87 87 84 2 2 2 63.00 95 3
42 54 56 2 1 1 69.00 145 2 88 90 92 2 1 2 64.00 125 1
43 74 70 2 2 1 73.00 155 3 89 78 80 2 2 2 68.00 133 1
44 74 74 2 2 1 73.00 155 2 90 68 68 2 2 2 62.00 110 2
45 68 68 2 2 1 71.00 150 3 91 86 84 2 2 2 67.00 150 3
46 72 74 2 1 1 68.00 155 3 92 76 76 2 2 2 61.75 108 2
Tabel 8.2 Output regresi linier sederhana dari data PULSE.MTW dengan
program MINITAB
Regression Analysis
Analysis of Variance
220
Source DF SS MS F P
Regression 1 10096 10096 55.09 0.000
Error 90 16494 183
Total 91 26590
Andaikan dalam menduga denyut nadi pada pengukuran kedua tersebut juga
melibatkan variabel lain selain pengukuran pertama, misalnya variabel berat badan
mahasiswa (Weight), maka kita mempunyai model regresi dengan dua variabel in-
dependen, yaitu x1 = Pulse1 dan x2 = Weight. Dengan menggunakan MINITAB kita
memperoleh persamaan regresinya adalah sebagai berikut (lihat Tabel 8.3):
yi = 44,5 + 0,942xi1 - 0,033xi 2
Koefisien regresi bagi Pulse1 tetap bertanda positif dan signifikan (t = 7,13 dengan
P = 0,000), tetapi mengalami sedikit penurunan, yaitu dari 0,957 menjadi 0,942.
221
Nilai dugaan bagi Pulse2 akan berkurang sebesar 0,033 hitungan untuk setiap
peningkatan satu pound berat badan mahasiswa jika nilai hitungan Pulse1
tetap konstan.
Secara umum, koefisien bagi variabel independen ke k (Xk), yaitu bk,
diinterpretasikan sebagai berikut:
Nilai dugaan bagi varibel Y akan meningkat/menurun sebesar bk satuan
untuk setiap peningkatan variabel Xk sebesar satu satuan jika nilai-nilai
variabel independen lainnya tetap sama.
222
2
parsimony. Nilai koefisien determinasi terkoreksi, Rterkoreksi (R-Sq(adj)), yang
dihitung dengan rumus
k -1
2
Rterkoreksi = R2 -
n-k
( )
1 - R2 .................................................................. [8.8]
dimana se2 adalah varians sisaan dari model persamaan regresi yang melibatkan
semua variabel X yang relevan; JKSp adalah jumlah kuadrat sisa dari suatu model
persamaan regresi yang hanya melibatkan sebagian dari variabel X yang relevan,
yaitu hanya p buah variabel X (p ! k).
Untuk model persamaan regresi yang melibatkan semua variabel X maka Cp = p = k.
Suatu model persamaan regresi dikatakan cukup baik jika nilai Cp mendekati nilai p.
Jika nilai Cp lebih besar dari p maka hal ini menunjukkan bahwa ada satu atau
beberapa variabel X yang sebenarnya penting tidak dimasukkan ke dalam model
persamaan regresi tersebut. Dengan kriteria ini, maka model yang kita cari adalah
suatu model dengan nilai p yang kecil dan nilai Cp yang kecil dimana p " Cp.
223
Gambar 8.1 Jendela Best Subset Regression dalam program MINITAB
Program MINITAB mempunyai fasilitas untuk menghitung berbagai kriteria dalam
pemilihan variabel untuk dimasukkan ke dalam model persamaan regresi. Fasilitas
tersebut dapat diakses dengan memilih menu
Stats Regression Best subset...
Perintah tersebut akan mengaktifkan jendela Best Subset Regression seperti
telihat dalam Gambar 8.1. Output dari perintah tersebut dapat dilihat dalam Tabel
8.4.
A
c
P S H W t
u m e e i
l o i i v
s R k S g g i
R-Sq e a e e h h t
Vars R-Sq (adj) C-p S 1 n s x t t y
Dalam memilih variabel untuk suatu model persamaan regresi, terdapat dua
kemungkinan kesalahan yang dapat terjadi, yaitu:
224
a. Memasukkan suatu variabel yang tidak relevan. Variabel Xk adalah variabel
yang tidak relevan jika nilai bk yang sebenarnya adalah nol, atau sangat kecil
sehingga dapat dianggap tidak penting. Dengan dimasukkannya variabel X
yang tidak relevan, maka koefisien dan nilai dugaannya akan sangat
bervariasi, selain itu model yang kita bangun menjadi lebih rumit.
b. Tidak memasukkan variabel yang relevan. Variabel Xk adalah variabel yang
relevan jika nilai bk yang sebenarnya adalah tidak nol, dan nilainya cukup
besar sehingga dapat dianggap tidak penting. Dengan tidak dimasukkannya
variabel X yang relevan ke dalam model, maka semua aspek yang berkaitan
dengan regresi (koefisien, pendugaan dan sebagainya) menjadi tidak dapat
dipercaya, karena model kita terlalu sederhana.
Salah satu prosedur pemilihan variabel yang populer digunakan dalam analisis re-
gresi adalah Regresi Stepwise (Stepwise Regression). Regresi Stepwise merupakan
suatu prosedur pemilihan variabel secara otomatis. Terdapat tiga jenis prosedur
yang dapat digunakan, yaitu:
a. Metode backward elimination
Metode backward elimination dilakukan dengan langkah-langkah berikut:
1. Mulai dengan model terlengkap, yakni yang mengandung semua varia-
bel independen (X).
2. Cari satu variabel independen yang memiliki nilai p-value terbesar dan
lebih besar dari taraf nyata a. Variabel ini hanya memberikan kontribusi
yang kecil terhadap koefisien determinasi (R2). Keluarkan variabel ter-
sebut dari model.
3. Ulangi proses penyesuai (fitting) model, kemudian kembali ke langkah
2.
4. Berhenti jika semua nilai p-value bagi variabel X dalam model kurang
dari taraf nyata.
b. Metode forward inclusion
Langkah-langkahnya metode forward inclusion merupakan kebalikan dari
metode backward elimination, yaitu:
1. Mulai dengan tidak ada variabel X dalam model (model dengan kon-
stanta).
2. Pilih satu variabel X yang mempunyai nilai koefisien korelasi tertinggi
dengan Y.
3. Setelah itu, pada setiap langkah berikutnya tambahkan variabel X yang
mempunyai nilai p-value terkecil dan menghasilkan peningkatan nilai
koefisien determinasi terbesar.
4. Berhenti tidak ada lagi variabel X yang signifikan.
c. Metode gabungan
225
Metode ini merupakan kombinasi dari kedua metode di atas. Dengan metode
ini pada setiap langkah analisis, kita dapat melakukan penambahan variabel in-
dependen yang telah dibuang atau pengurangan variabel independen yang te-
lah ditambahkan pada langkah-langkah pemilihan terdahulu.
Prosedur Stepwise dapat menggunakan beberapa kriteria untuk menghentikan
prosesnya (stopping rules), misalnya berdasarkan tingkat signifikan (taraf nyata),
jumlah variabel X, atau kriteria lainnya. Sebagai contoh, prosedur stepwise dapat
menambahkan atau mengurangkan variabel sampai model regresinya hanya
mengandung variabel yang signifikan saja. Hal ini bisa dicapai dengan Metode for-
ward inclusion dengan menentukan nilai Alpha-to-Enter atau nilai F-to-Enter. Nilai-
nilai tersebut merupakan nilai yang disyaratkan agar suatu variabel X dapat di-
masukkan ke dalam model. Ketika tidak ada lagi variabel yang memenuhi syarat ter-
sebut, maka proses pemilihan variabel berhenti. Dengan cara yang sama metode
backward elimination dapat menerapkan nilai Alpha-to-remove atau nilai F-to-re-
move sebagai kriteria untuk menghentikan proses. Proses eliminasi berhenti ketika
semua variabel di dalam model memenuhi syarat tersebut.
Analisis Regresi Stepwise dalam MINITAB dijalankan dengan memilih menu
Stats Regression Stepwise...
Pilihan tersebut akan mengaktifkan Jendela Stepwise Regression. Lengkapi kotak-
kotak pilihan Response: dan Predictors: dengan variabel dependen (Y) dan
variabel independen (X). Kemudian klik Methods... Pilihan ini mengaktifkan jendela
Stepwise-Method. Pilihlah metode yang akan digunakan (lihat Gambar 8.2)
226
dengan hanya melibatkan Pulse1 dalam model. Model pada tahap pertama
menghasilkan R2 = 37.97% dengan Mallows C-p = 108.1. Hal ini menunjukkan bahwa
kecocokan model tersebut bisa ditingkatkan dengan menambahkan variabel lain ke
dalam model. Pada tahap kedua, variabel Ran ditambahkan ke dalam model. Terjadi
penigkatan koefisien determinasi yang substansial (R2 meningkat menjadi 67.71%
2
dan Rterkoreksi menjadi 66,98%). Pada tahap ini, nilai Mallows-C-p masih cukup besar.
Hal ini mengindikasikan masih ada variabel X yang bisa ditambahkan ke dalam
model. Pada tahap ketiga ditambahkan variabel Sex ke dalam model. Pada tahap ini
2
koefisien determinasi R2 meningkat menjadi 72.14% dan Rterkoreksi menjadi 71,19%.
Nilai Mallows C-p pada tahap ini adalah 4,1, hal ini menunjukkan bahwa model re-
gresi dengan tiga variabel X telah cukup baik merepresentasikan data. Setelah tahap
ketiga tidak ada lagi variabel X yang signifikan (semua variabel X yang tersisa
mempunyai nilai p-value yang lebih besar dari 0,10. Oleh karena itu proses seleki
dihentikan. Persamaan regresi yang dihasilkan adalah
yi = 42,62 + 0,812xi 1 - 20,1xi 2 + 7,8xi 3
dengan Y adalah Pulse2; X1 adalah Pulse1; X2 adalah Ran dan X3 adalah Sex. Model
persamaan regresi yang melibatkan ketiga variabel tersebut menghasilkan R2 =
2
72,1%, Rterkoreksi = 71,2%, Cp = 4,1 p = 4 dan se = 9,1751. Hasil tersebut sesuai
dengan Tabel 8.4.
Step 1 2 3
Constant 10.28 44.48 42.62
Sex 7.8
T-Value 3.74
P-Value 0.000
227
Penambahan variabel Ran dan Sex ke dalam model telah menyebabkan penurunan
dalam koefisien regresi bagi variabel Pulse1. Persamaan regresi tersebut
menjelaskan sekitar 71% dari total keragaman dalam nilai variabel Pulse2, suatu nilai
yang cukup besar mengingat bahwa jumlah variabel yang ada di dalam model hanya
3 variabel. Perhatikan bahwa, walaupun seluruh variabel X dimasukkan ke dalam
model nilai koefisien determinasi terkoreksi hanya mencapai 71,2% (lihat tabel 8.4).
Oleh karena itu, model yang melibatkan 3 variabel, yaitu Pulse1, Ran dan Sex
memenuhi azas parsimony. Output MINITAB selengkapnya dapat dilihat dalam
Tabel 8.6.
Analysis of Variance
Source DF SS MS F P
Regression 3 19182.0 6394.0 75.95 0.000
Error 88 7408.0 84.2
Total 91 26590.0
Source DF Seq SS
Pulse1 1 10096.1
Ran 1 7908.0
Sex 1 1177.8
228
digunakan untuk menambahkan/mengeluarkan variabel X dalam model ketika Re-
gresi Stepwise digunakan. Rumus AIC dan BIC didefinisikan sebagai
æs ö
AIC = nlog ç e ÷ + 2k .............................................................................. [8.12]
ènø
æs ö
BIC = nlog ç e ÷ + k log ( n ) ....................................................................... [8.13]
èn ø
dengan se adalah akar dari jumlah kuadrat sisaan, n adalah ukuran sampel, dan k
menunjukkan banyaknya variabel independen dalam model regresi, selain kompo-
nen konstanta.
Direction: forward
Criterion: BIC
Start: AIC=525.84
Pulse2 ~ 1
229
+ Height 1 541.8 26048 528.47
+ Activity 1 529.4 26061 528.51
+ Smokes 1 55.9 26534 530.17
Step: AIC=486.43
Pulse2 ~ Pulse1
Step: AIC=430.88
Pulse2 ~ Pulse1 + Ran
Step: AIC=421.83
Pulse2 ~ Pulse1 + Ran + Sex
Call:
lm(formula = Pulse2 ~ Pulse1 + Ran + Sex, data = Pulse)
Coefficients:
(Intercept) Pulse1 Ran Sex
42.6183 0.8122 -20.0687 7.7526
Hal yang perlu diperhatikan bahwa prosedur pemilihan variabel secara otomatis
dapat menyebabkan berkurangnya peran analisis peneliti dalam mengambil kepu-
tusan yang masuk akal. Selain itu, metode Stepwise juga memiliki beberapa kelema-
han secara teknis, yaitu
1. Ketika terjadi hubungan yang kuat antara beberapa variabel independen
(terjadinya multikolinieritas), prosedur stepwise cenderung mengeluarkan
satu atau beberapa variabel dari persamaan regresi. Dalam kasus ini, kita
230
dapat secara keliru menyatakan bahwa variabel tersebut adalah tidak pent-
ing dan secara berlebihan menyatakan pentingnya variabel yang ada di da-
lam model.
2. Pengaruh offsetting: jika variabel X1 dan X2 berkorelasi positif akan tetapi
memiliki pengaruh dengan tanda yang berlawanan terhadap Y, atau variabel
X1 dan X2 berkorelasi negative tetapi memiliki pengaruh dengan tanda yang
sama terhadap Y, maka prosedur stepwise dapat saja mengeluarkan satu
atau kedua variabel dari model regresi. Kita kemudian mengecilkan peran
dari kedua variabel tersebut.
dimana se adalah simpangan baku sisaan (Persamaan [8.10]). JKSi adalah jumlah
kuadrat sisaan dari model yang meregresikan Xi dengan variabel X yang lainnya.
Penduga bagi galat baku dari koefisien-koefisien regresi dapat juga dihitung sebagai
akar kuadrat dari unsur-unsur diagonal utama matriks varians-covarians bagi
penduga koefisiennya, S, dimana
S = se2 ( X'X ) ........................................................................................ [8.13]
-1
Nilai-nilai SE bagi setiap koefisien regresi dicantumkan dalam kolom StDev dalam
output MINITAB.
Statistik uji t untuk menguji pasangan hipotesis H0: bi = 0 lawan H1: bi ! 0 adalah
bi - b i
t= ............................................................................................ [8.14]
SEbi
231
Nilai P : 0,000 0,000 0,000 0,000
Nilai P bagi ketiga koefisien regresi semuanya sangat kecil (t bagi Pulse1 = 8,88
dengan P = 0,000; t bagi Ran = 10,09 dengan P = 0,000; t bagi Sex = 3,74 dengan
P = 0,000). Hal ini menunjukkan bahwa ketiga koefisien tersebut tidak sama dengan
nol dan sudah sepantasnya dimasukkan ke dalam model.
Selang kepercayaan (confidence interval) bagi koefisien regresi digunakan untuk
menduga kisaran dari koefisien tersebut pada tingkat kepercayaan tertentu. Selang
kepercayaan bagi koefisien regresi ke i, yaitu bi, ditentukan sebagai berikut:
bi ± t ´ SEbi .......................................................................................... [8.16]
dimana nilai t untuk tingkat kepercayaan tertentu ditentukan dari distribusi teoritis
t dengan derajat bebas n = n k. Misalnya, untuk derajat bebas n = 88 dari Tabel
Lampiran 2 diperoleh nilai-nilai berikut (n = 88 terletak kira-kira di tengah-tengah
antara df 60 dan 120 dalam tabel tersebut, nilai-nilai t yang tercantum di bawah ini
adalah hasil interpolasi):
untuk tingkat kepercayaan 90% diperoleh t = 1,6645
untuk tingkat kepercayaan 95% diperoleh t = 1,990
untuk tingkat kepercayaan 99% diperoleh t = 2,6385
Sebagai ilustrasi, selang kepercayaan 95% bagi koefisien regresi untuk variabel
Pulse1, yaitu b1, adalah
b1 ± t ´ SEb1 Þ 0,812 ± 1,990 ´ 0,0915
yaitu
0,6299 !b1 !0,9941
Selang kepercayaan tersebut diinterpretasikan sebagai berikut: jika kita mengambil
sampel acak berkali-kali, kemudian kita buat selang kepercayaan dengan cara
seperti di atas bagi setiap sampel acak tersebut, maka 95% dari selang-selang
tersebut akan mengandung nilai b 1 yang sebenarnya. Secara informal, dapat kita
katakan!!bahwa!berdasarkan!sampel!yang!kita!peroleh,!kita!percaya!95%!bahwa!
nilai parameter b1 yang sebenarnya terletak antara 0,6299 dan 0,9441.
232
memisahkan pengaruh variabel independen tersebut terhadap variabel
dependennya. Dalam kasus yang demikian, nilai dugaan bagi koefisien regresi akan
sangat berfluktuasi secara drastis tergantung pada variabel independen yang
dimasukkan ke dalam model regresinya.
Analisis regresi linier berganda tidak mungkin dapat dilakukan jika terdapat
multikolinieritas yang sempurna antar variabel independen yang terdapat dalam
model regresi. Jika variabel X1 dan X2 tidak mempunyai keragaman yang
independen, maka kita tidak dapat menduga pengaruh X1 dalam mengkoreksi X2,
dan sebaliknya. Kolinieritas antar variabel X1 dan X2 menyebabkan kita tidak dapat
menentukan apakah perubahan dalam nilai Y disebabkan oleh perubahan dalam X1
atau disebabkan oleh perubahan dalam X2 karena kedua variabel tersebut
mempunyai hubungan linier yang sempurna. Oleh karena itu, salah satu variabel,
baik X1 atau X2, harus dikeluarkan dari model. Hal ini tidak menyebabkan hilangnya
informasi karena terdapat suatu hubungan yang sempurna antar keduanya,
sehingga kedua variabel tersebut sebenarnya mencerminkan satu variabel yang
sama.
Walaupun multikolinieritas sempurna jarang sekali terjadi, tetapi multikolinieritas
yang kuat sering kali kita temukan. Andaikan terdapat multikolinieritas antar 3
variabel X, yaitu X1, X2 dan X3. Uji F statistik mungkin menolak hipotesis nol berikut:
H0: b 1 = b2 = b3 = 0
Artinya, jika H0 tersebut ditolak, maka uji F menyatakan bahwa paling tidak ada satu
nilai b yang tidak sama dengan nol. Jika kemudian kita lakukan uji t untuk menguji
hipotesis hipotesis berikut
H0: b 1 = 0
H0: b 2 = 0
H0: b 3 = 0
Hasil pengujian tersebut mungkin akan kontradiktif dengan hasil pengujian dengan
statistik F, yaitu bahwa uji t gagal untuk menolak hipotesis nol. Jika keadaan seperti
ini terjadi, dapat disimpulkan bahwa paling tidak terdapat satu multikolinieritas
antar variabel X yang mempengaruhi variabel Y.
233
160
Ran = 2 Ran = 1
140
120
Pulse2
100
80
60
40
40 60 Pulse180 100
Gambar 8.4 Scatter plot bagi Pulse2 versus Pulse1 untuk Ran =1 dan Ran = 2
Sebagai ilustrasi, mari kita lihat pengaruh variabel boneka dalam model yang hanya
melibatkan dua variabel X, yaitu Pulse1 (X1) dan Ran (X2). Output MINITAB dalam
Tabel 8.6 menunjukkan bahwa persamaan regresinya adalah
yi = 44,5 + 0,912xi1 - 19,1xi 2 ............................................................. [8.17]
Tabel 8.8 Output MINITAB bagi regresi Pulse2 terhadap Pulse1 dan Ran
The regression equation is
Pulse2 = 44.5 + 0.912 Pulse1 - 19.1 Ran
160
140
Y = 25,4 + 0,912 X1
120
Pulse2
100
80 Y = 6,3 + 0,912 X1
60
40
40 60 Pulse1 80 100
Gambar 8.5 Regresi Pulse2 terhadap Pulse1 dan Variabel Boneka Intersep untuk Ran
234
Variabel X2 dalam Persamaan 8.17 adalah variabel boneka intersep untuk Ran, yang
bernilai 1 untuk mahasiswa yang lari di tempat dan bernilai 2 untuk mahasiswa yang
tidak lari di tempat. Oleh karena itu, untuk menentukan persamaan regresi bagi
mahasiswa yang lari-lari di tempat selama satu menit substitusikan nilai X2 = 1 ke
dalam Persamaan 8.17:
yi = 44,5 + 0,912 xi 1 - 19,1(1)
............................................................. [8.18]
= 25,4 + 0,912 xi 1
Perbedaan antara [8.18] dan [8.19] adalah pada intersep (intercept) Y, yaitu titik
potong persamaan regresi pada sumbu tegak Y. Secara grafis, kedua persamaan
regresi tersebut digambarkan dalam Gambar 8.5.
Variabel boneka dalam contoh di atas digunakan untuk menguji perbedaan dalam
intersept. Dalam keadaan lain, variabel boneka dapat juga digunakan untuk menguji
perbedaan slope dari persamaan regresi. Untuk menguji perbedaan slope bentuk
lebih dulu variabel interaksi atau slope dummy variable dengan mengkalikan varia-
bel boneka dengan variabel pengukuran. Jika X1 adalah variabel boneka dan X2 ada-
lah variabel pengukuran, kita bentuk variabel interaksi X1 X2 dan masukkan ke dalam
persamaan regresi bersama dengan X2. Misalnya kita ingin meregresikan Pulse2 (Y)
dengan Pulse1 (X1) dan variabel interaksi yang dibentuk dari Pulse1 dan Ran (X1 X2),
maka kita dapatkan persamaan regresi sebagai berikut:
yi = 13,9 + 1,33xi 1 - 0,259xi 1 xi 2
Untuk mahasiswa yang lari di tempat (X2 = 1) maka persamaan regresinya adalah
yi = 13,9 + 1,33xi 1 - 0,259 xi 1 (1)
= 13,9 + 1,071xi 1
Untuk mahasiswa yang tidak lari di tempat (X2 = 2) maka persamaan regresinya ada-
lah
yi = 13,9 + 1,33xi 1 - 0,259 xi 1 ( 2 )
= 13,9 + 0,812 xi 1
Secara grafis, kedua persamaan regresi tersebut digambarkan dalam Gambar 8.6
235
160
140
Y = 13,9 + 1,071 X1
120
Pulse2
100
80
Y = 13,9 + 0,812 X1
60
40
40 60 Pulse1 80 100
Gambar 8.6 Regresi Pulse2 terhadap Pulse1 dan Variabel Boneka Slope untuk Ran
Jika kita mencurigai bahwa kedua kategori dalam variabel Ran berbeda dalam hal
intersep dan slopenya, maka kedua variabel boneka dapat dimasukkan ke dalam
model. Output MINITAB untuk kasus ini dapat dilihat dalam Tabel 8.8. Persamaan
regresi yang dihasilkan adalah
yi = 26,11 + 1,163xi 1 - 7,64 xi 2 - 0,157xi 1 xi 2
Substitusikan nilai X2 = 1 ke dalam model, maka persamaan regresi denyut nadi un-
tuk mahasiswa yang lari di tempat adalah
yi = 26,11 + 1,163xi 1 - 7,64 (1) - 0,157xi 1 ( 1)
= 18,47 + 1,006 xi 1
Substitusikan nilai X2 = 2 ke dalam model, maka persamaan regresi denyut nadi un-
tuk mahasiswa yang tidak lari di tempat adalah
yi = 26,11 + 1,163xi 1 - 7,64 ( 2 ) - 0,157xi 1 ( 2 )
= 10,83 + 0,849 xi 1
Secara grafis, kedua persamaan regresi tersebut digambarkan dalam Gambar 8.7
Tabel 8.9 Output MINITAB bagi Regresi Pulse2 terhadap Pulse1, Ran dan Pulse1Ran
236
160
140
Y = 18,47 + 1,006 X1
120
Pulse2
100
80 Y = 10,83 + 0,849 X1
60
40
40 60 80 100
Pulse1
Gambar 8.7 Regresi Pulse2 terhadap Pulse1 dan Variabel Boneka Intersep dan
Slope untuk Ran
237
Indeks
238
B a h a n b a c aa n
Berenson, M.L, D.M. Levine, K.A. Szabat, T.C. Krehbiel and Stephan, D.F. 2013. Basic
Business Statistics: Concepts and Application. 12th edition. Pearson Aus-
tralia. Frenchs Forest, NSW.
Damon, R.A, Jr. and W.R. Harvey. 1987. Experimental Design, ANOVA, and
Regression. Harper & Row Publishers, Inc. New York.
Darlington, R.B. and P.M. Carlson. 1987. Behavioral Statistics: Logic and Methods.
Collier Macmillan Publishers. New York.
Hamilton, L.C. 1992. Regression with graphics: a Second Course in Applied Statistics.
Duxbury Press. Belmont, California
Hanke, J.E. and A.G. Reitsch. 1991. Understanding Business Statistics. Richard D.
Irwin, Inc. Homewood, Illinois.
Karmel, P.H. and M. Polasek. 1978. Applied Statistics for Economists. Fourth
Edition. Pitman Publishing Pty Ltd. Carlton.
Keller, G., B. Warrack and H. Bartel. 2004. Statistics for Management and Economics.
Wadsworth Publishing Company. Belmont, California.
Kenkel.J.L. 1996. Introductory Statistics for Management and Economics. PWS-Kent
Publishing Company. Boston, Massachusetts.
Kusnandar, D. 2004. Metode Statistik dan Aplikasinya dengan Minitab dan Excel.
Madyan Press, Yogyakarta
Larson, H.J. 1973. Introduction to the Theory of Statistics. John Wiley & Sons, Inc.
New York.
Mood, A.M. and F.A. Graybill. 1974. Introduction to the Theory of Statistics. Second
edition. McGraw-Hill Book Company, Inc. New York.
Ott, L. 2015. An Introduction to Statistical Methods and Data Analysis. Fifth edition.
Duxbury Press. Boston, Massachusetts.
Tabachnick, B.G. and L.S. Fidel. 2007. Using Multivariate Statistics. Harper & Row,
New York.
Walpole, R.E. 1968. Introduction to Statistics. Collier-Macmillan. Ltd. London
Zehna, P.W. 1992. A MINITAB® Companion with Macros. Addison-Wesley Publishing
Company, Inc. Reading, Massachusetts.
241
L a m pi ra n
242