Anda di halaman 1dari 164

Metode Statistika

Serta Aplikasinya dengan MINITAB, Excel dan R

Dadan Kusnandar
Naomi Nessyana Debataraja
Muhlasah Novitasari Mara
Neva Satyahadewi
Metode Statistika
Serta Aplikasinya dengan MINITAB, Excel dan R

Dadan Kusnandar
Naomi Nessyana Debataraja
Muhlasah Novitasari Mara
Neva Satyahadewi

Hak Cipta © 2019 pada Penulis

Desain Cover: Sanny Perwira Januardani

Hak cipta dilindungi undang-undang.


Dilarang memperbanyak atau memindahkan sebagian atau
seluruh isi buku ini dalam bentuk apapun, baik secara elektronik
maupun mekanik, termasuk memfotokopi, merekam atau dengan
menggunakan system penyimpanan lainnya, tanpa izin tertulis
dari Penulis.

Penerbit UNTAN Press


Anggota IKAPI No. 004/KLB/03
Jalan Ahmad Yani, Pontianak
Telp: (0561) 739630, Fax: (0561) 739637

Percetakan Mitra Kasih


Jalan Budi Utomo, Pontianak
Telp: (0561) 884963

ISBN: 978-602-8355-83-4

Perpustakaan Nasional: Katalog dalam Terbitan (KDT)


17,6x25 cm; viii+249 hlm
K a ta P e n g a nta r

Buku ini disusun untuk memberikan pengetahuan dasar tentang berbagai teknik
dalam Metode Statistika dan analisis data bagi mahasiswa dan peneliti dari berbagai
disiplin ilmu, baik bidang ilmu eksakta maupun ilmu sosial. Untuk itu, penyusunan
buku ini telah dilakukan sedemikian rupa sehingga para penggunanya tidak perlu
memiliki latar belakang pengetahuan Matematika yang kuat dalam memahami
materi yang dibahas di dalam buku ini.

Penyajian materi dalam buku ini lebih menekankan pada penggunaan Metode
Statistika dalam menganalisis data daripada pembahasan tentang teori Ilmu
Statistik. Namun demikian, pembahasan tentang beberapa asumsi yang melatar-
belakangi penggunaan teknik tertentu disajikan secara ringkas sebagai pelengkap
agar pengguna buku ini dapat menentukan teknik yang tepat dalam menganalisis
data hasil penelitian.

Setiap pokok bahasan sedapat mungkin dilengkapi dengan petunjuk penggunaan


program komputer, yaitu MINITAB, Excel dan R. Program MINITAB dan Excel relatif
mudah untuk digunakan karena perintah-perintahnya telah tertata dalam bentuk
pull-down menu yang dapat diaktifkan hanya dengan meng-klik mouse komputer.
Selain itu, di dalam buku ini juga diperkenalkan penggunaan Program Statistika R
yang semakin banyak digunakan di kalangan statistisi. Program R adalah program
paket open source yang penggunaannya tidak memerlukan lisensi seperti Program
MINITAB dan Excel. Program R dapat diunduh secara bebas dari
http://cran.rproject.org/

Setiap pokok bahasan telah dilengkapi dengan beberapa contoh penggunaannya.


Sebagian dari contoh-contoh tersebut merupakan data hasil penelitian yang
dilakukan oleh mahasiswa tingkat sarjana pada Universitas Tanjungpura, Pontianak,
dan beberapa peneliti senior. Oleh karena itu, penulis merasa sangat berhutang
budi dan berterima kasih kepada mereka yang telah mengijinkan penulis untuk

iii
menggunakan data tersebut sebagai contoh dalam buku ini. Ucapan terima kasih
juga penulis sampaikan kepada dosen-dosen pada Fakultas Matematika dan Ilmu
Pengetahuan Alam, Universitas Tanjungpura yang telah memberikan berbagai saran
dan kritik selama penulisan buku ini. Kepada berbagai pihak yang telah membantu
hingga tersusunnya buku ini, penulis sampaikan penghargaan setinggi-tingginya.

Pontianak, Pebruari 2019

Penulis

iv
D a f ta r I si

Kata Pengantar ......................................................................................................... iii


Daftar Isi..................................................................................................................... v
1 Pendahuluan ......................................................................................................... 1
1.1 Peranan Statistika ........................................................................................ 1
1.2 Sumber dan Jenis Data ................................................................................ 3
1.3 Tingkat Skala Pengukuran Data ................................................................... 5
1.4 Penggunaan Komputer ................................................................................ 7
Soal-Soal Latihan ................................................................................................... 8
2 Statistika Deskriptif ............................................................................................. 10
2.1 Pendahuluan.............................................................................................. 10
2.2 Distribusi Frekuensi dan Distribusi Frekuensi Relatif ................................ 11
2.3 Histogram .................................................................................................. 14
2.4 Penyusunan Distribusi Frekuensi dan Histogram dengan Bantuan
Komputer .................................................................................................. 15
2.5 Diagram Batang dan Daun ......................................................................... 18
2.6 Metode Penyajian bagi Data Kualitatif ...................................................... 21
2.7 Ukuran Pemusatan Data............................................................................ 24
2.8 Ukuran Penyebaran Data .......................................................................... 30
2.9 Penggunaan Komputer untuk Menghitung Ukuran Pemusatan dan
Penyebaran Data ....................................................................................... 36
MINITAB .................................................................................................... 36
Excel 37
Program R ................................................................................................. 39
2.10 Diagram Kotak (Box Plot) ........................................................................... 39
Soal-Soal Latihan ................................................................................................. 42
3 Teori Peluang dan Distribusi Peluang ................................................................. 46
3.1 Pendahuluan.............................................................................................. 46
3.2 Percobaan acak.......................................................................................... 47

v
3.3 Permutasi dan kombinasi .......................................................................... 47
3.4 Interpretasi tentang peluang..................................................................... 51
3.5 Beberapa aturan dasar peluang ................................................................ 54
3.6 Peluang bersyarat ...................................................................................... 57
3.7 Variabel acak ............................................................................................. 62
3.8 Distribusi peluang bagi variabel acak diskrit ............................................. 63
3.9 Nilai harapan dan varians .......................................................................... 65
3.10 Distribusi Binomial..................................................................................... 68
3.11 Distribusi Hipergeometrik ......................................................................... 73
3.12 Distribusi Poisson ...................................................................................... 74
3.13 Distribusi peluang bagi variabel acak kontinu ........................................... 76
3.14 Distribusi Normal ....................................................................................... 78
3.15 Pendekatan Normal bagi Distribusi Binomial ............................................ 83
Soal-soal latihan .................................................................................................. 85
4 Pengambilan Sampel dan Distribusi Sampling.................................................... 92
4.1 Pendahuluan.............................................................................................. 92
4.2 Penarikan sampel secara acak ................................................................... 93
4.3 Distribusi sampling bagi nilai rata-rata sampel ( X ) ................................. 96

4.4 Distribusi sampling bagi selisih rata-rata sampel .................................... 103


4.5 Distribusi sampling bagi proporsi ............................................................ 105
4.6 Distribusi t ............................................................................................... 107
Soal-soal latihan ................................................................................................ 111
5 Pendugaan ........................................................................................................ 115
5.1 Pendahuluan............................................................................................ 115
5.2 Selang kepercayaan bagi rata-rata populasi (s diketahui)...................... 117
5.3 Selang kepercayaan bagi rata-rata populasi (s tidak diketahui)............. 122
5.4 Penentuan ukuran sampel untuk menduga nilai rata-rata ..................... 125
5.5 Selang kepercayaan bagi proporsi p........................................................ 127
5.6 Penentuan ukuran sampel untuk menduga proporsi ............................. 131
5.7 Selang kepercayaan bagi varians populasi .............................................. 132

vi
Soal-soal latihan ................................................................................................ 135
6 Pengujian Hipotesis ........................................................................................... 140
6.1 Pendahuluan............................................................................................ 140
6.2 Konsep pengujian hipotesis ..................................................................... 140
6.3 Pengujian hipotesis tentang rata-rata populasi ...................................... 144
6.3.1 Kasus 1: varians populasi, s2, diketahui nilainya ........................... 144
6.3.2 Kasus 2: varians populasi, s2, tidak diketahui nilainya .................. 148
6.4 Pengujian Hipotesis tentang Proporsi ..................................................... 151
6.5 Pengujian hipotesis tentang varians populasi ......................................... 154
6.6 Pengujian Hipotesis tentang Selisih Rata-rata Dua Populasi
Independen ............................................................................................. 156
6.6.1 Kasus 1: Pengujian Hipotesis tentang Selisih Rata-rata Dua
Populasi Independen, s12 dan s22 Nilainya Diketahui ................... 157
6.6.2 Kasus 2: Pengujian hipotesis tentang selisih rata-rata dua
populasi independen, s12 = s22 tetapi nilainya tidak diketahui..... 161
6.6.3 Kasus 3: Pengujian hipotesis tentang selisih rata-rata dua
populasi independen, s12 ≠ s22 dan nilainya tidak diketahui ........ 166
6.7 Pengujian hipotesis untuk data berpasangan ......................................... 169
Soal-soal latihan ................................................................................................ 172
7 Regresi Linier Sederhana dan Korelasi ............................................................. 180
7.1 Pendahuluan............................................................................................ 180
7.2 Hubungan antara variabel dependen dengan variabel bebas ................ 181
7.3 Analisis regresi linier sederhana .............................................................. 184
7.4 Penduga kuadrat terkecil bagi b 0 dan b1 ................................................. 186
7.5 Koefisien determinasi dan sumber keragaman dalam analisis
regresi ..................................................................................................... 192
7.6 Membaca output komputer .................................................................... 194
7.6.1 MINITAB ......................................................................................... 194
7.6.2 Excel ............................................................................................... 197
7.6.3 Program R ...................................................................................... 198
7.7 Pengujian hipotesis bagi koefisien regresi .............................................. 202
7.8 Pendugaan selang kepercayaan .............................................................. 204
7.9 Koefisien korelasi..................................................................................... 206
7.10 Hubungan antara koefisien korelasi dengan koefisien regresi ............... 209

vii
7.11 Beberapa masalah dalam analisis regresi ............................................... 211
Soal-soal latihan ................................................................................................ 213
8 Pengenalan Analisis Regresi Berganda ............................................................ 217
8.1 Pendahuluan............................................................................................ 217
8.2 Model regresi berganda .......................................................................... 217
8.3 Data PULSE.MTW .................................................................................... 219
8.4 Pemilihan variabel ................................................................................... 222
8.5 Uji t dan selang kepercayaan bagi koefisien regresi ............................... 231
8.6 Multikolinieritas (multicollinierity) .......................................................... 232
8.7 Variabel boneka (dummy variable) ......................................................... 233
Indeks ..................................................................................................................... 238
Bahan bacaan ........................................................................................................ 241
Lampiran ................................................................................................................ 242
Lampiran 1. Tabel bilangan acak ...................................................................... 243
Lampiran 2. Tabel Normal Baku ....................................................................... 244
Lampiran 3. Tabel distribusi t ........................................................................... 245
Lampiran 4. Tabel Distribusi Chi-kuadrat ......................................................... 246
Lampiran 5. Tabel distribusi F .......................................................................... 248
Lampiran 6. Abjad huruf Yunani....................................................................... 251

viii
1 Pe n d a h ul u a n

1.1 Peranan Statistika


Sebagai suatu disiplin ilmu, Statistika pada mulanya berkembang karena kebutuhan
pihak pemerintah atau penguasa untuk mengumpulkan informasi yang berkaitan
dengan data kependudukan. Kegiatan pengumpulan data/informasi ini sudah
dilakukan sejak lama. Pada masa kejayaan Kekaisaran Romawi dan Yunani
pengumpulan informasi dilakukan terutama sekali untuk keperluan penentuan
pajak dan ketentuan yang berkaitan dengan wajib dinas militer. Demikian juga
pemerintah Belanda pada masa penjajahannya di Indonesia telah mengumpulkan
berbagai informasi tentang Indonesia, tidak hanya tentang kependudukan saja
tetapi juga berbagai informasi lainnya, seperti informasi tentang flora dan fauna
serta sosial dan budaya Indonesia.
Saat ini, semua negara di dunia telah melakukan berbagai jenis sensus secara
periodik, paling tidak setiap sepuluh tahunan, demi untuk mendapatkan berbagai
informasi yang akurat dan up to date. Istilah-istilah seperti sensus kependudukan,
sensus pertanian, dan sensus ekonomi, sudah bukan merupakan istilah yang asing
lagi bagi telinga kita.
Tedapat dua istilah penting yang sering dikaitkan dengan Statistika, yaitu populasi
dan sampel. Secara formal, kedua istilah ini didefinisikan sebagai berikut:
Definisi
Populasi adalah seluruh nilai atau item yang mungkin diperoleh sebagai hasil
pengamatan dalam suatu persoalan tertentu.
Sampel adalah bagian dari populasi yang diambil untuk keperluan an alisis.

Berbeda dengan pengertian sehari-hari, istilah populasi dalam Statistika tidak harus
selalu dikaitkan dengan sekelompok orang tertentu. Populasi bisa saja berkaitan
dengan diameter pohon suatu spesies pada umur tertentu, atau berat kering
tanaman dari suatu varietas cabai setelah dipanen, atau penghasilan per bulan dari
golongan masyarakat tertentu. Ukuran deskriptif dari suatu populasi disebut
parameter. Misalnya, untuk kasus dimana populasinya adalah penghasilan
masyarakat per bulan, maka parameter populasi tersebut dapat berupa rata-rata
penghasilan per bulan atau proporsi golongan masyarakat yang berpenghasilan di
bawah suatu nilai standar tertentu. Jika kita hanya mengamati penghasilan per
bulan dari 100 orang dalam golongan masyarakat tadi, maka nilai-nilai yang kita
peroleh merupakan suatu sampel dari populasi tersebut. Ukuran deskriptif dari
suatu sampel disebut statistik.
Istilah Statistik saat ini sering kali dicampur-adukkan dengan istilah Statistika. Pada
umumnya Statistik berarti sekumpulan data yang terdiri atas angka-angka, sehingga

1
kita mengenal istilah Statistik Pertanian, Statistik Penduduk, Statistik Perekonomian,
dan sebagainya. Sedangkan Statistika merupakan suatu disiplin ilmu. Ruang lingkup
Statistika sebagai disiplin ilmu mencakup berbagai teknik pengumpulan dan
penyajian data, baik untuk keperluan analisis data maupun dalam proses
pengambilan keputusan. Salah satu kegunaan utama dari Ilmu Statistika adalah
untuk menyediakan suatu set prosedur yang memungkinkan kita melakukan
inferens, pendugaan dan menentukan keputusan tentang karakteristik suatu
populasi berdasarkan atas informasi sampel yang diambil dari sebagian populasi
tersebut.
Definisi
Statistika adalah suatu cabang Ilmu Matematika yang berkaitan dengan
teknik-teknik pengumpulan, penyajian dan analisis data yang digunakan
dalam proses pengambilan keputusan.
Ilmu Statistika dapat dibagi menjadi dua bagian, yaitu Statistika Deskriptif dan Statis-
tika Inferensial. Cabang ilmu Statistika Deskriptif berkaitan dengan berbagai teknik
pengumpulan, pengorganisasian, penyederhanaan dan penyajian data ke dalam
bentuk yang lebih mudah dipahami, misalnya dalam bentuk tabel atau grafik. Teknik
penyederhanaan data biasanya disertai dengan penjelasan tentang karakteristik-
karakteristik tertentu dari data, seperti ukuran pemusatan atau penyebaran dari
data tersebut. Berbagai teknik yang biasa digunakan dalam Statistika Deskriptif akan
dibahas secara khusus dalam Bab 2.
Saat ini Statistika telah digunakan secara luas dalam penelitian-penelitian di semua
disiplin ilmu pengetahuan. Hal ini terutama sekali terjadi setelah berkembangnya
Metode Statistika Inferensial yang merupakan perkembangan dari teori peluang
(probability theory). Statistika Inferensial berkaitan dengan proses pendugaan dan
penarikan kesimpulan tentang karakteristik suatu populasi berdasarkan atas
informasi sampel.
Salah satu aspek utama dari Statistika Inferensial adalah proses penggunaan nilai
statistik sampel dalam pengambilan keputusan yang berkaitan dengan nilai
parameter populasi yang sebenarnya. Dengan semakin besarnya populasi maka
biaya dan waktu yang diperlukan untuk mendapatkan informasi dari seluruh
populasi akan semakin besar dan semakin sulit dilaksanakan sehingga kesimpulan
mengenai karakteristik populasi harus ditentukan berdasarkan informasi yang
diperoleh dari sampel yang diambil dari populasi tersebut. Teori peluang
mempunyai peranan yang besar dalam menjembatani hubungan antara hasil
sampel dengan populasinya. Kaidah-kaidah dalam teori peluang digunakan untuk
menilai sampai berapa jauh informasi sampel mencerminkan populasinya. Penilaian
tersebut dilakukan melalui pemeriksaan terhadap sifat-sifat distribusi samplingnya.
Aturan dasar tentang teori peluang dan beberapa bentuk distribusi peluang yang
penting akan dibahas dalam Bab 3, sedangkan sifat-sifat distribusi samplingnya
dibahas dalam Bab 4.

2
1.2 Sumber dan Jenis Data
Informasi atau data selalu diperlukan dalam setiap proses pengambilan keputusan.
Akan tetapi, tidak semua data memberikan manfaat dalam pengambilan keputusan.
Jika data yang diperoleh tidak layak atau cacat karena bias, tidak jelas, atau karena
kesalahan-kesalahan lainnya, maka tidak ada satupun alat atau metode yang dapat
memperbaikinya. Oleh karena itu, metode pengumpulan data yang baik dan benar
perlu mendapat perhatian yang serius, agar data yang diperoleh memberikan
manfaat yang maksimal.
Terdapat beberapa metode yang dapat digunakan untuk mendapatkan data yang
diperlukan, yaitu dengan:
· mencari data yang sudah dipublikasikan oleh sumber-sumber tertentu, baik
pemerintah, perusahaan ataupun individu;
· merancang suatu percobaan;
· melakukan survei.
Pemerintah pada setiap tingkatan, baik pusat, propinsi maupun kabupaten, telah
secara rutin mempublikasikan berbagai jenis data melalui Biro/Badan Pusat Statistik
di masing-masing tingkat pemerintahan. Data yang telah dipublikasikan pemerintah
diantaranya mencakup data kependudukan, tenaga kerja, pertanian, dan
perekonomian. Data tersebut digunakan oleh pemerintah sebagai dasar untuk
menentukan kebijakan dan program-program pembangunan di berbagai sektor.
Selain itu, berbagai jenis data juga dikumpulkan oleh perusahaan, lembaga swadaya
masyarakat, dan peneliti dari berbagai institusi. Data yang dikumpulkan oleh pihak
nonpemerintah biasanya hanya digunakan untuk keperluan sendiri dalam
lingkungan yang terbatas dan tidak selalu dipublikasikan untuk umum. Namun
demikian, data tersebut seringkali dapat diakses oleh pihak lain untuk berbagai
keperluan lain. Data yang demikian disebut sebagai data sekunder, karena data
tersebut telah dikompilasi dan telah siap untuk digunakan untuk keperluan analisis
selanjutnya.
Data dapat juga dikumpulkan melalui percobaan. Di dalam suatu percobaan,
pengaturan dan kontrol yang ketat diterapkan terhadap satuan-satuan percobaan
yang mendapat perlakuan tertentu. Misalnya, dalam suatu percobaan untuk
menguji pertumbuhan beberapa varietas padi pada suatu jenis tanah tertentu, maka
keadaan tanah, pengairan dan faktor-faktor lain yang dapat mempengaruhi
pertumbuhan tanaman padi harus dibuat seseragam mungkin. Hal ini dimaksudkan
agar perbedaan pertumbuhan antartanaman yang dihasilkan melalui percobaan
tersebut diharapkan mencerminkan perbedaan varietas.
Metode yang ketiga dalam pengumpulan data adalah melalui survei. Dalam
pelaksanaan suatu survei, pengaturan dan kontrol terhadap satuan percobaan atau
objek yang disurvei tidak diterapkan secara ketat seperti pada pelaksanaan suatu
percobaan. Pengumpulan data melalui survei biasanya dilakukan melalui teknik

3
wawancara, penyebaran kuesioner, diskusi atau pengamatan langsung terhadap
objek yang diteliti.
Data yang dikumpulkan sendiri oleh peneliti, baik melalui suatu percobaan maupun
melalui survei, disebut sebagai data primer. Data yang demikian dikumpulkan secara
khusus agar sesuai dengan keperluan analisis yang diinginkan.

Jenis data Pertanyaan yang diajukan Respons

Kualitatif Apakah status õ belum kawin


perkawinan anda? õ kawin
õ duda/janda

Diskrit Berapa jumlah anak ______ anak


balita di rumah anda?
Kuantitatif

Kontinu Berapa usia anda? ___ tahun, ___ bulan

Gambar 1.1 Contoh Jenis Data dengan Bentuk Pertanyaan dan Responsnya

Pada dasarnya data yang diperoleh melalui ketiga metode tersebut dapat
dikelompokkan menjadi dua jenis data, yaitu data kualitatif dan data kuantitatif.
Data kualitatif adalah data yang berbentuk kategori, misalnya data tentang jenis
kelamin, warna kendaraan, dan jenis pekerjaan. Sedangkan data kuantitatif adalah
data yang berbentuk numerik atau angka, misalnya data tentang hasil tanaman per
hektar, penghasilan per bulan, dan berat badan. Data kuantitatif dapat
dikelompokkan lebih jauh menjadi data kuantitatif diskrit dan kontinu. Data yang
diskrit biasanya diperoleh dari hasil membilang, seperti jumlah kendaraan bermotor
per rumah tangga, atau jumlah anggota keluarga. Data yang diskrit hanya dapat
mengambil nilai pada suatu titik tertentu dalam suatu selang atau interval, sehingga
selalu ada jarak atau celah diantara nilai-nilainya. Oleh karena itu, data kuantitatif
yang diskrit biasanya mempunyai nilai berupa bilangan bulat, misalnya 0, 1, 2, dan
seterusnya. Sebaliknya, data yang kontinu biasanya diperoleh sebagai hasil
pengukuran, dan nilainya dapat mengambil sembarang nilai dalam suatu interval
tertentu, misalnya berat badan, tinggi tanaman, atau penghasilan per bulan. Nilai
pengamatan dari data kuantitatif yang kontinu sangat tergantung pada tingkat
ketelitian alat ukurnya. Misalnya suatu pohon yang dilaporkan tingginya adalah 16
meter, jika diukur lebih lebih teliti mungkin hasil pengukurannya 16,2 meter, 16,19

4
meter atau 16,194 meter. Oleh karena itu, data kuantitatif kontinu dapat mengambil
sembarang nilai dalam sistem bilangan nyata.
Dalam suatu survei, jenis data yang ingin dikumpulkan dapat disesuaikan dengan
bentuk pertanyaan yang diajukan kepada responden serta respons dari pertanyaan
tersebut. Contoh bentuk pertanyaan dan respons dari pertanyaan ini dapat dilihat
dalam Gambar 1.1.

1.3 Tingkat Skala Pengukuran Data


Pada umumnya data diperoleh dengan cara melakukan pengukuran atau penilaian
terhadap objek yang diamati. Oleh karena itu, data dapat juga digolongkan
berdasarkan tingkat skala pengukurannya: yaitu skala nominal, ordinal, interval dan
rasio. Semakin tinggi tingkat skala pengukurannya maka semakin banyak informasi
yang dikandung data tersebut.

Tabel 1.1 Contoh Data Dalam Skala Pengukuran Nominal dan Ordinal
Skala Data kualitatif Kategori
pengukuran
1. Nominal Kepemilikan roda dua õ Ya õ Tidak
Kewarganegaraan õ Indonesia õ Amerika
õ Inggris õ Lainnya
Warna daun õ Hijau tua õ Hijau muda
õ Kuning õ Merah
2. Ordinal Jabatan fungsional dosen õ Guru besar õ Lektor Kepala
õ Lektor õ Asisten Ahli
Nilai akhir matakuliah õA õB õC õD õE
Tingkatan hotel õ ***** õ **** õ *** õ ** õ *
berbintang

Skala pengukuran nominal dan ordinal hanya terdapat dalam data kualitatif. Data
yang diukur pada skala nominal merupakan tingkatan terendah dalam skala
pengukuran. Dalam skala nominal data hanya dikelompokkan ke dalam beberapa
kategori yang berbeda tanpa adanya tingkatan. Setiap objek pengamatan hanya
dapat dikelompokkan ke dalam satu kategori saja. Jika pengelompokkan data ke
dalam beberapa kategori disertai dengan adanya tingkatan dalam kategori tersebut
maka yang terjadi adalah pengukuran dalam skala ordinal. Data yang diukur dalam
skala ordinal mempunyai tingkatan yang lebih tinggi daripada data yang diukur
dalam skala nominal. Namun demikian, skala pengukuran ordinal masih merupakan
skala pengukuran yang lemah, karena kita tidak bisa membuat penyataan numerik
yang berarti tentang perbedaan antar kategori tersebut. Perbedaan kategori

5
tersebut hanya sebatas pada kategori mana yang ‘lebih baik’, atau ‘lebih tinggi’ atau
‘lebih disukai’ dan tidak lebih dari itu. Beberapa contoh data dalam skala
pengukuran nominal dan ordinal di sajikan dalam Tabel 1.1 .
Skala pengukuran interval dan rasio berlaku bagi data kuantitatif. Skala pengukuran
interval diperoleh ketika objek pengamatan diukur secara numerik dan interval
antara hasil-hasil pengukuran dapat ditentukan dengan tepat. Skala interval
merupakan skala pengukuran dalam bentuk yang lebih tegas daripada skala nominal
dan ordinal. Dalam skala pengukuran interval, perbedaan antara hasil pengukuran
menghasilkan suatu besaran yang konstan. Misalnya, pada pengukuran suhu suatu
larutan: larutan dengan suhu 50 o C dikatakan 2o lebih tinggi daripada larutan lain
yang suhunya 48o C. Namun demikian, data yang diukur dengan skala interval
mempunyai titik nol sembarang (berubah-ubah). Misalnya, titik nol pada
pengukuran suhu dengan skala Fahrenheit berbeda dengan titik nol pada skala
Celcius. Hal ini berbeda dengan data yang diukur dalam skala pengukuran rasio. Data
yang diukur pada skala rasio selain mempunyai interval pengukuran yang tepat juga
mempunyai titik nol yang tetap. Salah satu contoh pengukuran dalam skala rasio
adalah pada pengukuran umur bola lampu pijar. Perbedaan umur antar setiap bola
lampu pijar dapat ditentukan dengan tepat, misalnya perbedaan antara bola lampu
yang berumur 1000 jam dengan yang berumur 500 jam. Bola lampu pijar yang
berumur 1000 jam dikatakan dua kali lebih tahan daripada bola lampu yang berumur
500 jam. Selain itu, pengukuran ini mempunyai titik nol yang tetap: bola lampu yang
berumur nol jam berarti bola lampu yang sama sekali tidak pernah menyala. Hal ini
berbeda dengan pengukuran suhu larutan; kita tidak bisa mengatakan bahwa
larutan yang mempunyai suhu 100 o C dua kali lebih panas daripada larutan yang
mempunyai suhu 50o C. Beberapa contoh skala pengukuran interval dan rasio
disajikan dalam Tabel 1.2.

Tabel 1.2 Contoh Data dalam Skala Pengukuran Interval dan Rasio
Data Kuantitatif Skala Pengukuran
Suhu (derajat Celcius atau Fahrenheit) Interval
Penanggalan kalender (Masehi, Hijriah, Cina atau Saka) Interval
Tinggi (meter atau inci) Rasio
Umur (tahun atau hari) Rasio

Metode Statistika yang digunakan untuk menganalisis data kualitatif berbeda


dengan metode yang digunakan untuk data kuantitatif. Oleh karena itu
pengetahuan tentang jenis dan skala pengukuran data sangatlah penting, karena
penggunaan metode yang tidak tepat dapat menyebabkan hasil analisis yang salah.
Metode Statistika yang dibahas dalam buku ini umumnya berkaitan dengan teknik
analisis untuk data kuantitatif; analisis statistik untuk data kualitatif tidak dibahas
secara khusus dalam buku ini.

6
1.4 Penggunaan Komputer
Dengan semakin meluasnya ketersediaan komputer pada lembaga pendidikan
akhir-akhir ini, metode pengajaran Statistika di beberapa perguruan tinggi telah
mengalami perubahan yang dramatis. Demikian juga penggunaan Metode Statistika
pada penelitian di berbagai disiplin ilmu telah mengalam i kemajuan yang pesat.
Program-program paket statistika telah banyak diciptakan dan selalu diperbaharui
untuk mengikuti perkembangan di bidang ilmu Statistika dan untuk kemudahan bagi
penggunanya. Dengan menggunakan program-program paket statistika, analisis dan
manipulasi data menjadi jauh lebih mudah, bahkan untuk data yang besar sekalipun.
Perhitungan-perhitungan statistik yang dulu sangat rumit dan sangat menyita waktu
kini dapat dilakukan dengan mudah dan dalam waktu yang sangat singkat hanya
dengan menuliskan beberapa perintah pemrograman atau bahkan cukup dengan
menggunakan mouse saja.

(a) MINITAB (b) Program R

(c) Excel

Gambar 1.2 Tampilan Layar Program Statistika (a) MINITAB, (b) R dan (c) Excel

Dalam buku ini penggunaan Program Paket Statistika MINITAB, R, dan Program Pa-
ket Spreadsheet Excel – yang juga mempunyai beberapa aplikasi statistik – akan
digunakan sebagai ilustrasi dari aplikasi berbagai metode statistik. Program
MINITAB yang digunakan dalam buku ini adalah MINITAB Release 17.1.0. MINITAB

7
2 St a t i s ti k a De s k r i p tif

2.1 Pendahuluan
Seperti telah dikemukakan dalam Bab 1, Statistika Deskriptif adalah cabang
Statistika yang berkaitan dengan prosedur-prosedur yang digunakan untuk
menjelaskan karakteristik data secara umum. Setiap set data hampir dapat
dipastikan mempunyai keragaman atau variasi, artinya nilai-nilai pengamatan dalam
data tersebut bervariasi, tidak semuanya bernilai sama atau dengan kata lain
terdapat nilai pengamatan yang berbeda dengan nilai pengamatan yang lainnya.
Akan tetapi, keragaman nilai-nilai pengamatan tersebut seringkali mengikuti suatu
pola atau bentuk tertentu yang khas, yang merupakan ciri atau karakteristik data
tersebut. Berbagai prosedur yang biasa digunakan untuk menjelaskan karakteristik
data akan dibahas dalam bab ini. Pada dasarnya prosedur-prosedur tersebut
merupakan teknik dasar dari Statistika Deskriptif yang digunakan untuk
mengelompokkan, menyederhanakan dan menyajikan data ke dalam bentuk yang
mudah dimengerti. Kemudahan dalam memahami data memungkinkan pengguna
data untuk dapat menggali lebih banyak informasi tentang karakteristik data, yang
biasanya tidak kelihatan dalam tampilan data mentahnya. Pada umumnya, terdapat
tiga metode yang biasa digunakan untuk menjelaskan karakteristik suatu set data,
yaitu:
1. Tabel: penyajian data dalam bentuk tabel bertujuan untuk mengelompokkan
nilai-nilai pengamatan ke dalam beberapa kelompok yang masing-masing
mempunyai karakteristik yang sama. Bentuk tabel yang sering digunakan
adalah tabel distribusi frekuensi dan tabel distribusi frekuensi relatif. Kedua
jenis tabel ini dibahas secara khusus dalam Subbab 2.2.

2. Grafik atau diagram: penyajian data dalam bentuk grafik atau diagram
bertujuan untuk memvisualisasikan data secara keseluruhan dengan
menonjolkan karakteristik tertentu dari data tersebut. Beberapa jenis grafik
atau diagram yang biasa digunakan untuk tujuan tersebut diantaranya adalah
histogram, diagram batang dan daun, diagram batang, diagram lingkaran dan
diagram kotak. Penyajian data dalam bentuk grafik akan dibahas dalam Subbab
2.3, 2.4, 2.5, 2.6 dan Subbab 2.10.

3. Statistik sampel: statistik sampel digunakan untuk menjelaskan ukuran


pemusatan dan penyebaran nilai-nilai pengamatan dari suatu set data. Ukuran
pemusatan yang biasa digunakan adalah nilai rata-rata (mean), median dan
modus, sedangkan ukuran penyebaran yang umum digunakan adalah kisaran
data (range), simpangan baku (standard deviation) dan varians (variance).

10
Berbagai ukuran pemusatan akan dibahas dalam Subbab 2.7 sedangkan
Subbab 2.8 akan membahas berbagai ukuran penyebaran data. Penggunaan
program statistik R, program Minitab dan program spreadsheet Excel untuk
menghitung ukuran pemusatan dan penyebaran data juga dibahas dalam
Subbab 2.9.

2.2 Distribusi Frekuensi dan Distribusi Frekuensi Relatif


Penyajian data ke dalam bentuk distribusi frekuensi merupakan salah satu langkah
awal yang biasa dilakukan dalam menganalisis suatu set data. Distribusi frekuensi
seringkali bermanfaat dalam menyederhanakan dan menata data ketika kita ber-
hadapan dengan jumlah data yang relatif besar. Penginterpretasian data biasanya
dapat dibuat lebih mudah jika data tersebut ditata dan disederhanakan lebih dulu.
Distribusi frekuensi merupakan suatu tabel, dimana data dikelompokkan ke dalam
beberapa interval numerik yang disebut interval kelas. Bentuk tabel ini sangat
sederhana karena hanya menyajikan jumlah pengamatan atau frekuensi dalam
setiap interval kelas.
Proses penyusunan data ke dalam distribusi frekuensi sangatlah sederhana tetapi
cukup membosankan dan menyita waktu jika dilakukan secara manual. Prosedur
penyusunan distribusi frekuensi dilakukan dengan urutan sebagai berikut. Pertama,
tentukan jumlah interval kelas yang akan digunakan, kemudian tentukan interval
kelasnya. Setelah itu, hitung jumlah data yang termasuk ke dalam tiap interval kelas
tersebut.
Penyusunan data ke dalam bentuk distribusi frekuensi sangat fleksibel dan tidak ada
aturan yang baku, artinya, suatu set data dapat saja disusun ke dalam berbagai
bentuk distribusi yang berbeda. Namun demikian, ada beberapa hal yang perlu
diperhatikan, diantaranya adalah:
1. Penentuan jumlah interval kelas.
Jumlah interval kelas yang digunakan sangat tergantung pada jumlah
pengamatan dalam data: semakin besar jumlah datanya maka akan semakin
banyak jumlah kelas yang diperlukan. Namun demikian, biasanya jumlah
interval kelas yang digunakan disarankan berkisar antara lima sampai 15 kelas.
Jika jumlah interval kelas yang digunakan terlalu sedikit, maka tidak banyak
informasi tambahan yang diperoleh dari pengelompokkan tersebut. Namun
demikian, jika jumlah kelasnya terlalu banyak, maka pengelompokkan data ke
dalam interval kelas tidak memberikan manfaat yang maksimal.
2. Penentuan lebar interval kelas
Interval kelas dalam tabel distribusi frekuensi dianjurkan agar mempunyai lebar
interval yang sama. Penentuan lebar interval dilakukan dengan menentukan
lebih dulu kisaran datanya, yaitu selisih antara nilai data terbesar dengan data
terkecil, kemudian membaginya dengan jumlah interval yang diinginkan:

11
data maksimum - data minimum
lebar interval =
jumlah interval yang diinginkan

3. Penentuan batas interval kelas


Batas antar interval kelas harus ditentukan dengan jelas dan tidak bertumpang
tindih sehingga nilai-nilai pengamatan dapat dengan tepat dikelompokkan ke
dalam setiap kelas. Setiap kelas harus mempunyai batas bawah dan batas atas
kelas, kecuali untuk interval kelas terbuka. Batas bawah interval kelas yang
pertama biasanya adalah nilai minimum dari data tersebut, atau nilai yang
sedikit lebih kecil dari nilai minimum tersebut. Sedangkan batas atas interval
kelas yang terakhir ditentukan sedemikian rupa sehingga nilai maksimum dari
data tersebut terletak pada interval kelas yang terakhir.
Suatu interval kelas disebut interval kelas terbuka jika kelas tersebut tidak
mempunyai batas bawah atau batas atas kelas. Interval kelas terbuka biasanya
digunakan jika data yang dianalisis mempunyai keragaman yang sangat besar
dan sebagian besar pengamatan terkonsentrasi dalam suatu kisaran yang relatif
kecil.
Titik tengah kelas adalah nilai rata-rata dari batas bawah dan batas atas kelas.
Distribusi frekuensi relatif adalah suatu bentuk lain dari tabel distribusi frekuensi.
Jika distribusi frekuensi menyajikan jumlah pengamatan atau frekuensi dalam setiap
interval kelasnya, maka distribusi frekuensi relatif menyajikan proporsi atau
frekuensi relatif, yang dihitung dengan cara membagi frekuensi setiap kelas dengan
jumlah seluruh data. Untuk kasus-kasus tertentu, penyajian data dalam bentuk
distribusi frekuensi relatif kadang kala lebih bermanfaat daripada distribusi
frekuensi.
Contoh 2.1
Data berikut ini merupakan bagian dari hasil penelitian tentang uji keturunan
(progeny trial) tanaman Pinus Pinaster Ait. yang dilakukan oleh Dr Trevor Butcher,
dari Conservation and Land Management, Western Australia. Diameter pohon Pinus
Pinaster Ait. ini diukur pada usia sembilan tahun (dalam cm)

Tabel 2.1 Hasil Pengukuran Diameter Pohon Pinus Pinaster Ait.


5,25 8,95 9,80 10,65 5,45 10,45 11,05 8,60 12,40 11,20
12,25 12,00 8,90 8,25 8,05 9,30 4,60 11,05 8,85 8,55
8,55 4,40 14,25 12,65 7,95 12,40 8,90 10,35 9,65 10,25
9,95 9,20 9,75 7,55 12,15 4,85 6,45 9,75 10,84 10,65
8,15 8,85 8,55 10,25 10,65 7,55 8,35 11,05 10,15 13,90
6,15 11,05 10,00 7,70 7,25 9,40 8,70 6,00 13,15 10,05
7,60 5,55 10,10 9,35 5,30 8,55 6,10 11,05 7,20 12,15
8,25 6,55 10,60 10,00 9,30 2,95 6,85 11,25 9,40 11,15
4,50 12,40 9,20 10,85 4,35 8,85 8,45 9,50 7,35 9,85

12
Jika data hasil penelitian tersebut disajikan dalam bentuk data mentah seperti dalam
Tabel 2.1, maka akan sedikit sekali informasi yang dapat kita peroleh dari penyajian
data seperti itu. Untuk itu, kita akan menyederhanakan data di atas ke dalam
bentuk tabel distribusi frekuensi dengan jumlah interval kelas = 8 kelas. Langkah
pertama adalah menentukan nilai maksimum dan nilai minimum dari data tersebut,
dalam hal ini masing-masing adalah 14,25 dan 2,95. Kedua nilai tersebut akan
digunakan untuk menentukan lebar interval:
14 ,25 - 2,95
lebar interval = = 1,4125
8
Untuk memudahkan penyusunan interval kelas kita gunakan lebar interval = 1,5 cm.
Informasi ini kemudian kita gunakan untuk menentukan batas-batas interval kelas.
Misalkan untuk batas bawah interval kelas yang pertama kita gunakan nilai 2,9 cm,
maka selanjutnya, interval kelas bagi tabel distribusi frekuensi dapat kita susun
sebagai berikut:
2,9 – 4,4; 4,4 – 5,9; ...; 13,4 – 14,9.
Interval kelas pertama terdiri atas pengamatan yang mempunyai nilai lebih besar
atau sama dengan 2,9 tetapi lebih kecil dari 4,4; interval kelas kedua terdiri atas
pengamatan yang mempunyai nilai lebih besar atau sama dengan 4,4 tetapi lebih
kecil dari 5,9; demikian seterusnya. Setelah lebar interval kelas ditentukan,
pekerjaan yang harus dilakukan adalah menghitung jumlah pengamatan yang
termasuk ke dalam kelas-kelas tersebut. Salah satu cara yang mudah adalah dengan
menggunakan turus (tally), seperti ketika kita menghitung suara dalam suatu
pemungutan suara. Hasil penghitungan tersebut disajikan dalam kolom ke tiga
dalam Tabel 2.2.

Tabel 2.2 Distribusi Frekuensi dan Distribusi Frekuensi Relatif bagi Data
dalam Tabel 2.1
Diameter Pohon Titik Tengah Kelas Frekuensi Frekuensi relatif
(cm) 4,4
2,9 sampai 3,65 3 0,03
4,4 sampai 5,9 5,15 7 0,08
5,9 sampai 7,4 6,65 9 0,10
7,4 sampai 8,9 8,15 22 0,24
8,9 sampai 10,4 9,65 23 0,26
10,4 sampai 11,9 11,15 15 0,17
11,9 sampai 13,4 12,65 9 0,10
13,4 sampai 14,9 14,15 2 0,02
Total 90 1,00

13
Frekuensi relatif bagi tiap interval kelas dihitung dengan membagi frekuensi kelas
tersebut dengan keseluruhan data, dalam hal ini jumlah data sebanyak 90.
Perhatikan bahwa data tersebut sekarang disajikan dalam bentuk yang lebih
sederhana dalam Tabel 2.2. Dari tabel tersebut kita dapat dengan mudah
mengamati bahwa kisaran data terletak antara nilai 2,9 sampai 14,9. Selain itu,
sebagian besar nilai pengamatan terkonsentrasi pada interval kelas ke-4, 5 dan 6,
yaitu pada kisaran 7,4 cm sampai 11,9 cm. Salah satu kelemahan dari penyajian data
dalam bentuk tabel distribusi frekuensi adalah bahwa nilai pengamatan secara
individu tidak lagi kita ketahui, karena data telah dikelompokkan ke dalam kelas-
kelas. Kelemahan ini dapat diatasi jika kita sajikan data tersebut dalam diagram
batang dan daun yang akan kita bahas pada Subbab 2.5.

2.3 Histogram
Histogram digunakan untuk menyajikan data yang telah tersusun dalam bentuk
tabel distribusi frekuensi ke dalam bentuk grafik. Kegunaan utama histogram adalah
untuk menunjukkan bentuk umum dari distribusi data dan untuk memberikan kesan
visual tentang konsentrasi dari sebagian besar pengamatan. Penyajian data dalam
bentuk grafik seringkali lebih efektif daripada penyajian dalam bentuk tabel.
Misalnya, nilai-nilai data yang ekstrim atau data pencilan, dapat dengan mudah kita
ketahui jika data tersebut disajikan dalam bentuk grafik. Selain itu, lokasi pemusatan
data dan penyebaran data di sekitar lokasi pemusatan tersebut dapat juga kita amati
secara visual.
Sumbu mendatar sebuah histogram menunjukkan interval kelas dari distribusi
frekuensi, nilai yang biasa dicantumkan pada sumbu mendatar adalah titik tengah
interval kelas (kadang-kadang juga batas interval kelas). Sedangkan frekuensi setiap
kelas disajikan pada sumbu tegaknya dalam bentuk batang persegi panjang yang
luasnya proporsional dengan frekuensi kelas yang bersangkutan. Histogram bagi
data dalam Tabel 2.2 disajikan dalam Gambar 2.1.a.
Perhatikan bahwa bentuk umum distribusi data menjadi lebih jelas terlihat jika
disajikan dalam histogram: sebagian besar nilai pengamatan terkonsentrasi pada
interval kelas ke-4, 5 dan 6; dan tidak ada indikasi bahwa data tersebut mengandung
nilai-nilai yang ekstrim.
Histogram frekuensi relatif pada dasarnya hampir sama dengan histogram
frekuensi, kecuali bahwa persegi panjang yang digambarkan merupakan frekuensi
relatif bagi setiap inteval kelas. Bentuk kedua jenis histogram ini pada umumnya
sama. Histogram frekuensi relatif bagi data dalam Tabel 2.2 disajikan dalam Gambar
2.1.b.

14
Gambar 2.1 Histogram Frekuensi dan Frekuensi Relatif bagi Data dalam Tabel 2.2

2.4 Penyusunan Distribusi Frekuensi dan Histogram dengan Bantuan


Komputer
Penyusunan tabel distribusi frekuensi dapat dilakukan dengan menggunakan
program paket Excel. Perintah untuk membuat distribusi frekuensi terdapat dalam
tab
Data†Data Analysis
Jika dalam komputer anda menu Data Analysis tidak aktif, aktifkan lebih dulu
dengan cara memilih tab File†Options

Gambar 2.2. Tampilan Jendela Excel Options Gambar 2.3 Jendela Add-Ins

Pilihan ini mengaktifkan Jendela Excel Option seperti pada Gambar 2.2. Klik pilihan
Add-Ins dalam Jendela Excel Option tersebut kemudian pilih Manage Excel Add-Ins
lalu klik Go. Pilihan ini mengaktifkan Jendela Add-Ins seperti pada Gambar 2.3.

15
Klik pada kotak di samping pilihan Analysis ToolPak dan Analysis ToolPak - VBA,
sehingga kedua kotak tersebut ditandai dengan a , kemudian klik OK (lihat Gambar
2.3).
Untuk membuat distribusi frekuensi dengan program Excel, langkah pertama adalah
menginput data terlebih dahulu (misalnya data disimpan di dalam sel A1 – A91,
dengan sel A1 adalah nama data, yaitu Diam 9th). Langkah berikutnya adalah
menentukan batas-batas atas setiap interval kelas dan simpan nilainya dalam salah
satu kolom (misalnya diberi nama bin dan disimpan dalam sel C1 – C9). Pilih Menu
Data†Data Analysis, kemudian pilih Histogram dalam kotak pilihan Analysis
Tools.

Gambar 2.4 Prosedur Pembuatan Tabel Distribusi Frekuensi dengan Program


Excel

16
Pilihan tersebut akan mengaktifkan Jendela Histogram. bin Frequency
Isikan address dari data yang akan dianalisis (A1:A91) ke 4.4 3
dalam Kotak Input Range dan data tentang batas kelas 5.9 7
(C1:C3) ke dalam Kotak Bin Range lalu klik kotak di samping 7.4 9
Labels karena sel A1 dan C1 adalah label bagi data dan 8.9 22
batas kelas. Klik tombol Output Range dan isikan address 10.4 23
dari output histogram (misalnya E1) ke kotak di 11.9 15
13.4 9
sampingnya, kemudian klik OK. Output dari rangkaian
14.9 2
perintah tersebut menghasilkan suatu distribusi frekuensi
More 0
bagi data yang bersangkutan (nilai-nilai dalam kolom bin
adalah batas atas masing-masing kelas).
Dengan program R penyusunan data ke dalam tabel distribusi frekuensi dilakukan
dengan menuliskan perintah berikut:

hist(x)
hist(x, nclass = n)
hist(x, breaks = b, ...)

Perintah tersebut akan menghasilkan histogram dari vektor x. Jumlah kelas


ditentukan secara otomatis oleh R, atau dapat ditentukan oleh user dengan
argument nclass=, atau dengan menentukan breakpoints melalui argument breaks=
Perintah berikut ini menghasilkan histogram seperti pada Gambar 2.5.
hist(D9, nclass=8)

D9 adalah nama variabel dimana data tersebut disimpan dalam R dan col=”blue”
adalah kode warna yang digunakan untuk batang histogram.

Gambar 2.5 Histogram Sebagai Output dari R

17
Perhatikan bahwa tabel distribusi frekuensi yang dihasilkan tidak sama dengan Tabel
2.2 atau Gambar 2.1. Hal ini terjadi karena batas kelas dan lebar interval yang
digunakan tidak sama. Keadaan ini dimungkinkan karena memang tidak ada aturan
yang baku dalam menyusun tabel distribusi frekuensi. Namun demikian, keduanya
menunjukkan bentuk umum distribusi data dan konsentrasi pemusatan data yang
hampir sama.

2.5 Diagram Batang dan Daun


Diagram batang dan daun (the stem-and-leaf diagram) merupakan alternatif lain
yang dapat digunakan untuk menyajikan dan menyederhanakan data. Outputnya
hampir sama dengan histogram dan distribusi frekuensi, bedanya adalah bahwa
dalam diagram batang dan daun data yang divisualisasikan adalah nilai data yang
sebenarnya (bukan data yang telah dikelompokkan ke dalam interval kelas).
Beberapa kegunaan diagram batang dan daun diantaranya adalah sebagai berikut:
1. untuk menunjukkan kisaran data, yaitu selisih antara data terbesar dengan data
terkecil,
2. untuk menunjukkan bagaimana bentuk distribusi data,
3. untuk secara umum menunjukkan lokasi pemusatan data,
4. untuk secara umum menunjukkan penyebaran data, dan
5. untuk menunjukkan apakah ada atau tidaknya data pencilan, yaitu data yang
ekstrim yang nilainya sangat besar atau sangat kecil.

Tabel 2.3 Data Nilai Ujian Akhir Mata Kuliah Metode Statistika dari 50 Orang
Mahasiswa
77 61 59 60 79 71 92 73 35 61
88 59 58 57 60 56 56 58 65 62
48 73 42 45 73 56 40 71 71 78
58 85 73 66 59 49 47 68 80 78
70 87 67 55 74 68 60 53 53 69

Dengan diagram batang dan daun, setiap nilai pengamatan dipisahkan menjadi digit
kepala dan digit ekor. Digit kepala akan menjadi batang dan digit berikutnya akan
menjadi daun dari diagram ini. Sebagai ilustrasi, data dalam Tabel 2.3 akan kita
gunakan untuk menyusun diagram batang dan daun.
Nilai-nilai pengamatan dari data dalam Tabel 2.3 semuanya bernilai puluhan. Dalam
hal ini angka-angka puluhan dapat dijadikan digit kepala dan angka satuan dijadikan
digit ekor. Karena nilai pengamatan berkisar antara 35 dan 92, maka kita akan
mempunyai tujuh buah batang (digit kepala) yang mencerminkan angka-angka
puluhan, yaitu 3, 4, 5, ..., 9. Ke tujuh batang ini berfungsi sama seperti interval kelas

18
dalam tabel distribusi frekuensi, dalam hal ini menentukan posisi baris dimana nilai
pengamatan diletakkan. Digit ekor dari nilai pengamatan tersebut kemudian
dituliskan pada baris yang bersangkutan. Pengamatan pertama bernilai 77 maka
angka 7 (digit ekor) dituliskan sebagai daun pertama dekat batang bernilai 7 (digit
kepala). Berikutnya, data kedua bernilai 61 maka angka 1 (digit ekor) dituliskan
sebagai daun pertama dekat batang bernilai 6 (digit kepala). Demikian seterusnya
sampai semua nilai pengamatan terdaftarkan dalam diagram batang dan daun.
Untuk sepuluh data pertama, bentuk diagram batang dan daun akan terlihat sebagai
berikut:
3 5
4
5 9
6 101
7 7913
8
9 2

Setelah semua nilai pengamatan didaftarkan, diagram batang dan daun kemudian
dirapikan dengan cara menyusun nilai-nilai dalam setiap baris ke dalam urutan dari
kecil ke besar. Diagram batang dan daun bagi data dalam Tabel 2.3 disajikan dalam
Gambar 2.6.
Beberapa informasi yang dapat kita peroleh dari sajian Gambar 2.6 diantaranya
adalah bahwa
1. bentuk distribusi datanya hampir simetris
2. nilai pengamatan terkecil adalah 35 dan nilai maksimumnya adalah 92
3. lokasi pemusatan data terletak pada nilai 60-an
4. sebagian besar pengamatan terkonsentrasi pada nilai 50-an sampai 70-an
5. tidak terdapat indikasi adanya data pencilan

3 5
4 025789
5 3356667888999
6 000112567889
7 0111333347889
8 0578
9 2

Gambar 2.6 Diagram Batang dan Daun bagi Data dalam Tabel 2.3
Jika dilakukan secara manual, penyusunan data ke dalam bentuk diagram batang
dan daun akan sangat menyita waktu dan cukup membosankan, apalagi jika jumlah
datanya sangat besar. Dengan bantuan komputer penyusunan diagram batang dan

19
daun menjadi jauh lebih mudah dan lebih cepat. Perintah R untuk menghasilkan
diagram batang dan daun adalah
stem(x, scale = 1, width = 80, atom = 1e-08)

dimana
x adalah sebuah vektor numerik;
scale digunakan untuk mengontrol panjangnya plot;
width adalah lebar plot yang diinginkan;
atom adalah batas toleransi.
Perintah dan output dari program R untuk data dalam Tabel 2.3 adalah sebagai
berikut:
> stem(Nilai)

The decimal point is 1 digit(s) to the right of the |

3 | 5
4 | 025789
5 | 3356667888999
6 | 000112567889
7 | 0111333347889
8 | 0578
9 | 2

Perintah untuk membuat diagram batang dan daun dalam MINITAB terdapat dalam
menu
Graph†Stem-and-Leaf...
Perintah tersebut mengaktifkan jendela Stem-and-Leaf seperti terlihat dalam
Gambar 2.7. Kotak Increment dalam jendela tersebut digunakan untuk menentukan
besaran bagi digit kepala dalam diagram batang dan daun (dalam hal ini kita
gunakan nilai 10 untuk menyatakan puluhan).

Gambar 2.7 Tampilan Jendela Stem-and-leaf dalam MINITAB

20
Perhatikan bahwa output yang dihasilkan oleh program MINITAB sama seperti yang
dihasilkan oleh program R.
MTB > Stem-and-Leaf 'nilai';
SUBC> Increment 10.

Character Stem-and-Leaf Display

Stem-and-leaf of nilai N = 50
Leaf Unit = 1.0

1 3 5
7 4 025789
20 5 3356667888999
(12) 6 000112567889
18 7 0111333347889
5 8 0578
1 9 2

Terdapat informasi tambahan yang diberikan oleh MINITAB dalam menyajikan dia-
gram batang dan daun. Kolom pertama dari output tersebut menunjukkan frekuensi
kumulatif yang diurutkan dari atas ke bawah dan dari bawah ke atas sampai
keduanya bertemu di kelas median. Misalnya, nilai 1 pada baris pertama adalah nilai
frekuensi pada baris pertama. Nilai 7 pada baris kedua adalah frekuensi kumulatif
baris pertama dan baris kedua, demikian juga nilai pada baris ketiga. Sementara itu,
nilai pada baris ke empat ditandai dengan tanda kurung (12). Tanda tersebut
menunjukkan bahwa nilai 12 adalah nilai frekuensi pada baris tersebut dan bukan
frekuensi kumulatif. Baris dengan tanda tersebut adalah baris dimana terdapat nilai
median dari data. Setelah itu, nilai-nilai pada kolom ke satu adalah frekuensi kumu-
latif dari baris-baris di bawahnya. Misalnya, nilai 18 adalah frekuensi kumulatif dari
baris ke 5, 6 dan 7, demikian seterusnya.

2.6 Metode Penyajian bagi Data Kualitatif


Ketika data yang dikumpulkan adalah data kualitatif, yang ingin kita ketahui biasanya
adalah berapa banyak pengamatan yang mempunyai karakteristik tertentu. Setiap
kategori dalam data kualitatif dapat digunakan sebagai kelas, atau beberapa
kategori dapat digabungkan menjadi satu kelas. Dengan demikian, kita dapat
menyusun suatu tabel distribusi frekuensi bagi data kualitatif untuk menunjukkan
berapa banyak nilai pengamatan yang tergolong dalam setiap kelas. Tabel 2.4
menyajikan suatu tabel distribusi frekuensi bagi jumlah karyawan pada suatu
perusahaan yang bergerak dalam bidang industri plywood dikelompokkan
berdasarkan tingkat pendidikan tertinggi. Dalam hal ini data yang dikumpulkan
adalah data kualitatif tentang tingkat pendidikan karyawan. Data dalam kolom
kedua dalam Tabel 2.4 adalah jumlah karyawan sesuai dengan tingkat

21
pendidikannya, sedangkan data dalam kolom ketiga adalah proporsi jumlah
karyawan pada tingkat pendidikan yang bersangkutan.

Tabel 2.4 Distribusi Frekuensi Jumlah Karyawan PT X


Tingkat Pendidikan Frekuensi Frekuensi Relatif
SD 1631 0,241
SLTP 2968 0,438
SLTA 2086 0,308
Sarjana muda 65 0,009
Sarjana 29 0,004
Total 6779 1,000

Data kualitatif biasa disajikan secara grafis dalam bentuk diagram batang (bar chart)
atau diagram lingkaran (pie chart). Diagram batang umumnya digunakan untuk
menampilkan frekuensi dari data kualitatif, sedangkan diagram lingkaran digunakan
untuk data proporsi atau frekuensi relatif. Tampilan kedua diagram tersebut untuk
data dalam Tabel 2.4 disajikan dalam Gambar 2.8. Karyawan yang berpendidikan
sarjana sangat sedikit jumlahnya jika dibandingkan dengan karyawan pada tingkat
pendidikan lainnya, sehingga tidak mungkin ditampilkan secara grafis (karena tidak
akan kelihatan). Oleh karena itu, dalam Gambar 2.8, karyawan yang berpendidikan
sarjana digabungkan dengan kelompok karyawan yang berpendidikan sarjana
muda. Sehingga kategori ‘sarjana’ dalam kedua gambar tersebut sebenarnya adalah
gabungan antara kategori sarjana dengan sarjana muda.

Gambar 2.8 Diagram Batang dan Diagram Lingkaran untuk Data dalam Tabel 2.4
Untuk menunjukkan bahwa sumbu mendatar dalam diagram batang adalah kategori
dari data kualitatif, batang-batang dalam diagram tersebut tidak digambarkan
secara rapat, tetapi ada jarak di antaranya. Sumbu mendatar dalam diagram batang
tidak selalu mencerminkan urutan, sehingga posisi setiap batang dalam sumbu

22
mendatar dapat bertukar tempat. Hal ini berbeda dengan histogram dimana sumbu
mendatar merupakan pengelompokan dari data kuantitatif yang nilai-nilainya
diurutkan dari kecil ke besar atau sebaliknya. Untuk menunjukkan hal tersebut
setiap batang dalam histogram digambarkan secara rapat satu sama lainnya.
Luas setiap juring dalam diagram lingkaran menggambarkan persentase
pengamatan dari setiap kategori secara proporsional. Untuk membuat diagram
lingkaran secara manual dibutuhkan busur derajat untuk mengukur besar sudut dari
setiap juring. Karena satu lingkaran besarnya adalah 360 o maka setiap 1% nilai
pengamatan digambarkan dengan sudut sebesar (0,01)( 360 o) = 3,6o. Sebagai
contoh, sudut juring bagi kategori SD besarnya adalah (24)( 3,6o) = 86,4o.
Selain diagram batang dan diagram lingkaran, diagram garis (line chart) juga sering
digunakan untuk menampilkan data kualitatif secara visual. Diagram garis sering
digunakan pada keadaan dimana kategori data tersebut merupakan satuan waktu
kalender misalnya tahun, semester atau bulan. Jika diagram batang digunakan untuk
memvisualisasikan besaran atau jumlah, maka diagram garis digunakan untuk
menonjolkan bentuk trend atau pola perkembangan dari waktu ke waktu, oleh
karena itu sering juga disebut sebagai diagram atau grafik time-series.

Contoh 2.2
Data berikut ini adalah data hipotesis tentang banyaknya customer yang dilayani
oleh petugas Bank X pada tahun 2016.
Data tersebut disajikan dalam bentuk diagram garis dalam Gambar 2.9. Perhatikan
bahwa kecenderungan customer yang dilayani per bulan pada bank tersebut dapat
terlihat dengan jelas dalam diagram tersebut. Jumlah customer per bulan dapat juga
ditampilkan dalam diagram garis dengan mencantumkan angka customer pada
setiap titik dalam diagram tersebut.
Bulan Customer Bulan Customer
Januari 948 Juli 709
Pebruari 826 Agustus 685
Maret 802 September 717
April 850 Oktober 635
Mei 723 Nopember 666
Juni 623 Desember 776
Diagram batang, diagram lingkaran dan diagram garis banyak digunakan dalam
laporan-laporan pemerintah, dunia bisnis dan media massa. Terdapat banyak sekali
variasi dari ketiga diagram tersebut. Namun demikian, tujuan dari semua diagram
tersebut adalah untuk menyajikan dan menyederhanakan data secara jelas dan
dalam bentuk yang menarik serta mudah dipahami.

23
1000

900

Penjualan (juta rupiah)


800

700

600

500
Jan Peb Mar Apr Mei Jun Jul Ags Sep Okt Nop Des

Gambar 2.9 Diagram Garis dari Data Customer yang dilayani oleh Bank X
Program Spreadsheet Excel mempunyai fasilitas pembuatan berbagai grafik yang
canggih dan mudah digunakan. Fasilitas tersebut terdapat dalam group Chart yang
terkandung dalam tab Insert (Gambar 2.10).

Gambar 2.10 Group Chart dalam Tab Insert Program Excel

2.7 Ukuran Pemusatan Data


Ukuran deskriptif berupa angka atau nilai numerik sering digunakan untuk
menjelaskan karakteristik data. Dikenal dua jenis ukuran deskriptif yang umum
digunakan, yaitu ukuran pemusatan dan ukuran penyebaran. Ukuran pemusatan
digunakan untuk menjelaskan lokasi pusat distribusi dari nilai-nilai pengamatan,
sedangkan ukuran penyebaran digunakan untuk menunjukkan bagaimana
variasi/keragaman nilai-nilai pengamatan tersebut terhadap pusat distribusinya.
Dalam bagian ini akan dibahas beberapa jenis ukuran pemusatan yang sering
digunakan, sedangkan ukuran penyebaran akan dibahas pada Subbab 2.8.
Salah satu ukuran pemusatan yang umum digunakan adalah modus. Modus
biasanya digunakan sebagai ukuran popularitas. Misalnya jenis makanan yang paling
disukai, merek sepeda motor yang paling banyak digunakan, dan artis yang paling
sering manggung. Secara formal, modus didefinisikan sebagai berikut:

24
Definisi
Modus dari suatu set data didefinisikan sebagai nilai pengamatan yang paling
sering terjadi (frekuensinya paling tinggi)

Contoh 2.3
Data berikut ini adalah suatu sampel dari pengamatan terhadap jumlah bunga per
tangkai dari tanaman Anggrek hitam (Coelogyne pandurata Lindl) hasil penelitian
Akbar Sidik Q.M, Fakultas Pertanian, Universitas Tanjungpura (2002)
8 7 8 8 10 9 7 7 7 9 8 10 3 7 9
Modus dari data tersebut adalah 7, karena nilai ini paling sering terjadi dibandingkan
nilai pengamatan lain.
õ
Tidak setiap data memiliki modus. Jika setiap pengamatan dalam suatu set data
hanya muncul satu kali, maka data tersebut tidak memiliki modus. Sebaliknya, suatu
set data bisa memiliki beberapa modus. Hal ini dapat terjadi ketika beberapa nilai
pengamatan muncul beberapa kali dengan frekuensi yang sama.
Contoh 2.4
Data berikut ini tidak memiliki modus karena setiap pengamatan masing-masing
muncul dengan frekuensi yang sama: 2, 3, 4, 5, 7, 9, 11.
Data berikut ini memiliki dua modus, yaitu 2 dan 7: 2, 2, 2, 3, 4, 7, 7, 7, 9. Perhatikan
bahwa nilai 2 dan 7, masing-masing muncul dengan frekuensi tertinggi yaitu
sebanyak tiga kali.
õ
Bagi data yang telah dikelompokkan ke dalam tabel distribusi frekuensi, kita dapat
mendefinisikan kelas modus sebagai interval kelas dengan frekuensi tertinggi. Na-
mun demikian kita tidak tahu lagi nilai-nilai pengamatan yang sebenarnya dan hanya
tahu berapa banyak data yang terdapat dalam kelas modus tersebut. Oleh karena
itu, titik tengah dari kelas modus dianggap sebagai nilai pendekatan terhadap mo-
dus dari data tersebut.
Ukuran pemusatan yang kedua adalah median. Ukuran pemusatan ini sering
digunakan untuk menentukan ‘titik tengah’ dari suatu set data.
Definisi
Median dari suatu set data didefinisikan nilai pengamatan yang terletak di
tengah-tengah ketika data diurutkan berdasarkan besarannya.
Untuk suatu set data yang kecil dengan jumlah datanya ganjil, maka median adalah
data yang terletak di tengah urutan; sedangkan jika jumlah datanya genap median
dihitung sebagai rata-rata dari dua data yang terletak di tengah urutan.

25
Contoh 2.5
Untuk menentukan median dari data dalam Contoh 2.3, kita harus mengurutkan
dulu data tersebut, sebagai berikut:
3 7 7 7 7 7 8 8 8 8 9 9 9 10 10
Berdasarkan urutan tersebut, dapat dengan mudah kita tentukan bahwa median
dari data tersebut adalah 8.
õ
Untuk menentukan median dari data yang sudah disusun dalam bentuk tabel
distribusi frekuensi, pertama-tama tentukan kelas median lebih dulu. Kelas median
adalah interval kelas yang mengandung median. Median kemudian diduga dengan
rumus berikut:
w æn ö
median = L + ç - cfb ÷ .................................................. ..................... [2.1]
fm è 2 ø

dimana
L= batas bawah dari interval kelas median
w= lebar interval
fm = frekuensi kelas median
n= jumlah pengamatan
cfb = jumlah frekuensi dari semua kelas (frekuensi kumulatif) sebelum kelas
median

Contoh 2.6
Tabel berikut ini adalah data diameter pohon dalam Tabel 2.2. Nilai-nilai pada kolom
kumulatif frekuensi dan diperoleh dengan menjumlahkan frekuensi dari kelas-kelas
sebelumnya.

Tabel 2.2 Distribusi Kumulatif Diameter Pohon


Diameter Pohon Frekuensi Frekuensi Kumulatif
2,9 sampai 4,4 3 3
4,4 sampai 5,9 7 10
5,9 sampai 7,4 9 19
7,4 sampai 8,9 22 41
8,9 sampai 10,4 23 64
10,4 sampai 11,9 15 79
11,9 sampai 13,4 9 88
13,4 sampai 14,9 2 90
Total 90

26
Karena jumlah data keseluruhan adalah 90, maka median adalah pengamatan yang
ke 46 pada urutan data. Oleh karena itu, kelas median adalah interval kelas pertama
yang frekuensi kumulatifnya lebih besar dari 46. Kelas interval ini akan mengandung
nilai median di dalamnya, dalam hal ini kelas median adalah interval kelas yang ke
5. Maka
L = 8,9 w = 1,5 fm = 23 n = 90 dan cfb = 41
oleh karena itu nilai dugaan bagi median dari data tersebut adalah:
1,5 æ 90 ö
median = 8,9 + ç - 41 ÷ = 9,16
23 è 2 ø
Perhatikan bahwa jika dihitung dengan menggunakan data mentahnya, maka nilai
median dari data tersebut adalah 9,3.
õ
Ukuran pemusatan yang terakhir yang akan kita bahas dalam buku ini adalah rata-
rata. Ukuran pemusatan ini mungkin yang paling sering kita dapati dalam kehidupan
sehari-hari.
Definisi
Rata-rata dari suatu set data didefinisikan sebagai jumlah dari semua nilai
pengamatan dibagi dengan jumlah data.
Nilai rata-rata mempunyai peranan yang sangat penting dalam pembahasan pada
bab-bab berikutnya, oleh karena itu, rata-rata sering dilambangkan secara khusus.
Rata-rata populasi biasa dilambangkan dengan Huruf Yunani m (dibaca myu),
sedangkan rata-rata sampel dilambangkan dengan y atau x (dibaca y-bar atau x-
bar).
Misalkan y1, y2, ..., yn adalah nilai-nilai pengamatan dari suatu sampel berukuran n.
Nilai rata-rata sampel ( y ) dinyatakan sebagai
1 n
y = å yi .................................................. .......................................... [2.2]
n i =1
n
dimana å yi adalah notasi penjumlahan dari n buah nilai pengamatan, yaitu:
i =1
n
å yi = y1 + y2 + + yn
i =1

Contoh 2.7
Rata-rata jumlah bunga per tangkai dalam Contoh 2.3 adalah

27
8+7+8+ + 9 11
117
y= = = 7,8
15 15
õ
Bagi data yang sudah disusun ke dalam tabel distribusi frekuensi, nilai rata-ratanya
dapat diduga dengan rumus berikut:
å fi ´ mi
y= i
.................................................. ...................................... [2.3]
å fi
i

dimana fi = frekuensi dari interval kelas ke-i; dan mi = titik tengah kelas ke-i
Rumus di atas hanya merupakan nilai dugaan (pendekatan) bagi rata-rata, karena
dalam distribusi frekuensi kita tidak lagi mengetahui nilai pengamatan yang
sebenarnya. Oleh karena itu, jika data mentahnya (nilai pengamatan yang belum
dikelompokkan ke dalam interval kelas) tersedia, nilai rata-rata sebaiknya dihitung
dari nilai data mentah tersebut.

Contoh 2.8
Sebagai ilustrasi kita akan melakukan pendugaan nilai rata-rata bagi data diameter
pohon dalam Tabel 2.2
Diameter pohon Titik tengah kelas (mi) Frekuensi(fi) fi×mi
2,9 sampai 4,4 3,65 3 10,95
4,4 sampai 5,9 5,15 7 36,05
5,9 sampai 7,4 6,65 9 59,85
7,4 sampai 8,9 8,15 22 179,30
8,9 sampai 10,4 9,65 23 221,95
10,4 sampai 11,9 11,15 15 167,25
11,9 sampai 13,4 12,65 9 113,85
13,4 sampai 14,9 14,15 2 28,30
Total 90 817,50

Nilai-nilai dalam kolom terakhir adalah hasil kali dari nilai-nilai dalam kolom kedua
dan kolom ketiga. Sehingga nilai rata-rata dihitung dengan cara membagi total
kolom ketiga dengan total kolom kedua, yaitu
817,50
y= = 9,0833
90
Perhatikan bahwa jika dihitung dengan menggunakan data mentahnya, maka rata-
rata dari data tersebut adalah 9,084.
õ

28
Ketiga ukuran pemusatan yang telah dibahas dalam bagian ini masing-masing
mempunyai kelebihan dan kekurangan tersendiri. Misalnya, nilai rata-rata
merupakan nilai statistik yang penting dalam statistika inferensial karena nilai rata-
rata untuk data sampel dianggap memberikan nilai dugaan yang baik bagi rata-rata
populasinya. Modus digunakan ketika kita ingin mengetahui nilai pengamatan
dengan frekuensi tertinggi. Oleh karena itu, modus sering digunakan untuk
mengukur popularitas dan merupakan salah satu ukuran pemusatan bagi data
kualitatif. Sebaliknya, pada keadaan tertentu median dapat memberikan informasi
yang lebih baik tentang pusat distribusi daripada rata-rata. Sebagai contoh, jika kita
mengamati distribusi gaji karyawan dalam suatu perusahaan besar, akan kita
temukan bahwa sebagian besar gaji karyawan berkisar antara 2 – 3 juta rupiah,
tetapi akan terdapat beberapa karyawan, terutama para eksekutif, dengan gaji yang
jauh lebih besar. Dalam hal ini, median mungkin merupakan ukuran pemusatan
yang lebih baik dari rata-rata karena median tidak dipengaruhi oleh nilai-nilai yang
ekstrim. Jika kita gunakan nilai rata-rata, maka gaji para eksekutif tersebut akan
membuat nilai rata-rata menjadi jauh lebih tinggi. Tabel 2.5 menyajikan karakteristik
penting dari berbagai ukuran pemusatan tersebut.

Tabel 2.5 Beberapa Karakteristik Penting dari Ukuran Pemusatan


Modus Median Rata-rata
o Merupakan pengamatan o Merupakan titik o Merupakan rata-
yang paling sering terjadi tengah nilai rata nilai
o Satu data set mungkin pengamatan pengamatan
mempunyai lebih dari satu o Hanya satu nilai o Hanya ada satu
modus median untuk tiap nilai rata-rata bagi
o Tidak terpengaruhi nilai data set setiap data set
ekstrim o Tidak dipengaruhi o Sangat
o Modus dari beberapa nilai ekstrim dipengaruhi nilai
sampel tidak dapat o Median dari beberapa ekstrim
digabungkan untuk sampel tidak dapat o Rata-rata dari
menentukan modus seluruh digabungkan untuk beberapa sampel
sampel menentukan median dapat digabungkan
o Untuk data yang seluruh sampel untuk menentukan
dikelompokkan nilai modus o Nilai median dari data rata-rata seluruh
dapat berubah tergantung yang dikelompokkan sampel
pada kategori yang relatif stabil o Hanya digunakan
digunakan o Hanya digunakan untuk data
o Dapat digunakan baik untuk untuk data kuantitatif kuantitatif
data kualitatif maupun
kuantitatif

29
Bagi data dengan distribusi yang simetris, maka rata-rata, median dan modus akan
mempunyai nilai yang sama (Gambar 2.11.a). Jika distribusi datanya condong ke kiri
(skewed to the left) maka rata-rata akan merupakan nilai yang paling kecil,
sedangkan modus merupakan nilai yang terbesar diantara ketiganya (Gambar
2.11.b). Sebaliknya jika distribusinya condong ke kanan (skewed to the right) maka
rata-ratalah yang merupakan nilai terbesar dan modus adalah nilai terkecil (Gambar
2.11.c). Perhatikan bahwa dari ketiga kasus distribusi tersebut, median selalu
merupakan nilai yang di tengah.
Frekuensi relatif

Frekuensi relatif
m = Md = Mo m Md Mo
( a ) D is tr ib u s i s im e tr is ( b ) D is tr ib u s i c o n d o n g k e k ir i
Frekuensi relatif

Mo Md m

( c ) D is tr ib u s i c o n d o n g k e k a n a n

Gambar 2.11 Hubungan antara Rata-Rata (m), Median (Md) dan Modus (Mo)

2.8 Ukuran Penyebaran Data


Untuk dapat menjelaskan distribusi frekuensi suatu set data secara lebih rinci,
ukuran pemusatan harus dilengkapi dengan suatu ukuran penyebaran atau ukuran
keragaman data. Tanpa dilengkapi dengan ukuran penyebaran, ukuran pemusatan
sama sekali tidak mencerminkan bentuk distribusi datanya.

a
Frekuensi relatif

Gambar 2.12 Distribusi dengan Keragaman yang Berbeda namun Rata-Rata


yang Sama

30
Sebagai ilustrasi, dalam Gambar 2.12 disajikan tiga data set yang mempunyai ukuran
pemusatan () yang sama tetapi dengan keragaman data yang berbeda. Perhatikan
bahwa ketiga set data tersebut sama-sama terpusat di titik , tetapi bentuk
distribusi ketiga set data tersebut berbeda satu sama lainnya.
Ukuran penyebaran/keragaman data yang paling sederhana adalah kisaran (range).
Kisaran didefinisikan sebagai selisih antara nilai pengamatan terbesar dengan nilai
pengamatan terkecil dalam suatu set data. Untuk data yang sudah dikelompokkan
ke dalam tabel distribusi frekuensi nilai kisaran data adalah selisih antara batas atas
interval kelas terakhir dikurangi dengan batas bawah interval kelas pertama.
Walaupun sangat mudah dihitung, kisaran hanya memberikan informasi yang
sangat terbatas tentang penyebaran data terhadap rata-ratanya. Perhatikan bahwa
grafik distribusi b) dan c) pada Gambar 2.12 mempunyai rata-rata dan kisaran yang
sama, tetapi nampak jelas bahwa keragaman data dari kedua distribusi tersebut
berbeda satu sama lainnya.
Definisi
Nilai persentil ke-p dari suatu set data yang telah diurutkan besarannya adalah
suatu nilai yang membagi dua urutan data tersebut sedemikian rupa sehingga
sebanyak p% dari data terletak dibawah nilai tersebut dan (100 – p)% nya
terletak di atas nilai tersebut.
Frekuensi relatif

30% 70%

Persentil ke-30

Gambar 2.13 Persentil ke-30 dari Suatu Data Set


Gambar 2.13 memberikan ilustrasi tentang persentil yang ke-30 dari suatu set data.
Persentil sering digunakan untuk menjelaskan tingkat keberhasilan dan peringkat
seseorang dalam suatu ujian dibandingkan dengan peserta ujian lainnya. Nilai-nilai
persentil yang sering digunakan adalah persentil ke-25, ke-50, dan ke-75, yang
masing-masing biasa disebut sebagai kuartil bawah atau kuartil pertama, kuartil
tengah atau kuartil kedua (median) dan kuartil atas atau kuarti ketiga (lihat Gambar
2.14).
Untuk menentukan nilai-nilai kuartil tersebut, pertama-tama urutkan nilai-nilai data
menurut besarnya, misalnya dari nilai terkecil ke nilai terbesar. Kuartil bawah (Q1)

31
n +1
adalah nilai pengamatan yang terletak pada urutan ke ; kuartil tengah
4
2(n + 1)
(median) adalah nilai pengamatan yang ke ; dan kuartil atas (Q3) adalah nilai
4
3 ( n + 1)
pengamatan yang ke dalam urutan tersebut. Jika posisi lokasi kuartil-kuartil
4
tersebut bukan merupakan bilangan bulat, maka nilainya ditentukan dengan
interpolasi.
Frekuensi relatif

IQR

25% 25% 25% 25%

median
kuartil bawah kuartil atas

Gambar 2.14 Kuartil dari Suatu Distribusi


Misalnya untuk n = 10, maka Q1 adalah data yang ke (10 + 1)/4 = 2,75, maka nilai Q1
terletak antara data kedua (y2) dan ketiga (y3) dalam urutan, dengan jarak 0,75 dari
y2, sehingga Q1 = y 2 + 0,75(y 3 - y 2 ) .
Median (kuartil tengah) adalah data yang ke (10 + 1)/2 = 5,5 sehingga nilai median
adalah y 5 + 0,5(y 6 - y 5 ) atau sama dengan 0,5y 5 + 0,5y 6 , yaitu rata-rata dari y5
dan y6. Dengan cara yang sama, Q3 adalah data yang ke 3(10 + 1)/4 = 8,25 dalam
urutan sehingga Q 3 = y 8 + 0,25(y 9 - y 8 ) .
Bagi data yang telah tersusun dalam bentuk distribusi frekuensi, letak nilai dari per-
sentil ke-i ditaksir dengan menggunakan rumus berikut:
w æ i´n ö
Pi = L + ç - cfb ÷ .................................................. ........................ [2.4]
fi è 100 ø
dimana
Pi = Persentil ke-i
L = batas bawah dari interval kelas persentil ke-i
w = lebar interval
fi = frekuensi kelas persentil ke-i
n = jumlah pengamatan
cfb = jumlah frekuensi dari semua kelas sebelum kelas persentil ke-i

32
Contoh 2.9
Sebagai ilustrasi kita akan melakukan pendugaan nilai kuartil bawah dan kuartil atas
bagi diameter pohon dalam Tabel 2.2
Diameter pohon Titik tengah kelas (mi) Frekuensi(fi) fi×mi
2,9 sampai 4,4 3,65 3 10,95
4,4 sampai 5,9 5,15 7 36,05
5,9 sampai 7,4 6,65 9 59,85
7,4 sampai 8,9 8,15 22 179,30
8,9 sampai 10,4 9,65 23 221,95
10,4 sampai 11,9 11,15 15 167,25
11,9 sampai 13,4 12,65 9 113,85
13,4 sampai 14,9 14,15 2 28,30
Total 90 817,50

Letak kuartil bawah (Q1) dari suatu data adalah pada posisi persentil ke-25. Dalam
kasus ini persentil ke-25 terdapat di dalam kelas interval ke-4, maka
L = 7,4 w = 1,5 fi = 22 n = 90 dan cfb = 19
oleh karena itu nilai dugaan bagi persentil ke-25 dari data tersebut adalah:
1,5 æ 25 ´ 90 ö
Q1 = P25 = 7,4 + ç -19 ÷ = 7,64
22 è 100 ø
Kuartil atas (Q3) terletak pada posisi persentil ke-75. Untuk kasus ini persentil ke-75
terdapat di dalam interval kelas ke 6, sehingga
L = 10,4 w = 1,5 fi = 15 n = 90 dan cfb = 64
oleh karena itu nilai dugaan bagi persentil ke-75 dari data tersebut adalah:
1,5 æ 75 ´ 90 ö
Q3 = P75 = 10,4 + ç - 64 ÷ = 10,75
15 è 100 ø

Definisi
Kisaran antar kuartil (interquartile range = IQR) dari suatu set data
didefinisikan sebagai selisih antara kuartil atas dengan kuartil bawah
Kisaran antar kuartil (IQR) dapat digunakan untuk membandingkan keragaman atau
variasi antar dua data set, akan tetapi IQR ada kalanya kurang memberikan
informasi yang bermanfaat tentang keragaman suatu set data. Untuk itu kita perlu
menentukan suatu ukuran keragaman yang lebih sensitif yang dapat digunakan baik
untuk membandingkan keragaman antar dua set data maupun untuk
menginterpretasikan keragaman dalam suatu set data. Salah satu ukuran
keragaman yang sampai saat ini dianggap paling penting dan paling sering
digunakan adalah varians (variance) dan simpangan baku (standard deviation).

33
Definisi
Varians (variance) didefinisikan sebagai ‘rata-rata’ dari kuadrat simpangan
nilai-nilai pengamatan terhadap nilai rata-ratanya
Untuk data populasi, y1, y2, ..., yn, varians populasi biasa dilambangkan dengan huruf
Yunani s2 (dibaca sigma kuadrat), dihitung sebagai berikut:

å ( yi - m )
2

s 2
= .................................................. ............................... [2.5]
n
sedangkan untuk data sampel, varians sampel biasa dilambangkan dengan s2,
dihitung sebagai berikut:

å ( yi - y )
2

s 2
= .................................................. ......................................... [2.6]
n -1
Simpangan baku dihitung sebagai akar dari varians, oleh karena itu, simpangan baku
populasi (s) dihitung dengan

å ( yi - m )
2

s= .................................................. ....................................... [2.7]


n
dan simpangan baku sampel (s) dihitung dengan

å ( yi - y )
2

s= .................................................. ....................................... [2.8]


n -1

(å yi )
2

å (y i - y ) = å - n , oleh karena itu varians


2
Dapat ditunjukkan bahwa y i2

sampel dapat dihitung dengan rumus berikut:


é ( yi ) ù
2
1 ê å
s = 2
n -1 ê
å yi - n úú .................................................. ....................... [2.9]
2

ë û
Rumus (2.8) lebih merupakan rumus teoritis bagi varians sampel, sedangkan untuk
perhitungan, Rumus (2.9) lebih mudah diimplementasikan.

Contoh 2.10
Hitung rata-rata, median, modus dan kisaran antar kuartil dari sampel berikut ini:
5,5 6,6 8,2 13,4 13,0 15,7 3,9 5,8 12,5 5,7
· Rata-rata dari ke 10 pengamatan tersebut adalah
å yi 5,5 + 6,6 + 8,2
2+ +5
5,7 90,3
y= = = = 9,03
n 10 10

34
Untuk menghitung varians sampel kita perlu menghitung å yi2 lebih dulu,
2 2 2 2 2
å yi = 5,5 + 6,6 + 8,2 + 5,77 = 97
973,69
· sehingga varians sampel dari data tersebut adalah
é ( yi ) ù 1 é
2
å ( 90,3) ù
2
1 ê
s =
2
n -1 ê
å yi - n úú = 9 êê973,69 - 10 úú = 17,58678 » 17,59 .
2

ë û ë û
· Modus dari ke 10 pengamatan tersebut tidak ada.
Untuk data yang telah disusun ke dalam tabel distribusi frekuensi, varians populasi
diduga dengan rumus berikut:
å ( mi - m ) ´ fi
2

s2 = i
.................................................. ....................... [2.10]
n
sedangkan varians sampel diduga dengan
å ( mi - y ) ´ fi
2

s2 = i
.................................................. ........................ [2.11]
n -1
dimana mi adalah titik tengah kelas ke – i; fi adalah frekuensi kelas ke – i
Simpangan baku populasi dan sampel masing-masing dihitung sebagai akar dari
Rumus 2.10 dan 2.11 berturut-turut.

Contoh 2.11
Dalam Contoh 2.8 telah kita hitung bahwa rata-rata diameter pohon dalam Tabel
2.2 adalah 9,083 cm. Varians untuk data tersebut dapat dihitung dengan bantuan
tabel berikut.
Titik tengah kelas
Diameter pohon
(mi)
Frekuensi (fi) mi - y (mi - y )2 ( mi - y )2 ´ fi
2,9 sampai 4,4 3,65 3 -5,433 29,5175 88,5525
4,4 sampai 5,9 5,15 7 -3,933 15,4685 108,2795
5,9 sampai 7,4 6,65 9 -2,433 5,9195 53,2755
7,4 sampai 8,9 8,15 22 -0,933 0,8705 19,1510
8,9 sampai 10,4 9,65 23 0,567 0,3215 7,3945
10,4 sampai 11,9 11,15 15 2,067 4,2725 64,0875
11,9 sampai 13,4 12,65 9 3,567 12,7235 114,5115
13,4 sampai 14,9 14,15 2 5,067 25,6745 51,3490
Total 90 506,6010

506,601
s2 = = 5,6921
89

35
Jika dihitung dengan menggunakan data mentahnya, varians dari data tersebut
adalah 5,3914.
õ
Data yang terkonsentrasi di sekitar nilai rata-ratanya akan mempunyai varians dan
simpangan baku yang lebih kecil daripada data yang menyebar dari nilai rata-
ratanya. Oleh karena itu, simpangan baku (dan varians) merupakan salah satu
karateristik penting bagi setiap distribusi.
Definisi: Aturan Empiris
Bagi suatu set data yang mempunyai distribusi berbentuk seperti gundukan
yang simetris (berbentuk seperti genta/lonceng), maka interval
y ± s akan mengandung sekitar 68% dari semua nilai pengamatan,
y ± 2s akan mengandung sekitar 95% dari semua nilai pengamatan,
y ± 3s akan mengandung sekitar 99% dari semua nilai pengamatan.

2.9 Penggunaan Komputer untuk Menghitung Ukuran Pemusatan dan


Penyebaran Data
Ukuran pemusatan dan ukuran penyebaran data yang dibahas di dalam subbab
sebelumnya merupakan bagian dari langkah awal dalam menganalisis data yang
bersangkutan. Oleh karena itu, setiap program statistik menyediakan fasilitas untuk
menghitung berbagai ukuran pemusatan maupun ukuran penyebaran data
tersebut. Perintah yang berkaitan dengan hal ini umumnya tercantum dalam suatu
submenu yang biasa disebut sebagai Descriptive Statistics atau Basic Statistics.
MINITAB
Dalam Program MINITAB beberapa ukuran pemusatan dan penyebaran data dapat
dihitung sekaligus dengan perintah Describe. Perintah tersebut diaktifkan dengan
memilih menu
Stat †Basic Statistics †Display Descriptive Statistics
Sebagai contoh, misalkan data dalam Tabel 2.1 disimpan dalam kolom C1 dalam
Data Program MINITAB dan kolom tersebut diberi nama ‘Diameter’. Pilih menu
Stat †Basic Statistics †Display Descriptive Statistics
perintah tersebut akan mengaktifkan jendela Display Descriptive Statistics (Gambar
2.15). Kemudian isikan C1 atau ‘Diameter’ ke dalam kotak Variabel dalam jendela
tersebut dan klik OK

36
Gambar 2.15 Tampilan Jendela Display Descriptive Statistics MINITAB
Output dari Program MINITAB adalah sebagai berikut:
MTB > Describe 'Diameter'.

Descriptive Statistics

Variable N Mean Median Tr Mean StDev SE Mean


Diameter 90 9.084 9.300 9.130 2.322 0.245

Variable Min Max Q1 Q3


Diameter 2.950 14.250 7.675 10.650

MTB >
Penjelasan:
N adalah jumlah data dalam variabel ‘Diameter’
Mean adalah rata-rata variabel tersebut
Median adalah median variabel tersebut
Tr Mean adalah rata-rata variabel tersebut tanpa mengikut sertakan 5% data
terkecil dan 5% data terbesar dalam perhitungannya
StDev adalah simpangan baku sampel dari variabel tersebut
SE Mean adalah galat baku dari rata-rata (standard error of the mean) yang
(
dihitung dengan cara membagi nilai StDev dengan akar N StDev N . )
Statistik ini akan dibahas lebih lanjut dalam Bab 4
Min adalah nilai minimum
Max adalah nilai maksimum
Q1 dan Q3 masing-masing adalah nilai kuartil bawah dan kuartil atas

Excel
Untuk ilustrasi, misalkan data dalam Tabel 2.1 disimpan dalam spreadsheet Excel
pada kolom A, baris ke 2 sampai baris 91, sedangkan baris pertama berisi ‘Diameter’,

37
sebagai label bagi data tersebut. Dalam Excel, perintah untuk menghitung ukuran
pemusatan dan penyebaran data dilakukan dengan memilih tab
Data†Data Analysis
lalu pilih Descriptive Statistics dalam jendela Data Analysis. Pilihan ini akan
mengaktifkan jendela Descriptive Statistics. Lengkapi jendela tersebut seperti
terlihat dalam Gambar 2.16 lalu klik OK.

Gambar 2.16 Jendela Descriptive Statistics


Output dari rangkaian perintah tersebut akan disimpan dalam sel B1 sampai dengan
C15 (Gambar 2.17).

Gambar 2.17 Output Descriptive Statistics Program Excel

38
Program R
Ukuran pemusatan dan ukuran penyebaran data dapat diperoleh dengan perintah
summary dalam R. Perintah summary pada dasarnya merupakan fungsi generik yang
digunakan untuk mendapatkan hasil dari berbagai fungsi pemodelan. Ketika
summary digunakan terhadap data variabel, perintah ini akan menampilkan nilai
minimum, kuartil bawah, median, rata-rata, kuartil atas dan nilai maksimum.
>
> summary(D9)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.950 7.762 9.300 9.084 10.650 14.250

2.10 Diagram Kotak (Box Plot)


Diagram kotak merupakan salah satu teknik penyajian data dalam bentuk grafis.
Diagram ini digunakan untuk mempelajari keragaman dari data serta memeriksa
keadaan data pada ujung-ujung distribusinya. Diagram kotak juga dapat digunakan
untuk mendeteksi kemungkinan adanya nilai-nilai pencilan (outlier), yaitu nilai-nilai
pengamatan yang terletak sangat jauh dari pusat distribusinya.
Untuk menyajikan data dalam bentuk diagram kotak, langkah pertama adalah
menentukan nilai median, kuartil bawah (Q 1) dan kuartil atas (Q3). Kemudian, hitung
nilai-nilai berikut:
batas dalam bawah (lower inner fence) = Q1 – 1,5 × IQR
batas dalam atas (upper inner fence) = Q3 + 1,5 × IQR
batas luar bawah (lower outer fence) = Q1 – 3 × IQR
batas luar atas (upper outer fence) = Q3 + 3 × IQR
nilai rendah terdekat: nilai pengamatan terkecil yang terletak antara Q1
dengan nilai batas dalam bawah
nilai atas terdekat: nilai pengamatan terbesar yang terletak antara Q3
dengan nilai batas dalam atas
Setiap nilai pengamatan yang terletak di luar batas dalam (bawah maupun atas)
disebut pencilan ringan (mild outlier), sedangkan nilai pengamatan yang terletak di
luar batas luar (bawah maupun atas) disebut pencilan ekstrim (extreme outlier).
Langkah-langkah untuk membuat diagram kotak adalah sebagai berikut:
(i) Buat kotak atau persegi panjang yang panjangnya mulai dari Q 1 sampai Q3
(ii) Buat garis melintang di dalam kotak untuk menunjukkan posisi median
(iii) Hubungkan nilai Q 1 dan nilai rendah terdekat dengan garis, demikian juga
untuk nilai Q 3 dan nilai atas terdekat
(iv) Tandai nilai pencilan ringan dengan ‘×’ dan pencilan ekstrim dengan ‘o’.

39
Diagram kotak akan lebih mudah dibuat jika data tersebut telah diurutkan lebih dulu
(dari kecil ke besar, atau sebaliknya), misalnya dalam bentuk diagram batang dan
daun.

Contoh 2.12
Data di bawah ini adalah hasil pengukuran berat basah dari 78 ring sampel tanah
(data hasil penelitian Dr G.Z. Anshari, dkk, 2002 (tidak dipublikasikan):
85 120 89 119 98 119 120 126 131 114 104 101 118
121 122 123 129 114 121 88 101 34 132 124 97 92
102 107 102 101 110 136 118 119 115 93 111 107 113
110 134 120 117 112 110 70 142 106 107 65 114 104
105 124 107 130 84 129 100 72 111 132 117 83 96
115 94 108 132 113 135 94 91 117 94 133 86 102
Untuk memudahkan dalam membuat diagram kotak, data tersebut dapat disusun
lebih dulu ke dalam bentuk diagram batang dan daun. Untuk kasus ini, diagram
tersebut adalah sebagai berikut:
1 3 4
1 4
1 5
2 6 5
4 7 02
10 8 345689
19 9 123444678
35 10 0111222445677778
(21) 11 000112334445577788999
22 12 000112344699
10 13 012223456
1 14 2
Karena n = 78, maka
· median adalah data yang ke (78 + 1)/2 = 39,5 atau rata-rata dari data yang ke-
39 dan ke-40, yaitu 111
· Q1 adalah data yang ke (78 + 1)/4 = 19,75 sehingga Q1 = 98 + 0,75(100 – 98) =
99,5
· Q3 adalah data yang ke 3(78 + 1)/4 = 59,25 sehingga Q3 = 120 + 0,25(121 – 120)
= 120,25
· Kisaran antar kuartil (IQR) = Q3 – Q1 = 120,25 – 99,5 = 20,75
· Batas dalam bawah (lower inner fence) = Q1 – 1,5 × IQR = 68,375
· Batas dalam atas (upper inner fence) = Q3 + 1,5 × IQR = 151,375
· Batas luar bawah (lower outer fence) = Q1 – 3 × IQR = 37,25
· Batas luar atas (upper outer fence) = Q3 + 3 × IQR = 182,5
· Nilai rendah terdekat: 70
· Nilai atas terdekat: 142 (= nilai maksimum)

40
Oleh karena itu, dalam data ini terdapat dua buah nilai pencilan, yaitu 65 yang
merupakan pencilan ringan dan 34 yang merupakan pencilan ekstrim.

142.00

120.25 Q3

berat_basah
111.00 Md
99.50 Q1

70.00

34.00

Gambar 2.18 Diagram Kotak dari Berat Basah Sampel Tanah

Beberapa informasi yang dapat kita peroleh dari tampilan suatu diagram kotak
diantaranya adalah sebagai berikut:
1. Pusat distribusi data ditunjukkan oleh garis median di dalam kotak
2. Panjang kotak menunjukkan ukuran penyebaran/keragaman data, dalam hal
ini adalah kisaran antar kuartil
3. Posisi garis median dalam kotak juga dapat digunakan sebagai suatu indikasi
ke-simetri-an data di sekitar pusat distribusinya.
4. Panjang garis yang menghubungkan nilai kuartil (ujung kotak) dengan nilai-nilai
terdekatnya dapat digunakan sebagai tambahan informasi tentang
kecondongan (skewness) di ujung-ujung distribusi data
5. Kemungkinan adanya nilai pencilan dalam data
Perintah untuk membuat diagram kotak dalam Minitab dapat diakses dengan
memilih menu
Graph†Boxplot
Sedangkan dalam R, perintah untuk membuat diagram kotak adalah
boxplot(x,...)

Dari boxplot (Gambar 2.19) dapat dilihat bahwa terdapat dua titik yang berada di
luar Boxplot. Titik-titik tersebut disebut titik outlier. Titik outlier pada Gambar 2.19
adalah 65 dan 34.

41
Boxplot of Berat_Basah
150

125

Berat_Basah
100

75

50

Gambar 2.19 Boxplot dengan MINITAB dari Contoh 2.12

Soal-Soal Latihan
2.1 Sebutkan tiga metode yang biasa digunakan untuk menjelaskan karakteristik
data. Jelaskan masing-masing tujuan penggunaannya.
2.2 Jelaskan perbedaan antara tabel distribusi frekuensi dan tabel distribusi
frekuensi relatif.
2.3 Apakah perbedaan antara ukuran pemusatan dan ukuran penyebaran data?
2.4 Apakah fungsi dari ukuran penyebaran data?
2.5 Ukuran pemusatan data yang manakah (modus, median, rata-rata) yang
sangat sensitif terhadap nilai-nilai yang ekstrim?
2.6 Ukuran pemusatan data apakah yang digunakan untuk menunjukkan nilai
dengan frekuensi tertinggi?
2.7 Jika di dalam data terdapat nilai-nilai yang ekstrim, ukuran pemusatan
manakah yang sebaiknya digunakan?
2.8 Ukuran pemusatan yang manakah yang memperhitungkan semua nilai dalam
proses perhitungan data?
2.9 Jika dalam suatu set data, sebuah nilai yang agak lebih besar dari nilai rata-
rata data tersebut diganti dengan nilai yang jauh lebih besar, bagaimanakah
pengaruhnya terhadap nilai rata-ratanya, apakah menjadi lebih besar, lebih
kecil ataukah tetap sama saja? Bagaimana pula pengaruhnya terhadap
median?
2.10 Jelaskan kelebihan penyajian data dalam bentuk diagram batang dan daun
dibandingkan dengan distribusi frekuensi
2.11 Data berikut ini adalah nilai ujian Metode Statistika dari 49 orang mahasiswa
FMIPA pada suatu perguruan tinggi.
80 75 63 76 47 83 75

42
3 Te o r i Pel ua ng d a n Di s t rib u s i
Pe l u an g

3.1 Pendahuluan
Teori peluang adalah bagian integral dari Ilmu Statistika, dan merupakan salah satu
bagian terpenting dalam teori Statistika Inferensial. Seperti telah dikemukakan
dalam Bab 1, Statistika Inferensial berkaitan dengan metode pendugaan dan
penarikan kesimpulan terhadap karakteristik suatu populasi berdasarkan informasi
yang diperoleh dari sampel. Dalam proses pendugaan atau penarikan kesimpulan
tersebut terkandung suatu unsur ‘ketidak-pastian’, karena pada kenyataannya
proses tersebut jarang sekali didukung oleh informasi atau input yang sempurna.
Secara statistik derajat/tingkat ketidak-pastian tersebut dikuantifikasikan dengan
menggunakan teori peluang. Sebagai ilustrasi, perhatikan contoh berikut ini.
Seorang calon kepala desa menyatakan bahwa dirinya akan mengalahkan
pesaingnya dalam pemungutan suara yang akan dilaksanakan dalam beberapa
bulan mendatang. Karena merasa ragu dengan pernyataan tersebut, seorang
wartawan lokal mewawancarai 20 orang calon pemilih di desa tersebut. Ke 20 orang
tersebut dapat dianggap sebagai suatu sampel acak dari seluruh calon pemilih di
desa tersebut. Jika ternyata tak seorangpun dari ke 20 responden menyatakan akan
memilih calon kepala desa tersebut, apakah kesimpulan anda?
Jika pernyataan kepala desa tersebut benar, maka sedikitnya 50% calon pemilih
akan memilih dia, dan hal ini seharusnya tercerminkan dalam sampelnya. Akan
tetapi, karena dari sampel tersebut menunjukkan bahwa tak satupun calon pemilih
akan memilih dia, dapat kita simpulkan bahwa pernyataan calon kepala desa
tersebut adalah tidak benar, dan kemungkinan besar dia akan kalah dalam
pemungutan suara mendatang.
Jika seandainya 9 calon pemilih menyatakan akan memilih kepala desa tersebut dan
sisanya (11 orang) menyatakan akan memilih calon lain (dalam hal ini kita anggap
hanya ada dua calon kepala desa). Dapatkah kita simpulkan bahwa pernyataan
kepala desa tersebut tidak benar? Bagaimana jika hasil sampel tersebut
menunjukkan perbandingan 6 lawan 14, atau 3 lawan 17? Pada batas angka
perbandingan berapakah kita dapat menyatakan bahwa pernyataan calon kepala
desa tersebut adalah tidak benar? Untuk menjawab pertanyaan-pertanyaan
tersebut kita harus mengetahui bagaimana menentukan nilai peluang dari hasil
sampel. Dengan mengetahui nilai peluang tersebut kita dapat memutuskan untuk
setuju atau tidak dengan pernyataan kepala desa tersebut.

46
3.2 Percobaan acak
Definisi
Suatu percobaan adalah suatu proses atau kegiatan yang menghasilkan satu
kejadian (outcome) dari berbagai kejadian yang mungkin dihasilkan. Jika
terjadinya kejadian tersebut tidak dapat diduga dengan pasti maka perco-baan
tersebut disebut sebagai percobaan acak (random experiment).
Ruang sampel (sample space) adalah kumpulan dari semua kejadian yang
mungkin timbul akibat dilakukannya suatu percobaan.
Berikut ini adalah beberapa contoh percobaan acak dan kejadian-kejadian
yang mungkin dihasilkannya:

Tabel 3.1 Contoh Percobaan Acak dan Kejadian-kejadian yang Mungkin


Dihasilkan
Percobaan acak Kejadian yang mungkin dihasilkan
Melempar uang logam Rp 500,- Gambar burung garuda, angka 500 (sisi
muka, sisi belakang)
Melempar dadu Angka 1, 2, 3, 4, 5, 6
Mengamati harga komputer Naik, turun, tidak berubah
Menghitung jumlah buah cabe per 0, 1, 2, ...
tanaman
Mengamati gaji per bulan dosen Sembarang bilangan yang lebih besar
senior sebuah perguruan tinggi dari Rp3.500.000
Mengamati pertumbuhan bunga Tumbuh jadi buah, tidak jadi buah
tanaman

Salah satu ciri yang menonjol dari suatu percobaan acak adalah bahwa kejadian yang
dihasilkan tidak dapat ditentukan dengan pasti sebelum percobaan tersebut
dilaksanakan. Artinya, jika percobaan tersebut diulang, walaupun dalam kondisi
yang sama, maka kejadian yang timbul dapat berbeda sama sekali dengan hasil
percobaan sebelumnya.

3.3 Permutasi dan kombinasi


Nilai peluang suatu kejadian, sering kali dapat ditentukan hanya dengan menghitung
jumlah kejadian yang terdapat dalam ruang sampel dari suatu percobaan, tanpa
harus mendaftarkan seluruh unsur/kejadian dalam ruang sampel tersebut. Dalam

47
subbab ini akan kita bahas prinsip-prinsip dasar dalam menghitung jumlah
unsur/kejadian yang mungkin timbul akibat dilaksanakannya suatu percobaan.

Aturan 3.1
Jika timbulnya suatu kejadian A dapat terjadi melalui n kemungkinan, dan kejadian
B dapat terjadi melalui m kemungkinan, maka:
i. kejadian A atau B dapat terjadi melalui n + m kemungkinan, asalkan kedua
kejadian tersebut tidak dapat terjadi secara bersama-sama
ii. kejadian A dan B dapat terjadi melalui n × m kemungkinan

Contoh 3.1
i. Misalkan A adalah terambilnya satu kartu spade () dari satu set kartu remi
dan B adalah terambilnya satu kartu diamond ( ). Kedua kejadian tersebut
masing-masing dapat terjadi melalui 13 kemungkinan, karena dalam satu
set kartu remi terdapat 13 kartu spade dan 13 kartu diamond. Maka
terpilihnya satu kartu spade atau satu kartu diamond dapat terjadi melalui
13 + 13 = 26 kemungkinan.
ii. Jika dari satu set kartu remi tersebut diambil dua kartu sedemikian rupa
sehingga salah satunya adalah kartu spade dan kartu yang lainnya adalah
diamond, maka dalam hal ini akan terdapat 13 × 13 = 169 kemungkinan,
karena setiap kartu spade dapat berpasangan dengan salah satu dari ke 13
kartu diamond.
Aturan 3.1 tersebut dapat diperluas dan berlaku untuk lebih dari dua kejadian.
Sehingga, jika kejadian A, B dan C masing-masing dapat terjadi melalui m, n dan p
kemungkinan, maka kejadian A atau B atau C dapat terjadi melalui m + n + p
kemungkinan, dan kejadian A dan B dan C dapat terjadi melalui m × n × p
kemungkinan.
Penggunaan Aturan 3.1.ii sering kali bermanfaat ketika kita diminta untuk
menentukan jumlah susunan/urutan dari suatu set objek tertentu. Sebagai ilustrasi
perhatikan Contoh 3.2 berikut ini.

Contoh 3.2
Misalnya kita bermaksud untuk menentukan jumlah susunan dari huruf-huruf a, b
dan c. Pada posisi pertama untuk setiap susunan kita mempunyai tiga pilihan, yaitu
huruf a, b atau c. Jika posisi pertama sudah terisi, maka untuk posisi kedua kita
hanya mempunyai dua pilihan, yaitu dua huruf yang belum digunakan. Dan untuk
posisi terakhir, kita hanya mempunyai satu pilihan. Dengan demikian, susunan
ketiga huruf tersebut dapat terjadi melalui 3 × 2 × 1 = 6 kemungkinan. Keenam
susunan tersebut, atau biasa juga disebut permutasi, adalah sebagai berikut:

48
abc, acb, bac, bca, cab, cba
õ
Dalam contoh di atas kita dapat dengan mudah mendaftarkan semua susunan
(permutasi) yang mungkin terjadi karena hanya terdapat 6 permutasi.
Secara umum, jumlah permutasi dari n unsur yang berbeda adalah
n × (n – 1) × (n – 2) × ... × 3 × 2 × 1
Hasil kali dari bilangan-bilangan di atas biasa dinotasikan dengan n! (dibaca n
faktorial). Sehingga 2! = 2 × 1 = 2, 3! = 3 × 2 × 1 = 6, dan seterusnya.
Dapat ditunjukkan bahwa
n!
(n - 1)! = .................................................. ......................................... [3.1]
n
Catatan: berdasarkan definisi, 1! = 1 dan 0! =1

Aturan 3.2
Jumlah permutasi dari n unsur yang berbeda adalah n!
Dengan Aturan 3.2, dapat dengan mudah kita tentukan bahwa jumlah permutasi
dari 4 huruf a, b, c dan d adalah 4! = 24. Jika dari ke 4 huruf tersebut, misalnya kita
hanya mengambil 2 huruf saja, maka dalam hal ini kita hanya mempunyai dua posisi
yang dapat ditempati oleh ke 4 huruf tersebut. Pada posisi pertama kita mempunyai
4 pilihan dan pada posisi kedua kita hanya mempunyai 3 pilihan. Dengan demikian
akan terdapat 4 × 3 = 12 permutasi. Ke 12 permutasi tersebut adalah
ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc
Secara umum, hal ini dirumuskan dalam aturan 3.3 berikut ini:

Aturan 3.3
Jika dari n unsur yang berbeda diambil r unsur (r ! n), maka jumlah
permutasinya dinotasikan dengan nPr (dibaca jumlah permutasi tingkat r dari n
unsur), dimana
n!
n Pr = .................................................. ....................................... [3.2]
(n - r )!
Sampai sejauh ini perhatian kita terfokus pada n unsur yang berbeda satu sama
lainnya. Ada kalanya kita perlu menentukan jumlah permutasi dari n unsur yang
tidak semuanya berbeda. Sebagai ilustrasi, misalnya huruf-huruf a dan b dalam
Contoh 3.2 kita ganti kedua-duanya dengan huruf x. Maka ke 6 permutasi dalam
Contoh 3.2 tersebut berubah menjadi

49
xxc, xcx, xxc, xcx, cxx, cxx
Perhatikan bahwa dari ke 6 permutasi tersebut hanya 3 permutasi saja yang
berbeda, yaitu xxc, xcx dan cxx. Dengan demikian, jumlah permutasi dari 3 huruf
dimana 2 huruf diantaranya adalah sama, hanya terdapat sebanyak 3!/2! = 3
permutasi yang berbeda. Misalnya kita mempunyai 4 huruf yang berbeda satu sama
lainnya, yaitu a, b, c dan d, maka dari ke 4 huruf tersebut akan terdapat sebanyak
4!= 24 permutasi yang berbeda. Jika huruf a dan b kita ganti dengan x, dan huruf c
dan d kita ganti dengan y, maka dari keempat huruf tersebut hanya akan kita peroleh
permutasi sebagai berikut: xxyy, xyxy, xyyx, yyxx, yxyx dan yxxy. Artinya kita hanya
mempunyai 4!/(2! 2!) = 6 permutasi saja. Secara umum, hal ini dirumuskan dalam
Aturan 3.4 berikut ini.

Aturan 3.4
Jika suatu set objek yang terdiri atas n unsur dapat dikelompokkan menjadi k
kelompok yang berbeda, dimana kelompok ke 1 terdiri atas n1 unsur yang
sama, kelompok ke 2 terdiri atas n2 unsur yang sama, demikian seterusnya,
sehingga kelompok ke k terdiri atas nk unsur yang sama, maka dari ke n unsur
n!
tersebut akan dapat disusun sebanyak permutasi yang berbeda.
n1 ! n2 ! nk !

Contoh 3.3
Satu set lampu hias mempunyai 9 buah soket untuk bola lampu. Jika kita
mempunyai 3 bola lampu berwarna merah, 4 bola lampu berwarna kuning dan 2
bola lampu berwarna biru, tentukan jumlah susunan yang dapat kita buat untuk me-
nempatkan ke 9 buah bola lampu ke dalam soketnya.
Penyelesaian
Jumlah permutasi yang mungkin dapat kita susun dari ke 9 buah bola lampu tersebut
adalah
9!
= 1260
3!4!2!
Jadi ke 9 buah bola lampu tersebut dapat ditempatkan ke dalam soketnya melalui
1260 cara.

Dalam menyusun unsur-unsur tersebut, ada kalanya kita hanya tertarik pada jumlah
susunan yang berbeda tanpa menghiraukan urutan dalam setiap susunan. Susunan
atau permutasi yang demikian disebut kombinasi. Misalnya jika dari 4 huruf a, b, c
dan d diambil dua huruf, maka kombinasi yang mungkin tersusun adalah
ab, ac, ad, bc, bd, cd

50
Perhatikan bahwa dalam kombinasi, urutan dalam setiap susunan tidak dibedakan,
misalnya ab tidak dibedakan dengan ba, sedangkan dalam permutasi kedua susunan
tersebut dibedakan satu sama lainnya. Sehingga dapat dikatakan bahwa ab dan ba
adalah dua permutasi yang berbeda dari kombinasi huruf yang sama.

Aturan 3.5
Jika dari n unsur yang berbeda diambil r unsur, maka jumlah kombinasinya
dinotasikan dengan nCr (dibaca jumlah kombinasi tingkat r dari n unsur),
dimana
n!
n Cr = .................................................. ................................... [3.3]
r !× (n - r )!

Contoh 3.4
Dari 4 orang anggota partai politik A dan 3 orang anggota partai politik B di DPR akan
dibentuk suatu kepanitiaan yang terdiri atas 3 orang. Tentukan jumlah susunan
kepanitiaan yang mungkin dibentuk jika 2 orang anggota partai A dan satu orang
anggota partai B harus menjadi anggota panitia tersebut.
Penyelesaian
Jumlah susunan yang mungkin dibentuk dengan cara memilih 2 orang dari 4 orang
anggota partai A adalah
4!
4 C2 = =6
2!× 2!
Jumlah susunan yang mungkin dibentuk dengan cara memilih 1 orang dari 3 orang
anggota partai B adalah
3!
3 C1 = =3
1!× 2!
Dengan Aturan 3.2.ii, maka jumlah susunan kepanitian yang mungkin dibentuk yang
terdiri atas 2 orang anggota partai A dan satu orang anggota partai B adalah 6 × 3 =
18 kemungkinan.

3.4 Interpretasi tentang peluang


Telah cukup banyak usaha yang dilakukan oleh para ahli statistik untuk
mendefinisikan peluang suatu kejadian secara tepat. Tiga macam pendekatan
dalam menginterpretasikan peluang akan kita bahas dalam subbab ini, yaitu
pendekatan peluang secara klasik, pendekatan dengan konsep frekuensi relatif dan
pendekatan subjektif.

51
Pada pendekatan klasik, peluang suatu kejadian diinterpretasikan berdasarkan atas
asumsi simetris dari sifat percobaan. Misalnya pada percobaan pelemparan sebuah
mata uang yang seimbang, hanya ada dua kejadian yang mungkin dihasilkan, yaitu
timbulnya sisi muka atau sisi belakang. Dengan asumsi simetris kita menganggap
bahwa kedua permukaan tersebut mempunyai peluang yang sama untuk terjadi.
Oleh karena itu, peluang timbulnya sisi muka sama dengan peluang timbulnya sisi
belakang yaitu sama dengan ½ (1 dari 2 kejadian). Secara umum, jika suatu
percobaan dapat menghasilkan n kejadian, maka dengan pendekatan klasik,
peluang terjadinya salah satu kejadian tersebut adalah 1/n.
Peluang terjadinya suatu kejadian A dituliskan dengan notasi P(A). Misalnya, pada
percobaan pelemparan mata uang, peluang dihasilkannya sisi muka adalah:
P(sisi muka) = ½
Penggunaan pendekatan klasik dalam menentukan nilai peluang sangat tergantung
pada asumsi bahwa semua kejadian yang mungkin dihasilkan mempunyai peluang
yang sama. Jika asumsi tersebut tidak dapat dipenuhi, maka nilai peluang yang
dihasilkan dengan pendekatan klasik akan salah.
Interpretasi peluang dengan menggunakan pendekatan konsep frekuensi relatif
merupakan suatu pendekatan empiris. Misalkan suatu percobaan diulang sebanyak
n kali. Jika dari percobaan-percobaan tersebut timbul kejadian tertentu, misalnya
kejadian A, sebanyak f kali, maka jika n cukup besar, nilai proporsi f/n dapat
digunakan sebagai suatu pendekatan bagi nilai peluang terjadinya kejadian A (dalam
Bab 2, telah kita bahas bahwa nilai f/n adalah frekuensi relatif dari kejadian A).
Dengan pendekatan konsep frekuensi relatif, nilai peluang bagi suatu kejadian
didefinisikan sebagai frekuensi relatif dari kejadian tersebut pada pengamatan atau
pengulangan suatu percobaan dalam jumlah yang besar.
Pada keadaan tertentu, kedua pendekatan di atas mungkin tidak dapat digunakan
untuk menentukan nilai peluang suatu kejadian karena berbagai alasan. Dalam hal
ini nilai peluang suatu kejadian dapat ditentukan secara subjektif berdasarkan
penilaian masing-masing orang. Misalnya, suatu perusahaan merencanakan untuk
memproduksi suatu produk baru yang belum pernah diuji-coba sama sekali.
Eksekutif perusahaan mungkin akan bertanya “Berapa peluang bahwa perusahaan
akan menghasilkan keuntungan dari pembuatan produk tersebut?” Bagaimana kita
menentukan nilai peluangnya? Dalam hal ini terdapat dua kemungkinan, yaitu
perusahaan akan mendapat keuntungan atau perusahaan akan menderita kerugian,
tetapi sangat tidak beralasan kalau kita katakan bahwa peluang masing-masing
kejadian adalah setengah. Selain itu, pendekatan frekuensi relatif juga tidak dapat
digunakan karena percobaannya tidak dapat diulang.
Contoh lain, misalkan seorang dokter menyatakan bahwa peluang seorang
pasiennya untuk bertahan hidup lebih dari satu tahun adalah 40%. Pernyataan

52
peluang tersebut semata-mata penilaian subjektif dari dokter tersebut dan tidak
dapat diuji secara objektif.

Contoh 3.5
Dalam percobaan pelemparan sebuah dadu yang seimbang akan terdapat enam
kejadian yang mungkin dihasilkan, yaitu timbulnya sisi dadu bermata 1, 2, 3, 4, 5,
atau 6. Berapakah peluang timbulnya sisi dadu bermata genap?
Penyelesaian:
Nilai peluang dari kejadian ini dapat dengan mudah dihitung jika kita gunakan
asumsi simetris, dan hal ini cukup beralasan karena dadu tersebut seimbang.
Kejadian timbulnya sisi dadu bermata genap terjadi jika pada percobaan tersebut
dihasilkan sisi 2, 4 atau 6. Karena secara keseluruhan hanya ada enam kejadian yang
mungkin timbul, maka dengan asumsi simetris masing-masing kejadian akan
mempunyai nilai peluang 1/6. Oleh karena itu, peluang terjadinya sisi dadu ber-
mata genap adalah:
P(sisi dadu bermata genap) = 3/6 = 0,5

Peluang kejadian di atas dapat juga ditentukan dengan menggunakan pendekatan


frekuensi relatif. Misalkan kedua mata uang tersebut dilemparkan 2000 kali.
Misalkan hasil percobaan tersebut adalah seperti tercantum dalam Tabel 3.2.
Berdasarkan tabel tersebut, maka peluang timbulnya sisi dadu bermata genap
adalah:
362 + 316 + 340
P(sisi dadu bermata genap) = = 0,509
2000

Tabel 3.2. Distribusi Frekuensi dari Percobaan Pelemparan Sebuah Dadu


Sebanyak 2000 kali
Kejadian Frekuensi Frekuensi relatif
Sisi 1 322 0,161
Sisi 2 362 0,181
Sisi 3 300 0,150
Sisi 4 316 0,158
Sisi 5 360 0,180
Sisi 6 340 0,170
Total 2000

53
3.5 Beberapa aturan dasar peluang
Sebelum membahas aturan-aturan dasar dari teori peluang ada beberapa istilah
penting yang sering digunakan yang perlu kita ketahui lebih dulu, diantaranya
adalah:
1. Dua kejadian A dan B disebut kejadian bebas atau independen
(independent) jika terjadinya kejadian A tidak mempengaruhi terjadi atau
tidaknya kejadian B, dan sebaliknya.
2. Komplemen dari suatu kejadian A adalah semua kejadian lain yang
mungkin timbul selain kejadian A. Komplemen kejadian A ditulis dengan
notasi A’ (Gambar 3.1.a).
3. Dua kejadian A dan B disebut saling asing (mutually exlusive) jika kedua
kejadian tersebut tidak mungkin terjadi secara bersama-sama, artinya jika
kejadian A terjadi, maka kejadian B tidak mungkin terjadi, dan sebaliknya
(Gambar 3.1.b).
4. P(A atau B) adalah peluang terjadinya salah satu kejadian, baik A maupun
B, yaitu P(A atau B) = P (A È B)
5. P(A dan B) adalah peluang terjadinya kejadian A dan B secara bersama-
sama, yaitu P(A dan B) = P (A Ç B) .


A A B A B

(a) A dan komplemennya (b) A dan B saling asing (c) A dan B tidak saling
asing

Gambar 3.1 Diagram Venn tentang hubungan antara dua kejadian

Aturan 3.6
Nilai peluang suatu kejadian, misalnya kejadian A, selalu terletak antara nol dan
satu:
0 £ P(A) £ 1 ............................................... ........................................... [3.4]
Nilai peluang suatu kejadian dapat dipandang sebagai frekuensi relatif kejadian
tersebut dari percobaan yang diulang dalam jumlah yang besar. Telah kita ketahui
bahwa frekuensi relatif adalah suatu nilai yang terletak antara nol dan satu. Oleh
karena itu, nilai peluang suatu kejadian akan terletak antara nol dan satu; dan tak
satupun kejadian yang mempunyai nilai peluang negatif atau lebih besar dari 1.
Peluang suatu kejadian akan bernilai nol jika kejadian tersebut mustahil terjadi, dan
peluang suatu keajian akan bernilai satu jika kejadian tersebut pasti terjadi.

54
Aturan 3.7
Jika A’ adalah komplemen dari kejadian A, maka
P(A’) = 1 – P(A) ................................. ................................................... . [3.5]

Contoh 3.6
Jika dua buah mata uang yang seimbang dilemparkan, maka akan terdapat empat
kejadian yang mungkin terjadi, yaitu:
MM: kedua mata uang menunjukkan sisi muka
MB: mata uang pertama menunjukkan sisi muka dan mata uang kedua
menunjukkan sisi belakang
BM: mata uang pertama menunjukkan sisi belakang dan mata uang kedua
menunjukkan sisi muka
BB: kedua mata uang menunjukkan sisi belakang
Peluang bahwa kedua mata uang menunjukkan sisi muka (terjadinya MM), adalah
P({MM}) = 0,25
Komplemen dari MM adalah kejadian dimana kedua mata uang tersebut tidak
menunjukkan sisi muka. Hal ini terjadi jika MB atau BM atau BB yang timbul, dan ini
mempunyai peluang 0,75 atau sama dengan 1 – 0,25. Sehingga
P({MM}’) = 1 – P({MM})
= 1 – 0,25
= 0,75
Perhatikan bahwa
P({MM}’) = P({MB, BM, BB})
õ

Aturan 3.8
Jika A dan B adalah dua kejadian yang saling asing, maka peluang terjadinya
kejadian A atau kejadian B adalah
P(A atau B) = P(A) + P(B) ...................................................................... [3.6]

Aturan 3.9
Jika A dan B adalah dua kejadian yang tidak saling asing, maka peluang
terjadinya kejadian A atau kejadian B adalah
P(A atau B) = P(A) + P(B) – P(A dan B) ................................................. [3.7]
Aturan 3.8 dan 3.9 di atas akan lebih jelas dan lebih mudah dipahami jika
menggunakan bantuan diagram Venn (lihat Gambar 3.1.b dan 3.1.c).

55
Contoh 3.7
Catatan pembukuan sebuah koperasi simpan pinjam menunjukkan bahwa dari
keseluruhan anggotanya yang berjumlah 100 orang, terdapat 30 orang yang belum
membayar iuran bulanan, 60 orang yang mempunyai pinjaman kepada koperasi dan
20 orang yang belum membayar iuran bulan dan juga mempunyai pinjaman. Jika
dari daftar anggota koperasi tersebut dipilih satu orang anggotanya secara acak,
tentukan peluang bahwa orang tersebut belum membayar iuran bulanan atau
mempunyai pinjaman kepada koperasi.
Penyelesaian:
Kejadian bahwa orang tersebut belum membayar iuran bulanan (dinotasikan
dengan A) dan bahwa orang tersebut mempunyai pinjaman kepada koperasi
(dinotasikan dengan B) adalah dua kejadian yang
tidak saling asing. Oleh karena itu,
A
P(A atau B) = P(A) + P(B) – P(A dan B) B
0,1 0,2
= 0,3 + 0,6 – 0,2 = 0,7 0,4

Dengan bantuan diagram Venn dapat dengan


0,3
mudah dilihat bahwa dari keseluruhan anggota
koperasi, sebanyak 10% anggotanya hanya
mempunyai tunggakan iuran bulanan, 40% anggotanya hanya mempunyai
pinjaman, 20% mempunyai tunggakan iuran bulanan dan juga mempunyai
pinjaman, dan 30% tidak mempunyai tunggakan iuran bulan dan tidak mempunyai
pinjaman.
õ

Contoh 3.8
Sebuah perusahaan minuman memiliki sebuah mesin untuk mengisi botol-botol
minuman secara otomatis. Mesin tersebut disetel untuk mengisi botol-botol
tersebut dengan 330 ml minuman produk perusahaan tersebut. Untuk menguji
tingkat ketelitian mesin tersebut, diambil secara acak 1000 botol, hasil
pengamatannya adalah sebagai berikut:
Kejadian Isi (ml) Jumlah botol Peluang
A < 330 45 0,045
B 330 905 0,905
C > 330 50 0,050
Total 1000

Berapakah peluang bahwa isi suatu botol akan kurang atau terlalu penuh?

56
Penyelesaian:
Ketiga kejadian di atas merupakan kejadian yang saling asing, karena ketiganya tidak
dapat terjadi secara bersama-sama, misalnya kalau A terjadi maka B dan C tidak akan
terjadi, demikian juga jika B terjadi, maka A dan C tidak akan terjadi.
Oleh karena itu, Aturan 3.8 dapat digunakan untuk menentukan P(A atau C), yaitu:
P(A atau C) = P(A) + P(C)
= 0,045 + 0,05 = 0,095
Peluang bahwa sebuah botol akan kurang penuh atau terlalu penuh adalah 0,095.

3.6 Peluang bersyarat


Dalam menentukan nilai peluang suatu kejadian kadang-kadang kita dapat
memanfaatkan informasi partial dari kejadian lain yang mungkin berkaitan dengan
kejadian yang kita amati. Misalnya, dalam pengambilan sebuah kartu dari satu set
kartu remi, jika diketahui bahwa kartu yang terambil berwarna hitam, berapakah
peluang terambilnya kartu As? Contoh lain, misalnya, jika orang yang terpilih dalam
Contoh 3.7 diketahui adalah orang yang belum membayar iuran bulanan, berapakah
peluangnya bahwa dia juga mempunyai pinjaman kepada koperasi?
Ketika kita menentukan peluang terjadinya suatu kejadian A pada suatu keadaan
dimana kejadian B telah terjadi, maka peluang yang demikian disebut peluang
bersyarat (conditional probability), dan dinyatakan dengan notasi P(A|B). Dalam
menentukan P(A|B), kita membatasi ruang lingkup perhatian kita hanya pada bagian
percobaan yang menghasilkan kejadian B. Dengan demikian, peluang bersyarat
P(A|B) pada dasarnya mengukur bagian/pecahan dari kejadian B yang juga
menghasilkan kejadian A.

Aturan 3.10
Peluang terjadinya kejadian A dengan syarat bahwa kejadian B telah terjadi
dihitung dengan rumus:
P(A dan B)
P(A|B) = , asalkan P(B) ¹ 0 ............................................... . [3.8]
P(B)
Dalam contoh tentang pengambilan sebuah kartu remi di atas, kita diminta untuk
menentukan P(As|kartu hitam). Dalam hal ini, informasi yang diketahui adalah
terpilihnya kartu warna hitam. Dalam satu set kartu remi, kita tahu terdapat 26
kartu warna hitam (13 kartu  dan 13 kartu ), yang dua diantaranya adalah kartu
As. Oleh karena itu, peluang terpilihnya kartu As jika diketahui bahwa kartu yang
terpilih tersebut berwarna hitam adalah

57
jumlah kartu As berwarna hitam
P ( As|kartu hitam ) =
jumlah kartu berwarna hitam
2
=
26
Nilai peluang tersebut, dapat juga dihitung dengan menggunakan Aturan 3.10
sebagai berikut:
Misalkan kejadian A adalah terpilihnya kartu As, dan kejadian B adalah terpilihnya
kartu berwana hitam. Maka
2
P(A dan B) = P(As berwarna hitam) = , dan
52
26
P(B) = P(kartu berwarna hitam) = , maka
52
P(A dan B) 2 52 2
P(A|B) = = =
P(B) 26 52 26

Contoh 3.9
Seorang orang tua murid yang anak laki-lakinya tidak diterima di suatu SMA
memprotes kebijakan sekolah dan menyatakan bahwa sekolah tersebut telah
melakukan diskriminasi yang merugikan murid laki-laki. Untuk mendukung
argumennya, dia menunjukkan data penerimaan murid di sekolah tersebut (Tabel
3.3). Dia menyatakan bahwa dari 689 pelamar ke sekolah tersebut, sebanyak 290
orang (42,1%) calon murid laki-laki tidak diterima. Sebaliknya, hanya 159 orang
(23,1%) calon murid perempuan yang tidak diterima di sekolah tersebut. Betulkah
tuduhan orang tua murid tersebut bahwa sekolah tersebut telah melakukan
diskriminasi dalam penerimaan murid baru?

Tabel 3.3 Tabel Frekuensi Murid yang Mendaftar ke Suatu SMA


Status
Diterima Ditolak Total
Laki-laki 168 290 458
Perempuan 72 159 231
Total 240 449 689
Penyelesaian:
Di dalam Tabel 3.3 jumlah murid yang mendaftar ke SMA tersebut dikelompokkan
ke dalam dua variabel, yaitu jenis kelamin dan status penerimaannya. Tabel yang
demikian disebut juga tabel frekuensi gabungan (joint frequency table). Dari tabel
tersebut kita dapat membentuk tabel frekuensi relatif gabungan untuk menyatakan
nilai peluangnya (Tabel 3.4). Oleh karena itu, tabelnyapun disebut tabel peluang

58
gabungan (joint probability table). Hal ini dilakukan dengan cara membagi nilai
frekuensi dalam tiap sel dengan frekuensi total (dalam hal ini = 689).

Tabel 3.4 Tabel Peluang Gabungan dari Data dalam Tabel 3.3
Status Peluang
Diterima Ditolak marjinal
Laki-laki 0,244 0,421 0,665
Perempuan 0,104 0,231 0,335
Peluang marginal 0,348 0,652

Dari Tabel 3.4 terlihat bahwa walaupun peluang laki-laki untuk ditolak menjadi
murid SMA tersebut lebih besar dari murid perempuan, peluang laki-laki untuk
diterima ternyata juga lebih besar dari murid perempuan. Oleh karena itu, untuk
membuktikan tuduhan bahwa SMA tersebut telah melakukan diskriminasi, kita
perlu membandingkan tingkat penolakan murid laki-laki dan tingkat penolakan
murid perempuan. Hal ini dapat dilakukan dengan menentukan nilai peluang
bersyarat.
Untuk menilai apakah sekolah tersebut telah melakukan diskriminasi terhadap calon
murid laki-laki, kita perlu membandingkan nilai P(pendaftar ditolak karena dia laki-
laki) dengan P(pendaftar ditolak karena dia perempuan). Secara matematis, kedua
peluang tersebut dapat dituliskan sebagai P(ditolak|laki-laki) dan
P(ditolak|perempuan).
Dari Tabel 3.4 kita peroleh bahwa
P(ditolak dan laki-laki) 0,421
P(ditolak|laki-laki) = = = 0,633
P(laki-laki) 0,665
dan
P(ditolak dan perempuan) 0,231
P(ditolak|perempuan) = = = 0,688
P( perempuan) 0,335
Kedua nilai peluang tersebut menunjukkan bahwa 63,3% murid laki-laki dan 68,8%
murid perempuan tidak diterima SMA tersebut. Oleh karena itu, tingkat penolakan
untuk murid perempuan sebenarnya agak lebih tinggi daripada tingkat penolakan
untuk murid laki-laki. Namun demikian, kedua peluang tersebut nilainya tidaklah
terlalu berbeda jauh, oleh karena itu dapat kita katakan tuduhan bahwa sekolah
tersebut telah melakukan diskriminasi antara penerimaan murid perempuan dan
laki-laki adalah tidak benar

59
Perhatikan bahwa dalam contoh di atas, nilai peluang bersyarat tidak sama dengan
nilai peluang marjinalnya, dengan kata lain P(A | B)  P(A). Hal ini menunjukkan
bahwa peluang terjadinya A tergantung pada terjadi atau tidaknya B. Dengan
demikian, kedua kejadian tersebut – kejadian A dan B – tidak saling bebas atau tidak
independen. Namun demikian, ada kalanya bahwa P(A | B) = P(A), artinya, terjadi
atau tidaknya B tidak mempengaruhi terjadi atau tidaknya A. Dalam keadaan yang
demikan, kejadian A dan B disebut sebagai dua kejadian yang saling bebas atau
kejadian yang independen. Contohnya, dalam pengambilan kartu remi di atas, kita
tahu bahwa dalam satu set kartu terdapat 4 kartu As. Sehingga P(As) = 4/52 = 2/26.
Nilai peluang ini sama dengan nilai peluang bersyarat P(As|kartu hitam). Dengan
demikian, terpilihnya kartu As tidak tergantung pada terpilih atau tidaknya kartu
berwarna hitam, maka terpilihnya kartu As dan terpilihnya kartu hitam adalah dua
kejadian yang independen.
Aturan 3.10 dapat dimanipulasi untuk mendapatkan rumus untuk menentukan nilai
P(A dan B), yaitu peluang bahwa kejadian A dan B terjadi secara bersama-sama.

Aturan 3.11
Peluang terjadinya kejadian A dan B secara bersama-sama ditentukan dengan
rumus:
P(A dan B) = P(A) ´ P(B|A) .......................................... ......................... [3.9]
dan
P(A dan B) = P(B) ´ P(A|B) .......................................... ....................... [3.10]
Jika A dan B adalah dua kejadian yang independen, maka P(B|A) = P(B),
sehingga
P(A dan B) = P(A) ´ P(B) ............................................ ......................... [3.11]

Contoh 3.10
Seorang penjual kelapa muda baru saja mendapat kiriman 20 buah kelapa yang 5
diantaranya sudah terlalu tua. Jika seseorang mengambil 2 buah kelapa secara acak,
tentukanlah peluang bahwa
a. kelapa yang diambilnya kedua-duanya adalah kelapa tua
b. kelapa yang terambil kedua-duanya adalah kelapa muda
c. kelapa yang terambil salah satunya adalah kelapa tua
Penyelesaian:
Misalkan
T1 adalah kejadian terambil kelapa tua pada pengambilan pertama
M1 adalah kejadian terambil kelapa muda pada pengambilan pertama
T2 adalah kejadian terambil kelapa tua pada pengambilan kedua

60
M2 adalah kejadian terambil kelapa muda pada pengambilan kedua
a. Keadaan pada pertanyaan (a) melibatkan kejadian T1 dan kejadian T2. Dengan
asumsi simetris, maka P(T1) = 5/20 dan P(T2|T1) = 4/19, karena setelah pada
pengambilan pertama terambil kelapa tua, yang tersisa adalah 19 buah kelapa
yang 4 buah diantaranya adalah kelapa tua. Oleh karena itu, dengan
menggunakan Aturan 3.6 diperoleh
P(T1 dan T2) = P(T1) ´ P(T2|T1)
5 4 20
= ´ = = 0,053
20 19 380
b. Keadaan pada pertanyaan (b) melibatkan kejadian M1 dan kejadian M2.
Dengan asumsi simetris, maka P(M1) = 15/20 dan P(M2|M1) = 14/19, karena
setelah pada pengambilan pertama terambil kelapa muda, yang tersisa adalah
19 buah kelapa yang 14 buah diantaranya adalah kelapa muda. Oleh karena itu
P(M1 dan M2) = P(M1) ´ P(M2|M1)
15 14 210
= ´ = = 0,553
20 19 380
c. Terdapat dua kemungkinan kejadian berkaitan dengan pertanyaan c, yaitu jika
i. {kelapa tua terambil pada pengambilan pertama dan kelapa muda
terambil pada pengambilan kedua} atau
ii. {kelapa muda terambil pada pengambilan pertama dan kelapa tua
terambil pada pengambilan kedua}.
Dengan kata lain, kita diminta menentukan P[(T1 dan M2 ) atau (M1 dan T2)]
P(T1 dan M2) = P(T1) ´ P(M2|T1)
5 15 75
= ´ = = 0,197
20 19 380
P(M1 dan T2) = P(M`) ´ P(T2|M1)
15 5 75
= ´ = = 0,197
20 19 380
Perhatikan bahwa kejadian (T1 dan M2) dan (M1 dan T2) adalah saling asing,
maka dengan menggunakan Aturan 3.3 kita peroleh
P éë( T1 dan M2 ) atau (M2 dan T1 ) ùû = P(T1 dan M2) + P(M2 dan T1)
= 0,197 + 0,197 = 0,394

61
T2 P(T1 dan T2)=P(T1) P(T2|T1)= 5 ´ 4 = 0,053
4/19 20 19
T1
5/20 15/19
M2 P(T1 dan M2)=P(T1) P(M2|T1)= 5 ´ 15 = 0,197
20 19

15/20 T2 P(M1 dan T2)=P(M1) P(T2|M1)= 15 ´ 5 = 0,197


5/19 20 19
M1
14/19
M2 P(M1 dan M2)=P(M1) P(M2|M1)= 15 ´ 14 = 0,553
20 19

Gambar 3.2 Diagram pohon bagi persoalan dalam Contoh 3.10


Penentuan nilai-nilai peluang suatu kejadian adakalanya menjadi lebih mudah
dengan menggunakan bantuan diagram pohon. Setiap cabang dalam suatu diagram
pohon menunjukkan kejadian yang mungkin terjadi disertai dengan nilai–nilai
peluangnya. Sebagai ilustrasi, persoalan dalam Contoh 3.10 disajikan dalam bentuk
diagram pohon dalam Gambar 3.2.

3.7 Variabel acak


Dalam percobaan acak kita umumnya hanya tertarik pada aspek tertentu dari hasil
pecobaan tersebut. Salah satu aspek penting yang mendapat perhatian khusus
dalam berbagai aplikasi statistik adalah variabel acak (random variables). Suatu
variabel acak terdiri atas nilai-nilai numerik yang diperoleh dari pengamatan ter-
hadap suatu proses/percobaan yang nilai-nilainya bervariasi dari satu kasus ke kasus
yang lainnya secara acak. Sebagai ilustrasi, kita lihat kembali percobaan
pelemparam dua mata uang dalam Contoh 3.6. Ruang sampel dari percobaan ini
adalah S = {MM, MB, BM, BB}.

S = {MM, MB, BM, BB}

X 0 1 2

Gambar 3.3 Variabel acak X: pemetaan dari setiap unsur S terhadap X

62
Dalam percobaan ini, misalnya kita hanya tertarik untuk mengamati jumlah sisi
muka yang timbul, kita sebut saja X. Nilai-nilai X akan bervariasi secara acak dari
satu pelemparan ke pelemparan lainnya, maka X merupakan suatu variabel acak.
Pada kenyataannya X merupakan suatu fungsi yang memetakan hasil percobaan
tersebut ke dalam nilai-nilai numerik, dalam hal ini nilai-nilai X yang mungkin terjadi
adalah 0, 1, dan 2 (lihat Gambar 3.3).
Definisi:
Variabel acak (random variable) adalah suatu fungsi yang memetakan setiap
kejadian dalam suatu ruang sampel dari suatu percobaan acak ke dalam nilai-
nilai numerik.
Variabel acak dibedakan atas variabel acak diskrit dan variabel acak kontinu
berdasarkan pada nilai-nilai variabel acak tersebut. Suatu variabel acak X disebut
variabel acak diskrit (discrete random variable) jika nilai-nilai X hanya terdiri atas
bilangan bulat positif. Variabel acak diskrit biasanya diperoleh dari hasil membilang,
sehingga selalu ada celah diantara nilai-nilainya. Beberapa contoh variabel acak
diskrit diantaranya adalah jumlah sisi muka yang timbul pada pelemparan dua mata
uang, jumlah anakan produktif per rumpun tanaman padi, jumlah SKS yang diambil
seorang mahasiswa pada semester tertentu, dan jumlah hasil pro-duksi yang afkir
dalam suatu proses produksi.
Notasi P(X = x) atau p(x) digunakan untuk menyatakan nilai peluang bagi X = x.
Misalnya dalam kasus pelemparan dua mata uang yang seimbang dengan mudah
dapat kita tentukan bahwa
P(X = 2) = P({MM}) = 0,25
dan
P(X = 1) = P({MB,BM}) = 0,5
Berbeda dengan variabel acak diskrit, maka nilai-nilai suatu variabel acak kontinu
dapat mengambil sembarang nilai dalam sistem bilangan nyata, sehingga dapat
dikatakan tidak terdapat celah antara nilai-nilainya. Variabel acak kontinu biasanya
diperoleh dari hasil pengukuran seperti waktu, panjang atau jenis pengukuran
lainnya. Misalnya, jika X adalah indeks prestasi kumulatif seorang sarjana pertanian,
maka nilai variabel acak X adalah suatu bilangan x dimana 2,0 £ x £ 4,0.

3.8 Distribusi peluang bagi variabel acak diskrit


Distribusi peluang (probability distribution) bagi X merupakan suatu daftar yang
memuat nilai peluang bagi semua nilai variabel acak X yang mungkin terjadi.
Distribusi peluang bagi variabel acak diskrit dapat disajikan dalam bentuk tabel,
grafik atau rumus yang mengaitkan nilai peluang dengan setiap nilai variabel
acaknya.

63
Sebagai ilustrasi, kita lihat kembali percobaan dua keping mata uang yang seimbang.
Andaikan X adalah jumlah sisi muka yang timbul dari setiap percobaan, maka x
hanya akan mungkin bernilai 0, 1 atau 2 (lihat Gambar 3.3). Dengan asumsi simetris,
maka setiap kejadian dalam ruang sample S akan mempunyai peluang = 0,25 (lihat
Tabel 3.5).

Tabel 3.5 Hubungan antara Nilai x dengan Unsur dari Ruang Sampel S
Kejadian (unsur S) x Peluang
MM 2 0,25
MB 1 0,25
BM 1 0,25
BB 0 0,25

Seperti telah kita lihat sebelumnya (Gambar 3.3), percobaan tersebut hanya
mungkin menghasilkan tiga nilai x, yaitu 0, 1 dan 2, masing-masing dengan peluang
sebagai berikut:
P(X = 0) = p(0) = 0,25; P(X = 1) = p(1) = 0,5; P(X = 2) = p(2) = 0,25
Oleh karena itu, distribusi peluang bagi X, dapat dirumuskan sebagai berikut:
ì 0,25 jika x = 0 atau 2
p(x) = í
î 0,50 jika x = 1

Distribusi peluang bagi variabel acak X dapat juga disajikan pada tabel (Tabel 3.6)
dan Gambar 3.4. Metode penyajian yang digunakan, baik dalam bentuk rumus,
tabel atau grafik, semata-mata tergantung pada selera peneliti yang bersangkutan.
Satu hal yang perlu diingat adalah bahwa cara penyajian tersebut diharapkan akan
memudahkan pembaca untuk memahaminya.

Tabel 3.6 Distribusi peluang bagi X


x p(x) p(x)

0 0,25 0.5
1 0,50
2 0,25
0.25

0 x
0 1 2

Gambar 3.4 Distribusi peluang bagi X

64
Aturan 3.12
Misalkan X adalah suatu variabel acak diskrit yang dapat bernilai x1, x2, ..., xn,
maka
1. Peluang untuk setiap nilai xi terletak antara nol dan satu:
0 £p(xi) £ 1 untuk i = 1, 2, ..., n................................................. ..... [3.12]
2. Jumlah peluang untuk semua nilai xi sama dengan satu:
n
å p(xi ) = 1 .................................................. ................................... [3.13]
i =1

Dengan terdefinisinya distribusi peluang suatu variabel acak X, maka kita dapat
menentukan peluang bagi berbagai nilai X. Misalnya, peluang bahwa nilai X terletak
antara a dan b, dinotasikan dengan
P(a £ X £ b), diperoleh dengan cara menjumlahkan nilai-nilai peluang p(x) untuk
semua x yang terletak antara a dan b. Untuk contoh di atas,
P(0 £ X £ 1) = p(0) + p(1) = 0,25 + 0,50 = 0,75

3.9 Nilai harapan dan varians


Distribusi peluang bagi suatu variabel acak X pada dasarnya merupakan distribusi
dari suatu populasi. Oleh karena itu, kita dapat menentukan rata-rata dan varians
dari variable acak X untuk menjelaskan karakteristik dari distribusi tersebut. Nilai
rata-rata dari sebuah variabel acak X biasa juga disebut sebagai nilai harapan
(expected value) bagi X, dan dituliskan dengan notasi dengan E(X) atau m.
Definisi:
Misalkan X adalah suatu variabel acak diskrit yang dapat bernilai x1, x2, ..., xn,
dengan peluang masing-masing adalah p(x1), p(x2), ..., p(xn), maka nilai harapan
bagi X dihitung dengan rumus berikut:
n
E (X ) = m = å xi × p(xi ) .................................................. ....................... [3.14]
i =1

Definisi tersebut menunjukkan bahwa Nilai harapan dari suatu variabel acak X
adalah rata-rata tertimbang dari semua nilai X yang mungkin, dimana pembobotnya
adalah nilai peluang bagi setiap nilai X tersebut. Dengan menggunakan Rumus 3.14
di atas, maka nilai harapan bagi X dalam Tabel 3.5 adalah
E(X ) = 0 × 0,25 + 1 × 0,50 + 2 × 0,25 = 1,0

65
Aturan 3.13 Beberapa aturan tentang nilai harapan
Misalkan X dan Y masing-masing adalah variabel acak, dan c adalah suatu
konstanta, maka:
1. E(c) = c
2. E(cX ) = c × E(X )
3. E(X + Y ) = E(X ) + E(Y )
4. E(X - Y ) = E(X ) - E(Y )
5. Jika X dan Y keduanya adalah variabel acak yang independen, maka
E(XY ) = E(X ) × E(Y )
Untuk dapat menjelaskan penyebaran dari distribusi tersebut secara lebih baik kita
memerlukan suatu ukuran penyebaran bagi variabel acak X. Dalam bab 2, telah kita
bahas berbagai ukuran penyebaran, yang salah satu diantaranya adalah varians yang
dihitung dengan rumus berikut:

å ( xi - m )
2
1
= å ( xi - m ) ×
2
s 2= .............................................. [3. 15]
n n
Varians bagi variabel acak X didefinisikan dengan cara yang sama, hanya nilai 1/n
diganti dengan p(xi). Oleh karena itu, varians dari suatu variabel acak X merupakan
rata-rata tertimbang dari kuadrat simpangan nilai-nilai X terhadap rata-ratanya.

Definisi:
Misalkan X adalah suatu variabel acak diskrit yang dapat bernilai x1, x2, ..., xn,
dengan peluang masing-masing adalah p(x1), p(x2), ..., p(xn), maka varians bagi
X dihitung dengan rumus berikut:
n
s 2 = å ( xi - m ) × p(xi ) .................................................. ..................... [3.16]
2

i =1

Sedangkan simpangan baku (standard deviation), s, adalah akar dari varians.


Dengan menggunakan rumus varians di atas, maka varians bagi X dalam Tabel 3.5
adalah

Var ( X ) = s 2 = ( 0 - 1 ) × 0,25 + (1 - 1) × 0,50 + ( 2 - 1) × 0,25 = 0,50


2 2 2

Aturan 3.14 Beberapa aturan tentang varians


Misalkan X dan Y masing-masing adalah variabel acak, dan c adalah suatu
konstanta, maka:
1. Var(c) = 0
2. Var (cX ) = c2 ×Var (X )

66
3. Var (X + c) = Var (X )
4. Jika X dan Y keduanya adalah variabel acak yang independen, maka
Var (X + Y ) = Var (X ) + Var (Y )
dan
Var (X - Y ) = Var (X ) + Var (Y )

Contoh 3.11
Misalkan Y adalah variabel acak diskrit dengan distribusi peluang sebagai berikut:
Y 1 2 3 4
P(y) 0,4 0,3 0,2 0,1
a. tentukan nilai harapan dan varians bagi Y
b. tentukan nilai harapan dan varians bagi X = 3Y – 2
Penyelesaian:
a. Salah satu cara yang mudah untuk menentukan nilai harapan dan varians
dari suatu variabel acak adalah dengan menggunakan bantuan tabel seperti
Tabel 3.7

Tabel 3.7 Tabel perhitungan bagi nilai harapan dan varians Y


y p(y) y.p(y) y-m (y - m)2 (y - m)2.p(y)
1 0,4 0,4 -1 1 0,4
2 0,3 0,6 0 0 0
3 0,2 0,6 1 1 0,2
4 0,1 0,4 2 4 0,4
Total 2,0 = m 1,0 = s2

Dari tabel tersebut kita peroleh bahwa


n
E (Y ) = m = å yi × p(yi ) = 2,0 (jumlah dari kolom ke 3)
i =1

n
Var (Y ) = s 2 = å ( yi - m ) × p(yi ) = 1,0 (jumlah dari kolom terakhir)
2

i =1

b. X = 3Y – 2
E(X) = E(3Y – 2) = 3E(Y) –2 = 3(2) – 2 = 4
Var(X) = Var(3Y – 2) = 32. Var(Y) = 9

67
3.10 Distribusi Binomial
Di era reformasi ini jajak pendapat nampaknya sudah merupakan hal yang biasa
dalam kehidupan kita. Berbagai media massa, baik media cetak maupun media
elektronik, telah sering melakukan jajak pendapat untuk berbagai persoalan.
Bahkan beberapa persoalan penting yang dihadapi oleh badan legislatif, baik MPR,
DPR maupun DPRD, sering kali harus diputuskan melalui pemungutan suara (voting).
Jajak pendapat dan voting merupakan contoh dari suatu peristiwa pengambilan
sampel yang biasa disebut Percobaan Binomial. Dalam jajak pendapat atau voting
setiap partisipan biasanya hanya mempunyai dua pilihan, misalnya A atau B
(walaupun biasanya ada juga partisipan yang memilih untuk abstain, yang demikian
ini biasanya suaranya tidak diperhitungkan). Salah satu karakteristik penting dari
Percobaan Binomial adalah bahwa percobaan tersebut hanya mungkin
menghasilkan ada dua kejadian. Secara konvensional kedua pilihan (kejadian)
tersebut biasa dikategorikan sebagai gagal atau berhasil, atau biasa juga di
notasikan dengan 0 atau 1.
Definisi:
Suatu Percobaan Binomial mempunyai ciri-ciri sebagai berikut:
a. Percobaan Binomial terdiri atas n ulangan yang identik
b. Dalam setiap ulangan hanya mungkin dihasilkan dua kejadian, yaitu
berhasil atau gagal
c. Peluang untuk berhasil dalam setiap ulangan adalah p, dan nilai p bersifat
konstan
d. Setiap ulangan bersifat bebas dari ulangan lainnya, artinya hasil dari suatu
ulangan tidak mempengaruhi hasil ulangan lainnya.
Contoh lain dari Percobaan Binomial adalah pelemparan mata uang yang seimbang
sebanyak 15 kali. Dalam setiap pelemparan hanya ada dua kemungkinan, yaitu
timbulnya sisi muka (berhasil) dan timbulnya sisi belakang (gagal). Dengan asumsi
simetris, maka peluang timbulnya sisi muka pada setiap pelemparan adalah p = 0,5.
Variabel acak yang dihasilkan dari suatu Percobaan Binomial disebut sebagai
variabel acak binomial. Pada kasus di atas, variabel acak yang menjadi perhatian
kita misalnya adalah jumlah sisi muka yang timbul pada ke-15 lemparan tersebut.
Oleh karena itu, variabel acak binomial adalah variabel acak diskrit yang hanya dapat
bernilai 0, 1, 2, ..., n. Disitribusi peluang dari Variabel Binomial, disebut sebagai Dis-
tribusi Peluang Binomial, yang merupakan distribusi peluang bagi terjadinya nilai 1
(berhasil) sebanyak x kali dari n ulangan.

Contoh 3.12
Pemerintah Indonesia baru-baru ini melakukan kebijakan untuk mengurangi subsidi
pemerintah bagi bahan bakar minyak. Sebuah survei dilaksanakan dengan
mewawancara 100 orang penduduk secara acak untuk mengetahui proporsi

68
penduduk Indonesia yang setuju dengan kebijakan tersebut. Dapatkah survei
tersebut digolongkan sebagai suatu Percobaan Binomial?
Penyelesaian:
Untuk menjawab pertanyaan tersebut, kita periksa apakah semua ciri Percobaan Bi-
nomial dipenuhi atau tidak oleh survei tersebut:
a. Apakah survei tersebut terdiri atas n ulangan yang identik? Ya, dalam survei
tersebut terdapat n = 100, semuanya bisa dikatakan identik
b. Apakah dalam setiap ulangan hanya mungkin dihasilkan dua kejadian? Ya,
setiap orang yang diwawancara hanya boleh menjawab setuju atau tidak
setuju terhadap kebijakan tersebut
c. Apakah peluang seseorang untuk setuju bersifat konstan dalam setiap
ulangan? Ya, dengan asumsi bahwa total penduduk Indonesia jauh lebih
besar dari jumlah sampel yang diambil, maka peluang, dalam hal ini proporsi
penduduk yang setuju, dapat dikatakan konstan
d. Apakah setiap ulangan bebas satu sama lainnya? Ya, pendapat seseorang
pada suatu wawancara tidak mempengaruhi pendapat orang lainnya dalam
wawancara berikutnya.
Karena semua ciri Percobaan Binomial terpenuhi, maka survei tersebut dapat
digolongkan sebagai suatu Percobaan Binomial. õ
Jika dalam survei tersebut populasi penduduk yang diwawancarai terbatas
jumlahnya, misalnya hanya untuk satu wilayah rukun tetangga saja, maka peluang
seseorang untuk setuju pada setiap kali wawancara tidak lagi konstan. Misalnya jika
dalam wilayah rukun tetangga tersebut terdapat 150 orang penduduk yang 25 orang
diantaranya setuju terhadap kebijakan tersebut. Maka peluang untuk mendapatkan
jawaban setuju pada wawancara pertama adalah 25/150. Jika orang pertama
menjawab tidak setuju, maka peluang untuk mendapatkan jawaban setuju pada
wawancara kedua adalah 25/149 demikian seterusnya. Misalkan setelah
mewawancara 80 orang penduduk diperoleh jawaban setuju sebanyak 10 orang dan
jawaban tidak setuju sebanyak 70 orang, maka peluang untuk mendapatkan
jawaban setuju pada wawancara ke-81 adalah 15/70. Keadaan ini menunjukkan
bahwa peluang untuk berhasil bervariasi atau tidak konstan. Maka dalam kasus ini
survei tersebut bukan merupakan suatu Percobaan Binomial.
Pada kenyataannya, jarang sekali terjadi keadaan yang secara sempurna memenuhi
kriteria Percobaan Binomial, akan tetapi pelanggaran terhadap kriteria-kriteria
tersebut umumnya sangatlah kecil sehingga percobaan binomial masih dapat
digunakan sebagai suatu pendekatan yang cukup baik.

Aturan 3.15
Distribusi Peluang Binomial ditentukan oleh rumus berikut:

69
P(X = x) = n C x px (1 - p)n- x , untuk x = 0, 1, 2, ..., n .......................... [3.17]
dimana n = jumlah ulangan
p = peluang untuk berhasil pada setiap ulangan
n!
nCx =
x !× (n - x)!

Contoh 3.13
Sebuah perusahaan obat mempromosikan bahwa salah satu jenis produksinya
sangat efektif untuk pengobatan suatu jenis penyakit tertentu. Namun demikian,
perusahaan tersebut mengakui bahwa sekitar 10% pasien yang menggunakan obat
tersebut dapat terkena akibat sampingan yang tidak diinginkan. Misalkan seorang
dokter telah memberikan obat tersebut untuk 4 orang pasien yang men-derita
penyakit tersebut. Berapakah peluang bahwa ke-4 orang pasien tersebut akan
terkena akibat sampingan karena penggunan obat tersebut?
Penyelesaian:
Contoh ini memenuhi kriteria-kriteria yang disyaratkan untuk Percobaan Binomial,
dengan n = 4 dan p = 0,1. Oleh karena itu, peluang bahwa ke-4 tersebut terkena
akibat sampingan dari obat tersebut dapat dihitung dengan menggunakan rumus
untuk Distribusi Peluang Binomial dengan x = 4, yaitu:
4!
P( X = 4) = ( 0,1)4 (1 - 0,1)4-4 = 0,0001
4!× (4 - 4)!
Jadi, peluang bahwa ke-4 orang pasien tersebut semuanya akan terkena akibat
sampingan obat tersebut adalah 0,0001.
Dalam Percobaan Binomial, setiap pasangan (n, p) mendefinisikan suatu Distribusi
Peluang Binomial secara khusus. Artinya, untuk n yang sama tetapi nilai peluang p-
nya berbeda, akan menghasilkan distribusi peluang yang berbeda pula. Keadaan ini
diilustrasikan dalam Gambar 3.5.

p(x) p(x) p(x)

0.5 0.5 0.5

0.25 0.25 0.25

0 x 0 x 0 x
0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
n = 4; p = 0,3 n = 4; p = 0,5 n = 4; p = 0,7

Gambar 3.5 Sajian Grafis dari Tiga Distribusi Peluang Binomial

70
Aturan 3.16
Jika X adalah suatu variabel acak binomial, maka
E(X) = m = np ................................................ ...................................... [3.18]
dan
Var(X) = s2 = np(1 – p) .................................................. ..................... [3.19]

Contoh 3.14
Catatan sebuah toko swalayan menunjukkan bahwa 20% orang yang berbelanja di
toko tersebut menggunakan kartu kredit untuk membayar belanjaannya. Misalkan
pada suatu pagi terdapat 10 orang yang berbelanja di toko tersebut.
a. Tentukan peluang bahwa 3 orang diantaranya membayar dengan kartu
kredit
b. Tentukan peluang bahwa paling sedikit 2 orang diantaranya membayar
dengan kartu kredit
c. Tentukan peluang bahwa paling sedikit 4 orang tetapi tidak lebih dari 6
orang yang membayar dengan kartu kredit
d. Tentukan nilai harapan dan varians dari jumlah orang yang berbelanja
dengan kartu kredit
Penyelesaian:
Misalkan X adalah jumlah orang yang berbelanja di toko tersebut yang membayar
belanjaannya dengan kartu kredit. Dalam kasus ini kita dihadapkan pada percobaan
binomial dengan n = 10 dengan p = 0,2.
a. Peluang bahwa tiga orang dari ke-10 orang tersebut membayar dengan
kartu kredit adalah:
10!
P( X = 3) = 0,23 (1 - 0,2)10-3 = 0,201
3!× (10 - 3)!
b. Peluang bahwa paling sedikit 2 orang diantaranya membayar dengan kartu
kredit dapat lebih mudah dihitung dengan menggunakan sifat distribusi
peluang yaitu bahwa
P(X = 0) + P(X = 1) + P(X = 2) + ...+ P(X = 10) = 1, oleh karena itu,
P( X ³ 2) = P( X = 2) + P( X = 3)) + + P( X = 10)
= 1 - [P( X = 0) + P( X = 1)]
= 1 - (0,107 + 0,269) = 0,624

71
c. Peluang bahwa paling sedikit 4 orang tetapi tidak lebih dari 6 orang yang
membayar dengan kartu kredit adalah
P(4 £ X £ 6) = P( X = 4) + P( X = 5) + P( X = 6)
= 0,088 + 0,027 + 0,005 = 0,120
d. E(X) = n ´ p = 2
Var(X) = n ´ p ´ (1 – p) =1,6

Gambar 3.6 Jendela Binomial Distribution


Dalam MINITAB, nilai-nilai peluang dari berbagai distribusi peluang dapat dihitung
dengan perintah PDF yang kemudian diikuti anak perintah (sub-command) bagi
distribusi peluang yang bersangkutan.
PDF for values in E...E [put results in E...E]
Perintah tersebut dapat juga diaktifkan dengan memilih menu
Calc † Probability Distribution † Binomial...
Perintah tersebut akan mengaktif jendela Binomial Distribution seperti terlihat
dalam Gambar 3.6
Sebagai ilustrasi, untuk menjawab pertanyaan (a) dalam contoh di atas, klik tombol
Probability, kemudian dalam kotak Number of trials isikan nilai n, yaitu 10,
lalu dalam kotak Probability of success isikan nilai p, yaitu 0.2, lalu klik
tombol Input constant dan isikan 3 ke dalam kotak di sampingnya. Output dari
perintah-perintah tersebut adalah sebagai berikut:

MTB > PDF 3;


SUBC> Binomial 10 .2.

Probability Density Function

72
4 Pe n g a m bil a n Sam p el d a n Di s t ri b u si
Sa m pli n g

4.1 Pendahuluan
Ilmu Statistika pada dasarnya berkaitan dengan penarikan kesimpulan/generalisasi, yang meliputi
pendugaan dan pengujian tentang karakteristik populasi berdasarkan informasi yang diperoleh dari
sampel. Misalnya, seorang wartawan mengatakan bahwa 75% penduduk menghendaki agar seorang
‘putra daerah’ dapat terpilih sebagai bupati di daerah tersebut, berdasarkan hasil wawancaranya
dengan beberapa orang penduduk di suatu tempat. Pernyataan ini merupakan kesimpulan wartawan
tersebut tentang keadaan suatu populasi (penduduk di daerah tersebut) berdasarkan sampel yang
diambilnya (beberapa orang penduduk yang diwawancarainya). Dalam kasus ini, parameter
populasinya adalah proporsi keinginan seluruh masyarakat di daerah tersebut, sedangkan statistik
sampelnya adalah proporsi keinginan dari penduduk yang diwawancarainya saja.
Contoh lain, misalnya suatu perguruan tinggi bermaksud untuk menaikkan uang kuliah bagi
mahasiswanya. Salah satu pertimbangan dalam menentukan besar kenaikan uang kuliah tersebut,
diantaranya adalah rata-rata penghasilan orang tua mahasiswa di perguruan tinggi tersebut. Untuk
mengetahui hal ini, dilakukan survei terhadap 100 mahasiswa yang masing-masing ditanya tentang
besar penghasilan orang tuanya per bulan. Dalam kasus ini kita melakukan pendugaan terhadap
parameter populasi, yaitu rata-rata penghasilan per bulan dari seluruh orang tua mahasiswa di
perguruan tinggi tersebut, dengan mengunakan statistik sampel, yaitu rata-rata penghasilan per bulan
dari ke 100 orang tua mahasiswa yang disurvei. Prosedur pendugaan parameter populasi akan
dibahas secara rinci dalam Bab 5.
Pada kasus yang lain, misalnya diketahui bahwa rata-rata produksi padi di suatu daerah di Kalimantan
Barat adalah 2,65 ton/ha. Akhir-akhir ini Dinas Pertanian di daerah tersebut telah memperkenalkan
suatu varietas unggul kepada petani untuk dikembangkan di daerah tersebut. Diharapkan introduksi
varietas unggul tersebut dapat meningkatkan produksi padi di daerah tersebut. Untuk menguji
anggapan tersebut, maka Dinas Pertanian mengambil sampel berupa beberapa petak sawah di daerah
tersebut yang ditanami oleh varietas unggul dimaksud (hal ini biasa dilakukan dengan mengambil
sampel melalui ‘ubinan’), lalu dihitung rata-rata produksinya. Dalam kasus ini kita dihadapkan pada
pengujian hipotesis tentang rata-rata produksi padi di daerah tersebut. Prosedur pengujian hipotesis
tentang parameter populasi akan dibahas dalam Bab 6.
Alasan utama dilakukannya pengambilan sampel dalam mengamati suatu fenomena pada umumnya
adalah karena keterbatasan dalam pembiayaan, tenaga dan waktu yang tersedia. Penggunaan
Statistika Inferensial sangat membantu dalam mengambil kesimpulan tentang keadaan populasi
dengan berdasarkan pada informasi yang berasal dari suatu sampel yang ukurannya jauh lebih kecil
dari ukuran populasinya.
Dalam setiap kasus di atas, nilai statistik dihitung semata-mata berdasarkan atas sampel yang diambil
dari suatu populasi, dan kesimpulan tentang parameter populasi diambil berdasarkan informasi dari
sampel tersebut. Kita tidak pernah tahu secara pasti apakah kesimpulan tersebut salah atau benar,
karena nilai statistik sampel dapat berubah tergantung pada nilai pengamatan yang terkandung dalam
sampel tersebut. Oleh karena itu, statistik sampel juga merupakan suatu variabel acak karena dari
suatu populasi yang sama dapat diambil berbagai sampel yang berbeda, masing-masing dengan
statistik sampel yang berbeda pula. Sebagai suatu variabel acak, statistik sampel mempunyai distribusi

81
peluang tersendiri yang disebut distribusi sampling. Keragaman statistik sampel tersebut akan sangat
tergantung pada ukuran populasi, ukuran sampel dan metode penarikan sampelnya.
Definisi
Distribusi peluang statistik sampel disebut distribusi sampling (sampling distribution) dari
statistik tersebut.
Bab ini akan membahas beberapa distribusi sampling yang dianggap penting karena sering digunakan
dalam Ilmu Statistika. Sedangkan aplikasi dari distribusi sampling tersebut akan dibahas secara lebih
rinci dalam Bab 5 dan 6.

4.2 Penarikan sampel secara acak


Suatu sampel disebut sebagai sampel acak (random sample) jika setiap anggota populasi mempunyai
kesempatan yang sama untuk terpilih sebagai anggota sampel tersebut. Salah satu cara untuk
melakukan penarikan sampel secara acak adalah menomori setiap anggota populasi. Kemudian
menuliskan nomor-nomor tersebut, masing-masing ke dalam secarik kertas, biasanya kertas tersebut
digulung dan dimasukkan ke dalam sebuah wadah. Gulungan-gulungan kertas tersebut kemudian
diaduk, lalu beberapa gulungan (sesuai dengan ukuran sampel yang dikehendaki, n) diambil dari
wadah tersebut sebagai sampel. Cara seperti ini biasa dilakukan dalam penentuan pemenang arisan
bulanan dan penarikan undian.
Dalam kasus tertentu ada kalanya anggota populasi telah mempunyai nomor tersendiri. Misalnya
setiap mahasiswa mempunyai nomor mahasiswa yang khusus, nomor induk pegawai bagi pegawai
negeri atau pegawai suatu perusahaan, nomor kartu tanda penduduk, dan sebagainya. Dalam hal ini
nomor-nomor khusus tersebut dapat langsung digunakan dalam penarikan sampel secara acak.
Dalam kasus lain, nomor khusus yang telah dimiliki anggota populasi kadang-kadang tidak dapat
digunakan secara langsung untuk keperluan pengambilan sampel. Misalnya, nomor telepon yang
terdaftar dalam buku telepon tidak dapat kita gunakan sebagai sumber pengambilan sampel karena
tidak semua orang memiliki telepon dan tidak semua pemilik telepon terdaftar dalam buku tersebut,
selain itu ada yang hanya memiliki satu jalur telepon dan ada juga yang memiliki lebih dari satu jalur
telepon. Dengan demikian, setiap anggota populasi tidak mempunyai kesempatan yang sama untuk
terpilih sebagai anggota sampel.
Setelah semua anggota populasi terdaftar dan masing-masing mempunyai nomor yang khusus, maka
penarikan sampel dapat dilakukan dengan memilih nomor-nomor tersebut secara acak. Sampel yang
benar-benar acak pada kenyataannya hampir tidak mungkin kita peroleh, karena peluang terpilihnya
anggota sampel tidak akan selalu sama persis. Namun demikian, kita dapat berusaha sebaik mungkin,
paling tidak untuk meminimumkan unsur subjektifitas dalam pemilihan anggota sampel.
Selain dengan menggunakan gulungan kertas seperti telah dikemukakan di atas, salah satu cara yang
biasa dilakukan adalah dengan menggunakan bantuan Tabel Bilangan Acak (random numbers). Tabel
bilangan acak (lihat Tabel Lampiran 1) adalah suatu tabel yang terdiri atas angka-angka 0 sampai 9
yang dibuat sedemikian rupa sehingga angka-angka tersebut tersebar secara acak dan mempunyai
peluang yang sama untuk terjadi. Misalnya, jika kita akan mengambil sampel acak berukuran n = 3
dari suatu populasi yang berukuran 10, maka langkah pertama adalah memberikan nomor kepada
setiap anggota populasi tersebut mulai dari 0 sampai 9. Kemudian, tentukan suatu titik awal dalam
Tabel Lampiran 1 secara sembarang, tiga angka di sebelah kanan titik awal tersebut dapat digunakan
sebagai representasi dari tiga individu yang terpilih sebagai anggota sampel acak yang dimaksud.
Ketiga individu anggota sampel acak tersebut dapat juga dipilih dengan cara menentukan tiga angka
di sebelah kiri, di atas maupun di bawah titik awal tersebut.

82
Contoh 4.1
Misalnya kita akan mengambil suatu sampel berukuran n = 9 dari suatu populasi yang terdiri atas 672
orang penduduk di suatu kampung. Untuk itu, setiap penduduk kita beri kode dengan nomor mulai
dari 0 sampai 671 (atau dari 1 sampai 672). Ke-9 orang yang akan kita pilih sebagai sampel acak
ditentukan dengan menggunakan Tabel Lampiran 1. Misalkan titik awalnya adalah baris ke 13 kolom
ke 7 dengan arah menurun. Dengan cara ini maka nomor yang terpilih adalah seperti tercantum dalam
tabel berikut:
675 Í 213 P 923 Í 892 Í
884 Í 587 P 852 Í 029 P
442 P 232 P 649 Í 551 P
710 Í 726 Í 202 P 461 P
833 Í 239 P 893 Í

Perhatikan bahwa kita harus mengambil lebih dari 9 nomor dari tabel tersebut karena beberapa
nomor yang terpilih harus kita coret (ditandai dengan Í) karena lebih besar dari 671 (kode tertinggi
yang kita berikan untuk penduduk di kampung tersebut). Sehingga sampel acak yang dimaksud terdiri
atas penduduk dengan nomor kode berikut:
442 202
213 29
587 551
232 461
239
õ
Karena setiap anggota populasi diusahakan agar mempunyai peluang yang sama untuk terpilih sebagai
anggota sampel, maka nilai peluang bagi sampel yang diambil secara acak dapat kita tentukan. Nilai
peluang tersebut dapat kita gunakan untuk membuat inferens tentang karakteristik populasinya.
Sampel yang diambil secara tidak acak (nonrandom samples) tidak kita ketahui peluangnya sehingga
tidak dapat kita gunakan untuk melakukan inferens. Selain itu, sampel yang demikian seringkali
terdistorsi oleh bias, yang terjadi karena terciptanya suatu keadaan yang ‘terlalu mewakili’ atau
‘kurang mewakili’ bagian tertentu dari populasinya.
Pengambilan sampel secara acak dapat dilakukan baik dengan program MINITAB maupun Excel.
Untuk itu, daftar individu yang akan disampel harus disimpan dulu dalam suatu kolom, misalnya dalam
kolom C1 untuk MINITAB atau dalam kolom A untuk Excel.
Dalam MINITAB penarikan sampel dilakukan dengan memilih menu
Calc † Random Data † Sample From Columns...
Perintah tersebut akan mengaktifkan jendela Sample From Columns seperti terlihat dalam Gambar
4.1.

83
Gambar 4.1 Tampilan Jendela Penarikan Sampel dalam MINITAB
Dalam Excel penarikan sampel dilakukan dengan memilih menu
Tools † Data Analysis
lalu pilih Sampling dalam jendela Data Analysis. Perintah tersebut akan mengaktifkan jendela
Sampling seperti terlihat dalam Gambar 4.2.

Gambar 4.2 Jendela Penarikan Sampel dalam Excel

4.3 Distribusi sampling bagi nilai rata-rata sampel ( X )

Untuk memberikan ilustrasi tentang betapa pentingnya distribusi sampling dalam statistik inferensial,
perhatikan persoalan berikut ini. Sebuah perusahaan besar yang bergerak di bidang pasar swalayan
mempunyai ratusan toko yang tersebar di hampir setiap kota besar dengan rata-rata volume
penjualan setiap harinya adalah Rp40 juta per toko. Dalam rangka meningkatkan volume
penjualannya, perusahaan tersebut mengadakan promosi, dimana selama masa promosi tersebut,
setiap pembeli mendapat potongan harga sebesar 10%. Misalkan selama masa promosi tersebut
diambil secara acak 30 buah toko milik perusahaan tersebut, dan dari sampel tersebut diketahui
bahwa rata-rata penjualan per harinya adalah Rp41 juta, dapatkah kita simpulkan bahwa promosi
tersebut telah secara efektif meningkatkan volume penjualan perusahaan tersebut?
Dalam kasus di atas, kita dihadapkan pada persoalan yang berkaitan dengan pendugaan dan pengujian
tentang parameter populasi m, yaitu rata-rata volume penjualan per hari dari semua toko yang dimiliki
oleh perusahaan tersebut. Jika promosi tersebut telah secara efektif meningkatkan volume penjualan,

84
maka m haruslah lebih besar dari Rp40 juta. Akan tetapi, informasi yang kita punyai hanyalah statistik
x dari 30 buah toko yang merupakan suatu sampel acak. Melihat kenyataan tersebut kita dapat serta
merta berkesimpulan bahwa promosi tersebut telah meningkatkan volume penjualan perusahaan
tersebut, karena x (= Rp41 juta) lebih besar dari Rp40 juta. Akan tetapi, hal ini belum tentu
sepenuhnya benar. Pengambilan keputusan tentang parameter populasi m sangat tergantung pada
seberapa dekat nilai statistik x terhadap nilai parameter m. Jika kita percaya bahwa nilai x sangat
mendekati nilai m, maka dapat kita simpulkan bahwa m lebih besar dari Rp40 juta. Akan tetapi, jika
nilai x sangat berbeda dengan nilai m, maka nilai m yang sebenarnya mungkin masih sekitar Rp40 juta,
atau bahkan dapat saja lebih kecil dari Rp40 juta. Sayangnya, dari informasi yang tersedia, kita tidak
dapat menentukan hubungan kedekatan antara x dengan m. Untuk menjawab persoalan tersebut
kita harus mengetahui distribusi sampling dari x .
Untuk memberikan gambaran tentang distribusi sampling secara lebih jelas, perhatikan contoh
sederhana berikut ini. Misalkan dalam suatu wadah terdapat empat buah kelereng yang yang ditandai
dengan angka 5, 6, 7 dan 8. Misalkan keempat kelereng tersebut dapat kita anggap sebagai suatu
populasi dari variabel X, yaitu angka yang tertera pada setiap kelereng tersebut. Maka, distribusi
peluang bagi variabel X adalah
x 5 6 7 8
p(x) ¼ ¼ ¼ ¼
dan rata-rata populasinya (nilai harapan bagi X) adalah
mx = å x × p(x) = 5(1 4) + 6(1 4) + 7(1 4) + 8( 1 4) = 6 1 2
serta varians populasinya adalah

s 2 = å ( xi - m x ) × p(x)
2

= ( 5 - 6 21 ) × ( 1 4 ) + ( 6 - 6 21 ) × ( 1 4 ) + ( 7 - 6 21 ) × ( 1 4 ) + ( 8 - 6 21 ) × ( 1 4 ) = 1 41
2 2 2 2

Andaikan rata-rata populasi tesebut ( mx) tidak kita ketahui dan kita bermaksud menduga nilainya
dengan mengambil suatu sampel berukuran n = 2. Pada prakteknya, biasanya kita hanya mengambil
satu sampel saja sehingga hanya akan ada satu nilai x saja, tetapi untuk melihat hubungan antara x
dengan mx, kita akan memeriksa semua kemungkinan sampel berukuran n = 2. Misalkan sampel
tersebut diambil dengan pengembalian, artinya kita ambil satu buah kelereng lalu angka yang tertera
pada kelereng tersebut kita catat, kemudian kelereng tersebut kita kembalikan ke dalam wadah
sebelum kita mengambil kelereng yang kedua. Dengan cara ini, akan terdapat 16 kemungkinan
sampel yang dapat terambil yang masing-masing menghasilkan satu nilai rata-rata sampel x . Karena
rata-rata sampel x tersebut nilainya bervariasi secara acak dari satu sampel ke sampel lainnya, maka
x dapat dianggap sebagai suatu nilai dari sebuah variabel baru, yaitu X , yang dibangkitkan oleh
prosedur pengambilan sampel tersebut. Ke-16 kemungkinan sampel tersebut beserta nilai rata-
ratanya disajikan dalam Tabel 4.1.

Tabel 4.1 Daftar Semua Kemungkinan Sampel Berukuran n = 2, dengan Pengembalian, dari
Suatu Populasi Berukuran N = 4
No. Sampel x No. Sampel x No. Sampel x
1 5; 5 5 7 6; 7 6½ 13 8; 5 6½
2 5; 6 5½ 8 6; 8 7 14 8; 6 7
3 5; 7 6 9 7; 5 6 15 8; 7 7½
4 5; 8 6½ 10 7; 6 6½ 16 8; 8 8
5 6; 5 5½ 11 7; 7 7
6 6; 6 6 12 7; 8 7½

85
Karena setiap sampel mempunyai peluang yang sama untuk terambil, maka peluang masing-masing
sampel tersebut adalah 1/16. Perhatikan bahwa nilai rata-rata sampel bervariasi, mulai dari 5 sampai
8, tergantung pada nilai X yang terambil sebagai sampel. Nilai x = 5 terjadi hanya satu kali, sehingga
peluangnya adalah 1/16, sedangkan nilai x = 5½ dapat terjadi melalui dua cara, yaitu jika sampel yang
terambil adalah (5; 6) atau (6; 5), sehingga peluangnya adalah 2/16. Peluang bagi nilai-nilai x lainnya
dapat ditentukan dengan cara yang sama. Keseluruhan nilai-nilai tersebut membentuk suatu
distribusi peluang bagi rata-rata sampel yang disebut juga distribusi sampling bagi X . Distribusi
sampling bagi X disajikan dalam Tabel 4.2.

Tabel 4.2 Distribusi Sampling bagi Rata-rata Sampel


x p(x )
5 1/16
5,5 2/16
6 3/16
6,5 4/16
7 3/16
7,5 2/16
8 1/16

Nilai harapan bagi variabel X adalah


m x = E (x )
= å x × p( x )
= 5 ( 1 16 ) + 5,5 ( 2 16 ) + + 8 ( 1 16
1 ) = 6,5

dan variansnya adalah


s x2 = Var ( x )
= å ( x - mx ) × p ( x )
2

= ( 5 - 6,5) ( 1 16 ) + ( 5,5 - 6,5)2 ( 2 16 ) + + ( 8 - 66,5) ( 1 16 ) = 0,625


2 2

p(x) p(x)
0.25 0.25

0 0
5 6 7 8 x 5 5,5 6 6,5 7 7,5 8 X

(a) Distribusi peluang bagi populasi X (b) Distribusi sampling bagi X

Gambar 4.3 Distribusi peluang bagi X dan X


Distribusi peluang bagi populasi X dan distribusi sampling bagi X disajikan dalam Gambar 4.3.
Perhatikan bahwa bentuk distribusi sampling bagi X sangat berbeda dengan distribusi populasi
asalnya, akan tetapi nilai harapannya sama dengan nilai harapan populasi asalnya, yaitu 6,5. Dalam
hal ini m x = m . Hal lain yang dapat kita lihat adalah bahwa, varians dari kedua distribusi tersebut
ternyata tidak sama. Hasil perhitungan kita menunjukkan bahwa s2 = 1,25 sedangkan s x2 = 0.625 .

86
Keadaan ini menunjukkan bahwa varians dari rata-rata sampel lebih kecil daripada varians
s 2 1,25
populasinya, dan hal ini berlaku umum. Perhatikan bahwa s x2 = = = 0,625 . Artinya, semakin
n 2
besar ukuran sampelnya maka varians rata-rata sampelnya akan semakin kecil. Simpangan baku dari
rata-rata sampel, s x , disebut sebagai galat baku (standard error) bagi rata-rata, dan merupakan suatu
ukuran keragaman nilai rata-rata dari satu sampel ke sampel lainnya.
Andaikan sampel yang kita ambil tanpa pengembalian, artinya kita ambil dua buah kelereng sekaligus,
maka dengan cara ini akan terdapat 6 kemungkinan sampel yang terambil (Tabel 4.3). Dengan cara
inipun, kita peroleh bahwa rata-rata dari ke-6 nilai rata-rata sampel sama dengan rata-rata populasi,
yaitu 6½. Sedangkan variansnya adalah s x2 = 512 = 0,4167

Tabel 4.3 Daftar Semua Kemungkinan Sampel Berukuran n = 2, Tanpa Pengembalian, dari
Suatu Populasi Berukuran N = 4
No. Sampel x
1 5; 6 5½
2 5; 7 6
3 5; 8 6½
4 6; 7 6½
5 6; 8 7
6 7; 8 7½
Secara umum, dapat ditunjukkan bahwa rata-rata dan varians dari suatu distribusi sampling X
tergantung pada nilai rata-rata dan varians populasinya serta ukuran sampelnya.

Aturan 4.1
Jika suatu sampel acak berukuran n diambil dari suatu populasi yang mempunyai rata-rata m dan
varians s2, maka:
i) distribusi sampling dari X akan mempunyai nilai harapan sama dengan m
E ( X ) = m x = m .................................................. .................................................. [4.1]

ii) jika populasinya tidak terbatas (sangat besar) atau jika penarikan sampelnya dilakukan
dengan pengembalian maka varians dari X adalah

s2
Var ( X ) = s x2 = .................................................. ............................................[4.2]
n
iii) jika penarikan sampel dilakukan tanpa pengembalian dari suatu populasi yang berukuran N
(terbatas) maka varians dari X adalah
s2 æ N-n ö
Var ( X ) = s x2 = .................................................. ..............................[4.3]
n çè N - 1 ø÷
Dalam contoh di atas terlihat betapa distribusi sampling dari X mempunyai bentuk seperti genta yang
simetris (Gambar 4.3.b), padahal populasi asalnya mempunyai bentuk distribusi yang seragam
(Gambar 4.3.a). Sesungguhnya keadaan ini berlaku umum, yaitu bahwa, bentuk distribusi sampling
dari X akan semakin mendekati Distribusi Normal dengan semakin besarnya ukuran sampelnya dan
hal ini tidak tergantung pada bentuk distribusi populasi asalnya. Keadaan ini dirumuskan dalam
sebuah dalil yang sangat penting dalam statistik, yaitu Dalil Limit Pusat (central limit theorem).

87
Aturan 4.2 Dalil limit pusat
Misalkan x1, x2, ..., xn adalah suatu sampel acak yang diambil dari suatu populasi yang mempunyai
rata-rata m dan varians s2. Misalkan pula rata-rata sampel tersebut adalah X . Jika n cukup besar
maka distribusi sampling bagi X akan mendekati Distribusi Normal dengan rata-rata m dan
s2
varians .
n
Dalil tersebut mungkin tidak akan terlalu bermanfaat jika pendekatan terhadap Distribusi Normal
tersebut hanya berlaku ketika n sangat besar. Namun demikian, kenyataan menunjukkan bahwa
pendekatan tersebut ternyata cukup baik pada banyak kasus, bahkan ketika ukuran sampelnya kecil.
Beberapa konvensi yang sering digunakan berkaitan dengan penerapan Dalil Limit Pusat ini
diantaranya adalah sebagai berikut:
1. pada umumnya, distribusi sampling dari X akan mendekati distribusi Normal jika ukuran
sampelnya lebih besar dari 30
2. jika distribusi populasi asalnya simetris, maka distribusi sampling dari X akan mendekati
distribusi Normal jika ukuran sampelnya lebih besar dari 15
3. jika populasi asalnya berdistribusi Normal, maka distribusi sampling dari X juga akan
berdistribusi Normal berapapun ukuran sampelnya
Dalil tersebut memungkinkan kita untuk membuat inferens tentang rata-rata populasi tanpa harus
secara khusus mengetahui bentuk distribusi populasinya. Oleh karena itu, dalil limit pusat mempunyai
peranan yang penting dalam penggunaan statistik inferensial untuk menarik kesimpulan tentang
keadaan populasi.

Contoh 4.2
Sebuah perusahaan pupuk organik cair menjual produksinya dalam botol kemasan berisi 1 liter.
Diketahui bahwa isi botol tersebut sebenarnya berdistribusi Normal dengan rata-rata 1,02 liter dan
simpangan baku 0,04 liter.
a. Jika seseorang membeli satu botol pupuk cair tersebut, tentukan nilai peluangnya bahwa
botol tersebut berisi paling tidak 1 liter larutan
b. Jika seorang ketua kelompok tani membeli 20 botol untuk keperluan anggota kelompok
taninya, tentukan peluangnya bahwa rata-rata dari ke-20 botol tersebut paling sedikit adalah
1 liter per botol.
Penyelesaian
a. Dalam hal ini kita harus menentukan nilai P(X > 1) jika diketahui bahwa X berdistribusi Normal
dengan m =1,02 dan s = 0,04. Oleh karena itu, nilai peluangnya dapat ditentukan dengan
bantuan Tabel Normal Baku (Tabel Lampiran 2) dengan terlebih dahulu mentransformasi nilai
variabel X menjadi Z. Nilai z untuk x = 1 adalah
x-m 1 - 1,02
z= = = -0,5
s 0,04
dari tabel normal baku diperoleh bahwa P(X > 1) = P(Z > –0,5) = 0,6915
b. Untuk kasus kedua, kita diminta untuk menghitung peluang bahwa rata-rata dari suatu sampel
berukuran n = 20 lebih dari 1 liter. Artinya kita ingin mengetahui P( X > 1). Dengan Dalil Limit
Pusat kita tahu bahwa X merupakan variabel acak yang berdistribusi Normal dengan
s 0,04
mx = m = 1,02 dan s x = = = 0,00894 . Dengan transformasi Z, maka
n 20

88
æ x - m x 1 - 1,02 ö
P ( X > 1) = P ç > ÷
è sx 0,00894 ø
= P ( z > -2,24 ) = 0,9875

Pada awal Subbab 4.3 ini, dikemukakan persoalan yang dihadapi oleh perusahaan pasar swalayan
dalam mengevaluasi rata-rata volume penjualan selama masa promosi. Pada dasarnya, persoalannya
adalah: jika dari suatu sampel yang berukuran n = 30 diperoleh rata-rata penjualan per hari ( x )
sebesar Rp41 juta per toko, dapatkah kita kita katakan bahwa rata-rata penjualan per hari dari seluruh
toko yang dimiliki perusahaan tersebut ( m) lebih besar dari Rp40 juta?
Misalkan simpangan baku populasi volume penjualan per harinya (s) adalah Rp10 juta. Dengan dalil
limit pusat kita ketahui bahwa x akan mendekati distribusi Normal dengan m x = m dan
s 10.000.000
sx = = = 1.825.742 . Jika kita asumsikan bahwa rata-rata volume penjualan selama
n 30
masa promosi adalah Rp40 juta, maka

æ x - m x 41.000.000 - 40.000.000 ö
P ( X > 41.000.000 ) = P ç > ÷
è sx 1.825.742 ø
= P ( z > 0,55) = 0,2912

Keadaan ini menunjukan bahwa x mempunyai peluang yang cukup besar untuk bernilai sebesar Rp41
juta. Artinya, untuk populasi tersebut (dengan m = Rp40 juta dan s = Rp10 juta), diperolehnya nilai
rata-rata sampel sebesar Rp41 juta merupakan suatu hal yang tidak istimewa. Sehingga dapat kita
simpulkan bahwa rata-rata populasi volume penjualan perusahan tersebut selama masa promosi
adalah masih sekitar Rp40 juta. Dengan demikian, dapat kita katakan bahwa promosi yang dilakukan
oleh perusahaan tersebut tidak berhasil meningkatkan volume penjualannya.
Akan tetapi, andaikan simpangan baku populasi volume penjualan per harinya (s) adalah Rp2,5 juta,
s 2.500.000
maka s x = = = 456.435 sehingga
n 30
æ x - m x 41.000.000 - 40.000.000 ö
P ( X > 41.000.000 ) = P ç > ÷
è sx 456.435 ø
= P ( z > 2,19 ) = 0,0143

Hal ini menunjukkan bahwa kecil sekali kemungkinannya untuk memperoleh suatu nilai x yang lebih
dari Rp41 juta, jika rata-rata populasi sebenarnya adalah Rp40 juta. Oleh karena itu, dalam kasus ini
kita dapat mengatakan bahwa promosi yang dilakukan perusahaan tersebut telah berhasil
meningkatkan rata-rata volume penjualan per harinya.
Kedua kesimpulan yang saling bertentangan tersebut semata-mata dihasilkan karena adanya
perbedaan nilai simpangan baku populasinya (ingat bahwa simpangan baku mencerminkan
penyebaran data atau variasi data). Dalam kasus pertama (s = Rp10 juta), volume penjualan
perusahaan tersebut sangat bervariasi dari satu toko ke toko lainnya. Sehingga walaupun rata-rata
penjualan per bulan seluruh tokonya adalah Rp40 juta, dapat dipastikan bahwa volume penjualan
beberapa buah tokonya bahkan lebih dari Rp41 juta. Sebaliknya, pada kasus kedua, variasi volume
penjualan sangatlah kecil (s = Rp2,5 juta), sehingga jarang sekali ada toko yang volume penjualannya
mencapai Rp41 juta.

89
4.4 Distribusi sampling bagi selisih rata-rata sampel
Di dalam melakukan suatu penelitian kita seringkali dihadapkan pada persoalan yang melibatkan dua
populasi yang berbeda. Misalnya, ketika kita mencoba untuk menjawab persoalan yang dinyatakan
dalam bentuk pertanyaan-pertanyaan seperti berikut ini:
1. Apakah rata-rata produksi padi varietas A sama dengan rata-rata produksi padi varietas B?
2. Samakah rata-rata alokasi waktu senggang yang digunakan oleh eksekutif muda wanita
dengan yang digunakan oleh eksekutif muda pria untuk bersosialisasi dengan masyarakat di
sekitarnya?
3. Apakah rata-rata produksi padi per hektar di daerah S sama dengan rata-rata produksi padi
per hektar di daerah T?
Dalam setiap kasus tersebut kita mempunyai dua populasi yang berbeda: populasi pertama dengan
rata-rata m1 dan varians s12, dan populasi kedua dengan rata-rata m2 dan varians s22. Misalkan X1
adalah rata-rata dari sampel acak yang berukuran n1 yang diambil dari populasi pertama dan X2 adalah
rata-rata dari sampel acak yang berukuran n2 yang diambil dari populasi kedua.
Telah kita bahas sebelumnya bahwa X1 dan X2 masing-masing adalah variabel acak yang nilainya
bervariasi dari satu sampel ke sampel lainnya. Oleh karena itu, selisih dari kedua rata-rata sampel
tersebut, X1 - X2 , juga merupakan suatu variabel acak yang nilai-nilainya juga bervariasi dari satu
sampel ke sampel lainnya. Distribusi dari selisih antara nilai rata-rata sampel, x1 - x2 , disebut sebagai
distribusi sampling dari statistik X1 - X2 . Jika n1 cukup besar, maka de-ngan menggunakan Dalil Limit
Pusat, distribusi sampling bagi X1 akan mendekati distribusi Normal, hal yang sama juga berlaku untuk
distribusi sampling bagi X2 . Dengan demikian, jika n1 dan n2 cukup besar maka distribusi sampling
bagi X1 - X2 pun akan mendekati Distribusi Normal walaupun populasi asalnya mungkin tidak
berdistribusi Normal.

Aturan 4.3 Distribusi sampling bagi X1 - X2


Misalkan dari dua populasi yang berbeda, masing-masing dengan rata-rata m1 dan m2 serta varians
s12 dan s22, diambil sampel yang independen, masing-masing berukuran n1 dan n2, maka
distribusi dari selisih antara kedua rata-rata sampel, X1 - X2 akan mendekati distribusi Normal.
Nilai harapan bagi distribusi sampling X1 - X2 adalah

E ( X1 - X 2 ) = m x1 - x2 = m1 - m2 .................................................. ....................................[4.4]

dan variansnya adalah


s 12 s 22
Var ( X1 - X 2 ) = s x21 - x2 = s x21 + s x22 = + .................................................. ............[4.5]
n1 n2

Oleh karena itu, dengan transformasi Z, maka


(x1 - x2 ) - (m1 - m2 )
z= ...................................................................................... [4.6]
s 12 s 22
+
n1 n2

merupakan suatu variabel acak yang berdistribusi Normal Baku.

90
Contoh 4.3
Rata-rata tinggi badan mahasiswa suatu perguruan tinggi adalah 162 cm dengan simpangan baku 4
cm, sedangkan rata-rata tinggi badan mahasiswinya adalah 158 cm dengan simpangan baku 5 cm. Jika
diambil secara acak 36 orang mahasiswa dan 49 orang mahasiswi, berapakah peluang bahwa rata-rata
tinggi badan sampel mahasiswa tersebut akan 6 cm lebih tinggi dari sampel mahasiswi?
Penyelesaian:
Diketahui: m1 = 162; s1 = 4; n1 = 36
m2 = 158; s1 = 5; n1 = 49
Dengan Aturan 4.3, maka distribusi sampling bagi X1 - X2 akan mendekati Distribusi Normal dengan
rata-rata dan simpangan baku sebagai berikut:
mx1 - x2 = 162 - 158 = 4

42 52
s x21 - x2 = + = 0,977
36 49
untuk x1 - x2 = 6, kita peroleh

6-4
z= = 2,01 ,
0.997
sehingga

P ( X1 - X2 ³ 6 ) = P ( Z ³ 2,01) = 0,0222

4.5 Distribusi sampling bagi proporsi


Dalam kehidupan sehari-hari tidak jarang kita dihadapkan pada suatu persoalan dimana kita perlu
mengetahui proporsi suatu populasi yang memiliki karakteristik tertentu. Misalnya, seorang peneliti
ingin mengetahui persentase daya berkecambah dari benih tanaman tertentu, seorang pimpinan
suatu perusahaan ingin mengetahui berapa proporsi hasil produksi salah satu pabriknya yang cacat
produksi, atau ahli ekonomi ingin mengetahui berapa persen tenaga kerja yang tidak mempunyai
pekerjaan.
Dalam setiap kasus di atas, kita perlu menduga parameter suatu populasi, dalam hal ini proporsi
populasi, p. Untuk keperluan tersebut misalnya kita mengambil sampel berukuran n dari populasi
tersebut. Andaikan X adalah jumlah penga-matan dalam sampel tersebut yang memiliki karakteristik
yang dimaksud, maka proporsi sampel, pˆ = X n , dapat digunakan untuk menduga proporsi populasi
p. Seperti juga rata-rata sampel, nilai pˆ bervariasi dari satu sampel ke sampel lainnya, oleh karena
itu nilai-nilai tersebut dapat dianggap sebagai nilai pengamatan dari suatu variabel acak Pˆ . Dalam
Subbab 3.11 telah kita ketahui bahwa jika np ³ 5 dan n(1-p) ³ 5, maka distribusi dari variabel acak X
akan mendekati Distribusi Normal dengan rata-rata np dan varians np(1-p). Hal ini juga berlaku bagi
distribusi sampling Pˆ , karena pada dasarnya, kedua variabel acak tersebut (X dan Pˆ ) mempunyai
bentuk distribusi yang sama, tetapi berbeda dalam skala pengukurannya. Secara formal, hal ini
dirumuskan dalam Aturan 4.4 berikut:

91
Aturan 4.4 Distribusi sampling bagi Pˆ
Misalkan suatu sampel acak berukuran n diambil dari suatu Populasi Binomial dengan rata-rata
m = np dan varians s2 = np(1-p), maka distribusi sampling bagi Pˆ akan mendekati Distribusi
Normal dengan nilai harapan

E(Pˆ) = mP = p ................................................... ................................................... .........[4.7]


dan varians
p × (1 - p)
Var (Pˆ) = s P2 = .................................................. .............................................[4.8]
n
Misalkan pˆ adalah proporsi sampel yang merupakan suatu nilai pengamatan dari variabel acak
Pˆ , maka dengan menggunakan transformasi Z,
pˆ - p
z= .................................................................................................. [4.9]
p × (1 - p)
n
merupakan nilai variabel acak Z yang mempunyai distribusi yang mendekati Distribusi Normal
Baku.
Peluang bahwa Pˆ akan terletak antara nilai pˆ1 dan pˆ2 bagi suatu sampel berukuran n setara dengan
peluang bahwa X akan terletak antara x1 dan x2, dimana pˆ1 = x1 n dan pˆ2 = x2 n . Oleh karena itu,
kita dapat menentukan nilai-nilai peluang bagi Pˆ dengan menggunakan pendekatan distribusi normal
bagi variabel acak Binomial X seperti pada Subbab 3.11. Jika nilai-nilai peluang bagi Pˆ tersebut
dihitung secara langsung dengan menggunakan distribusi sampling bagi Pˆ (Aturan 4.4), maka faktor
koreksi kekontinuan sebaiknya diterapkan terhadap nilai-nilai pˆ , yaitu dengan
menambahkan/mengurangkan nilai pˆ tersebut dengan faktor 0,5/n.

Contoh 4.4
Dalam suatu pemilihan kepala desa diketahui bahwa 55% pemilih memilih salah satu kandidat kepala
desa, sebut saja A. Misalkan kita ambil suatu sampel acak yang terdiri dari 100 orang pemilih,
berapakah peluang bahwa kita akan salah menduga pemenang pemilihan kepala desa tersebut?
Penyelesaian:
Dalam kasus ini diketahui bahwa p = 0,55 dan n = 100. Untuk dapat menggunakan pendekatan
Distribusi Normal periksa lebih dulu bahwa np ³ 5 dan n(1-p) ³ 5. Untuk kasus ini np = 55 dan n(1 – p)
= 45, sehingga variabel acak Pˆ akan mendekati Distribusi Normal dengan rata-rata p = 0,55 dan
varians s2 = p(1 – p)/n = 0,002475.
Kita akan salah menduga pemenang pemilihan tersebut jika dari hasil sampel diperoleh nilai pˆ < 0,5,
yaitu kurang dari 50% pemilih memilih kandidat A. Dengan demikian, kita diminta menentukan
P( pˆ < 0,5). Faktor koreksi kekontinuannya adalah 0,5/100 = 0,005, sehingga nilai z untuk pˆ = 0,5 +
0,005 = 0,505 adalah
0,505 - 0,55
z= = -0,90
0,002475

Dengan demikian peluang bahwa kita akan salah menduga pemenang pemilihan kepala desa tersebut
adalah

92
P( pˆ < 0,5)  P(Z < – 0,90) = P(Z > 0,90) = 0,1841

4.6 Distribusi t
Sampai sejauh ini kita telah membahas berbagai distribusi sampling yang umumnya dapat
dikelompokkan ke dalam dua kasus berikut:
1. Populasi asalnya berdistribusi Normal dan varians populasinya diketahui nilainya
2. Distribusi populasi asalnya mungkin tidak diketahui, akan tetapi ukuran sampelnya cukup
besar (n > 30)
(x - m)
Pendekatan Distribusi Normal Baku melalui Transformasi z = selalu kita lakukan untuk
s n
menentukan nilai-nilai peluang bagi distribusi sampling dari statistik yang dimaksud. Walaupun nilai
s tidak diketahui, jika ukuran sampelnya cukup besar, maka simpangan baku sampel s merupakan
penduga yang baik bagi s, sehingga nilai s / n dapat digunakan sebagai penyebut dalam
(x - m )
transformasi z tersebut dan z = masih mendekati Distribusi Normal Baku.
s n

Akan tetapi, jika ukuran sampelnya kecil (n < 30), maka nilai varians sampel s2 akan sangat berfluktuasi
(x - m )
dari satu sampel ke sampel lainnya dan nilai-nilai tidak lagi berdistribusi Normal Baku. Dalam
s n
hal ini kita berhadapan dengan suatu distribusi dari suatu statistik T, yang nilai-nilainya adalah
(x - m )
t= ...................................................................................................... [4.10]
s n

Distribusi dari statistik T tersebut pertama kali diperkenalkan oleh William S. Gosset (1876-1937) pada
tahun 1908. Waktu itu dia menggunakan nama samaran ‘Student’ dalam mempublikasikan hasil
temuannya tersebut, sehingga distribusi tersebut disebut sebagai distribusi t-Student (Student’s t
distribution) atau biasa disebut sebagai distribusi t. Waktu itu W.S. Gosset mengasumsikan bahwa
sampelnya diambil dari suatu populasi yang berdistribusi Normal. Namun demikian, dapat
ditunjukkan bahwa populasi yang tidak berdistribusi Normalpun masih akan menghasilkan nilai-nilai T
yang sangat mendekati Distribusi t, asalkan mempunyai bentuk distribusi seperti genta.
Beberapa sifat Distribusi t
1. Distribusi t mempunyai beberapa persamaan dengan Distribusi Normal Baku, yaitu sama-
sama simetris terhadap titik 0, mempunyai bentuk distribusi seperti genta dengan kisaran dari
-µ sampai +µ, dan nilai harapannya adalah 0
2. Distribusi t tergantung pada suatu parameter n, yang disebut sebagai derajat bebas (degrees
of freedom), dimana n = n – 1. Jika ukuran sampelnya semakin besar, maka derajat
bebasnyapun akan semakin besar dan bentuk distribusinya akan semakin mendekati bentuk
Distribusi Normal Baku.
3. Varians dari Distribusi t selalu lebih besar dari 1. Untuk n > 2, varians dari Distribusi t adalah
n
n -2
4. Suatu Distribusi t dibedakan dengan Distribusi t yang lainnya oleh derajat bebasnya.
Gambar 4.4 memberikan suatu ilustrasi bahwa dengan semakin besarnya derajat bebas dari distribusi
t maka bentuk distribusinya semakin mendekati Distribusi Normal Baku. Kecenderungan ini juga dapat

93
dilihat pada nilai-nilai t dalam Tabel Distribusi t (Lampiran 3). Nilai-nilai tersebut semakin mendekati
nilai Z ketika derajat bebasnya semakin besar. Nilai t akhirnya sama dengan nilai Z ketika derajat
bebasnya = .

distribusi Normal baku distribusi t, n = 5

distribusi t, n = 2

-4 -2 0 2 4

Gambar 4.4 Distribusi Normal Baku dan Distribusi t dengan n = 2 dan 5

Aturan 4.5
Misalkan x dan s2 masing-masing adalah rata-rata dan varians dari suatu sampel berukuran n
yang diambil dari suatu populasi Normal dengan rata-rata populasi m dan varians s2 yang tidak
diketahui besarnya, maka
(x - m )
t=
s n

adalah sebuah nilai dari variabel acak T yang mempunyai Distribusi t dengan derajat bebas
n=n–1
Karena variabel acak T merupakan variabel acak yang kontinu, maka nilai-nilai peluangnya dinyatakan
sebagai luas di bawah kurva distribusi t yang bersangkutan. Akan tetapi, karena setiap derajat bebas
mendefinisikan suatu distribusi t tertentu, maka sangat tidak mungkin untuk menyajikan luas daerah
di bawah setiap kurva Distribusi t dalam sebuah tabel. Tabel Lampiran 3 hanya menyajikan nilai-nilai
t yang membuat luas daerah di salah satu ujung distribusinya sama dengan a, untuk beberapa nilai a
tertentu saja, yaitu 10%, 5%, 2,5%, 1% dan 0,5%. Dalam tabel tersebut nilai-nilai a dicantumkan pada
judul kolom, sedangkan nilai-nilai t tercantum dalam badan tabel. Kolom paling kiri dari tabel tersebut
menyajikan derajat bebas dari distribusinya.

a
a

-t a 0 ta t

Gambar 4.5 Sifat simetris distribusi t


Notasi ta biasa digunakan untuk melambangkan nilai t yang membuat luas daerah di ujung kanan kurva
distribusinya sama dengan a. Dengan kata lain, ta adalah nilai t yang memenuhi

94
5 Pendugaan

5.1 Pendahuluan
Telah dikemukakan sebelumnya bahwa Statistika Inferensial berkaitan dengan
pembuatan inferens atau generalisasi atau penarikan kesimpulan terhadap
karakteristik tertentu dari suatu populasi berdasarkan informasi dari sampel yang
diambil dari populasi tersebut. Secara garis besar, penarikan kesimpulan tentang
populasi tersebut dapat dibagi menjadi dua topik utama, yaitu pendugaan dan
pengujian hipothesis tentang parameter populasi. Teori tentang pendugaan
parameter populasi akan di bahas di dalam bab ini, sedangkan teori tentang
pengujian hipotesis akan kita bahas pada Bab 6.
Sesuai dengan namanya, pendugaan terhadap suatu parameter populasi bertujuan
untuk menentukan nilai pendekatan atau nilai dugaan bagi parameter populasi
tersebut dengan menggunakan statistik sampel. Penduga bagi parameter populasi
dapat berupa penduga titik (point estimate) atau penduga selang (interval
estimate). Penduga titik diperoleh dengan menentukan suatu nilai tunggal, yang
dihitung dari data sampel sebagai penduga bagi parameter populasi tersebut.
Misalnya nilai rata-rata sampel x yang dihitung dari suatu sampel berukuran n
merupakan suatu penduga titik bagi parameter populasi m. Demikian juga pˆ = x n
merupakan suatu penduga titik bagi proporsi p dari suatu Percobaan Binomial.
Dalam melakukan pendugaan, kita umumnya hanya mengambil satu sampel dari
sekian banyak kemungkinan sampel, dan nilai dugaan bagi parameter populasi
semata-mata dihitung berdasarkan sampel yang terambil tersebut. Sehingga
kesalahan dalam melakukan pendugaan akan sangat mungkin untuk terjadi. Oleh
karena itu, suatu nilai dugaan tidak diharapkan akan menduga parameter populasi
secara tepat, akan tetapi nilai dugaan tersebut diharapkan tidak terlalu jauh
menyimpang dari nilai yang diduganya. Dengan kata lain, penduga yang kita
inginkan adalah suatu statistik yang distribusi samplingnya mempunyai rata-rata
yang sama dengan nilai parameter populasinya.
Definisi:
Suatu statistik qˆ dikatakan sebagai penduga tak bias (unbiased estimator) bagi
()
parameter q jika E qˆ = q . Andaikan qˆ adalah suatu penduga tak bias bagi
parameter q, maka qˆ dikatakan sebagai penduga yang paling efisien jika
()
Var qˆ lebih kecil dari semua penduga tak bias lainnya.

115
qˆ2

qˆ3

qˆ1


q

Gambar 5.1 Distribusi Sampling dari Tiga Penduga q


Gambar 5.1 menyajikan distribusi sampling dari tiga penduga q, yaitu qˆ1 , qˆ2 dan qˆ3
. Dalam gambar tersebut terlihat bahwa qˆ1 dan qˆ2 adalah penduga tak bias bagi q
(perhatikan bahwa distribusi sampling keduanya terpusat di sekitar q), sedangkan
qˆ3 bukan merupakan penduga tak bias bagi q. Diantara kedua penduga tak bias
tersebut terlihat bahwa varians dari qˆ2 lebih kecil daripada qˆ1 , oleh karena itu qˆ2
merupakan penduga q yang lebih efisien daripada qˆ1 .
Dalam Bab 4, telah kita tunjukkan bahwa rata-rata sampel merupakan penduga tak
bias bagi rata-rata populasi. Selain itu, bagi suatu Populasi Normal, dapat juga kita
tunjukkan bahwa rata-rata sampel adalah penduga yang paling efisien bagi rata-rata
populasi dibandingkan penduga tak bias yang lainnya.
Suatu permasalahan yang dihadapi dalam penggunaan penduga titik adalah bahwa
penduga tersebut tidak mempunyai kapasitas untuk menyajikan tingkat ketelitian
pendugaannya. Hal ini berbeda dengan penduga selang. Penduga selang bagi suatu
parameter populasi dinyatakan dalam bentuk selang atau interval yang terletak
antara dua nilai tertentu, dimana nilai parameter populasi yang sebenarnya
diharapkan terkandung di dalam selang tersebut. Kedua nilai tersebut, yang masing-
masing merupakan batas bawah dan batas atas bagi penduga selang, ditentukan
berdasarkan pada penduga titik dan distribusi sampling dari statistik sampelnya.
Dengan demikian, di dalam suatu penduga selang terkandung konsep-konsep
tentang teori peluang yang dapat digunakan untuk menyatakan tingkat ketelitian
pendugaannya.
Perbedaan sampel akan menghasilkan penduga titik yang berbeda, sehingga
penduga selang yang dihasilkanpun akan berbeda pula. Oleh karena itu, tidak
semua penduga selang akan mengandung nilai parameter populasi yang
sebenarnya. Sehingga dalam proses pendugaan dengan menggunakan penduga
selangpun kemungkinan untuk membuat kesalahan selalu ada. Akan tetapi, dengan
menggunakan penduga selang, peluang untuk membuat kesalahan dalam
pendugaan dapat ditentukan. Oleh karena itu, penduga selang lebih dikenal dengan

116
sebutan selang kepercayaan (confidence interval) karena di dalamnya terkandung
suatu pengertian bahwa selang tersebut akan mengandung parameter populasi
dengan ‘tingkat kepercayaan’ atau nilai peluang tertentu.

5.2 Selang kepercayaan bagi rata-rata populasi (s diketahui)


Penduga titik yang paling efisien bagi rata-rata populasi m adalah rata-rata sampel,
X . Oleh karena itu, X dan distribusi sampling bagi X akan digunakan untuk
menentukan selang kepercayaan bagi rata-rata populasi m. Penentuan selang
kepercayaan didasarkan pada teori tentang distribusi sampling dari populasi Normal
seperti telah kita bahas dalam Bab 4. Konsep tentang selang kepercayaan bagi m
dapat diilustrasikan seperti pada Gambar 5.2.
Dalam Gambar 5.2 tersebut kita asumsikan bahwa rata-rata populasi m diketahui
nilainya, dan distribusi sampling yang terdiri atas semua kemungkinan rata-rata
sampel untuk ukuran sampel tertentu telah diketahui. Selang [a; b] dalam gambar
tersebut ditentukan sedemikan rupa sehingga berjarak sama dari m dan 95% dari
semua rata-rata sampel tercakup di dalamnya. Misalkan dari populasi tersebut
diambil sampel oleh tiga orang yang berbeda dan rata-rata sampel yang mereka
peroleh adalah x1 , x2 dan x3 . Dari ketiga rata-rata sampel tersebut kemudian
dibuat selang yang lebarnya sama dengan selang [a; b] dengan menggunakan nilai
rata-rata masing-masing sampel sebagai titik tengah selang. Ketiga selang tersebut
digambarkan di bagian bawah Gambar 5.2. Perhatikan bahwa nilai x1 dan x2
menghasilkan selang yang mencakup nilai m. Sedangkan selang yang di-hasilkan
oleh nilai x3 tidak mencakup nilai m di dalamnya. Hal ini terjadi bukan karena
kesalahan dalam proses pengambilan sampel, tetapi semata-mata karena sifat
keacakan (randomness) dari hasil sampel. Kejadian selang tidak mencakup nilai m
sebenarnya hanya mempunyai peluang sebesar 5%, karena hanya 5% dari nilai rata-
rata sampel yang dapat menyebabkan terjadinya keadaan tersebut.

0,95
x1 x2 x3
a 0.0
-4.0 -3.0 -2.0 -1.0 1.0 m
2.0 3.0 4.0 b
5.0 6.0 7.0 8.0

Gambar 5.2 Distribusi sampling bagi X

117
Misalkan untuk menduga rata-rata populasi m, diambil sampel berukuran n dari
suatu populasi berdistribusi Normal dengan rata-rata populasi m dan variansi s 2 .
Telah kita tunjukkan pada bab 4 Subbab 4.3 bahwa distribusi sampling bagi X akan
berdistribusi Normal dengan rata-rata m x = m dan simpangan baku s x = s n.
Oleh karena itu variabel acak Z akan berdistribusi Normal Baku, dengan
X -m
Z= .................................................. .......................................... [5.1]
s n
Kita dapat menentukan suatu selang dimana Z akan terletak dalam selang tersebut
dengan nilai peluang tertentu menggunakan Tabel Normal Baku (Tabel Lampiran 2).
Misal untuk peluang 0,95 maka
P(–z /2 < Z < z /2) = 0,95
dengan! = 1 – 0,95!=!0,05!sehingga! /2!=!0,05/2!=!0.025.!Dari Tabel Normal Baku
didapat nilai z /2!!sedemikian sehingga P(Z > Z /2) = 0,025 adalah 1,96. Oleh karena
itu
P(–1,96< Z < 1,96) = 0,95
x -m
Dengan mensubstitusikan nilai Z = , maka pernyataan peluang tersebut
s n
setara dengan
æ x -m ö
P çç -1, 96 < < 1, 96 ÷÷ = 0, 95
è s n ø

0,95
0,025 0,025

- 1,96 0 1,96 z

Gambar 5.3 Ilustrasi tentang P(–1,96 < Z < 1,96) = 0,95


Melalui pernyataan peluang tersebut dapat dibentuk interval konfidensi untuk
mean populasi dengan mengalikan setiap suku pertidaksamaan tersebut dengan
s n , kemudian kurangkan x dari setiap suku tersebut, lalu kalikan dengan –1.
Maka akan kita peroleh

118
æ s s ö
P ç x - 1, 96 < m < x + 1, 96 ÷ = 0, 95 ........................................ [5.2]
è n nø
Interprestasi dari Persamaan [5.2] tersebut adalah parameter populasi m akan
æ s ö æ s ö
terletak dalam suatu selang antara nilai ç x - 1,96 ÷ dan ç x + 1,96 ÷ dengan
è nø è nø
peluang 0,95. Dengan demikian selang kepercayaan 95% bagi m adalah
s s
x - 1,96 < m < x + 1,96 .................................................. .......... [5.3]
n n
atau biasa juga dinyatakan dalam bentuk
s
x ± 1,96 .................................................. ........................................ [5.4]
n
Nilai z/2 disebut sebagai nilai kritis (critical value) yang merupakan nilai z dari
variabel acak normal baku yang membuat luas daerah diujung kanan kurva sama
dengan a/2 (lihat Gambar 5.4). Nilai tersebut berkaitan erat dengan nilai peluang
yang disebut sebagai koefisien kepercayaan (confidence coefficient). Nilai kritis
akan berbeda nilainya untuk koefisien kepercayaan yang berbeda. Misalnya, jika
koefisien kepercayaan yang diinginkan adalah 99% maka nilai kritisnya adalah nilai
z/2 yang membuat luas daerah di ujung kanan kurva normal baku sama dengan /2=
(1 – 0,95)/2 = 0.025, sehingga z0,005 = 2,58. Secara umum, hubungan antara nilai
kritis dengan koefisien kepercayaan bagi variabel acak yang berdistribusi Normal
baku dapat dituliskan sebagai berikut

( )
P - za 2 < Z < za 2 = 1 - a .................................................. .................. [5.5]

1 - a`
a a
2 2

-z a/2 0 z a/2 z

Gambar 5.4 Ilustrasi tentang Nilai Kritis za/2

Aturan 5.1 Selang kepercayaan bagi m, s diketahui


Jika dari suatu populasi Normal dengan rata-rata populasi m dan varians s2
(diketahui nilainya) diambil suatu sampel berukuran n dan diperoleh nilai rata-
rata sampel x , maka selang kepercayaan (1 – a)100% bagi m adalah

119
s s
x - za 2 < m < x + za 2 .................................................. ............. [5.6]
n n
atau
s
x ± za 2 .................................................. ......................................... [5.7]
n
dimana za/2 adalah nilai kritis dari variabel acak normal baku yang membuat
luas daerah di ujung kanan kurva sama dengan a/2
Aturan 5.1 dapat juga diterapkan terhadap populasi normal yang nilai variansnya
(s2) tidak diketahui, asalkan ukuran sampelnya lebih besar dari 30. Untuk kasus ini,
s dapat diganti dengan simpangan baku sampel s.

Contoh 5.1
Seorang petugas quality control sebuah perusahaan kayu lapis melakukan
pengukuran terhadap ketebalan veneer yang akan digunakan sebagai lapisan paling
atas dari kayu lapis produksi perusahaan tersebut. Dari 50 sampel yang diperiksanya
diperoleh rata-rata ketebalan veneer 0,85 mm dengan simpangan baku 0,05 mm.
Tentukan selang kepercayaan 90%, 95% dan 99% bagi rata-rata ketebalan veneer
produksi perusahaan tersebut.
Penyelesaian
Karena ukuran sampelnya cukup besar (> 30), maka distribusi sampling bagi X akan
mendekati distribusi Normal dan simpangan baku populasi s dapat didekati dengan
nilai simpangan baku sampel s = 0,05 mm.
Dengan menggunakan Tabel Normal Baku (Tabel Lampiran 2) kita peroleh bahwa
nilai kritis dari z untuk koefisien kepercayaan 90% adalah z0,05 = 1,645. Sehingga
selang kepercayaan 90% bagi rata-rata ketebalan veneer (m) adalah
0,85 - (1,645)(0,05 50) < m < 0,85 + (1,645)(0,05 50)

atau
0,838 < m < 0,862
Untuk koefisien kepercayaan 95%, dari Tabel Lampiran 2 kita peroleh z0,025 = 1,96.
Sehingga selang kepercayaan 95% bagi rata-rata ketebalan veneer (m) adalah
0,85 - (1,96)(0,05 50) < m < 0,85 + (1,96)(0,05 50)

atau
0,836 < m < 0,864

120
Sedangkan untuk koefisien kepercayaan 99%, dari Tabel Lampiran 2 kita peroleh
z0,005 = 2,575. Sehingga selang kepercayaan 99% bagi rata-rata ketebalan veneer (m)
adalah
0,85 - (2,575)(0,05 50) < m < 0,85 + (2,575)(0,05 50)

atau
0,832 < m < 0,868
Perhatikan bahwa semakin tinggi koefisien kepercayaan maka selang kepercayaan
yang dihasilkan akan semakin lebar.

Contoh 5.1 di atas dapat diselesaikan menggunakan RConsole dengan package


BSDA. Untuk mengaktifkan package tersebut, terlebih dahulu ketiklah
>library(BSDA)

Selanjutnya ketik
>z.test(x,sigma.x=NULL, conf.level = 0.95)

Keterangan:
x Data sampel
sigma.x Standar deviasi dari populasi x jika variansi populasi diketahui atau
standar deviasi dari sampel x jika variansi populasi tidak diketahui
namun ukuran sampel lebih dari atau sama dengan 30
conf.level Tingkat kepercayaan

Jika kita hanya memiliki informasi ringkasan datanya saja seperti pada Contoh 5.1,
dapat digunakan perintah
zsum.test(mean.x, sigma.x = NULL, n.x = NULL, conf.level = 0.95)

Keterangan:
Mean.x Rata-rata sampel x
sigma.x Standar deviasi dari populasi dimana x diambil
n.x Ukuran sampel x
conf.level Tingkat kepercayaan
Dari soal diketahui rata-rata sampel adalah 0,85, simpangan baku 0.05 mm dan
ukuran sampel 50 untuk membuat estimasi interval konfidensi rata-rata populasi
ketebalan veneer dengan tingkat kepercayaan 90% menggunakan RConsole ketik
perintah berikut
>zsum.test(0.85, sigma.x = 0.05, n.x = 50, conf.level = 0.90)

Sehingga diperoleh output sebagai berikut

121
One-sample z-Test
data: Summarized x
z = 120.2082, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
90 percent confidence interval:
0.8383691 0.8616309
sample estimates: Batas bawah dan batas atas
estimasi selang kepercayaan
mean of x
90%
0.85

5.3 Selang kepercayaan bagi rata-rata populasi (s tidak diketahui)


Prosedur pendugaan selang kepercayaan bagi rata-rata populasi yang dirumuskan
dalam Aturan 5.1 hanya dapat diterapkan jika nilai simpangan baku populasi s
diketahui besarnya atau ukuran sampelnya cukup besar. Pada prakteknya,
simpangan baku populasi s jarang sekali diketahui nilainya, selain itu, sering kali
terjadi ukuran sampel yang dapat diambilpun tidaklah terlalu besar. Pada kasus
demikian maka prosedur dalam Aturan 5.1 tidak dapat digunakan untuk
menentukan selang kepercayaan bagi rata-rata populasi m. Akan tetapi, jika
distribusi populasinya mendekati bentuk seperti genta, maka selang kepercayaan
bagi rata-rata populasi m dapat dihitung dengan menggunakan distribusi sampling
T, dimana
X -m
T= .................................................. ........................................... [5.8]
s n
Variabel acak T berdistribusi mengikuti kaidah distribusi t dengan derajat bebas
n = n – 1. Seperti kita ketahui, distribusi t mempunyai bentuk yang mirip dengan
Distribusi Normal Baku, yaitu mempunyai distribusi seperti genta, dan simetris
terhadap nilai 0 (lihat Gambar 5.6).

1 - a!
a a
2 2

-t a/2 0 t a/2 t

Gambar 5.5 Ilustrasi tentang nilai kritis ta/2

122
Dalam Gambar 5.5 nilai kritis ta/2 adalah nilai t yang membuat luas daerah di ujung
kanan kurva t sama dengan a/2. Nilai-nilai t tersebut dapat ditentukan dengan
menggunakan Tabel distribusi t dalam Tabel Lampiran 3. Hubungan antara nilai
kritis ta/2 dengan koefisien kepercayaan bagi variabel acak T dapat dinyatakan
sebagai berikut:

( )
P -ta 2 < T < ta 2 = 1 - a .................................................. ................... [5.9]

atau
æ x -m ö
P ç -ta 2 < < ta 2 ÷ = 1 - a .................................................. ......... [5.10]
ç s n ÷
è ø
Bentuk Persamaan [5.10] ekuivalen dengan

æ s s ö
P ç x - ta 2 < m < x + ta 2 ÷ = 1 - a ............................................ [5.11]
è n nø
yang merupakan selang kepercayaan bagi m dengan tingkat kepercayaan (1 – a).

Aturan 5.2 Selang kepercayaan bagi m,!s! tidak diketahui dan n < 30
Jika dari suatu populasi Normal dengan rata-rata populasi m diambil suatu
sampel berukuran n (n < 30) diperoleh nilai rata-rata sampel x dan simpangan
baku sampel s, maka selang kepercayaan (1 – a)100% bagi m adalah
s s
x - ta 2 < m < x + ta 2 .................................................. ........... [5.12]
n n
atau
s
x ± ta 2 .................................................. ....................................... [5.13]
n
dimana ta/2 adalah nilai kritis dari variabel acak T yang berdistribusi t dengan
derajat bebas
n = n –1, yang membuat luas daerah di ujung kanan kurva distribusi t sama
dengan a/2.
Pada prakteknya Aturan 5.2 dapat digunakan terhadap populasi yang tidak Normal
asalkan distribusinya tidak terlalu condong (skewed) dan ukuran sampelnya tidak
terlalu kecil.

Contoh 5.2
Sebuah sampel berukuran 10 keping kayu lapis diambil secara acak dari suatu proses
produksi perusahaan kayu lapis. Lebar ke-10 keping kayu lapis tersebut adalah
sebagai berikut (cm): 122, 121, 122, 123, 120, 122, 124, 122, 121, 123. Dengan

123
asumsi bahwa lebar kayu lapis tersebut berdistribusi mendekati normal, tentukan
selang kepercayaan 95% bagi rata-rata lebar kayu lapis produksi perusahaan
tersebut.
Penyelesaian
Rata-rata sampel ke-10 keping kayu lapis tersebut adalah x = 122 cm dengan
simpangan baku sampel s = 1,15 cm. Dari Tabel Lampiran 3 kita peroleh nilai t0,025 =
2,2622 untuk derajat bebas n = 9. Oleh karena itu, selang kepercayaan 95% bagi
rata-rata lebar kayu lapis produksi perusahaan tersebut adalah
122 - (2,2622)(1,15 / 10) < m < 122 + (2,2622)(1,15 / 10)
atau
121,18< m < 122,82
Contoh soal di atas dapat diselesaikan dengan bantuan R Commander dengan mem-
ilih Statistics † Means † Single-sampe-t test

Pemilihan menu tersebut akan mengaktifkan jendela Single-Sampel t-Test


seperti telihat dalam Gambar 5.6. Isikan nama kolom dimana data tersebut
disimpan ke dalam kotak Variable (pick one) kemudian tentukan tingkat
kepercayaan yang diinginkan dengan mengisi kotak Confidence Levels: (R Com-
mander telah secara otomatis mengisinya untuk tingkat kepercayaan 95%) lalu klik
OK.

Gambar 5.6 Jendela Single- Sample t-Test

124
Output dari R Commander untuk Contoh 5.2 di atas adalah sebagai berikut:

One Sampel t-test


data: lebar
t = 334.1108, df = 9, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
121.174 122.826 Batas bawah dan batas atas estimasi in-
sample estimate: terval konfidensi 95%
mean of x
122

Jika kita hanya memiliki informasi ringkasan datanya saja, dapat digunakan package
BSDA dengan perintah
> tsum.test(mean.x, s.x = NULL, n.x = NULL, conf.level = 0.95)

Keterangan:
Mean.x Rata-rata sampel x
s.x Standar deviasi dari sampel x
n.x Ukuran sampel x
conf.level Tingkat kepercayaan

5.4 Penentuan ukuran sampel untuk menduga nilai rata-rata


Selang kepercayaan (1 – a)100% bagi m menyajikan suatu perkiraan tingkat
ketelitian bagi penduga titiknya, dalam hal ini adalah x . Jika nilai m yang sebenarnya
adalah titik tengah dari selang kepercayaan, maka x telah secara tepat menduga m
(tanpa kesalahan sama sekali). Akan tetapi, x umumnya jarang sekali sama persis
dengan m, sehingga nilai x akan menyimpang dari nilai m yang sebenarnya. Selisih
antara x dengan m disebut sebagai galat penarikan sampel (sampling error). Besar
galat tersebut akan mencapai nilai maksimum jika nilai m yang sebenarnya terletak
di salah satu ujung selang kepercayaan, dalam hal tersebut, besar galat penarikan
sampel adalah za 2 × s n (lihat Gambar 5.7).

Untuk Contoh 5.1, kita dapat mengatakan bahwa dengan tingkat kepercayaan 90%,
galat penarikan sampel yang terjadi karena menduga m dengan nilai rata-rata
sampel x = 0,85 mm adalah tidak lebih dari 0,012 mm.

125
x - za ×s n x m x + za ×s n
2 2

Simpangan
(galat penarikan sampel)

Gambar 5.7 Simpangan (Kesalahan Pendugaan) dalam Menduga m dengan x

Aturan 5.3
Dengan tingkat kepercayaan (1 – a)100%, galat penarikan sampel yang terjadi
karena menduga rata-rata populasi dengan rata-rata sampel adalah tidak lebih
dari za 2 × s n .

Aturan 5.3 tersebut dapat kita gunakan untuk menentukan besar ukuran sampel
yang dapat menjamin bahwa galat penarikan sampel tersebut tidak lebih dari suatu
nilai tertentu, misalnya e. Hal ini dapat dilakukan dengan menentukan nilai n
sehingga za 2 × s n = e.

Aturan 5.4
Galat penarikan sampel yang terjadi karena menduga rata-rata populasi m
dengan rata-rata sampel x pada tingkat kepercayaan (1 – a)100%, tidak akan
lebih dari e jika ukuran sampelnya adalah
2
æ za 2 × s ö
n=ç ÷ .................................................. ................................... [5.14]
è e ø
Pada prinsipnya, Aturan 5.4 hanya dapat digunakan jika kita mengetahui varians
populasi, s. Akan tetapi, kenyataannya jarang sekali kita dihadapkan pada keadaan
tersebut. Dalam kasus yang demikian, nilai s biasanya diduga lebih dulu dengan
mengambil suatu sampel pendahuluan dari populasi yang bersangkutan dengan
ukuran sampel n > 30.

Contoh 5.3
Untuk persoalan dalam Contoh 5.1, tentukanlah berapa ukuran sampel yang harus
diambil, agar kesalahan pendugaan pada tingkat kepercayaan 95% tidak lebih dari
0,01 mm.

126
Penyelesaian
Nilai simpangan baku sampel s = 0.05 mm yang diperoleh dari pengambilan sampel
sebelumnya (berukuran 50) akan kita gunakan sebagai penduga bagi s. Dengan
menggunakan Aturan 5.3, maka

é (1,96 ) × ( 0,05) ù
2

n=ê ú = 96,04
ë 0,01 û
Oleh karena itu, agar kesalahan pendugaan pada tingkat kepercayaan 95% tidak
lebih dari 0,01 mm maka ukuran sampel yang sebaiknya diambil adalah 97.

5.5 Selang kepercayaan bagi proporsi p

Dalam Subbab 4.5, telah kita bahas bahwa nilai proporsi sampel pˆ = x n dalam
sebuah Percobaan Binomial merupakan penduga yang baik bagi proporsi populasi
p. Pada Aturan 4.4, telah pula kita ketahui bahwa
pˆ - p
z= .................................................. .................................. [5.15]
p × (1 - p)
n
merupakan suatu variabel acak yang mempunyai distribusi mendekati Distribusi
Normal Baku. Oleh karena itu, dengan menggunakan sifat simetris Distribusi
Normal, untuk nilai kritis za/2 berlaku
æ pˆ - p ö
P ç - za /2 < < za /2 ÷ = 1 - a .............................................. [5.16]
ç p × (1 - p) n ÷
è ø
dapat ditunjukkan bahwa Persamaan [5.16] tersebut ekuivalen dengan

( )
P pˆ - za /2 p × (1 - p) n < p < pˆ + za /2 p × (1 - p) n = 1 - a ................. [5.17]

Namun demikian, batas atas dan batas bawah selang dalam pernyataan peluang
[5.17] di atas masih mengandung nilai p yang tidak diketahui nilainya. Jika nilai n
cukup besar, nilai p pada batas atas dan batas bawah tersebut dapat diganti dengan
pˆ = x n . Penggantian tersebut tentu saja akan menghasilkan suatu galat (error),
akan tetapi galat yang dihasilkan sangatlah kecil jika ukuran sampelnya cukup besar.
Oleh karena itu, pernyataan peluang [5.17] tersebut dapat dituliskan sebagai
berikut:

( )
P pˆ - za /2 pˆ × (1 - pˆ) n < p < pˆ + za /2 pˆ × (1 - pˆ) n » 1 - a ................. [5.18]

127
6 P e n g uj ia n Hip o te s is

6.1 Pendahuluan
Di dalam Bab 5 telah kita bahas bagaimana Statistika Inferensial digunakan untuk
melakukan pendugaan terhadap parameter populasi. Dalam bab ini akan kita bahas
hal-hal yang berkaitan dengan penarikan kesimpulan tentang parameter populasi
melalui pengujian hipotesis. Seperti juga dalam pendugaan parameter populasi,
distribusi sampling dari statistik sampel mempunyai peranan yang penting dalam
pengujian hipotesis. Penarikan kesimpulan tentang parameter populasi akan sangat
tergantung pada sampel yang dianalisis untuk keperluan tersebut. Pengujian
hipotesis yang dibahas dalam buku ini disebut pengujian parametrik karena
berkaitan dengan pengujian hipotesis tentang parameter populasi.
Definisi
Suatu hipotesis statistik adalah suatu pernyataan atau asumsi yang mungkin
salah dan mungkin juga benar tentang parameter populasi
Kebenaran atau ketidak-benaran suatu hipotesis statistik tidak pernah diketahui
secara pasti, kecuali jika kita memeriksa/meneliti seluruh populasinya. Hal ini
seringkali tidak mungkin dilakukan karena berbagai kendala, baik waktu, biaya
maupun tenaga yang harus dialokasikan untuk hal tersebut. Oleh karena itu,
pemeriksaan terhadap kebenaran atau ketidak-benaran hipotesis tersebut
umumnya dilakukan melalui pengambilan sampel dari populasi tersebut.

6.2 Konsep pengujian hipotesis


Tujuan pengujian hipotesis adalah untuk memilih salah satu dari dua hipotesis
tentang parameter populasi, yang keduanya saling betentangan, yaitu hipotesis nol,
dinyatakan dengan H0, dan hipotesis alternatif atau hipotesis penelitian, dinyatakan
dengan H1. Kedua hipotesis tersebut bersifat saling asing (mutually exclusive),
artinya jika satu hipotesis ditolak, maka sebagai konsekuensinya, hipotesis lainnya
diterima.
Pengujian hipotesis berdasarkan pada konsep pembuktian melalui
pengkontradiksian, yaitu, jika analisis terhadap sampel menunjukkan ketidak-
konsistenan dengan hipotesis yang diuji, maka hipotesis tersebut ditolak dan
disimpulkan bahwa hipotesis tersebut salah. Sebaliknya, jika analisis sampel
tersebut konsisten dengan hipotesis yang diuji, maka hipotesis tersebut diterima.
Namun demikian, penerimaan terhadap suatu hipotesis semata-mata sebagai akibat
tidak cukupnya bukti untuk menolak hipotesis dan tidak berarti bahwa hipotesis

140
tersebut adalah benar. Prosedur pengujian hipotesis terdiri atas komponen-
komponen berikut:
1. Hipotesis nol
2. Hipotesis alternatif atau hipotesis penelitian
3. Statistik uji
4. Daerah kritis atau daerah penolakan hipotesis
Hipotesis nol adalah asumsi atau anggapan yang berkaitan dengan nilai parameter
populasi yang akan diuji. Hipotesis nol umumnya menyatakan bahwa nilai
parameter populasi tersebut sama dengan suatu nilai tertentu. Hipotesis alternatif
merupakan suatu pernyataan alternatif jika asumsi atau anggapan tentang
parameter populasi tersebut ternyata salah atau ditolak. Secara umum, terdapat
tiga bentuk format pasangan hipotesis nol dan hipotesis alternatif dalam pengujian
hipotesis. Misalkan q adalah parameter populasi dan q0 adalah anggapan tentang
nilai parameter tersebut, maka ketiga pasangan hipotesis tersebut adalah sebagai
berikut:
(i) H0: q = q0
H1: q  q0 (hipotesis dua arah)
(ii) H0: q = q0
H1: q > q0 (hipotesis satu arah)
(iii) H0: q = q0
H1: q < q0 (hipotesis satu arah)
Sebagai contoh, dalam percobaan pelemparan mata uang sebanyak 50 kali, kita
mungkin tertarik untuk mengetahui keseimbangan mata uang tersebut. Oleh
karena itu, hipotesis nol dari percobaan ini adalah bahwa mata uang tersebut
diasumsikan seimbang. Jika mata uang tersebut seimbang, maka proporsi
timbulnya sisi muka harus sama dengan proporsi timbulnya sisi belakang, dengan
kata lain p = 0,5. Maka hipotesis nol-nya dapat dirumuskan sebagai berikut:
H0: p = 0,5
Sebagai tandingan terhadap H0, hipotesis alternatif untuk percobaan tersebut dapat
dirumuskan dalam tiga bentuk, yaitu bahwa mata uang tersebut tidak seimbang, H1:
p ¹ 0,5, atau mata uang tersebut berat ke sisi muka, H1: p > 0,5, atau mata uang
tersebut berat ke sisi belakang, H1: p < 0,5.
Seandainya percobaan tersebut menghasilkan timbulnya sisi muka sebanyak 23 kali,
dapat kita katakan bahwa mata uang tersebut memang seimbang, karena hasil
tersebut mendukung hipotesis bahwa p = 0,5. Namun demikian, hasil tersebut juga
mendukung hipotesis bahwa p = 0,45. Oleh karena itu, dengan menerima hipotesis
tersebut kita hanya punya keyakinan bahwa nilai proporsi tersebut terletak sekitar
0,5. Lain halnya jika percobaan tersebut menghasilkan timbulnya sisi muka
sebanyak 15 kali. Maka dalam kasus ini, hasil percobaan tersebut memberikan

141
cukup bukti untuk menolak hipotesis nol tersebut, dan dapat disimpulkan bahwa p
¹ 0,5.
Untuk memilih salah satu dari kedua hipotesis tersebut (H0 atau H1) diperlukan suatu
kriteria pengujian yang ditentukan berdasarkan pada suatu statistik uji. Penentuan
statistik uji tersebut didasarkan atas statistik sampel dan distribusi samplingnya.
Dengan demikian, statistik uji merupakan suatu variabel acak yang nilai-nilainya
digunakan untuk mengambil keputusan apakah menolak atau menerima hipotesis
nol. Nilai-nilai statistik yang digunakan untuk menolak hipotesis nol disebut sebagai
daerah kritis atau daerah penolakan hipotesis, sedangkan nilai-nilai yang digunakan
untuk menerima hipotesis nol disebut sebagai daerah penerimaan. Daerah
penolakan dan daerah penerimaan hipotesis dibatasi oleh suatu nilai yang disebut
sebagai titik kritis. Penentuan statistik uji dan daerah kritis pengujian akan dibahas
secara lebih rinci dalam sub-subbab berikutnya dari bab ini.
Dalam setiap pengujian hipotesis, kita harus selalu memutuskan apakah menerima
atau menolak H0 dan selalu ada kemungkinan bahwa kita membuat kesalahan dalam
pengambilan keputusan tersebut. Kesalahan tersebut terjadi ketika kita menolak
suatu hipotesis yang benar, atau menerima hipotesis yang salah. Kedua jenis
kesalahan ini diberi nama secara khusus dalam pengujian hipotesis, yaitu:
Salah jenis I (Type I error): kesalahan ini terjadi ketika kita menolak H0 padahal
H0 benar. Peluang terjadinya kesalahan ini dinyatakan dengan a, dan disebut
sebagai taraf nyata (level of significance)
Salah jenis II (Type II error): kesalahan ini terjadi ketika kita menerima H0
padahal H0 salah dan H1 benar. Peluang terjadinya kesalahan ini dinyatakan
dengan b. Komplemen dari b, yaitu (1 – b) disebut sebagai kuasa pengujian
(power of statistical test)
Idealnya daerah penerimaan dan penolakan ditentukan agar meminimumkan a dan
b sekaligus, tetapi hal ini tidak mungkin dilakukan, karena peluang terjadinya kedua
kesalahan tersebut berkaitan satu sama lainnya. Untuk suatu ukuran sam-pel
tertentu, jika daerah penolakan dirubah agar memperkecil a, maka b secara
otomatis akan bertambah besar, demikian sebaliknya, jika a diperbesar, maka b
akan mengecil.
Prosedur yang umum dilakukan oleh peneliti adalah dengan menentukan taraf
nyata a pada suatu nilai tertentu, hal ini akan secara otomatis menentukan nilai b
bagi percobaan tersebut. Taraf nyata yang biasa digunakan adalah a sama dengan
0,1, 0,05 atau 0,01. Untuk nilai a tertentu, nilai b dapat diperkecil dengan
memperbesar ukuran sampelnya. Hubungan antara kedua jenis kesalahan tersebut
dapat dilihat dalam Tabel 6.1.

142
Tabel 6.1 Hubungan antara a dan b
Keadaan sebenarnya
Keputusan H0 benar H0 salah
Tolak H0 Salah jenis I Benar
(peluang = a) (peluang = 1 – b)
Terima H0 Benar Salah jenis II
(peluang = 1 – a) (peluang = b)

Secara umum, prosedur pengujian hipotesis dilakukan melalui langkah-langkah


berikut:
(i) Tentukan H0 dan H1
(ii) Dengan mengasumsikan bahwa H0 benar, tentukan statistik uji berdasarkan
distribusi samplingnya
(iii) Tentukan daerah penolakan dan penerimaan H0 berdasarkan taraf nyata a,
bentuk H1 dalam (i) dan statistik uji dalam (ii)
(iv) Hitung nilai statistik uji dari sampel
(v) Ambil keputusan untuk menerima atau menolak H0 berdasarkan atas (iii)
dan (iv)

Daerah kritis dan daerah penerimaan


bagi pasangan hipotesis
Daerah Daerah H0: q = q0
kritis
Daerah kritis H1: q  q0
a penerim aan a
2 2

Titik q0 Titik q
kritis kritis

Daerah kritis dan daerah penerimaan


bagi pasangan hipotesis
Daerah H0: q = q0
kritis H1: q > q0
Daerah a
penerim aan
q0 Titik q
kritis

Daerah kritis dan daerah penerimaan


bagi pasangan hipotesis
Daerah
H0: q = q0
kritis
Daerah
H1: q < q0
a penerim aan
Titik q0 q
kritis

Gambar 6.1 Hubungan antara Daerah Penolakan dan Daerah Penerimaan


Hipotesis

143
Langkah ke (ii) dari prosedur di atas, yaitu penentuan statistik uji, merupakan salah
satu langkah yang krusial, karena statistik tersebut digunakan untuk menentukan
daerah penerimaan dan penolakan hipotesis, yang pada akhirnya digunakan untuk
mengambil keputusan apakah menerima atau menolak H0. Taraf nyata a digunakan
untuk menentukan titik kritis dari statistik uji tersebut, sedangkan bentuk H1
digunakan untuk menentukan arah daerah kritis pengujian (lihat Gambar 6.1). Jika
H1 merupakan suatu hipotesis dua arah, maka daerah kritis pengujian terletak di
ujung-ujung kurva distribusi sampling statistik tersebut. Jika H1 merupakan
hipotesis satu arah, maka daerah kritis pengujian terletak di salah satu ujung kurva
distribusi sampling yang bersesuaian dengan arah dari H 1.

6.3 Pengujian hipotesis tentang rata-rata populasi


Pasangan hipotesis nol dan hipotesis alternatif dalam pengujian hipotesis tentang
rata-rata dari suatu populasi Normal dapat mengambil salah satu dari bentuk
berikut:
(i) H0: m = m0
H1: m  m0 (hipotesis dua arah)
(ii) H0: m = m0
H1: m > m0 (hipotesis satu arah)
(iii) H0: m = m0
H1: m < m0 (hipotesis satu arah)
dimana m0 adalah suatu nilai yang merupakan anggapan atau asumsi tentang nilai
rata-rata populasi.

6.3.1 Kasus 1: varians populasi, s2, diketahui nilainya


Misalnya kita dihadapkan pada persoalan pengujian hipotesis tentang rata-rata, m,
dari suatu populasi yang berdistribusi Normal dengan varians, s2, yang nilainya
diketahui. Dalam bab-bab sebelumnya, telah kita ketahui bahwa rata-rata sampel,
X , merupakan penduga yang paling baik bagi rata-rata populasi. Selain itu, kita
ketahui pula bahwa distribusi sampling dari X mempunyai bentuk distribusi yang
Normal dengan rata-rata mX = m dan varians s X2 = s 2 n , dimana n adalah ukuran
sampelnya. Statistik uji yang biasa digunakan untuk menguji hipotesis tentang rata-
rata populasi adalah statistik uji Z, dimana
X -m
Z= .................................................. .......................................... [6.1]
s n

Statistik uji tersebut telah kita ketahui merupakan suatu variabel acak yang
berdistribusi Normal Baku. Oleh karena itu, titik kritis pengujian dapat ditentukan

144
dengan menentukan nilai kritis bagi variabel acak Z untuk taraf nyata a. Hal ini dapat
ditentukan dengan menggunakan Tabel Lampiran 2. Setelah itu, daerah kritis dapat
ditentukan sesuai dengan bentuk hipotesis H 1. Nilai statistik uji sampel kemudian
dapat dihitung dengan
x - m0
zhitung = ................................................. ................................... [6.2]
s n

dengan x adalah rata-rata sampel. Pengambilan keputusan ditentukan dengan


memeriksa nilai zhitung dengan kriteria sebagai berikut:
· tolak H0 jika zhitung terletak di daerah kritis, dan
· terima H0 jika zhitung terletak di daerah penerimaan.

Contoh 6.1
Seorang peneliti ingin mengetahui keberhasilan produksi suatu varietas padi yang
baru-baru ini diperkenalkan kepada petani di suatu daerah tertentu. Berdasarkan
data sebelumnya diketahui bahwa rata-rata produksi padi di daerah tersebut adalah
2,5 ton/ha dengan simpangan baku 0,6 ton. Dari suatu sampel berukuran 20
diperoleh nilai rata-rata produksi sebesar 2,678 ton/ha. Dapatkah dia simpulkan
bahwa rata-rata produksi padi di daerah itu sekarang telah lebih dari 2,5 ton/ha?
Penyelesaian:
Langkah 1: Penentuan hipotesis
Anggapan yang ada saat ini adalah bahwa rata-rata produksi padi di daerah
tersebut adalah 2,5 ton/ha. Oleh karena itu, hipotesis nol dari penelitian ini
adalah H0: m = 2,5 ton. Dengan diperkenalkannya suatu varietas padi baru,
maka tidaklah berlebihan jika kita berharap bahwa rata-rata produksi padi di
daerah tersebut akan mengalami peningkatan. Oleh karena itu, hipotesis
penelitian kita (H1) adalah bahwa H1: m > 2,5 ton. Dengan demikian pasangan
hipotesis yang akan diuji adalah sebagai berikut:
H0: m = 2,5
H1: m > 2,5
Langkah 2: Penentuan statistik uji
Statistik uji yang digunakan adalah
X -m
Z=
s n

dimana Z adalah variabel acak yang berdistribusi Normal Baku.


Langkah 3: Penentuan daerah kritis

145
Misalkan taraf nyata yang digunakan adalah a = 0,05. Hipotesis H1 dalam
persoalan ini merupakan hipotesis satu arah, maka daerah kritis pengujian
terletak di ujung kanan kurva distribusinya. Dengan demikian, titik kritisnya
adalah za = z0,05 = 1,645 (diperoleh dari Tabel Lampiran 2). Sehingga daerah
kritisnya adalah zhitung > 1,645 dan daerah penerimaan hipotesis nol adalah jika
zhitung  1,645
Langkah 4: Penentuan nilai statistik uji sampel
Dari persoalan di atas, diketahui bahwa simpangan baku populasi adalah s =
0,6. Dari sampel berukuran n = 20, diperoleh rata-rata sampel, x = 2,678 .
Maka nilai statistik uji berdasarkan sampel tersebut adalah:
x - m0 2,678 - 2,5
zhitung = = = 1,327
s n 0,6 20

Langkah 5: Kesimpulan
Karena nilai zhitung terletak di daerah penerimaan hipotesis nol, maka H0
diterima. Artinya walaupun rata-rata sampel (2,678 ton/ha) terlihat lebih besar
dari anggapan tentang rata-rata populasi (2,5 ton/ha), kita belum mempunyai
bukti yang cukup untuk menolak anggapan tersebut.
õ
R commander hanya menyediakan fasilitas uji hipotesis tentang rata-rata populasi
dengan uji t. Prosedur pengujian hipotesis tentang rata-rata populasi dimana nilai
varians populasinya diketahui atau uji Z dapat dilakukan dengan bantuan R console
dengan terlebih dahulu menginstal package BSDA. Setelah package terinstal, pack-
age perlu di load terlebih dahulu dengan mengetikkan perintah
>library(BSDA)

Selanjutnya, uji Z dapat dilakukan dengan mengetikkan perintah


z.test(x, alternative = "two.sided", mu = 0, sigma.x = NULL, conf.level
= 0.95)

Keterangan
X Data sampel
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau "two.sided"
Mu Hipotesis nilai rata-rata populasi
sigma.x Standar deviasi dari populasi x jika variansi populasi diketahui diketahui atau standa
deviasi dari sampel x jika variansi populasi tidak diketahui namun ukuran sampe
lebih dari atau sama dengan 30
conf.level Tingkat kepercayaan

146
Jika kita hanya memiliki informasi ringkasan datanya saja seperti pada Contoh 6.1,
dapat digunakan perintah berikut:
zsum.test(mean.x, sigma.x = NULL, n.x = NULL, , alternative =
"two.sided", mu = 0,conf.level = 0.95)

mean.x Rata-rata sampel x


sigma.x Standar deviasi dari populasi dimana x diambil
n.x Ukuran sampel x
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau
"two.sided"
Mu Hipotesis nilai rata-rata populasi
conf.level Tingkat kepercayaan

Sehingga, penyelesaian Contoh 6.1 di atas dapat dilakukan dengan mengetik


perintah berikut
> zsum.test(2.678, sigma.x = 0.6, n.x = 20, , alternative = "greater",
mu = 2.5,conf.level = 0.95)

Sehingga diperoleh output sebagai berikut


One-sample z-Test

data: Summarized x
z = 1.3267, p-value = 0.0923
alternative hypothesis: true mean is greater than 2.5
95 percent confidence interval:
2.45732 NA
sample estimates:
mean of x
2.678

Untuk menarik kesimpulan dapat dilakukan dengan melihat p value. Nilai p-value
merupakan besarnya peluang melakukan kesalahan apabila kita memutuskan untuk
menolak H0. Nilai p value diperoleh dari Tabel Normal Baku. Untuk Uji Hipotesis satu
arah nilai p-value adalah
p value = P(Z>zhitung) = P(Z<-zhitung)
sehingga untuk uji Hipotesis dua arah nilai
p value = P(Z>zhitung) + P(Z<-zhitung) = 2 P(Z>zhitung) = 2 P(Z<-zhitung)
Nilai p-value selanjutnya dibandingkan dengan tingkat signifikansi, . Jika p value
lebih kecil dari tingkat signifikansi maka H0 ditolak. Hal ini disebabkan karena jika kita
memutuskan menolak H0 (menganggap statement H0 salah), kemungkinan kita
melakukan kesalahan masih lebih kecil daripada  yang merupakan ambang batas

147
maksimal dimungkinkannya kita salah dalam membuat keputusan. Dari output ter-
lihat bahwa nilai p value lebih besar dari pada tingkat signifkansi 0.05 maka H0
diterima.

6.3.2 Kasus 2: varians populasi, s2, tidak diketahui nilainya


Dalam penggunaannya, prosedur pengujian hipotesis yang dibahas dalam Subbab
6.3.1 di atas mensyaratkan diketahuinya nilai varians populasi s, atau ukuran
sampel yang besar. Pada prakteknya, kedua persyaratan tersebut sering kali tidak
dapat dipenuhi karena berbagai alasan. Pada keadaan demikian, prosedur
pengujian hipotesis tentang rata-rata populasi dapat digunakan melalui pendekatan
distribusi t. Dalam Bab 4, telah kita bahas bahwa distribusi sampling dari rata-rata
sampel yang berukuran kecil dari suatu populasi yang normal akan mengikuti kaidah
distribusi t dengan derajat bebas n = n – 1. Oleh karena itu, statistik uji yang biasa
digunakan untuk kasus dimana varians populasinya tidak diketahui dan ukuran
sampelnya relatif kecil adalah
X -m
T= .................................................. ............................................. [6.3]
S n

Statistik uji T tersebut merupakan suatu variabel acak yang berdistribusi t dengan
derajat bebas
n = n – 1. Untuk taraf nyata a tertentu, titik kritis pengujian dapat ditentukan
dengan menentukan nilai kritis bagi variabel acak T, dalam hal ini kita dapat
menggunakan nilai-nilai dalam Tabel Lampiran 3. Prosedur pengujian hipotesis
selanjutnya dapat dilakukan mengikuti prosedur dalam Subbab 6.3.1, kecuali bahwa
nilai statistik uji dari sampelnya dihitung dengan rumus berikut:
x - m0
thitung = .................................................. .................................... [6.4]
s n

dimana x dan s masing-masing adalah rata-rata dan varians sampel.

Contoh 6.2
Lihat kembali Contoh 5.2. Produksi kayu lapis dikatakan baik jika rata-rata lebar kayu
lapis yang diproduksi adalah 120 cm. Berdasarkan 10 sampel pada Contoh 5.2,
apakah perlu diadakan perbaikan mesin produksi kayu lapis?
Penyelesaian
Langkah 1: Penentuan hipotesis
H0: m = 120
H1: m ¹ 120
Langkah 2: Statistik uji

148
Statistik uji yang digunakan adalah
X -m
T=
S n

Statistik uji tersebut berdistribusi t dengan derajat bebas sama dengan 10 – 1


=9
Langkah 3: Penentuan daerah kritis
Dengan taraf nyata a = 0,05. Titik kritisnya adalah ta = t0,05 = 2,2622 (diperoleh
dari Tabel Lampiran 3 dengan derajat bebas = 9). Sehingga daerah kritisnya
adalah t > 2,2622 atau
t < - 2,2622.
Langkah 4: Penentuan nilai statistik uji dari sampel
Dari sampel berukuran n = 10, diperoleh rata-rata sampel, x = 122 cm dan
simpangan baku sampel s = 1,15 cm . Maka nilai statistik uji berdasarkan
sampel tersebut adalah:
x - m0 122 - 120
thitung = = = 5.449
s n 1.15 10

Langkah 5: Kesimpulan
Karena nilai thitung terletak di daerah penolakan hipotesis nol, maka H0 ditolak.
Dengan demikian, untuk kasus ini kesimpulan yang kita peroleh rata-rata lebar
kayu lapis yang diproduksi sudah tidak sama dengan 120 sehingga perlu diada-
kan perbaikan/penyetelan kembali mesin produksi.
Contoh soal 6.2 di atas dapat diselesaikan dengan bantuan R Commander dengan
cara yang sama dengan penyelesaian Contoh 5.2, yakni klik
Statistics † Means † Single-sampe-t test
Pada box Single-Sample t-Test berikut isikan Null hypothesis: mu = 120

Sehingga output dari R Commander untuk Contoh 5.2 di atas adalah sebagai berikut:

149
One Sample t-test
data: lebar
t = 5.4772, df = 9, p-value = 0.0003916
alternative hypothesis: true mean is not equal to 120
95 percent confidence interval:
121.174 122.826
sample estimates:
mean of x
122

Dari output terlihat bahwa t hitung terletak di daerah kritis atau bisa dilihat dari nilai
p value, pada kasus ini p value < 0.05, jadi H0 ditolak.
Jika kita hanya memiliki informasi ringkasan datanya saja, dapat digunakan package
BSDA dengan perintah
> tsum.test(mean.x, s.x = NULL, n.x = NULL, alternative = "two.sided",
mu = 0, conf.level = 0.95)

Keterangan:
mean.x Rata-rata sampel x
s.x Standar deviasi dari sampel x
n.x Ukuran sampel x
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau
"two.sided"
mu Hipotesis nilai rata-rata populasi
conf.level Tingkat kepercayaan

Contoh 6.3
Ujilah kembali persoalan dalam Contoh 6.1 jika seandainya varians populasinya
tidak diketahui, namun diketahui bahwa simpangan baku sampelnya adalah 0,6 ton.
Penyelesaian:
Langkah 1: Penentuan hipotesis
H0: m = 2,5
H1: m > 2,5
Langkah 2: Statistik uji
Statsitik uji yang digunakan adalah
X -m
T=
S n

Statistik uji tersebut berdistribusi t dengan derajat bebas sama dengan 20 – 1


= 19

150
Langkah 3: Penentuan daerah kritis
Dengan taraf nyata a = 0,05. Titik kritisnya adalah ta = t0,05 = 1,7291 (diperoleh
dari Tabel Lampiran 3 dengan derajat bebas = 19). Sehingga daerah kritisnya
adalah t > 1,7291 dan daerah penerimaan hipotesis nol adalah jika z !1,7291
Langkah 4: Penentuan nilai statistik uji dari sampel
Dari sampel berukuran n = 20, diperoleh rata-rata sampel, x = 2,678 dan
simpangan baku sampel
s = 0,609. Maka nilai statistik uji berdasarkan sampel tersebut adalah:
x - m0 2,678 - 2,5
thitung = = = 1,307
s n 0,609 20

Langkah 5: Kesimpulan
Karena nilai thitung terletak di daerah penerimaan hipotesis nol, maka H0
diterima. Dengan demikian, untuk kasus ini kesimpulan yang kita peroleh sama
dengan sebelumnya.

Tabel 6.2 Kriteria Penentuan Statistik Uji dalam Pengujian Hipotesis tentang m
Varians populasi Ukuran sampel Statistik uji
X -m
Diketahui nilainya Tidak merupakan syarat Z=
s n

X -m
Tidak diketahui nilainya n > 30 Z=
s n

X -m
Tidak diketahui nilainya n < 30 T=
S n

Seperti halnya dalam pendugaan selang kepercayaan bagi m, maka dalam pengujian
hipotesis tentang m terdapat dua jenis pengujian. Penggunaan kedua jenis
pengujian tersebut tergantung pada diketahui atau tidaknya varians populasi s dan
ukuran sampelnya. Kriteria penentuan jenis statistik uji yang digunakan pada
berbagai kasus pengujian hipotesis tentang m disajikan dalam Tabel 6.2.

6.4 Pengujian Hipotesis tentang Proporsi


Hipotesis nol dan hipotesis alternatif dalam pengujian tentang proporsi populasi
ditentukan dengan cara yang sama seperti pada pengujian tentang rata-rata

151
populasi m. Dalam pengujian hipotesis tentang proporsi juga terdapat tiga jenis
pasangan hipotesis, yaitu:
(i) H0: p = p0
H1: p  p0 (hipotesis dua arah)
(ii) H0: p = p0
H1: p > p0 (hipotesis satu arah)
(iii) H0: p = p0
H1: p < p0 (hipotesis satu arah)
dimana p0 adalah suatu nilai yang merupakan anggapan atau asumsi tentang nilai
proporsi populasi. Statistik uji yang digunakan dalam pengujian hipotesis tentang
proporsi populasi diturunkan dari distribusi sampling bagi proporsi sampel, pˆ , yaitu
pˆ - p
Z= .................................................. ............................... [6.5]
p × (1 - p ) n

Telah kita ketahui bahwa statistik uji Z tersebut akan berdistribusi Normal baku.
Daerah kritis dan daerah penerimaan hipotesis ditentukan dengan cara yang sama
seperti pada pengujian hipotesis tentang m, yaitu dengan memperhatikan taraf
nyata a dan bentuk hipotesis alternatifnya. Nilai statistik uji dari sampel dihitung
dengan rumus
pˆ - p0
zhitung = .................................................. ..................... [6.6]
p0 × (1 - p0 ) n

Contoh 6.4
Berdasarkan pengalamannya, seorang penangkar benih telah mengetahui bahwa
persentase berkecambahnya benih suatu jenis tanaman tertentu adalah 38%.
Untuk mencoba meningkatkan persentase tersebut, benih tanaman tersebut
direndamnya lebih dulu dalam suatu larutan kimia. Setelah perlakuan tersebut, dari
100 benih dihasilkan 45 benih yang tumbuh berkecambah. Dapatkah kita simpulkan
bahwa perlakuan tersebut telah meningkatkan persentase berkecambahnya benih
tanaman tersebut?
Penyelesaian:
Langkah 1: Penentuan hipotesis
Respons dari penelitian ini adalah benih yang ‘tumbuh’ dan ‘tidak tumbuh’.
Sehingga merupakan data dalam skala pengukuran nominal. Data yang
demikian biasa dilambangkan dengan 1 dan 0 (1 untuk benih yang tumbuh dan
0 untuk benih yang tidak tumbuh). Proporsi p adalah parameter yang menjadi

152
perhatian kita. Dalam persoalan di atas, kita ingin mengetahui apakah
perlakuan perendaman benih tersebut dapat meningkatkan persentase
tumbuhnya benih tanaman tersebut. Oleh karena itu pasangan hipotesis yang
akan kita uji dapat diumuskan sebagai berikut:
H0: p = 0,38
H1: p > 0,38
Langkah 2: Statistik uji
Statistik uji yang digunakan adalah
pˆ - p
Z=
p × (1 - p ) n

dimana statistik uji Z adalah variabel acak yang berdistribusi Normal Baku.
Langkah 3: Penentuan daerah kritis
Dengan taraf nyata a = 0,05. Titik kritisnya adalah za = z0,05 = 1,645 (diperoleh
dari Tabel Lampiran 2). Sehingga daerah kritisnya adalah zhitung > 1,645 dan
daerah penerimaan hipotesis nol adalah jika zhitung  1, 645
Langkah 4: Penentuan nilai statistik uji dari sampel
Dari sampel berukuran 100 diperoleh pˆ = 0,45 , maka nilai statistik uji
berdasarkan sampel tersebut adalah
pˆ - p0 0,45 - 0,38
zhitung = = = 1,44
p0 × (1 - p0 ) n 0,38 (1 - 0,38 ) 100

Langkah 5: Kesimpulan
Karena nilai zhitung terletak di daerah penerimaan hipotesis nol, maka H0 tidak
ditolak. Kita simpulkan bahwa tidak cukup bukti untuk menyatakan bahwa
perlakuan perendaman benih tersebut telah meningkatkan persentase
berkecambahnya benih tanaman tersebut. Perhatikan bahwa, walaupun
percobaan tersebut menghasilkan 45% benih yang berkecambah, tetapi bukti
tersebut tidak cukup kuat untuk menyatakan bahwa proporsi populasinya
telah lebih dari 38%.
Contoh 6.4 di atas dapat diselesaikan dengan bantuan R Commander dengan cara
yang sama dengan penyelesaian Contoh 5.4, yakni klik
Statistics † Manage variables in active data set † convert
numeric variables to factors
Pada box Single-Sample Propotion Test isikan Null hypothesis: p = 0.38

153
atau diselesaikan dengan bantuan R Console menggunakan package stats dengan
mengetikkan perintah berikut
> prop.test(x, n, p = NULL,alternative = c("two.sided", "less",
"greater"), conf.level = 0.95)

Keterangan:
x Banyaknya sukses atau matrix dengan 2 kolom yang berturut-turut
berisikan jumlah sukses dan gagal.
n Banyaknya percobaan
p
alternative Hipotesis alternatif Pilih salah satu dari : "greater", "less" atau
"two.sided"
conf.level Tingkat kepercayaan

6.5 Pengujian hipotesis tentang varians populasi


Ketika kita membahas pengujian hipotesis dalam Subbab 6.3, pusat perhatian kita
terfokus pada rata-rata populasi yang merupakan salah satu ukuran pemusatan
yang penting. Dalam bagian tersebut kita mengenal dua jenis pengujian tentang
rata-rata populasi yang penggunaannya tergantung pada pengetahuan kita tentang
keragaman atau varians populasinya. Pada kasus-kasus tertentu kadang-kadang
keragaman dalam data mempunyai peranan yang lebih penting daripada ukuran
pemusatannya. Misalnya, suatu perusahaan produsen obat-obatan tentu saja harus
selalu memperhatikan rata-rata kemampuan atau daya penyembuhan dari
obat/tablet yang dibuatnya, akan tetapi perusahaan tersebut juga harus selalu
mengawasi keragaman daya penyembuhan suatu tablet ke tablet lainnya. Daya
penyembuhan yang berlebihan dapat menyebabkan kelebihan dosis bagi
pemakainya, dan hal ini dapat membahayakan jiwa pasien tersebut. Oleh karena
itu, perusahaan tersebut harus dapat memproduksi tablet dengan rata-rata daya
penyembuhan tertentu dengan keragaman daya penyembuhan sekecil mungkin.
Telah kita ketahui, bahwa salah satu ukuran keragaman atau penyebaran yang
sering digunakan adalah varians.
Pasangan hipotesis yang akan diuji berkaitan dengan varians suatu populasi Normal
biasanya dirumuskan sebagai salah satu dari bentuk berikut:

(i) H0: s2 = s 02
H1: s2  s 02 (hipotesis dua arah)

(ii) H0: s2 = s 02
H1: s2 > s 02 (hipotesis satu arah)

154
(iii) H0: s2 = s 02
H1: s2 < s 02 (hipotesis satu arah)
Dalam Subbab 5.7 telah kita ketahui bahwa statistik

( n - 1 ) s2
c =
2
................................................. .................................... [6.7]
s2
merupakan nilai suatu variabel acak yang berdistribusi mengikuti kaidah Distribusi
Chi kuadrat dengan derajat bebas n – 1. Dalam Bab 5, statistik tersebut kita gunakan
untuk menentukan selang kepercayaan bagi varians populasi s2. Oleh karena itu,
statistik tersebut dapat juga digunakan sebagai statistik uji dalam pengujian
hipotesis tentang varians populasi s2. Nilai statistik uji sampel ditentukan dengan

( n - 1 ) s2
c hitung
2
= .................................................. .............................. [6.8]
s 02
Daerah kritis dan daerah penerimaan hipotesis untuk taraf nyata tertentu dengan
menggunakan bantuan tabel Chi kuadrat (Tabel Lampiran 4).

Contoh 6.5
Sebuah timbangan di suatu laboratorium dapat digunakan untuk menimbang benda
sampai pada satuan miligram terdekat. Tingkat ketelitian timbangan tersebut
diukur oleh simpangan bakunya. Jika simpangan bakunya lebih besar dari 1
miligram maka berdasarkan prosedur baku di laboratorium, timbangan tersebut
harus segera untuk dikalibrasi. Untuk mengetahui apakah timbangan tersebut
sudah saatnya dikalibrasi kembali, 5 orang laboran secara independen melakukan
penimbangan dengan menggunakan suatu ukuran standar 5 gram dan hasilnya
adalah sebagai berikut (gr):
5,002 4,999 5,001 5,000 5,003
Perlukah timbangan tersebut dikalibrasi? Gunakan a = 0,1.
Penyelesaian:
Pasangan hipotesis yang akan kita uji adalah
H0: s2 = 1
H1: s2 > 1
Untuk menguji hipotesis tersebut kita perlu menghitung varians sampel s2 lebih dulu
(perhatikan bahwa satuan pengukuran data tersebut harus diubah ke dalam satuan
miligram):
1 é
x2 - ( å x ) nù
2
s2 =
n -1 ê
ë å úû

155

125.050.015 - (25.005) 5ù = 2,5
2
s2 =
4ë û
Nilai statistik uji sampelnya adalah:

( n - 1 ) s2 4 ´ 2,5
c 2
hitung = = = 10
s 2
0 1

Hipotesis H1 dalam kasus ini menunjukkan suatu jenis pengujian satu arah, maka
untuk taraf nyata a = 0,1 dengan derajat bebas n – 1 = 5 – 1 = 4, dari Tabel Lampiran
4 kita peroleh bahwa titik kritis pengujian adalah c 0,1;
2
4 = 13,277 . Dengan demikian,

kriteria pengujian hipotesis adalah tolak H 0 jika c hitung


2
> 13,277 dan terima H0 jika
c hitung
2
£ 13,277 . Karena nilai statistik uji sampel (=10) terletak di daerah
penerimaan hipotesis, maka kita simpulkan bahwa alat timbangan tersebut masih
cukup teliti dan belum saatnya dikalibrasi ulang.

6.6 Pengujian Hipotesis tentang Selisih Rata-rata Dua Populasi Independen


Sampai sejauh ini kita telah membahas pengujian hipotesis yang hanya berkaitan
dengan nilai parameter dari suatu populasi. Dalam subbab ini, konsep pengujian
hipotesis tersebut akan kita perluas untuk kasus-kasus yang melibatkan dua
populasi Normal yang independen. Namun demikian, pembahasan dalam subbab
ini terbatas pada pengujian hipotesis tentang selisih rata-rata kedua populasi.
1 2
Rata-rata = m1 Rata-rata = m 2
Populasi
Varians = s 12 Varians = s 22

Ukuran sampel = n1 Ukuran sampel = n2

Sampel Rata-rata = x1 Rata-rata = x 2

Varians = s12 Varians = s22

Gambar 6.2 Notasi bagi Parameter Populasi dan Statistik Sampelnya


Prosedur pengujian hipotesis dilakukan berdasarkan pada sampel yang diambil dari
masing-masing populasi tersebut. Sebagai konvensi baku, notasi yang digunakan

156
untuk parameter kedua populasi tersebut dan statistik sampelnya disajikan dalam
Gambar 6.2.
Pertanyaan yang seringkali harus dijawab dalam membandingkan rata-rata dua
populasi adalah apakah kedua rata-rata populasi tersebut sama besar? Pertanyaan
tersebut biasa dinyatakan dalam bentuk selisih antar kedua nilai rata-rata tersebut.
Jika rata-ratanya sama, maka tentunya selisihnya harus sama dengan nol. Oleh
karena itu, hipotesis nol dari persoalan tersebut dapat dinyatakan sebagai berikut:
H0: m1 – m2 = 0
Sedangkan hipotesis alternatifnya dapat berbentuk
1. H1: m1 – m2 ¹ 0, atau
2. H1: m1 – m2 < 0, atau
3. H1: m1 – m2 > 0

6.6.1 Kasus 1: Pengujian Hipotesis tentang Selisih Rata-rata Dua Populasi Inde-
penden, s12 dan s22 Nilainya Diketahui
Jika kita mempunyai dua populasi Normal dengan rata-rata masing-masing adalah
m1 dan m2 dengan varians s12 dan!s22, maka penduga yang paling efisien bagi selisih
rata-rata populasi m1 - m 2 adalah statistik X1 - X2 (selisih rata-rata sampel yang
diambil dari masing-masing populasi). Oleh karena itu, statistik uji yang digunakan
untuk menguji hipotesis tentang selisih rata-rata dua populasi (m1 – m2) ditentukan
berdasarkan atas selisih rata-rata sampel tersebut ( X1 - X 2 ) dan distribusi
samplingnya. Dalam Subbab 4.4 telah kita ketahui bahwa statistik
( X1 - X2 ) - (m1 - m2 )
Z= .................................................. ...................... [6.9]
s 12 s 22
+
n1 n2

adalah variabel acak yang berdistribusi Normal Baku. Oleh karena itu, statistik
tersebut biasa digunakan sebagai statistik uji dalam pengujian hipotesis tentang
selisih rata-rata populasi Normal. Titik kritis untuk taraf nyata a tertentu ditentukan
dengan menggunakan Tabel Normal Baku (Tabel Lampiran 2) dan dengan
memperhatikan jenis hipotesis alternatifnya.
Statistik uji Z tersebut dapat ditentukan jika varians kedua populasi tersebut, s12
dan!s22, diketahui nilainya. Oleh karena itu, pengetahuan tentang nilai kedua
varians tersebut merupakan salah satu persyaratan penggunaan statistik uji Z.
Harus diakui, bahwa persyaratan tersebut pada prakteknya seringkali tidak dapat
dipenuhi. Pengetahuan tentang nilai kedua varians tersebut biasanya hanya
semata-mata berdasarkan atas pengalaman atau hasil-hasil penelitian terdahulu
tentang objek penelitian yang sama. Oleh karena itu, ketika nilai varians

157
populasinya tidak diketahui, nilai-nilai tersebut biasa diganti dengan nilai varians
sampelnya masing-masing. Hal ini tentu saja akan mempengaruhi hasil analisis,
terutama tingkat kepercayaan atau taraf nyatanya tidak akan tepat seperti kalau
menggunakan nilai varians populasi yang sesungguhnya. Namun demikian,
pendekatan tersebut menjadi semakin baik jika ukuran kedua sampel yang dianalisis
semakin besar. Pendekatan tersebut umumnya sudah cukup baik jika n1 dan n2
masing-masing lebih besar dari 30.
Nilai statistik uji kemudian dihitung berdasarkan informasi yang diperoleh dari
kedua sampel independen yang diambil dari populasinya masing-masing dengan
rumus berikut:
(x1 - x2 ) - (m1 - m2 )
zhitung = .................................................. .............. [6.10]
s 12 s 22
+
n1 n2

atau jika n1 > 30 dan n2 > 30 statitik ujinya dapat ditentukan dengan rumus berikut
(x1 - x2 ) - (m1 - m2 )
zhitung = .................................................. .............. [6.11]
s12 s22
+
n1 n2

Kriteria pengujian untuk menerima atau menolak H0 ditentukan dengan


membandingkan nilai zhitung dengan titik kritisnya (Tabel 6.3).

Tabel 6.3 Kriteria Pengujian pada Taraf Nyata a bagi Berbagai Pasangan
Hipotesis yang Diuji
Pasangan hipotesis Titik kritis Kriteria pengujian
H0: m1 – m2 = 0 § Tolak H0 jika zhitung < – za/2 atau zhitung > za/2
za/2
H1: m1 – m2 ¹ 0 § Terima H0 jika – za/2 < zhitung < za/2
H0: m1 – m2 = 0 § Tolak H0 jika zhitung > za
za
H1: m1 – m2 > 0 § Terima H0 jika zhitung < za
H0: m1 – m2 = 0 § Tolak H0 jika zhitung < – za
– za
H1: m1 – m2 < 0 § Terima H0 jika zhitung > – za

Contoh 6.6
Untuk meningkatkan pertumbuhan berat badan ayam pedaging, seorang peternak
ayam menambahkan sejumlah tepung ikan ke dalam pakan yang biasa dia beri-kan.
Pakan tambahan tersebut diberikan kepada sejumlah anak ayam selama 45 hari.
Misalkan populasi 1 adalah anak ayam yang mendapat pakan tambahan dan
populasi 2 adalah anak ayam yang mendapat pakan yang biasa selama periode yang

158
7 R e g re si L in ie r S e de rh a na d a n
K o rel as i

7.1 Pendahuluan
Di dalam Bab 5 dan 6 telah kita bahas berbagai teknik pendugaan dan pengujian
hipotesis tentang rata-rata populasi dan selisih rata-rata dari dua populasi.
Persoalan yang kita pecahkan dalam bab-bab tersebut umumnya relatif mudah dan
sederhana karena walaupun berkaitan dengan dua populasi, kedua populasi
tersebut umumnya diasumsikan bersifat independen, artinya tidak ada keterkaitan
antara satu populasi dengan populasi yang lainnya. Dalam kehidupan sehari-hari,
sering kali kita temui bahwa nilai suatu variabel (Y) dipengaruhi oleh nilai variabel
lain (X), atau berkaitan dengan nilai variabel lain. Bentuk hubungan antar kedua
variabel tersebut adalah persoalan yang akan kita bahas dalam analisis regresi dan
korelasi. Sebagai contoh, kita mungkin tertarik untuk meneliti hubungan antara pola
konsumsi seseorang dalam suatu komunitas tertentu (Y) dengan penghasilannya per
bulan (X), atau hubungan antara pendapatan suatu perusahaan (Y) dengan biaya
yang dikeluarkan oleh perusahaan tersebut untuk pemasangan iklan dalam media
cetak (X), atau pengaruh pemberian berbagai dosis suatu jenis pupuk tertentu (X)
terhadap peningkatan produksi padi varietas tertentu (Y).
Dalam setiap kasus di atas, variabel Y merupakan variabel dependen atau variabel
respons yang nilai-nilainya tergantung pada nilai-nilai variabel X, yang disebut
sebagai variabel independen atau variabel bebas. Analisis regresi digunakan untuk
membangun suatu model matematis untuk menjelaskan bentuk hubungan antar
kedua variabel tersebut (jika hubungan tersebut ada). Misalnya, jika kita
beranggapan bahwa terdapat hubungan linier antara pola konsumsi seseorang
dengan penghasilannya, maka untuk menguji anggapan tersebut kita akan
mengambil sampel yang terdiri atas beberapa orang anggota komunitas tersebut
dan memeriksa pola konsumsi dan penghasilan mereka. Jika anggapan tersebut
benar, maka nilai-nilai pengamatan akan mencerminkan pola hubungan kedua
variabel tersebut.
Dalam bab ini konsep-konsep dasar tentang hubungan keterkaitan antar variabel
tersebut akan kita bahas melalui analisis regresi dan korelasi. Namun demikian,
pembahasan tersebut akan kita batasi hanya untuk kasus-kasus yang sederhana
saja, yaitu kasus yang hanya melibatkan dua variabel saja. Pembahasan untuk kasus-
kasus yang melibatkan hubungan keterkaitan antar lebih dari dua variabel biasanya
dibahas dalam topik yang khusus, yaitu dalam bahasan tentang analisis regresi
berganda (multiple regression analysis), atau analisis variabel ganda (multivariate
analysis) yang merupakan topik bahasan dalam Ilmu Statistik tingkat lanjut. Dalam
buku ini analisis regresi berganda dibahas secara singkat dalam Bab 8.

180
7.2 Hubungan antara variabel dependen dengan variabel bebas
Untuk model regresi yang hanya melibatkan satu variabel dependen dan satu
variabel bebas, bentuk hubungan antar kedua variabel tersebut biasanya dapat
diperiksa dengan memetakan setiap pasangan pengamatan (x, y) dalam suatu
diagram pencar (scatter diagram). Pemetaan data ke dalam suatu bentuk diagram
pencar tidak saja bermanfaat dalam memeriksa bentuk hubungan antar kedua
variabel, tetapi juga dalam mengeksplorasi data secara keseluruhan, misalnya dalam
memeriksa kemungkinan adanya nilai pencilan, melihat bentuk distribusi data, atau
memeriksa kecenderungan (trend) dalam data. Diagram pencar digunakan untuk
memvisualisasikan bentuk hubungan antar ke dua variabel tersebut. Dalam diagram
tersebut, variabel dependen selalu dipetakan dalam sumbu tegak dan variabel
bebas dipetakan dalam sumbu mendatar. Sebagai ilustrasi, berbagai bentuk
diagram pencar disajikan dalam Gambar 7.1.
Data dalam Gambar 7.1.a dan 7.1.b mengindikasikan bentuk hubungan antara
variabel X dan Y yang cenderung linier. Data dalam kedua gambar tersebut terlihat
mengelompok di sekitar suatu garis lurus. Gambar 7.1.c menunjukkan suatu bentuk
hubungan antara variabel X dan Y yang mungkin dapat dijelaskan melalui suatu
persamaan eksponensial atau kuadratik. Sedangkan data dalam Gambar 7.1.d tidak
menunjukkan adanya bentuk hubungan yang kuat antara variabel X dan Y. Hal ini
terlihat betapa data dalam gambar tersebut terpencar secara sembarang, tanpa
menunjukkan adanya suatu keteraturan.

Y Y

X
X

(a) (b)

Y Y

X X

(c) (d)

Gambar 7.1 Diagram Pencar: Beberapa Contoh Bentuk Hubungan antara X


dan Y

181
Pemetaan pasangan data (x, y) ke dalam suatu diagram pencar merupakan suatu
langkah awal dalam menganalisis hubungan antara kedua variabel tersebut.
Beberapa informasi yang dapat kita peroleh dengan mengamati suatu diagram
pencar dari pasangan data (x, y) diantaranya adalah:
§ ada atau tidaknya kecenderungan bahwa data tersebut mengelompok di
sekitar suatu garis lurus, atau bentuk kurva sederhana lainnya
§ bagaimana kecenderungan bentuk hubungan antara variabel X dan Y;
misalnya adakah kecenderungan bahwa nilai-nilai y menaik dengan
bertambahnya nilai x, ataukah sebaliknya, artinya nilai-nilai y cenderung
menurun dengan bertambahnya nilai x.
§ bagaimana ‘kekuatan’ hubungan antara variabel X dan Y; kedua variabel
tersebut dikatakan mempunyai hubungan atau keterkaitan yang erat jika
data dalam diagram pencar tersebut mengelompok di sekitar suatu garis
lurus atau kurva sederhana lainnya: semakin dekat jarak antara data dengan
garis atau kurva tersebut, maka semakin kuat hubungan kedua variabel
tersebut
§ kemungkinan adanya nilai pencilan dalam data
Hubungan antara variabel pengamatan X dan Y dapat dinyatakan dalam suatu model
atau pernyataan matematis. Salah satu bentuk yang paling sederhana adalah model
linier, yaitu:
Y = b0 + b1 X ....................................................................................... [7.1]

Dalam Model [7.1] tersebut, b 0 dan b1 keduanya merupakan konstanta yang tidak
diketahui nilainya. Dalam persamaan tersebut variabel X merupakan penduga bagi
variabel Y. Secara grafis, persamaan tersebut menyatakan persamaan sebuah garis
lurus yang memotong sumbu tegak Y di titik b 0 dengan kemiringan (slope) b1 .
Koefisien kemiringan suatu garis lurus menyatakan besar kenaikan/penurunan garis
tersebut dengan bertambahnya nilai X sebesar satu satuan. Artinya,
§ jika b1 > 0, maka garis tersebut akan menaik sebesar b1 satuan dengan
bertambahnya nilai X sebesar satu satuan, tetapi
§ jika b1 < 0 maka garis tersebut akan menurun sebesar b1 satuan dengan
bertambahnya nilai X sebesar satu satuan, dan
§ jika b1 = 0 maka garis tersebut merupakan garis yang mendatar
(horizontal).
Gambar 7.2 menyajikan contoh dua buah persamaan garis lurus. Gambar 7.2.a
menyajikan sebuah garis lurus dengan b 0 = 1 dan b1 = 2 yang dinyatakan dengan
persamaan Y = 1 + 2X. Perhatikan bahwa garis tersebut memotong sumbu Y di titik

182
(0, 1) dan menaik sebesar 2 satuan setiap pertambahan nilai X sebesar satu satuan.
Gambar 7.2.b menyajikan sebuah garis lurus dengan b 0 = 6 dan b1 = –1,5 yang
dinyatakan dengan persamaan Y = 6 – 1,5X. Garis tersebut memotong sumbu Y di
titik (0, 6) dan turun sebesar 1,5 satuan setiap pertambahan nilai X sebesar satu
satuan.

Y 8
Y
titik potong
7 koef. kemiringan=
dengan sumbu Y
+2/1 = 2
+2 6

+1
4

3 +1

-1,5
titik potong 2
dengan sumbu Y koef. kemiringan=
1
-1,5/1 = -1,5

X 0 X
-1 0 1 2 3
-1 -1 0 1 2 3

a. Y = 1 + 2X b. Y = 6 – 1,5X

Gambar 7.2 Persamaan Garis Lurus dan Interpretasinya


Terdapat dua jenis hubungan antara variabel Y dan variabel X, yaitu:
§ hubungan deterministik (deterministic relationship), dimana setiap nilai
variabel Y bersifat konstan dan hanya tergantung pada nilai variabel X.
Dalam hal ini setiap nilai X berpasangan dengan hanya satu nilai Y, sehingga
untuk suatu nilai X tertentu, nilai Y dapat ditentukan dengan pasti.
§ hubungan stokastik (stochastic relationship), dimana variabel Y merupakan
variabel acak yang nilai-nilainya tergantung pada nilai X, tetapi tidak dapat
diduga dengan pasti. Dalam hal ini setiap nilai X berasosiasi dengan suatu
distribusi peluang bagi nilai-nilai Y secara keseluruhan.

Contoh 7.1
Seorang tukang pisang goreng menjual dagangannya dengan harga Rp1.000,- per
biji. Jika X adalah jumlah pisang goreng yang terjual pada suatu hari tertentu, dan Y
adalah jumlah pendapatan kotor per hari, maka hubungan antara Y dan X dapat
dinyatakan melalui model berikut:
Y = 1.000X

183
Hubungan tersebut merupakan hubungan deterministik karena nilai Y dapat
ditentukan dengan pasti jika nilai X diketahui besarnya, yaitu dengan cara
mensubstitusikan nilai X tersebut ke dalam persamaan di atas.

Contoh 7.2
Dalam memproduksi suatu jenis barang, sebuah perusahaan harus mengeluarkan
sejumlah biaya yang terdiri atas biaya tetap sebesar Rp1.000.000,- dan biaya
variabel sebesar Rp300 per satuan hasil produksinya. Jika X adalah jumlah produksi
barang tersebut, dan Y adalah total biaya produksi, maka hubungan antara Y dan X
dapat dinyatakan sebagai berikut:
Y = 1.000.000 + 300X
Hubungan tersebut juga merupakan suatu bentuk hubungan deterministik.

Contoh 7.3
Pengetahuan tentang pola pengeluaran rumah tangga untuk keperluan rekreasi
keluarga merupakan salah satu aspek yang menjadi bahan pertimbangan pengusaha
hiburan untuk memperluas atau mempertahankan usahanya di suatu daerah. Pada
umumnya, besar pengeluaran suatu keluarga untuk keperluan rekreasi cenderung
meningkat dengan meningkatnya pendapatan keluarga tersebut. Akan tetapi, besar
pengeluaran suatu rumah tangga untuk keperluan rekreasi tidak semata-mata
dipengaruhi oleh besar pendapatan tetapi juga dipengaruhi oleh berbagai faktor
lain.
Misalkan X adalah pendapatan per bulan suatu rumah tangga, dan Y adalah
pengeluaran rumah tangga tersebut untuk keperluan rekreasi keluarga. Dalam kasus
ini, untuk suatu nilai X tertentu, nilai Y tidak dapat ditentukan secara tepat karena
terdapat faktor/variabel lain yang mempengaruhi nilai Y tersebut. Oleh karena itu,
hubungan antara variabel X dan Y untuk kasus ini merupakan hubungan stokastik.
Model probabilistik yang mengaitkan pengeluaran rumah tangga ke–i, yaitu Yi,
dengan pendapatan rumah tangga ke–i, yaitu X = xi , adalah sebagai berikut:
Yi = b0 + b1 xi + e i .................................................................................. [7.2]

dimana ei adalah nilai suatu variabel acak e yang merepresentasikan faktor-faktor


lain yang mempengaruhi nilai Y. Variabel e disebut sebagai galat acak (random error
variable). Dalam model tersebut variabel e merupakan selisih antara nilai
pengamatan Yi dengan titik yang terletak pada garis b0 + b1 xi .

7.3 Analisis regresi linier sederhana


Analisis regresi adalah salah satu teknik Statistika yang paling populer yang biasa
digunakan untuk tujuan peramalan atau pendugaan tentang nilai variabel dependen

184
Y. Analisis regresi berkaitan dengan hubungan stokastik antara variabel dependen Y
dengan variabel bebas X. Oleh karena itu, tujuan penggunaan analisis regresi adalah
untuk membangun suatu model probabilistik yang dapat digunakan untuk
meramalkan atau menduga nilai variabel dependen (Y), berdasarkan pada nilai-nilai
variabel bebas (X). Analisis regresi merupakan suatu topik yang cakupannya sangat
luas, tetapi dalam bab ini, pembahasannya akan kita batasi hanya pada teknik
regresi linier sederhana, yaitu tentang pendugaan satu variabel Y oleh satu variabel
X saja.
Salah satu asumsi yang digunakan dalam suatu model regresi linier sederhana
adalah bahwa setiap nilai variabel X berkaitan dengan suatu distribusi dari nilai-nilai
variabel Y. Kita gunakan notasi
E(Yi|X = xi) atau E(Yi|xi) untuk menyatakan nilai harapan bersyarat (conditional
expected value) bagi variabel acak Yi untuk nilai variabel bebas tertentu, yaitu X = xi,
sedangkan fungsi kepekatan variabel acak Y tersebut dinotasikan dengan f(y|x).
Asumsi lain yang digunakan dalam suatu model regresi linier sederhana adalah
bahwa hubungan antara nilai harapan bagi Yi dengan nilai xi dapat dinyatakan
melalui persamaan berikut:
E (Yi |xi ) = b0 + b1 xi .............................................................................. [7.3]

dimana b 0 dan b1 adalah parameter regresi yang tidak diketahui nilainya.


Persamaan [7.3] menyatakan bahwa nilai rata-rata bagi Yi untuk nilai xi tertentu
terletak dalam suatu garis lurus (lihat Gambar 7.3). Persamaan tersebut merupakan
garis regresi populasi (population regression line).

f(y|x)

X
x1 x2

E(Y1|x1)
E(Y2|x2)
E(Y|X) = b 0 + b 1X

Gambar 7.3 Model probabilistik bagi hubungan stokastik antara X dan Y


Dalam Gambar 7.3 terlihat bahwa setiap nilai xi (dalam gambar tersebut x1 dan x2)
berasosiasi dengan suatu populasi dari nilai-nilai Y, dimana rata-rata setiap populasi
tersebut terletak pada garis regresi E(Y|X) = b 0 + b1 X. Walaupun populasi tersebut

185
mempunyai rata-rata yang berbeda, diasumsikan bahwa populai tersebut
mempunyai varians s2 yang sama.
Telah dikemukakan sebelumnya bahwa terdapat faktor-faktor lain selain variabel X
yang mempengaruhi nilai-nilai variabel Y, sehingga menyebabkan nilai individual Yi
bervariasi di sekitar E(Yi|xi). Faktor-faktor lain tersebut dinotasikan dengan ei yang
disebut sebagai faktor galat (error term). Karena nilai-nilai ei juga bervariasi maka
nilai-nilai tersebut merupakan suatu variabel acak yang disebut variabel acak galat
(error random variabel):
e i = Yi - E (Yi | xi )
................................................................................ [7.4]
= Yi - ( b 0 + b1 xi )

Dengan demikian, setiap nilai pengamatan Yi sama dengan nilai harapannya


ditambah galat, yaitu
Yi = E (Yi | xi ) + e i
................................................................................... [7.5]
= b 0 + b1 x i + e i

Dalam penggunaannya, analisis regresi linier sederhana sangat tergantung pada


berbagai asumsi yang berkaitan dengan variabel acak galat tersebut. Asumsi dasar
dari analisis regresi linier sederhana adalah sebagai berikut:
1. Variabel acak galat berdistribusi Normal dengan rata-rata sama dengan nol
dan mempunyai varians yang sama untuk semua nilai X, yaitu s e2 .
2. Nilai-nilai galat bersifat independen satu sama lainnya dan tidak berkaitan
dengan variabel X.
Asumsi tentang kesamaan varians yang disebut juga asumsi homogenitas varians
(homoscedasticity), mengandung arti bahwa nilai-nilai galat tersebut mempunyai
varians yang sama, tidak peduli berapapun nilai X-nya. Asumsi tentang
keindependenan galat berarti bahwa nilai-nilai galat tersebut tidak berkaitan satu
sama lainnya. Pelanggaran terhadap asumsi-asumsi tersebut dapat mengakibatkan
nilai dugaan bagi varians menjadi bias dan pengujian hipotesis terhadap parameter
regresi menjadi tidak sah.

7.4 Penduga kuadrat terkecil bagi b 0 dan b 1


Karena parameter b 0 dan b1 dalam Persamaan [7.3] tidak kita ketahui besarnya,
maka persamaan regresinyapun tidak kita ketahui dan harus kita duga dengan
menggunakan data sampel (xi, yi). Dengan demikian, untuk menduga persamaan
regresi tersebut kita cukup menduga parameter b 0 dan b1 . Salah satu teknik
pendugaan yang sering digunakan adalah Metode Kuadrat Terkecil (Least Squares

186
Method). Misalkan b0 dan b1 masing-masing nilai dugaan bagi parameter b 0 dan b1
, maka nilai dugaan bagi Yi, dinotasikan dengan yˆ i adalah
yˆi = b0 + b1 xi ......................................................................................... [7.6]
Karena Persamaan [7.6] tersebut diperoleh berdasarkan atas data sampel,
persamaan tersebut disebut sebagai garis regresi sampel (sample regression line)
yang merupakan penduga bagi garis regresi populasi dalam Persamaan [7.3]. Faktor
galat bagi data sampel biasa disebut sebagai sisaan (residuals), dan dinotasikan
dengan ei, dimana ei adalah selisih antara nilai pengamatan yi dengan nilai
dugaannya, yˆi , yaitu
ei = yi - yˆi
................................................................................... [7.7]
= yi - b0 - b1 xi
Dengan demikian, nilai sisaan merupakan simpangan dari nilai dugaan terhadap nilai
pengamatannya, sehingga dapat digunakan untuk mengukur kesalahan pendugaan.
Jika nilai pengamatan bagi variabel dependen lebih besar dari nilai dugaannya
(y i > yˆ ) , maka sisaan akan bernilai positif; dan jika nilai pengamatan tersebut lebih
kecil dari nilai dugaannya (y i < yˆ ) , maka sisaan akan bernilai negatif. Suatu
pendugaan yang sempurna terjadi jika y i = yˆ , dimana sisaannya akan bernilai nol.

Y Yˆ = b0 + b1 X

yi
(x i , yi )

e i = y i - yˆ i

yˆ i

X
xi

Gambar 7.4 Hubungan antara yi, yˆ i dan ei


Oleh karena itu, jumlah kuadrat sisaan (residual sum of squares), disingkat JKS, yang
dihitung dengan rumus berikut:

JKS = å ei2 = å ( yi - yˆi )


2

..................................................................... [7.8]
= å ( yi - b0 - b1 xi )
2

sering digunakan sebagai ukuran ketelitian pendugaan secara umum. Pendugaan


persamaan regresi dengan metode kuadrat terkecil pada dasarnya dilakukan

187
dengan menentukan garis regresi sampel yang meminimumkan jumlah kuadrat
sisaan (JKS).

Boks 7.1:
Nilai-nilai b0 dan b1 diperoleh dengan menentukan turunan pertama dari JKS
terhadap b0 dan b1 dan kemudian menyamakannya dengan nol:

å e 2 = å (y - yˆ )
2
JKS =
= å (y - b0 - b1 x )
2

= å y - 2b0 å y - 2b1 å xy + nb02 + 2b0 b1 å x + b12 å x 2


2

Turunan pertama dari JKS terhadap b0 adalah:


¶JKS
¶b0
= -2 å y + 2nb0 + 2b1 å x
¶JKS
¶b0
= 0 Û nb0 = å y - b1 å x Û b0 = y - b1x
Dengan cara yang sama, tentukan turunan dari JKS terhadap b1 dan samakan
turunan tersebut dengan nol:
¶JKS
= -2å xy + 2b0 å x + 2b1 å x 2 = 0
¶b0

Substitusikan nilai b0 =
åy -b åx ke dalam persamaan di atas, maka
1
n n
æåy å x ö÷ x + 2b x 2 = 0
- 2å xy + 2ç - b1 å 1å
ç n n ÷ø
è

å y å x - 2b (å x )
2

- 2å xy + 2 1 + 2b1 å x 2 = 0
n n
(å x )2 å y å x
b1 å x 2
- b1 = - å xy
n n
b1n å x 2 - b1 (å x )2 = å y å x - nå xy
n å xy - å x å y
b1 =
n å x 2 - (å x )
2

Dengan metode kuadrat terkecil, nilai dugaan bagi parameter regresi b 0 dan b1
masing-masing adalah b0 dan b1 dimana
b0 = y - b1 x .......................................................................................... [7.9]

188
dan

b1 =
å ( x - x )( y - y ) ........................................................................ [7.10]
å(x - x )
2

atau
nå xy - å x å y
b1 = ....................................................................... [7.11]
nå x 2 - ( å x )
2

Penurunan rumus-rumus di atas dapat dilihat dalam Boks 7.1.


Beberapa kelebihan metode kuadrat terkecil dibandingkan dengan metode-
metode pendugaan lainnya adalah:
§ untuk satu set data yang sama, garis regresi dengan metode kuadrat terkecil
memberikan JKS yang paling kecil dibandingkan dengan JKS yang dihasilkan
oleh garis regresi lain
§ metode kuadrat terkecil dapat dengan mudah diperluas untuk model-model
dengan jumlah variabel X yang lebih banyak
Contoh 7.4
Data berikut ini adalah sebagian dari data dalam suatu penelitian yang dilakukan
oleh Dr Gusti Zakaria Anshari, Fakultas Pertanian, Universitas Tanjungpura. Data
tersebut merupakan hasil pengukuran terhadap sampel tanah gambut yang diambil
dari 78 titik pengamatan. Tentukan persamaan regresi untuk menduga hubungan
antara berat kering tanah (Y) dengan berat basahnya.

Tabel 7.1 Berat Basah (gr) dan Berat Kering (gr) Sampel Tanah
No Brt basah Brt kering No Brt basah Brt kering No Brt basah Brt kering
1 98,56 28,99 27 98,56 28,99 53 111,28 40,90
2 113,97 29,07 28 113,97 29,07 54 86,22 34,32
3 79,93 23,02 29 79,93 23,02 55 81,99 30,81
4 57,14 26,27 30 57,14 26,27 56 77,77 24,51
5 71,63 17,38 31 71,63 17,38 57 82,46 24,08
6 134,14 28,25 32 134,14 28,25 58 90,54 32,82
7 100,06 33,71 33 100,06 33,71 59 108,26 37,25
8 108,32 24,98 34 108,32 24,98 60 94,16 29,94
9 128,60 33,67 35 128,60 33,67 61 104,71 22,52
10 134,33 42,89 36 134,33 42,89 62 88,82 21,01
11 112,58 25,67 37 112,58 25,67 63 90,73 31,07
12 93,08 19,51 38 93,08 19,52 64 87,44 22,46
13 89,05 25,60 39 89,05 25,60 65 112,50 27,01
14 108,75 24,61 40 74,38 34,66 66 114,43 64,44
15 111,26 32,00 41 89,45 31,66 67 65,40 24,15
16 86,13 36,77 42 105,04 34,42 68 84,87 25,47
17 89,35 27,40 43 102,80 38,31 69 71,07 34,56
18 107,10 30,21 44 100,25 31,31 70 94,44 42,80

189
19 103,40 33,63 45 124,29 41,12 71 93,82 29,21
20 88,77 27,79 46 109,52 28,84 72 121,63 34,78
21 107,12 29,36 47 104,43 42,75 73 92,24 24,90
22 124,28 46,50 48 87,18 27,90 74 91,90 30,45
23 126,44 35,06 49 95,89 31,76 75 91,96 38,64
24 121,04 33,50 50 120,82 31,93 76 90,88 26,16
25 112,03 24,25 51 67,50 23,13 77 99,56 33,04
26 77,89 28,00 52 94,16 34,61 78 107,90 36,87

Penyelesaian:
Untuk menduga nilai-nilai b0 dan b1, kita perlu menghitung å x i , å y i , å xi y i dan
å xi2 , dalam hal ini nilai-nilai tersebut adalah sebagai berikut:

å xi = 98,56 + 113,97 + + 107,9


1107,90
= 7719,03

å yi = 28,99 + 29,07 + + 36,87


= 2383,68

å xi yi = ( 98,56 )(28,99 ) + (113,97)( 29,07) + + (107,9


107,90 )( 36,87)
= 240412,2558

å xi2 = 98,562 + 113,972 + + 107,9


1107,902
= 789250,1937
Rata-rata sampel adalah x = 98,9619 dan y = 30,56 dengan n = 78. Maka,

nå x i y i - å x i å y i
b1 =
nå xi2 - ( å xi )
2

78 ´ 240412,2558 - 7719,03 ´ 2383,68


b1 = = 0,1782
78 ´ 789250,1937 - ( 7719,03)
2

dan
b0 = y - b1 x
= 30,56 - 0,1782 ´ 98,9619
= 12,927
Oleh karena itu, persamaan regresi sampelnya adalah
yˆi = 12,927 + 0,1782xi
Suatu model persamaan regresi biasanya digunakan untuk tujuan pendugaan. Hal
yang perlu diperhatikan dalam melakukan pendugaan tersebut adalah bahwa kita

190
hanya bisa melakukan pendugaan dalam suatu kisaran nilai variabel bebas yang
tertentu. Kisaran nilai tersebut terdiri atas semua nilai variabel X yang terletak
antara nilai data terkecil sampai nilai data terbesar, yang kita gunakan untuk
menyusun model tersebut. Artinya, dalam melakukan pendugaan tersebut, kita
hanya dapat melakukan interpolasi dalam kisaran nilai X tersebut, tetapi tidak dapat
melakukan ekstrapolasi.
Misalnya, dalam contoh di atas, kita peroleh persamaan garis regresi
yˆi = 12,927 + 0,1782xi

dimana X adalah berat basah sampel tanah (gr) dan Yˆ adalah nilai dugaan bagi berat
kering sampel tanah (gr). Untuk contoh di atas, nilai terkecil bagi X adalah 57,14 gr
dan nilai terbesar adalah 134,33 gr. Nilai b0 = 12,927 adalah titik potong garis regresi
tersebut dengan sumbu tegak Y. Akan tetapi, untuk kasus ini nilai tersebut tidak
dapat diinterpretasikan sebagai nilai dugaan bagi berat kering tanah ketika berat
basah sampel tanah tersebut adalah 0 gr, karena dua alasan: alasan pertama adalah
bahwa nilai X = 0 terletak di luar kisaran nilai variabel X ; alasan kedua adalah karena
pernyataan tersebut sama sekali tidak masuk akal.
Ketika nilai X = 0 terletak di luar kisaran data sampel, maka nilai b0 sama sekali tidak
memberikan interpretasi yang bermanfaat, bahkan mungkin akan menyesatkan,
karena setiap usaha penginterpretasiannya akan memerlukan ekstrapolasi, yaitu
melakukan pendugaan untuk nilai X yang terletak di luar kisaran data sampel. Selain
itu, untuk nilai-nilai X yang terletak di luar kisaran data pengamatan, hubungan
antara variabel X dan Y mungkin tidak lagi linier, sehingga pendugaan tersebut dapat
mengakibatkan kesalahan yang fatal.

60

Yˆ = 12,927 + 0,1782X
Berat kering (gr)

40

20

0
50 70 90 110 130
Berat basah (gr)

Gambar 7.5 Diagram Pencar dan Persamaan Regresi untuk Data dalam Tabel 7.1
Sebaliknya, kemiringan garis regresi sering kali memberikan interpretasi yang lebih
bermanfaat. Untuk contoh di atas, nilai b1 = 0,1782 menunjukkan bahwa untuk
setiap kenaikan berat basah tanah sebesar satu gram, secara rata-rata akan
menaikkan berat kering sampel tanah sebesar 0,1782 gr.

191
Persamaan regresi di atas kita peroleh dengan menggunakan metode kuadrat
terkecil, sehingga garis tersebut merupakan garis lurus terbaik yang meminimumkan
JKS. Namun demikian, hal ini bukan merupakan jaminan bahwa garis tersebut
mencerminkan keadaan data dengan baik. Salah satu indikator yang dapat
digunakan untuk mengetahui sampai sejauh mana persamaan suatu garis regresi
mencerminkan keadaan data secara keseluruhan adalah dengan menghitung
simpangan baku sisaan (residual standard deviation), se, yang dihitung dengan
rumus berikut:

å( yi - b0 - b1 xi )
2

JKS
se = = i
........................................................ [7.12]
n-2 n-2
atau

å yi2 - b0 å yi - b1 å xi yi
se = i i i
.......................................................... [7.13]
n -2
dimana n adalah jumlah pengamatan, sedangkan bilangan 2 (dalam n – 2) berasal
dari jumlah parameter yang diduga dalam persamaan regresinya, yaitu b 0 dan b1 .
Walaupun kelihatan lebih rumit, rumus dalam Persamaan [7.13] lebih mudah
digunakan dalam melakukan perhitungan secara manual.
Simpangan baku sisaan, se, mengukur pencaran atau keragaman data di sekitar garis
regresinya. Semakin kecil nilai se, maka nilai-nilai Y akan semakin terkonsentrasi di
sekitar garis regresi tersebut. Sebaliknya, semakin besar nilai se, maka semakin besar
pula pencaran data dari garis regresinya.
Untuk Contoh 7.4, simpangan baku sisaannya adalah:
77029,6492 - 12,927 ´ 2383,68 - 0,1782 ´ 240412,2558
se =
78 - 2
3379,241
= = 6,6681
76

Perhatikan bahwa simpangan baku sisaan (se = 6,6681) tidak terlalu berbeda jauh
nilainya dari simpangan baku sampel variabel Y (sy = 7,3718), hal ini menunjukkan
bahwa garis regresi tersebut tidak sepenuhnya cocok mencerminkan hubungan
antara X dan Y. Artinya, berat kering sampel tanah tidak dapat diduga dengan baik
hanya dengan mengukur berat basah sampelnya saja.

7.5 Koefisien determinasi dan sumber keragaman dalam analisis regresi


Untuk mengetahui sejauh mana variabel bebas X menduga variabel dependen Y
dalam model probabilistik tersebut, kita perlu mengetahui beberapa jenis ukuran

192
keragaman. Salah satu diantaranya adalah jumlah kuadrat total (JKT), yang
merupakan ukuran keragaman nilai Yi di sekitar nilai rata-ratanya Y . Dalam ( )
analisis regresi linier sederhana, jumlah kuadrat total dapat diuraikan menjadi
jumlah kuadrat regresi (JKR), yang mencerminkan hubungan antara variabel X dan
Y, dan jumlah kuadrat sisaan (JKS), yang mencerminkan keragaman karena faktor-
faktor lain selain hubungan antara X dan Y tersebut. Interpretasi grafis dari ukuran-
ukuran keragaman tersebut dapat dilihat dalam Gambar 7.6.

Y yi
Jumlah kuadrat yˆ i = b 0 + b1 x i
sisaan

Jumlah kuadrat total

Jumlah kuadrat regresi


Y

xi
X

Gambar 7.6 Ukuran Keragaman dalam Regresi


Jumlah kuadrat regresi dapat diinterpretasikan sebagai ukuran keragaman yang
( )
berdasarkan pada perbedaan antara nilai dugaan Yˆi dengan nilai rata-rata (Y ) ,
sedangkan jumlah kuadrat sisaan adalah bagian keragaman yang tidak terjelaskan
oleh persamaan regresi dan dihitung berdasarkan pada pebedaan antara nilai setiap
( )
pengamatan (Yi) dengan nilai dugaannya Yˆi . Hubungan antara jumlah-jumlah
kuadrat tersebut dapat dinyatakan sebagai berikut:
Jumlah Kuadrat Total = Jumlah Kuadrat Regresi + Jumlah Kuadrat Sisaan
atau
JKT = JKR + JKS .................................................................................... [7.14]
dimana
1
JKT = å ( yi - y ) = å yi2 - ( yi ) ................................................ [7.15]
2
å
2

i n
dan
1
JKR = å ( yˆi - y ) = b0 å yi + b1 å xi yi - ( yi ) ........................... [7.16]
2
å
2

i n

193
serta

JKS = å ( yi - yˆi ) = å yi2 - b0 å yi - b1 å xi yi ................................... [7.17]


2

Untuk Contoh 7.4 di atas, kita peroleh bahwa JKT = 4184,388 dan JKR = 805,147 serta
JKS = 3379,241.
Ukuran keragaman yang lain adalah adalah koefisien determinasi, R2. Koefisien
determinasi merupakan bagian keragaman dari variabel Y yang dijelaskan oleh
persamaan regresinya. Nilai R2 dihitung dengan rumus berikut:
JKR
R2 = ............................................................................................. [7.18]
JKT
Untuk Contoh 7.4 di atas, kita peroleh bahwa
805,147
R2 = = 0,1924
4184,388
Nilai R2 tersebut menunjukkan bahwa persamaan garis regresi linier
yˆ i = 12,927 + 0,1782x i menjelaskan 19,24% dari keragaman berat kering sampel
tanah. Hal ini berarti, sekitar 81% dari keragaman tersebut tidak terjelaskan oleh
persamaan regresinya.

7.6 Membaca output komputer

7.6.1 MINITAB
Setiap program statistik menyajikan hasil analisisnya dengan cara yang berbeda,
akan tetapi informasi dasar yang disajikan pada umumnya sama. Pasangan data (x,
y) biasanya diinput ke dalam dua kolom (variabel) yang berbeda, misalnya dalam
program MINITAB kedua variabel tersebut dalam Contoh 7.4 masing-masing
disimpan dalam kolom C1 dengan nama ‘B_basah’ dan kolom C2 dengan nama
‘B_kering’. Analisis regresi dapat dilakukan dengan memilih menu
Stat † Regression † Regression...
Perintah tersebut akan mengaktifkan jendela Regression seperti terlihat dalam
Gambar 7.7.
Isikan variabel dependen (Y) ke dalam kotak Response: (dalam hal ini ‘B_kering’)
dan variabel bebas (X) ke dalam kotak Predictors: (dalam hal ini ‘B_basah’), lalu
klik OK.

194
Gambar 7.7 Jendela Regression dalam MINITAB

Tabel 7.2 Output MINITAB untuk data dalam Contoh 7.4


MTB > Regress 'B_kering' 1 'B_basah';
SUBC> Constant.

Regression Analysis

The regression equation is


B_kering = 12.9 + 0.178 B_basah

Predictor Coef StDev T P


Constant 12.927 4.212 3.07 0.003
B_basah 0.17818 0.04187 4.26 0.000

S = 6.668 R-Sq = 19.2% R-Sq(adj) = 18.2%

Analysis of Variance

Source DF SS MS F P
Regression 1 805.15 805.15 18.11 0.000
Error 76 3379.24 44.46
Total 77 4184.39

Unusual Observations
Obs B_basah B_kering Fit StDev Fit Residual St Resid
4 57 26.270 23.108 1.907 3.162 0.49 X
30 57 26.270 23.108 1.907 3.162 0.49 X
66 114 64.440 33.316 0.995 31.124 4.72R

Output dari program paket statistik MINITAB untuk Contoh 7.4 disajikan dalam
Tabel 7.2. Dalam tabel tersebut, dua baris pertama dari output MINITAB adalah
perintah dalam MINITAB untuk analisis regresi. Nilai b0 = 12,297 dan b1 = 0,17818

195
tercantum dalam kolom “Coef“ dari output tersebut. Selain itu, output tersebut
juga menyajikan statistik lain, diantaranya adalah
S, simpangan baku sisaan: se = 0,668
R-Sq, koefisien determinasi: R2 = 19,2%
Regression SS, jumlah kuadrat regresi: JKR = 805,15
Error SS, jumlah kuadrat sisa: JKS = 3379,24
Total SS, jumlah kuadrat total, JKT = 4184,39
Jumlah-jumlah kuadrat tersebut biasa disusun dalam suatu tabel analisis keragaman
(analysis of variance). Dalam output MINITAB, tabel analisis keragaman disajikan di
bawah judul “Analysis of Variance”. Kolom “Source” di bawah judul
tersebut mendefinisikan sumber-sumber keragaman dalam analisis regresi, yang
merupakan penguraian dari keragaman total, yaitu keragaman karena model regresi
(Regression) dan keragaman karena faktor lain (Error). Kolom “DF” adalah
derajat bebas bagi masing-masing sumber keragaman (source of variance),
sedangkan kolom “SS” adalah jumlah kuadratnya, dan kolom “MS” adalah kuadrat
tengah (Mean squares) bagi masing-masing sumber keragaman. Nilai kuadrat
tengah, biasa dinotasikan dengan KT, dihitung dengan cara membagi jumlah kuadrat
dengan derajat bebas bagi sumber keragaman yang bersesuaian, yaitu
JKR
KTR = ......................................................................................... [7.19]
k -1
dan
JKS
KTS = ......................................................................................... [7.20]
n-k
dimana KTR dan KTS, masing-masing adalah kuadrat tengah regresi dan kuadrat
tengah sisa.
Kolom F dalam tabel analisis keragaman menyajikan nilai statistik F, dimana
JKR (k - 1)
F= .................................................................................... [7.21]
JKS (n - k)
Statistik F tersebut berdistribusi mengikuti kaidah distribusi F dengan derajat bebas
n1 = k – 1 dan n2 = n – k. Dalam output tersebut nilai statistik F tercantum dalam
kolom “F” yaitu = 18,11. Nilai statistik tersebut kemudian dibandingkan nilai teoritis
distribusi F dengan derajat bebas n1 = 1 dan n2 = 76, yang menghasilkan nilai P =
0.000. Dalam analisis regresi linier sederhana statistik F tersebut menguji pasangan
hipotesis H0: b1 = 0 vs H1: b1 ! 0 (pengujian hipotesis ini dibahas secara lebih rinci
pada Subbab 7.7).
Output tersebut juga menampilkan nilai koefisien determinasi terkoreksi, “R-
Sq(adj)”. Nilai tersebut dihitung dengan rumus berikut:

196
k -1
2
Rterkoreksi = R2 -
n-k
( )
1 - R2 ................................................................ [7.22]

dimana k adalah jumlah koefisien regresi (dalam hal ini adalah dua, yaitu b0 dan b1);
dan n adalah jumlah pengamatan (dalam hal ini adalah 78). Nilai koefisien
determinasi terkoreksi sering digunakan ketika model regresinya menjadi lebih
kompleks, misalnya dalam analisis regresi berganda.

7.6.2 Excel
Dengan Excel kedua variabel tersebut dalam Contoh 7.4
masing-masing disimpan dalam kolom B dengan nama
cell B1 ‘Brt.Basah’ dan kolom C dengan nama cell C1
‘Brt.Kering’. Simpan worksheet Excel tersebut
dengan nama ‘regresi.sederhana’.
Analisis regresi dapat dilakukan dengan memilih tab
menu
Data † Data Analysis † Regression
Perintah tersebut akan mengaktifkan jendela Regression seperti terlihat dalam
Gambar 7.8.

Gambar 7.8 Jendela Regression dalam Excel


Pada kotak Input Y Range masukkan range data variable respons (dalam hal ini
‘Brt.Kering’), yaitu $C$1:$C$79 dan pada kotak Input X Range masukkan range
data variable predictors (dalam hal ini ‘Brt.Basah’), yaitu $B$1:$B$79 serta cen-
tang kotak Labels, lalu klik OK.

197
Output dari program paket statistik Excel untuk Contoh 7.4 disajikan dalam Tabel
7.3.

Tabel 7.3 Output Excel untuk data dalam Contoh 7.4


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.438653
R Square 0.192417
Adjusted R Square 0.181791
Standard Error 6.668111
Observations 78

ANOVA
Df SS MS F Significance F
Regression 1 805.147 805.147 18.10796 5.89E-05
Residual 76 3379.241 44.4637
Total 77 4184.388

Coefficients Standard Error t Stat P-value


Intercept 12.92685 4.211987 3.069062 0.002976
Brt.Basah 0.178181 0.041872 4.255345 5.89E-05

7.6.3 Program R

Analisis regresi juga dapat dilakukan dengan menggunakan software open source R,
dalam hal ini digunakan R Commander. Untuk menjalankan R Commander, kita bisa
menggunakan perintah
> library(Rcmdr)
Pengisian data secara langsung menggunakan R Commander dapat dilakukan me-
lalui menu Data/New data set . Setelah itu, jendela dialog pengisian nama dataset
akan ditampilkan, seperti yang terlihat pada Gambar 7.9.

Gambar 7.9 Jendela Dialog Pengisian Nama Data Set

Pada jendela dialog New Data Set, tuliskan ‘tanah.gambut’ sebagai nama data
set baru tersebut. Kemudian klik OK, dan jendela dialog RGUI – Data Editor akan
terbuka seperti pada Gambar 7.10.

198
8 P e n g e n al a n A n a li si s Re gre s i
B e rg a n d a

8.1 Pendahuluan
Regresi berganda (multiple regression) adalah regresi dengan dua atau lebih variabel
X, sehingga merupakan perluasan dari regresi linier sederhana. Dalam banyak hal,
perluasan dari regresi linier sederhana ke regresi linier berganda sangat jelas dan
mudah dipahami. Namun demikian, regresi linier berganda tentu saja agak lebih
kompleks karena melibatkan lebih banyak variabel yang dapat menimbulkan
permasalahan statistik yang berbeda. Beberapa konsep dasar tentang regresi
berganda akan kita bahas dalam bab ini.

8.2 Model regresi berganda


Dalam regresi linier sederhana, biasa juga disebut sebagai regresi dengan dua
variabel, nilai harapan bagi variabel Y kita pandang sebagai fungsi linier dari X (lihat
Persamaan [7.3]). Model probabilistik dalam regresi berganda pada dasrnya
merupakan perluasan dari Model [7.3] tersebut, misalnya, untuk dua variabel X,
yaitu X1 dan X2 modelnya adalah:
E (Yi | xi ) = b0 + b1 xi 1 + b 2 xi 2 ................................................................ [8.1]
(xi1 adalah nilai yang ke-i dari variabel X1). Dalam hal ini, nilai harapan bagi variabel
Y sama dengan b0 jika x1 = x2 = 0. Koefisien bagi x1, yaitu b1, adalah perubahan dalam
nilai rata-rata Y untuk setiap peningkatan x1 sebesar satu satuan jika x2 tetap.
Demikian juga, koefisien bagi x2, yaitu b2, adalah perubahan dalam nilai rata-rata Y
untuk setiap peningkatan x2 sebesar satu satuan jika x1 tetap.
Secara umum, model bagi regresi liner berganda yang melibatkan k – 1 variabel X
adalah sebagai berikut
E (Yi |xi ) = b0 + b1 xi1 + b 2 xi 2 + b3 xi 3 + + bk -1 xi ,k -1 ............................. [8.2]

Dalam kasus ini, k adalah jumlah parameter regresi dalam model (bi). Nilai harapan
bagi variabel Y sama dengan b 0 jika x1 = x2 = ... = xk-1 = 0. Koefisien bagi xk, yaitu bk,
adalah perubahan dalam nilai rata-rata Y untuk setiap peningkatan xk sebesar satu
satuan jika nilai variabel X lainnya tetap. Seperti juga dalam regresi linier sederhana,
nilai pengamatan bagi variabel Y dirumuskan sebagai penjumlahan antara nilai
harapannya dengan suatu variabel galat:
Yi = E (Yi | xi ) + e i ................................................................................... [8.3]

217
Seperti juga dalam regresi linier sederhana, prosedur pendugaan bagi koefisien-
koefisien regresi dapat dilakukan dengan metode kuadrat terkecil. Model regresi
sampel untuk Model [8.2] adalah
yˆi = b0 + b1 xi 1 + b2 xi 2 + b3 xi 3 + + bk -1 xi ,k -1 ........................................... [8.4]
Dengan metode kuadrat terkecil, nilai-nilai b0, b1, b2, ..., bk-1 diperoleh sedemikian
rupa sehingga meminimumkan jumlah kuadrat sisa, JKS:
JKS = å (yi - yˆi )2
i
.................................................................................. [8.5]
= å ei2
i

Penulisan dengan menggunaan notasi matriks biasanya lebih disukai karena


memungkinkan penulisan model tersebut dalam bentuk yang lebih sederhana dan
dapat berlaku secara umum. Dalam notasi matriks, persamaan regresi sampel
dituliskan sebagai berikut:
Y = Xb + e ............................................................................................. [8.6]

Untuk kasus yang melibatkan n nilai pengamatan dengan k buah koefisien regresi, Y
adalah suatu matriks berukuran n × 1 yang merupakan nilai-nilai pengamatan bagi
variabel Y; X adalah suatu matrik berukuran n × k yang setiap kolomnya merupakan
nilai-nilai pengamatan bagi masing-masing variabel X, kecuali kolom pertama dari
matriks X yang merupakan kolom yang bernilai 1; b adalah matriks berukuran k × 1
yang merupakan koefisien regresi dan e adalah matriks berukuran n × 1 yang
merupakan nilai-nilai galat:

é y1 ù é1 x11 x12 x1,1 k -1 ù é b0 ù é e1 ù


êy ú ê1 x x22 x22,k -1 úú êb ú êe ú
Y =ê 2ú X =ê b =ê 1 ú e =ê 2ú
21
n´1 ê ú n´k ê ú k ´1 ê ú n´1 ê ú
ê ú ê ú ê ú ê ú
ë yn û ëê1 xn ,1 xn ,2 xn ,k -1 úû ëbk -1 û ë en û
Dengan menggunakan aljabar matriks, nilai dugaan bagi koefisien regresi dalam
analisis regresi berganda adalah

b = ( X ' X ) X ' Y ..................................................................................... [8.7]


-1

Perhitungan-perhitungan dalam regresi berganda menjadi sangat tidak praktis jika


kita lakukan dengan menggunakan kalkulator biasa, terutama jika jumlah variabel X
dalam model tersebut lebih dari dua. Oleh karena itu dalam bab ini kita akan lebih
memfokuskan diri untuk mencoba memahami output komputer.

218
8.3 Data PULSE.MTW
Untuk keperluan praktis, berbagai ilustrasi akan kita gunakan data tentang
pengukuran denyut nadi yang tersimpan dalam file PULSE.MTW yang terdapat
dalam program MINITAB (data tersebut merupakan salah satu sampel data dari
program MINITAB dan tersimpan dalam sub directory DATA dimana program
MINITAB disimpan, misalnya C:\MTBWIN\DATA). Data tersebut berasal dari suatu
percobaan sederhana yang melibatkan 92 orang mahasiswa. Setiap mahasiswa
diukur tinggi dan berat badannya, selain itu dicatat juga jenis kelamin, kebiasaan
merokok dan kebiasan berolahraga serta denyut nadinya pada saat beristirahat.
Sebagian dari mereka diminta berlari-lari di tempat selama satu menit, setelah itu
semua mahasiswa diukur lagi denyut nadinya (Tabel 8.1).

Tabel 8.1 Data PULSE.MTW


Activity

Activity
Weight

Weight
Smoke

Smoke
Height

Height
Pulse1

Pulse2

Pulse1

Pulse2
Ran

Ran
Sex

Sex
No

No

1 64 88 1 2 1 66.00 140 2 47 68 64 2 2 1 69.50 150 3


2 58 70 1 2 1 72.00 145 2 48 82 84 2 1 1 73.00 180 2
3 62 76 1 1 1 73.50 160 3 49 64 62 2 2 1 75.00 160 3
4 66 78 1 1 1 73.00 190 1 50 58 58 2 2 1 66.00 135 3
5 64 80 1 2 1 69.00 155 2 51 54 50 2 2 1 69.00 160 2
6 74 84 1 2 1 73.00 165 1 52 70 62 2 1 1 66.00 130 2
7 84 84 1 2 1 72.00 150 3 53 62 68 2 1 1 73.00 155 2
8 68 72 1 2 1 74.00 190 2 54 48 54 2 1 1 68.00 150 0
9 62 75 1 2 1 72.00 195 2 55 76 76 2 2 1 74.00 148 3
10 76 118 1 2 1 71.00 138 2 56 88 84 2 2 1 73.50 155 2
11 90 94 1 1 1 74.00 160 1 57 70 70 2 2 1 70.00 150 2
12 80 96 1 2 1 72.00 155 2 58 90 88 2 1 1 67.00 140 2
13 92 84 1 1 1 70.00 153 3 59 78 76 2 2 1 72.00 180 3
14 68 76 1 2 1 67.00 145 2 60 70 66 2 1 1 75.00 190 2
15 60 76 1 2 1 71.00 170 3 61 90 90 2 2 1 68.00 145 1
16 62 58 1 2 1 72.00 175 3 62 92 94 2 1 1 69.00 150 2
17 66 82 1 1 1 69.00 175 2 63 60 70 2 1 1 71.50 164 2
18 70 72 1 1 1 73.00 170 3 64 72 70 2 2 1 71.00 140 2
19 68 76 1 1 1 74.00 180 2 65 68 68 2 2 1 72.00 142 3
20 72 80 1 2 1 66.00 135 3 66 84 84 2 2 1 69.00 136 2
21 70 106 1 2 1 71.00 170 2 67 74 76 2 2 1 67.00 123 2
22 74 76 1 2 1 70.00 157 2 68 68 66 2 2 1 68.00 155 2
23 66 102 1 2 1 70.00 130 2 69 84 84 2 2 2 66.00 130 2
24 70 94 1 1 1 75.00 185 2 70 61 70 2 2 2 65.50 120 2
25 96 140 1 2 2 61.00 140 2 71 64 60 2 2 2 66.00 130 3
26 62 100 1 2 2 66.00 120 2 72 94 92 2 1 2 62.00 131 2
27 78 104 1 1 2 68.00 130 2 73 60 66 2 2 2 62.00 120 2
28 82 100 1 2 2 68.00 138 2 74 72 70 2 2 2 63.00 118 2
29 100 115 1 1 2 63.00 121 2 75 58 56 2 2 2 67.00 125 2
30 68 112 1 2 2 70.00 125 2 76 88 74 2 1 2 65.00 135 2
31 96 116 1 2 2 68.00 116 2 77 66 72 2 2 2 66.00 125 2
32 78 118 1 2 2 69.00 145 2 78 84 80 2 2 2 65.00 118 1
33 88 110 1 1 2 69.00 150 2 79 62 66 2 2 2 65.00 122 3
34 62 98 1 1 2 62.75 112 2 80 66 76 2 2 2 65.00 115 2
35 80 128 1 2 2 68.00 125 2 81 80 74 2 2 2 64.00 102 2
36 62 62 2 2 1 74.00 190 1 82 78 78 2 2 2 67.00 115 2
37 60 62 2 2 1 71.00 155 2 83 68 68 2 2 2 69.00 150 2

219
Activity

Activity
Weight

Weight
Smoke

Smoke
Height

Height
Pulse1

Pulse2

Pulse1

Pulse2
Ran

Ran
Sex

Sex
No

No
38 72 74 2 1 1 69.00 170 2 84 72 68 2 2 2 68.00 110 2
39 62 66 2 2 1 70.00 155 2 85 82 80 2 2 2 63.00 116 1
40 76 76 2 2 1 72.00 215 2 86 76 76 2 1 2 62.00 108 3
41 68 66 2 1 1 67.00 150 2 87 87 84 2 2 2 63.00 95 3
42 54 56 2 1 1 69.00 145 2 88 90 92 2 1 2 64.00 125 1
43 74 70 2 2 1 73.00 155 3 89 78 80 2 2 2 68.00 133 1
44 74 74 2 2 1 73.00 155 2 90 68 68 2 2 2 62.00 110 2
45 68 68 2 2 1 71.00 150 3 91 86 84 2 2 2 67.00 150 3
46 72 74 2 1 1 68.00 155 3 92 76 76 2 2 2 61.75 108 2

Kolom Nama Keterangan


C1 Pulse1 Denyut nadi pada pengukuran pertama
C2 Pulse2 Denyut nadi pada pengukuran kedua
C3 Ran 1 = lari-lari di tempat; 2 = tidak lari-lari di tempat
C4 Smoke 1 = merokok; 2 = kadang-kadang merokok
C5 Sex 1 = laki-laki; 2 = perempuan
C6 Height Tinggi badan (dalam inci)
C7 Weight Berat badan (dalam pound)
C8 Activity Tingkat aktivitas fisik sehari-hari:
1 = rendah

Misalkan Y adalah denyut nadi mahasiswa pada pengukuran pengukuran kedua


(Pulse2). Sangat beralasan jika kita mencoba menduga nilai Y (denyut nadi
mahasiswa pada pengukuran pengukuran kedua) dengan hasil pengukuran pertama
(X = Pulse1). Dengan analisis regresi linier sederhana kita peroleh bahwa persamaan
regresi sampelnya adalah (Tabel 8.2)
yˆi = 10,3 + 0,957xi
Persamaan tersebut menjelaskan sekitar 37% (R-Sq (adj) = 37,3%) dari keragaman
dalam nilai-nilai pengukuran pertama denyut nadi mahasiswa dalam kelas tersebut.
Denyut nadi pada pengukuran kedua diduga akan meningkat sebesar 0,957 untuk
setiap peningkatan denyut nadi pada pengukuran pertama.

Tabel 8.2 Output regresi linier sederhana dari data PULSE.MTW dengan
program MINITAB
Regression Analysis

The regression equation is


Pulse2 = 10.3 + 0.957 Pulse1

Predictor Coef StDev T P


Constant 10.278 9.499 1.08 0.282
Pulse1 0.9568 0.1289 7.42 0.000

S = 13.54 R-Sq = 38.0% R-Sq(adj) = 37.3%

Analysis of Variance

220
Source DF SS MS F P
Regression 1 10096 10096 55.09 0.000
Error 90 16494 183
Total 91 26590

Andaikan dalam menduga denyut nadi pada pengukuran kedua tersebut juga
melibatkan variabel lain selain pengukuran pertama, misalnya variabel berat badan
mahasiswa (Weight), maka kita mempunyai model regresi dengan dua variabel in-
dependen, yaitu x1 = Pulse1 dan x2 = Weight. Dengan menggunakan MINITAB kita
memperoleh persamaan regresinya adalah sebagai berikut (lihat Tabel 8.3):
yˆi = 44,5 + 0,942xi1 - 0,033xi 2
Koefisien regresi bagi Pulse1 tetap bertanda positif dan signifikan (t = 7,13 dengan
P = 0,000), tetapi mengalami sedikit penurunan, yaitu dari 0,957 menjadi 0,942.

Tabel 8.3 Output MINITAB untuk Regresi dengan Dua Variabel X


The regression equation is
Pulse2 = 16.1 + 0.942 Pulse1 - 0.0330 Weight

Predictor Coef StDev T P


Constant 16.12 14.44 1.12 0.267
Pulse1 0.9424 0.1322 7.13 0.000
Weight -0.03303 0.06128 -0.54 0.591

S = 13.59 R-Sq = 38.2% R-Sq(adj) = 36.8%


Perhatikan bahwa koefisien determinasi R2 meningkat dari 38% menjadi 38,2%.
Penomena seperti ini terjadi secara umum, artinya setiap penambahan jumlah
variabel independen ke dalam persamaan regresi akan selalu disertai dengan
meningkatnya nilai koefisien determinasi, walaupun mungkin variabel independen
yang baru tersebut sebenarnya tidak terlalu mempengaruhi nilai variabel Y. Hal ini
berbeda dengan koefisien determinasi terkoreksi, R-Sq(adj), penambahan
variabel independen ke dalam suatu persamaan regresi tidak selalu disertai dengan
meningkatnya nilai koefisien determinasi terkoreksi (lihat penjelasan pada Subbab
8.4). Misalnya untuk kasus di atas, terjadi penurunan koefisien determinasi
terkoreksi dari 37,3% menjadi 36,8%. Keadaan ini menunjukkan bahwa
penambahan variabel berat badan ke dalam persamaan regresi tidak meningkatkan
ketelitian pendugaan bagi nilai Pulse2. Hal ini didukung dengan kenyataan bahwa
nilai t bagi variabel Weight yang kecil (t = –0,54 dengan P = 0,591).
Koefisien bagi Pulse1, b1 = 0,942, diinterpretasikan sebagai berikut:
Nilai dugaan bagi Pulse2 akan meningkat sebesar 0,942 hitungan untuk setiap
peningkatan satu hitungan Pulse1 jika berat badan tetap konstan.
Koefisien bagi Weight, b2 = –0,033, diinterpretasikan sebagai berikut:

221
Nilai dugaan bagi Pulse2 akan berkurang sebesar 0,033 hitungan untuk setiap
peningkatan satu pound berat badan mahasiswa jika nilai hitungan Pulse1
tetap konstan.
Secara umum, koefisien bagi variabel independen ke k (Xk), yaitu bk,
diinterpretasikan sebagai berikut:
Nilai dugaan bagi varibel Y akan meningkat/menurun sebesar bk satuan
untuk setiap peningkatan variabel Xk sebesar satu satuan jika nilai-nilai
variabel independen lainnya tetap sama.

8.4 Pemilihan variabel


Kadang-kadang kita dapat mengetahui bentuk model yang sebaiknya digunakan,
yaitu variabel X yang mana yang sebaiknya dicantumkan dalam model, dan
bagaimana hubungan variabel tersebut dengan variabel Y, apakah linier atau tidak.
Namun demikian, teori atau penelitian sebelumnya sering kali hanya memberikan
tuntunan yang samar-samar dan informasi yang kurang jelas. Oleh karena itu, yang
sering terjadi adalah bahwa kita harus mengamati data yang kita punyai secara teliti
untuk dapat menentukan model yang baik.
Penambahan variabel independen X ke dalam suatu persamaan regresi akan
menyebabkan terjadinya beberapa perubahan yang menimbulkan berbagai
pertanyaan, diantaranya adalah:
1. Pendugaan menjadi menjadi lebih baik: Koefisien determinasi, R2
meningkat dan simpangan baku sisaan, se, mengecil. Pertanyaannya adalah,
apakah peningkatan dalam pendugaan tersebut cukup besar?
2. Apakah koefisien-koefisien regresinya berbeda dari nol? dan apakah
koefisien regresi tersebut cukup besar sehingga variabel yang bersangkutan
merupakan hal yang cukup penting?
3. Koefisien regresi bagi variabel-variabel independen yang berkaitan akan
mengalami perubahan. Apakah penambahan variabel baru tersebut secara
nyata menyebabkan berubahnya kesimpulan kita tentang pengaruh
variabel-variabel X lain?
Jika jawaban bagi salah satu pertanyaan tersebut adalah “Ya”, maka variabel
independen yang baru tersebut sebaiknya dimasukkan ke dalam model. Jawaban
“Tidak” menunjukkan bahwa variabel tersebut kurang memberikan kontribusi
sehingga sebaiknya tidak dimasukkan ke dalam model, kecuali jika secara teoritis
variabel tersebut penting.
Salah satu tujuan dalam pemilihan variabel adalah untuk mendapatkan suatu model
yang sederhana tetapi cukup baik menjelaskan keadaan data, yang disebut

222
2
parsimony. Nilai koefisien determinasi terkoreksi, Rterkoreksi (R-Sq(adj)), yang
dihitung dengan rumus
k -1
2
Rterkoreksi = R2 -
n-k
( )
1 - R2 .................................................................. [8.8]

mencerminkan azas parsimony ini, karena menggabungkan suatu ukuran kecocokan


(R2) dengan suatu ukuran perbedaan kompleksitas antara data (n) dengan model (k).
Ketika suatu variabel X ditambahkan ke dalam suatu persamaan regresi, maka R2
2
akan selalu bertambah, tetapi Rterkoreksi mungkin tidak berubah atau bahkan
berkurang jika meningkatnya ukuran kecocokan tersebut relatif kecil dibandingkan
dengan meningkatnya kompleksitas karena penambahan variabel tersebut (model
menjadi lebih rumit karena adanya variabel baru).
Aplikasi lain yang sering digunakan dalam pemilihan variabel adalah varians sisaan
(residual variance atau biasa juga disebut mean squared error), yaitu
JKS
se2 = ............................................................................................. [8.9]
n-k
dan simpangan baku sisaan (residual standard deviation), yaitu
JKS
se = ......................................................................................... [8.10]
n-k
Semakin kecil varians dan simpangan baku sisaan suatu persamaan regresi maka
semakin kecil pula keragaman yang tidak terjelaskan oleh persamaan regresi,
sehingga semakin baik persamaan regresi tersebut.
Selain itu, statistik lain yang dapat digunakan dalam pemilihan variabel adalah
Mallows’ Cp:
JKSp
Cp = + 2p - n ................................................................................ [8.11]
se2

dimana se2 adalah varians sisaan dari model persamaan regresi yang melibatkan
semua variabel X yang relevan; JKSp adalah jumlah kuadrat sisa dari suatu model
persamaan regresi yang hanya melibatkan sebagian dari variabel X yang relevan,
yaitu hanya p buah variabel X (p ! k).
Untuk model persamaan regresi yang melibatkan semua variabel X maka Cp = p = k.
Suatu model persamaan regresi dikatakan cukup baik jika nilai Cp mendekati nilai p.
Jika nilai Cp lebih besar dari p maka hal ini menunjukkan bahwa ada satu atau
beberapa variabel X yang sebenarnya penting tidak dimasukkan ke dalam model
persamaan regresi tersebut. Dengan kriteria ini, maka model yang kita cari adalah
suatu model dengan nilai p yang kecil dan nilai Cp yang kecil dimana p " Cp.

223
Gambar 8.1 Jendela Best Subset Regression dalam program MINITAB
Program MINITAB mempunyai fasilitas untuk menghitung berbagai kriteria dalam
pemilihan variabel untuk dimasukkan ke dalam model persamaan regresi. Fasilitas
tersebut dapat diakses dengan memilih menu
Stats † Regression † Best subset...
Perintah tersebut akan mengaktifkan jendela Best Subset Regression seperti
telihat dalam Gambar 8.1. Output dari perintah tersebut dapat dilihat dalam Tabel
8.4.

Tabel 8.4 Output dari perintah Best Subset Regression


Response is Pulse2

A
c
P S H W t
u m e e i
l o i i v
s R k S g g i
R-Sq e a e e h h t
Vars R-Sq (adj) C-p S 1 n s x t t y

1 38.0 37.3 108.1 13.538 X


2 67.7 67.0 16.1 9.8219 X X
3 72.1 71.2 4.1 9.1751 X X X
4 72.9 71.7 3.5 9.0929 X X X X
5 73.2 71.7 4.6 9.0951 X X X X X
6 73.4 71.5 6.2 9.1260 X X X X X X
7 73.4 71.2 8.0 9.1716 X X X X X X X

Dalam memilih variabel untuk suatu model persamaan regresi, terdapat dua
kemungkinan kesalahan yang dapat terjadi, yaitu:

224
a. Memasukkan suatu variabel yang tidak relevan. Variabel Xk adalah variabel
yang tidak relevan jika nilai bk yang sebenarnya adalah nol, atau sangat kecil
sehingga dapat dianggap tidak penting. Dengan dimasukkannya variabel X
yang tidak relevan, maka koefisien dan nilai dugaannya akan sangat
bervariasi, selain itu model yang kita bangun menjadi lebih rumit.
b. Tidak memasukkan variabel yang relevan. Variabel Xk adalah variabel yang
relevan jika nilai bk yang sebenarnya adalah tidak nol, dan nilainya cukup
besar sehingga dapat dianggap tidak penting. Dengan tidak dimasukkannya
variabel X yang relevan ke dalam model, maka semua aspek yang berkaitan
dengan regresi (koefisien, pendugaan dan sebagainya) menjadi tidak dapat
dipercaya, karena model kita terlalu sederhana.
Salah satu prosedur pemilihan variabel yang populer digunakan dalam analisis re-
gresi adalah Regresi Stepwise (Stepwise Regression). Regresi Stepwise merupakan
suatu prosedur pemilihan variabel secara otomatis. Terdapat tiga jenis prosedur
yang dapat digunakan, yaitu:
a. Metode backward elimination
Metode backward elimination dilakukan dengan langkah-langkah berikut:
1. Mulai dengan model terlengkap, yakni yang mengandung semua varia-
bel independen (X).
2. Cari satu variabel independen yang memiliki nilai p-value terbesar dan
lebih besar dari taraf nyata a. Variabel ini hanya memberikan kontribusi
yang kecil terhadap koefisien determinasi (R2). Keluarkan variabel ter-
sebut dari model.
3. Ulangi proses penyesuai (fitting) model, kemudian kembali ke langkah
2.
4. Berhenti jika semua nilai p-value bagi variabel X dalam model kurang
dari taraf nyata.
b. Metode forward inclusion
Langkah-langkahnya metode forward inclusion merupakan kebalikan dari
metode backward elimination, yaitu:
1. Mulai dengan tidak ada variabel X dalam model (model dengan kon-
stanta).
2. Pilih satu variabel X yang mempunyai nilai koefisien korelasi tertinggi
dengan Y.
3. Setelah itu, pada setiap langkah berikutnya tambahkan variabel X yang
mempunyai nilai p-value terkecil dan menghasilkan peningkatan nilai
koefisien determinasi terbesar.
4. Berhenti tidak ada lagi variabel X yang ‘signifikan’.
c. Metode gabungan

225
Metode ini merupakan kombinasi dari kedua metode di atas. Dengan metode
ini pada setiap langkah analisis, kita dapat melakukan penambahan variabel in-
dependen yang telah dibuang atau pengurangan variabel independen yang te-
lah ditambahkan pada langkah-langkah pemilihan terdahulu.
Prosedur Stepwise dapat menggunakan beberapa kriteria untuk menghentikan
prosesnya (stopping rules), misalnya berdasarkan tingkat ‘signifikan’ (taraf nyata),
jumlah variabel X, atau kriteria lainnya. Sebagai contoh, prosedur stepwise dapat
menambahkan atau mengurangkan variabel sampai model regresinya hanya
mengandung variabel yang ‘signifikan’ saja. Hal ini bisa dicapai dengan Metode for-
ward inclusion dengan menentukan nilai Alpha-to-Enter atau nilai F-to-Enter. Nilai-
nilai tersebut merupakan nilai yang disyaratkan agar suatu variabel X dapat di-
masukkan ke dalam model. Ketika tidak ada lagi variabel yang memenuhi syarat ter-
sebut, maka proses pemilihan variabel berhenti. Dengan cara yang sama metode
backward elimination dapat menerapkan nilai Alpha-to-remove atau nilai F-to-re-
move sebagai kriteria untuk menghentikan proses. Proses eliminasi berhenti ketika
semua variabel di dalam model memenuhi syarat tersebut.
Analisis Regresi Stepwise dalam MINITAB dijalankan dengan memilih menu
Stats † Regression † Stepwise...
Pilihan tersebut akan mengaktifkan Jendela Stepwise Regression. Lengkapi kotak-
kotak pilihan Response: dan Predictors: dengan variabel dependen (Y) dan
variabel independen (X). Kemudian klik Methods... Pilihan ini mengaktifkan jendela
Stepwise-Method. Pilihlah metode yang akan digunakan (lihat Gambar 8.2)

Gambar 8.2 Jendela Stepwise Regression dalam MINITAB


Tabel 8.5 menyajikan hasil Regresi Stepwise dengan Metode forward inclusion. Da-
lam table tersebut nilai p-value yang digunakan adalah 0,10. Dengan metode ini,
proses pemilihan variabel diselesaikan dalam tiga tahap. Tahap pertama dimulai

226
dengan hanya melibatkan Pulse1 dalam model. Model pada tahap pertama
menghasilkan R2 = 37.97% dengan Mallows C-p = 108.1. Hal ini menunjukkan bahwa
kecocokan model tersebut bisa ditingkatkan dengan menambahkan variabel lain ke
dalam model. Pada tahap kedua, variabel Ran ditambahkan ke dalam model. Terjadi
penigkatan koefisien determinasi yang substansial (R2 meningkat menjadi 67.71%
2
dan Rterkoreksi menjadi 66,98%). Pada tahap ini, nilai Mallows-C-p masih cukup besar.
Hal ini mengindikasikan masih ada variabel X yang bisa ditambahkan ke dalam
model. Pada tahap ketiga ditambahkan variabel Sex ke dalam model. Pada tahap ini
2
koefisien determinasi R2 meningkat menjadi 72.14% dan Rterkoreksi menjadi 71,19%.
Nilai Mallows C-p pada tahap ini adalah 4,1, hal ini menunjukkan bahwa model re-
gresi dengan tiga variabel X telah cukup baik merepresentasikan data. Setelah tahap
ketiga tidak ada lagi variabel X yang signifikan (semua variabel X yang tersisa
mempunyai nilai p-value yang lebih besar dari 0,10. Oleh karena itu proses seleki
dihentikan. Persamaan regresi yang dihasilkan adalah
yˆi = 42,62 + 0,812xi 1 - 20,1xi 2 + 7,8xi 3
dengan Y adalah Pulse2; X1 adalah Pulse1; X2 adalah Ran dan X3 adalah Sex. Model
persamaan regresi yang melibatkan ketiga variabel tersebut menghasilkan R2 =
2
72,1%, Rterkoreksi = 71,2%, Cp = 4,1  p = 4 dan se = 9,1751. Hasil tersebut sesuai
dengan Tabel 8.4.

Tabel 8.5 Output Stepwise Regression dengan Metode Seleksi Maju

Stepwise Regression: Pulse2 versus Pulse1, Ran, ...

Forward selection. Alpha-to-Enter: 0.1

Response is Pulse2 on 7 predictors, with N = 92

Step 1 2 3
Constant 10.28 44.48 42.62

Pulse1 0.957 0.912 0.812


T-Value 7.42 9.74 8.88
P-Value 0.000 0.000 0.000

Ran -19.1 -20.1


T-Value -9.05 -10.09
P-Value 0.000 0.000

Sex 7.8
T-Value 3.74
P-Value 0.000

S 13.5 9.82 9.18


R-Sq 37.97 67.71 72.14
R-Sq(adj) 37.28 66.98 71.19
Mallows C-p 108.1 16.1 4.1

227
Penambahan variabel Ran dan Sex ke dalam model telah menyebabkan penurunan
dalam koefisien regresi bagi variabel Pulse1. Persamaan regresi tersebut
menjelaskan sekitar 71% dari total keragaman dalam nilai variabel Pulse2, suatu nilai
yang cukup besar mengingat bahwa jumlah variabel yang ada di dalam model hanya
3 variabel. Perhatikan bahwa, walaupun seluruh variabel X dimasukkan ke dalam
model nilai koefisien determinasi terkoreksi hanya mencapai 71,2% (lihat tabel 8.4).
Oleh karena itu, model yang melibatkan 3 variabel, yaitu Pulse1, Ran dan Sex
memenuhi azas parsimony. Output MINITAB selengkapnya dapat dilihat dalam
Tabel 8.6.

Tabel 8.6 Output MINITAB bagi Regresi dengan 3 Variabel Independen


The regression equation is
Pulse2 = 42.6 + 0.812 Pulse1 - 20.1 Ran + 7.75 Sex

Predictor Coef StDev T P


Constant 42.618 7.358 5.79 0.000
Pulse1 0.81217 0.09151 8.88 0.000
Ran -20.069 1.989 -10.09 0.000
Sex 7.753 2.073 3.74 0.000

S = 9.175 R-Sq = 72.1% R-Sq(adj) = 71.2%

Analysis of Variance

Source DF SS MS F P
Regression 3 19182.0 6394.0 75.95 0.000
Error 88 7408.0 84.2
Total 91 26590.0

Source DF Seq SS
Pulse1 1 10096.1
Ran 1 7908.0
Sex 1 1177.8

Nilai-nilai dalam kolom Seq SS adalah nilai-nilai jumlah kuadrat sekuensial


(sequensial sum of squares) yaitu nilai jumlah kuadrat bagi setiap variabel
berdasarkan urutannya. Perhatikan bahwa 10096,1 adalah jumlah kuadrat bagi
Pulse1 jika hanya Pulse1 yang ada dalam model (lihat Tabel 8.2). Nilai 7908,0 adalah
tambahan atau kenaikan jumlah kuadrat jika variabel Ran ditambahkan ke dalam
model yang hanya mengandung Pulse1 saja. Sedangkan 1177,8 adalah tambahan
dalam jumlah kuadrat jika variabel Sex ditambahkan ke dalam model yang telah
mengandung Pulse1 dan Ran di dalamnya. Perhatikan bahwa 10096,1 + 7908 +
1177,8 = 19181,9 = Jumlah kuadrat Regresi.
Program R memberikan alternatif kriteria dalam pemilihan variabel X, yaitu Akaike
Information Criterion (AIC) dan Bayesian Information Criterion (BIC). Kriteria ini

228
digunakan untuk menambahkan/mengeluarkan variabel X dalam model ketika Re-
gresi Stepwise digunakan. Rumus AIC dan BIC didefinisikan sebagai
æs ö
AIC = nlog ç e ÷ + 2k .............................................................................. [8.12]
ènø

æs ö
BIC = nlog ç e ÷ + k log ( n ) ....................................................................... [8.13]
èn ø

dengan se adalah akar dari jumlah kuadrat sisaan, n adalah ukuran sampel, dan k
menunjukkan banyaknya variabel independen dalam model regresi, selain kompo-
nen konstanta.

Gambar 8.3 Jendela Stepwise Model Selection dalam R Commander

Fasilitas dalam R Commander untuk menggunakan Regresi Stepwise dapat diakses


dengan memilih menu Models/Stepwise model selection . Perintah tersebut akan
mengaktifkan jendela Stepwise Model Selection seperti terlihat pada Gambar 8.3.
pilih forward pada kolom direction, dan BIC pada kolom criterion, kemudian klik OK.
Output dari perintah tersebut dapat dilihat dalam Tabel 8.7.

Tabel 8.7 Output Regresi Stepwise dengan Program R

> stepwise(RegModel.1, direction='forward', criterion='BIC')

Direction: forward
Criterion: BIC

Start: AIC=525.84
Pulse2 ~ 1

Df Sum of Sq RSS AIC


+ Pulse1 1 10096.1 16494 486.43
+ Ran 1 8846.9 17743 493.14
+ Sex 1 2546.7 24043 521.10
<none> 26590 525.84
+ Weight 1 755.9 25834 527.71

229
+ Height 1 541.8 26048 528.47
+ Activity 1 529.4 26061 528.51
+ Smokes 1 55.9 26534 530.17

Step: AIC=486.43
Pulse2 ~ Pulse1

Df Sum of Sq RSS AIC


+ Ran 1 7908.0 8585.8 430.88
<none> 16493.9 486.43
+ Sex 1 516.9 15977.0 488.02
+ Activity 1 280.7 16213.1 489.37
+ Weight 1 53.7 16440.2 490.65
+ Smokes 1 30.3 16463.6 490.78
+ Height 1 4.2 16489.7 490.93

Step: AIC=430.88
Pulse2 ~ Pulse1 + Ran

Df Sum of Sq RSS AIC


+ Sex 1 1177.80 7408.0 421.83
+ Weight 1 834.53 7751.3 426.00
+ Height 1 606.26 7979.6 428.67
<none> 8585.8 430.88
+ Activity 1 313.32 8272.5 431.99
+ Smokes 1 116.74 8469.1 434.15

Step: AIC=421.83
Pulse2 ~ Pulse1 + Ran + Sex

Df Sum of Sq RSS AIC


<none> 7408.0 421.83
+ Activity 1 214.811 7193.2 423.65
+ Weight 1 52.704 7355.3 425.70
+ Smokes 1 25.945 7382.1 426.03
+ Height 1 1.301 7406.7 426.34

Call:
lm(formula = Pulse2 ~ Pulse1 + Ran + Sex, data = Pulse)

Coefficients:
(Intercept) Pulse1 Ran Sex
42.6183 0.8122 -20.0687 7.7526

Hal yang perlu diperhatikan bahwa prosedur pemilihan variabel secara otomatis
dapat menyebabkan berkurangnya peran analisis peneliti dalam mengambil kepu-
tusan yang masuk akal. Selain itu, metode Stepwise juga memiliki beberapa kelema-
han secara teknis, yaitu
1. Ketika terjadi hubungan yang kuat antara beberapa variabel independen
(terjadinya multikolinieritas), prosedur stepwise cenderung mengeluarkan
satu atau beberapa variabel dari persamaan regresi. Dalam kasus ini, kita

230
dapat secara keliru menyatakan bahwa variabel tersebut adalah tidak pent-
ing dan secara berlebihan menyatakan pentingnya variabel yang ada di da-
lam model.
2. Pengaruh offsetting: jika variabel X1 dan X2 berkorelasi positif akan tetapi
memiliki pengaruh dengan tanda yang berlawanan terhadap Y, atau variabel
X1 dan X2 berkorelasi negative tetapi memiliki pengaruh dengan tanda yang
sama terhadap Y, maka prosedur stepwise dapat saja mengeluarkan satu
atau kedua variabel dari model regresi. Kita kemudian mengecilkan peran
dari kedua variabel tersebut.

8.5 Uji t dan selang kepercayaan bagi koefisien regresi


Penduga bagi galat baku dari bi, yaitu koefisien regresi bagi variabel Xi, adalah Sebi,
se
SEbi = ........................................................................................ [8.12]
JKSi

dimana se adalah simpangan baku sisaan (Persamaan [8.10]). JKSi adalah jumlah
kuadrat sisaan dari model yang meregresikan Xi dengan variabel X yang lainnya.
Penduga bagi galat baku dari koefisien-koefisien regresi dapat juga dihitung sebagai
akar kuadrat dari unsur-unsur diagonal utama matriks varians-covarians bagi
penduga koefisiennya, S, dimana
S = se2 ( X'X ) ........................................................................................ [8.13]
-1

Nilai-nilai SE bagi setiap koefisien regresi dicantumkan dalam kolom “StDev“ dalam
output MINITAB.
Statistik uji t untuk menguji pasangan hipotesis H0: bi = 0 lawan H1: bi ! 0 adalah
bi - b i
t= ............................................................................................ [8.14]
SEbi

atau, jika H0 benar, maka


bi
t= ............................................................................................... [8.15]
SEbi

Statistik t tersebut berdistribusi t dengan derajat bebas n = n – k. Nilai-nilai statistik


t bagi setiap koefisien regresi dalam model dicantumkan dalam kolom “T” dalam
output MINITAB, sedang nilai peluangnya dicantumkan dalam kolom “P”.
Output dalam Tabel 8.5 mencakup informasi berikut:

Yˆ = 42,6 + 0,812X1 –20,1X2 + 7,75X3


SEbi : 7,358 0,0915 1,989 2,073
t: 5,79 8,88 –10,09 3,74

231
Nilai P : 0,000 0,000 0,000 0,000
Nilai P bagi ketiga koefisien regresi semuanya sangat kecil (t bagi Pulse1 = 8,88
dengan P = 0,000; t bagi Ran = –10,09 dengan P = 0,000; t bagi Sex = 3,74 dengan
P = 0,000). Hal ini menunjukkan bahwa ketiga koefisien tersebut tidak sama dengan
nol dan sudah sepantasnya dimasukkan ke dalam model.
Selang kepercayaan (confidence interval) bagi koefisien regresi digunakan untuk
menduga kisaran dari koefisien tersebut pada tingkat kepercayaan tertentu. Selang
kepercayaan bagi koefisien regresi ke i, yaitu bi, ditentukan sebagai berikut:
bi ± t ´ SEbi .......................................................................................... [8.16]
dimana nilai t untuk tingkat kepercayaan tertentu ditentukan dari distribusi teoritis
t dengan derajat bebas n = n – k. Misalnya, untuk derajat bebas n = 88 dari Tabel
Lampiran 2 diperoleh nilai-nilai berikut (n = 88 terletak kira-kira di tengah-tengah
antara df 60 dan 120 dalam tabel tersebut, nilai-nilai t yang tercantum di bawah ini
adalah hasil interpolasi):
untuk tingkat kepercayaan 90% diperoleh t = 1,6645
untuk tingkat kepercayaan 95% diperoleh t = 1,990
untuk tingkat kepercayaan 99% diperoleh t = 2,6385
Sebagai ilustrasi, selang kepercayaan 95% bagi koefisien regresi untuk variabel
Pulse1, yaitu b1, adalah
b1 ± t ´ SEb1 Þ 0,812 ± 1,990 ´ 0,0915
yaitu
0,6299 !b1 !0,9941
Selang kepercayaan tersebut diinterpretasikan sebagai berikut: jika kita mengambil
sampel acak berkali-kali, kemudian kita buat selang kepercayaan dengan cara
seperti di atas bagi setiap sampel acak tersebut, maka 95% dari selang-selang
tersebut akan mengandung nilai b 1 yang sebenarnya. Secara informal, dapat kita
katakan!!bahwa!berdasarkan!sampel!yang!kita!peroleh,!kita!percaya!“95%’!bahwa!
nilai parameter b1 yang sebenarnya terletak antara 0,6299 dan 0,9441.

8.6 Multikolinieritas (multicollinierity)


Salah satu permasalahan yang perlu mendapat perhatian khusus dalam penggunaan
analisis regresi berganda adalah kemungkinan adanya multikolinieritas dalam
variabel independen. Keadaan ini biasanya terjadi ketika dalam model regresi yang
digunakan terdapat suatu variabel independen yang berkorelasi sangat tinggi
dengan variabel independen lainnya. Variabel-variabel independen yang saling
berkorelasi tidak memberikan tambahan informasi terhadap pendugaan bagi
variabel dependen dan dapat menimbulkan kesulitan ketika kita mencoba

232
memisahkan pengaruh variabel independen tersebut terhadap variabel
dependennya. Dalam kasus yang demikian, nilai dugaan bagi koefisien regresi akan
sangat berfluktuasi secara drastis tergantung pada variabel independen yang
dimasukkan ke dalam model regresinya.
Analisis regresi linier berganda tidak mungkin dapat dilakukan jika terdapat
multikolinieritas yang sempurna antar variabel independen yang terdapat dalam
model regresi. Jika variabel X1 dan X2 tidak mempunyai keragaman yang
independen, maka kita tidak dapat menduga pengaruh X1 dalam mengkoreksi X2,
dan sebaliknya. Kolinieritas antar variabel X1 dan X2 menyebabkan kita tidak dapat
menentukan apakah perubahan dalam nilai Y disebabkan oleh perubahan dalam X1
atau disebabkan oleh perubahan dalam X2 karena kedua variabel tersebut
mempunyai hubungan linier yang sempurna. Oleh karena itu, salah satu variabel,
baik X1 atau X2, harus dikeluarkan dari model. Hal ini tidak menyebabkan hilangnya
informasi karena terdapat suatu hubungan yang sempurna antar keduanya,
sehingga kedua variabel tersebut sebenarnya mencerminkan satu variabel yang
sama.
Walaupun multikolinieritas sempurna jarang sekali terjadi, tetapi multikolinieritas
yang kuat sering kali kita temukan. Andaikan terdapat multikolinieritas antar 3
variabel X, yaitu X1, X2 dan X3. Uji F statistik mungkin menolak hipotesis nol berikut:
H0: b 1 = b2 = b3 = 0
Artinya, jika H0 tersebut ditolak, maka uji F menyatakan bahwa paling tidak ada satu
nilai b yang tidak sama dengan nol. Jika kemudian kita lakukan uji t untuk menguji
hipotesis hipotesis berikut
H0: b 1 = 0
H0: b 2 = 0
H0: b 3 = 0
Hasil pengujian tersebut mungkin akan kontradiktif dengan hasil pengujian dengan
statistik F, yaitu bahwa uji t gagal untuk menolak hipotesis nol. Jika keadaan seperti
ini terjadi, dapat disimpulkan bahwa paling tidak terdapat satu multikolinieritas
antar variabel X yang mempengaruhi variabel Y.

8.7 Variabel boneka (dummy variable)


Variabel boneka (dummy variable) merupakan suatu dikotomi, biasanya dinyatakan
dalam bentuk skor 0 atau 1. Misalnya variabel Ran dan Sex dalam file data
Pulse.Mtw adalah variabel boneka, hanya dalam hal ini skor yang digunakan adalah
1 dan 2 (Gambar 8.4)

233
160
Ran = 2 Ran = 1
140

120
Pulse2
100

80

60

40
40 60 Pulse180 100

Gambar 8.4 Scatter plot bagi Pulse2 versus Pulse1 untuk Ran =1 dan Ran = 2
Sebagai ilustrasi, mari kita lihat pengaruh variabel boneka dalam model yang hanya
melibatkan dua variabel X, yaitu Pulse1 (X1) dan Ran (X2). Output MINITAB dalam
Tabel 8.6 menunjukkan bahwa persamaan regresinya adalah
yˆi = 44,5 + 0,912xi1 - 19,1xi 2 ............................................................. [8.17]

Tabel 8.8 Output MINITAB bagi regresi Pulse2 terhadap Pulse1 dan Ran
The regression equation is
Pulse2 = 44.5 + 0.912 Pulse1 - 19.1 Ran

Predictor Coef StDev T P


Constant 44.479 7.859 5.66 0.000
Pulse1 0.91247 0.09366 9.74 0.000
Ran -19.123 2.112 -9.05 0.000

S = 9.822 R-Sq = 67.7% R-Sq(adj) = 67.0%

160

140
Y = 25,4 + 0,912 X1
120
Pulse2

100

80 Y = 6,3 + 0,912 X1

60

40
40 60 Pulse1 80 100

Gambar 8.5 Regresi Pulse2 terhadap Pulse1 dan Variabel Boneka Intersep untuk Ran

234
Variabel X2 dalam Persamaan 8.17 adalah variabel boneka intersep untuk Ran, yang
bernilai 1 untuk mahasiswa yang lari di tempat dan bernilai 2 untuk mahasiswa yang
tidak lari di tempat. Oleh karena itu, untuk menentukan persamaan regresi bagi
mahasiswa yang lari-lari di tempat selama satu menit substitusikan nilai X2 = 1 ke
dalam Persamaan 8.17:
yˆi = 44,5 + 0,912 xi 1 - 19,1(1)
............................................................. [8.18]
= 25,4 + 0,912 xi 1

Kemudian, untuk menentukan persamaan regresi bagi mahasiswa yang diam di


tempat, substitusikan nilai X2 = 2 ke dalam Persamaan 8.17:
yˆi = 44,5 + 0,912 xi 1 - 19,1(2)
............................................................. [8.19]
= 6,3 + 0,912 xi 1

Perbedaan antara [8.18] dan [8.19] adalah pada intersep (intercept) Y, yaitu titik
potong persamaan regresi pada sumbu tegak Y. Secara grafis, kedua persamaan
regresi tersebut digambarkan dalam Gambar 8.5.
Variabel boneka dalam contoh di atas digunakan untuk menguji perbedaan dalam
intersept. Dalam keadaan lain, variabel boneka dapat juga digunakan untuk menguji
perbedaan slope dari persamaan regresi. Untuk menguji perbedaan slope bentuk
lebih dulu variabel interaksi atau slope dummy variable dengan mengkalikan varia-
bel boneka dengan variabel pengukuran. Jika X1 adalah variabel boneka dan X2 ada-
lah variabel pengukuran, kita bentuk variabel interaksi X1 X2 dan masukkan ke dalam
persamaan regresi bersama dengan X2. Misalnya kita ingin meregresikan Pulse2 (Y)
dengan Pulse1 (X1) dan variabel interaksi yang dibentuk dari Pulse1 dan Ran (X1 X2),
maka kita dapatkan persamaan regresi sebagai berikut:
yˆi = 13,9 + 1,33xi 1 - 0,259xi 1 xi 2
Untuk mahasiswa yang lari di tempat (X2 = 1) maka persamaan regresinya adalah
yˆi = 13,9 + 1,33xi 1 - 0,259 xi 1 (1)
= 13,9 + 1,071xi 1

Untuk mahasiswa yang tidak lari di tempat (X2 = 2) maka persamaan regresinya ada-
lah
yˆi = 13,9 + 1,33xi 1 - 0,259 xi 1 ( 2 )
= 13,9 + 0,812 xi 1

Secara grafis, kedua persamaan regresi tersebut digambarkan dalam Gambar 8.6

235
160

140
Y = 13,9 + 1,071 X1
120
Pulse2

100

80
Y = 13,9 + 0,812 X1
60

40
40 60 Pulse1 80 100

Gambar 8.6 Regresi Pulse2 terhadap Pulse1 dan Variabel Boneka Slope untuk Ran
Jika kita mencurigai bahwa kedua kategori dalam variabel Ran berbeda dalam hal
intersep dan slopenya, maka kedua variabel boneka dapat dimasukkan ke dalam
model. Output MINITAB untuk kasus ini dapat dilihat dalam Tabel 8.8. Persamaan
regresi yang dihasilkan adalah
yˆi = 26,11 + 1,163xi 1 - 7,64 xi 2 - 0,157xi 1 xi 2
Substitusikan nilai X2 = 1 ke dalam model, maka persamaan regresi denyut nadi un-
tuk mahasiswa yang lari di tempat adalah
yˆi = 26,11 + 1,163xi 1 - 7,64 (1) - 0,157xi 1 ( 1)
= 18,47 + 1,006 xi 1

Substitusikan nilai X2 = 2 ke dalam model, maka persamaan regresi denyut nadi un-
tuk mahasiswa yang tidak lari di tempat adalah
yˆi = 26,11 + 1,163xi 1 - 7,64 ( 2 ) - 0,157xi 1 ( 2 )
= 10,83 + 0,849 xi 1

Secara grafis, kedua persamaan regresi tersebut digambarkan dalam Gambar 8.7

Tabel 8.9 Output MINITAB bagi Regresi Pulse2 terhadap Pulse1, Ran dan Pulse1Ran

Regression Analysis: Pulse2 versus Pulse1, Ran, Pulse1Ran

The regression equation is


Pulse2 = 26.1 + 1.16 Pulse1 - 7.6 Ran - 0.157 Pulse1Ran

Predictor Coef SE Coef T P


Constant 26.11 23.71 1.10 0.274
Pulse1 1.1631 0.3192 3.64 0.000
Ran -7.64 14.14 -0.54 0.590
Pulse1Ran -0.1570 0.1912 -0.82 0.414

S = 9.83992 R-Sq = 68.0% R-Sq(adj) = 66.9%

236
160

140
Y = 18,47 + 1,006 X1
120
Pulse2

100

80 Y = 10,83 + 0,849 X1

60

40
40 60 80 100
Pulse1

Gambar 8.7 Regresi Pulse2 terhadap Pulse1 dan Variabel Boneka Intersep dan
Slope untuk Ran

237
Indeks

alpha (lihat Taraf nyata), 227, 228 Binomial, 69


analisis regresi (lihat Regresi), 185, Chi-kuadrat, 134
199, 234 variabel acak kontinu, 77
Best Subset Regression,
Regr 225 Distribusi sampling,
sam 97, 99, 104, 106,
Cp, 224, 228 107, 118
Dalil limit pusat,
pu 101 nilai harapan, 105
Distribusi t, 109, 110, 112, 123
Data, 32
varians, 109
kualitatif, 4, 5, 23
Excel, 7, 8, 12, 16, 25, 38
kuantitatif, 4
primer, 4 analisis regresi, 198
skala pengukuran, 6 data Analysis, 16
sekunder, 3 F, 199, 203, 234
Data analysis, 39 Galat, 133, 212
Data kuantitatif, 4 Galat baku, 203
diskrit, 4 Galat penarikan sampel,
sa 127
kontinu, 4 Grafik, 11, 207
Diagram, 19 Hipotesis alternatif, 142, 204
batang, 11, 15, 21, 23, 24 Hipotesis dua arah, 145,, 1481
batang dan daun, 11, 15, 19 – 22 Hipotesis nol, 142, 152,, 204
batang dan daun, 41 Hipotesis satu arah,
ara 145, 148
garis, 24
Histogram, 15
kotak, 40, 41
frekuensi, 15
lingkaran, 23
frekuensi relatif, 15
pencar, 182, 212
Hubungan, 31, 65, 183, 210
pohon, 63
Venn, 55 korelasi dan regresi, 210
Distribusi Hubungan deterministik, 185
Binomial, 69 – 71 Hubungan stokastik, 184
condong ke kanan, 31 Hubungan tidak linear,
linea 212
condong ke kiri, 31 Interval kelas,, 12
Hipergeometrik, 74 Jumlah kuadrat regresi,
egresi, 194, 229
Normal, 80 Jumlah kuadrat sisa, 219
Poisson, 76 Jumlah kuadrat sisaan,
isaan, 194
Distribusi frekuensi, 12, 13 Kejadian, 48, 54, 57, 118
dengan Excel, 16 bebas, 55
Distribusi frekuensi relatif, 13 komplemen, 55
Distribusi peluang, 64 – 66, 94, 100

238
B a h a n b a c aa n

Berenson, M.L, D.M. Levine, K.A. Szabat, T.C. Krehbiel and Stephan, D.F. 2013. Basic
Business Statistics: Concepts and Application. 12th edition. Pearson Aus-
tralia. Frenchs Forest, NSW.
Damon, R.A, Jr. and W.R. Harvey. 1987. Experimental Design, ANOVA, and
Regression. Harper & Row Publishers, Inc. New York.
Darlington, R.B. and P.M. Carlson. 1987. Behavioral Statistics: Logic and Methods.
Collier Macmillan Publishers. New York.
Hamilton, L.C. 1992. Regression with graphics: a Second Course in Applied Statistics.
Duxbury Press. Belmont, California
Hanke, J.E. and A.G. Reitsch. 1991. Understanding Business Statistics. Richard D.
Irwin, Inc. Homewood, Illinois.
Karmel, P.H. and M. Polasek. 1978. Applied Statistics for Economists. Fourth
Edition. Pitman Publishing Pty Ltd. Carlton.
Keller, G., B. Warrack and H. Bartel. 2004. Statistics for Management and Economics.
Wadsworth Publishing Company. Belmont, California.
Kenkel.J.L. 1996. Introductory Statistics for Management and Economics. PWS-Kent
Publishing Company. Boston, Massachusetts.
Kusnandar, D. 2004. Metode Statistik dan Aplikasinya dengan Minitab dan Excel.
Madyan Press, Yogyakarta
Larson, H.J. 1973. Introduction to the Theory of Statistics. John Wiley & Sons, Inc.
New York.
Mood, A.M. and F.A. Graybill. 1974. Introduction to the Theory of Statistics. Second
edition. McGraw-Hill Book Company, Inc. New York.
Ott, L. 2015. An Introduction to Statistical Methods and Data Analysis. Fifth edition.
Duxbury Press. Boston, Massachusetts.
Tabachnick, B.G. and L.S. Fidel. 2007. Using Multivariate Statistics. Harper & Row,
New York.
Walpole, R.E. 1968. Introduction to Statistics. Collier-Macmillan. Ltd. London
Zehna, P.W. 1992. A MINITAB® Companion with Macros. Addison-Wesley Publishing
Company, Inc. Reading, Massachusetts.

241
L a m pi ra n

Lampiran 1. Tabel bilangan acak 243


Lampiran 2. Tabel Normal Baku 244
Lampiran 3. Tabel distribusi t 245
Lampiran 4. Tabel distribusi Chi-kuadrat 246
Lampiran 5. Tabel distribusi F 248
Lampiran 6. Data dalam PULSE.MTW 251
Lampiran 7. Abjad huruf Yunani 253

242

Anda mungkin juga menyukai