Anda di halaman 1dari 41

viii Isi

2.8 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material


di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3 Variabel Acak dan Distribusi Probabilitas . . . . . . 81


3.1 Konsep Variabel Acak. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2 Distribusi Probabilitas Diskrit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.3 Distribusi Probabilitas Berkelanjutan. . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.4 Distribusi Probabilitas Bersama. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.5 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4 Harapan Matematis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111


4.1 Rata-rata Variabel Acak. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
 
4.2 Varians dan Kovarian Variabel Acak. . . . . . . . . . . . . . . . . . . 119
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
 
4.3 Sarana dan Varians Kombinasi Linier Variabel Acak 128
4.4 Teorema Chebyshev. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
 
4.5 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

5 Beberapa Distribusi Probabilitas Diskrit . . . . . . . . . . . . . . . . 143


5.1 Pendahuluan dan Motivasi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.2 Distribusi Binomial dan Multinomial. . . . . . . . . . . . . . . . . . . . . . . . . 143
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
 
5.3 Distribusi Hipergeometri. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
 
5.4 Distribusi Binomial dan Geometris Negatif. . . . . . . . . . . . . . . . . 158
5.5 Distribusi Poisson dan Proses Poisson. . . . . . . . . . . . . . . . . . . . 161
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
 
5.6 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

Isi ix
 

6 Beberapa Distribusi Probabilitas Berkelanjutan . . . . . . . . . . . . . 171


6.1 Distribusi Seragam Berkelanjutan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6.2 Distribusi normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
6.3 Area di bawah Kurva Normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
6.4 Aplikasi Distribusi Normal. . . . . . . . . . . . . . . . . . . . . . . . . 182
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
 
6.5 Perkiraan Normal ke Binomial. . . . . . . . . . . . . . . . . . . . . . . . . 187
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
 
6.6 Distribusi Gamma dan Eksponensial. . . . . . . . . . . . . . . . . . . . . . . . . . 194
6.7 Distribusi Chi-Squared . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.8 Distribusi Beta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.9 Distribusi Lognormal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
6.10 Distribusi Weibull (Opsional). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
 
6.11 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
 
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
 

7 Fungsi Variabel Acak (Opsional) . . . . . . . . . . . . . . 211


7.1 Pendahuluan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.2 Transformasi Variabel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7.3 Momen dan Fungsi Penghasil Momen . . . . . . . . . . . . . . . . . . . . 218
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

8 Distribusi Sampel Fundamental dan


Deskripsi Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
8.1 Pengambilan Sampel Acak. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
8.2 Beberapa Statistik Penting. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
8.3 Distribusi Sampling. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
8.4 Distribusi Sampling Sarana dan Teorema Batas Pusat. 233
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
 
8.5 Distribusi Sampling S 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
8.6 t -Distribusi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
8.7 F -Distribusi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
8.8 Plot Kuantil dan Probabilitas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
 
8.9 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262

x Isi

9 Masalah Estimasi Satu dan Dua Sampel . . . . . . . . . . . . 265


9.1 Pengantar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
9.2 Inferensi Statistik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
9.3 Metode Estimasi Klasik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
9.4 Sampel Tunggal: Memperkirakan Mean. . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
9.5 Kesalahan Standar dari Perkiraan Titik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
9.6 Interval Prediksi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
9.7 Batas Toleransi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
 
9.8 Dua Sampel: Memperkirakan Perbedaan antara Dua Cara. . . 285
9.9 Pengamatan Berpasangan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
 
Sampel Tunggal: Memperkirakan Proporsi. . . . . . . . . . . . . . . . . . . . . . . . .
9.10 296
9.11 Dua Sampel: Memperkirakan Perbedaan antara Dua Proporsi 300
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
 
9.12 Sampel Tunggal: Memperkirakan Varians. . . . . . . . . . . . . . . . . . . . . . . . . 303
9.13 Dua Sampel: Memperkirakan Rasio Dua Varians. . . . . . . . . . . 305
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
 
9.14 Estimasi Kemungkinan Maksimum (Opsional). . . . . . . . . . . . . . . . . . . . . 307
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
 
9.15 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
 
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
 

10 Uji Hipotesis Satu dan Dua Sampel . . . . . . . . . . . . . 319 10.1 Hipotesis


Statistik: Konsep Umum. . . . . . . . . . . . . . . . . . . . . . . 319 10.2 Menguji Hipotesis
Statistik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
10.3 Penggunaan P -Values untuk Pengambilan Keputusan dalam Pengujian
Hipotesis. 331
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
10.4 Sampel Tunggal: Pengujian Mengenai Satu Rata-rata. . . . . . . . . . . . . . . . . 336
10.5 Dua Sampel: Pengujian pada Dua Cara. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 10.6
Pilihan Ukuran Sampel untuk Sarana Pengujian. . . . . . . . . . . . . . . . . . . . . . . . 349 10.7
Metode Grafis untuk Membandingkan Sarana. . . . . . . . . . . . . . . . . . . . . . . 354
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 10.8 Satu
Sampel: Menguji pada Proporsi Tunggal. . . . . . . . . . . . . . . . . . . . . . . . 360 10.9 Dua
Sampel: Pengujian pada Dua Proporsi. . . . . . . . . . . . . . . . . . . . . . . . 363 Latihan. . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 10.10 Pengujian Satu dan
Dua Sampel Mengenai Varians. . . . . . . . . . . . . . 366 Latihan. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . 369
10.11 Uji Goodness-of-Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
10.12 Uji Kemerdekaan (Data Kategoris). . . . . . . . . . . . . . . . . . . . . . . 373

Isi xi
 

10.13 Uji Homogenitas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376


10.14 Studi Kasus Dua Sampel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
 
10.15 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
 
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
 

11 Regresi Linear Sederhana dan Korelasi . . . . . . . . . . . . . . 389


11.1 Pengantar Regresi Linier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
11.2 Model Regresi Linier Sederhana. . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
11.3 Kotak Terkecil dan Model Pas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
 
11.4 Properti dari Estimator Kuadrat Terkecil. . . . . . . . . . . . . . . . . . . . . . 400
11.5 Kesimpulan Mengenai Koefisien Regresi. . . . . . . . . . . . . . . . 403
11.6 Prediksi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
 
11.7 Pilihan Model Regresi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
11.8 Pendekatan Analisis Varian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
11.9 Uji Linearitas Regresi: Data dengan Pengamatan Berulang 416
 
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
421
11.10 Plot dan Transformasi Data. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
11.11 Studi Kasus Regresi Linier Sederhana. . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
11.12 Korelasi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
 
11.13 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
 
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
 

12 Regresi Linear Berganda dan Tertentu  


Model Regresi Nonlinier . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
12.1 Pengantar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
12.2 Memperkirakan Koefisien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
12.3 Model Regresi Linier Menggunakan Matriks. . . . . . . . . . . . . . . . . . . . . . . . 447
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
 
12.4 Properti dari Estimator Kuadrat Terkecil. . . . . . . . . . . . . . . . . . . . . . 453
12.5 Kesimpulan dalam Regresi Linear Berganda. . . . . . . . . . . . . . . . . . . . . . . . . 455
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
 
12.6 Pilihan Model Pas melalui Pengujian Hipotesis. . . . . . . . . . . 462
12.7 Kasus Khusus Ortogonalitas (Opsional). . . . . . . . . . . . . . . . . . . . . . . . 467
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
 
12.8 Variabel Kategorikal atau Indikator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472

xii Isi
 

Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
 
12.9 Metode Sekuensial untuk Pemilihan Model. . . . . . . . . . . . . . . . . . . . . . . . . 476
12.10 Studi Sisa dan Pelanggaran Asumsi (Model Check-
ing). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
 
12.11 Validasi Silang, C p , dan Kriteria Lain untuk Pemilihan Model. . . . 487
. . . 494
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
 
12.12 Model Nonlinier Khusus untuk Kondisi Nonideal. . . . . . . . . . . . . . . 496
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
 
12.13 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
 

13 Eksperimen Satu-Faktor : Umum . . . . . . . . . . . . . . . . . . . . . . . . 507


13.1 Teknik Analisis Varians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507
13.2 Strategi Desain Eksperimental. . . . . . . . . . . . . . . . . . . . . . . . . . . . 508
13.3 Analisis Varians Satu Arah : Rancangan Acak Lengkap
 
( ANOVA Satu Arah ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
13.4 Pengujian Kesetaraan Beberapa Varians. . . . . . . . . . . . . . . . . . . . . . 516
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518
 
13.5 Perbandingan Derajat-Kebebasan Tunggal . . . . . . . . . . . . . . . . . . . . . . . . . . 520
13.6 Perbandingan Ganda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
 
13.7 Membandingkan Satu Set Perawatan di Blok. . . . . . . . . . . . . . . . . . . . . . . 532
13.8 Desain Blok Lengkap Acak. . . . . . . . . . . . . . . . . . . . . . . . . . . . 533
13.9 Metode Grafis dan Pemeriksaan Model. . . . . . . . . . . . . . . . . . . . . . . . 540
13.10 Transformasi Data dalam Analisis Varians. . . . . . . . . . . . . . . . . . . 543
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545
 
13.11 Model Efek Acak. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
13.12 Studi kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555
 
13.13 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
 
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559
 

14 Eksperimen Faktorial (Dua atau Lebih Faktor) . . . . . . . . . . 561 14.1


Pendahuluan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561 14.2 Interaksi
dalam Eksperimen Dua Faktor . . . . . . . . . . . . . . . . . . . . . . . 562 14.3 Analisis Varians
Dua-Faktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565 Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . 575 14.4 Eksperimen Tiga-Faktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 579 Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586

Isi xiii

14.5 Eksperimen Faktorial untuk Efek Acak dan Model Campuran. . . . 588 Latihan. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592 Review
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594
14.6 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596

15 2 k Percobaan dan Pecahan Faktorial . . . . . . . . . . . . . . . . . 597


15.1 Pengantar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597
k
15.2 Faktorial 2 : Perhitungan Pengaruh dan Analisis Varians 598
15.3 Eksperimen Faktorial 2 k yang tidak direplikasi . . . . . . . . . . . . . . . . . . . . . . . . . . 604
  Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 609
15.4 Eksperimen Faktorial dalam Pengaturan Regresi. . . . . . . . . . . . . . . . . . . 612
15.5 Desain Ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625
 
15.6 Eksperimen Faktorial pecahan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626
15.7 Analisis Eksperimen Faktorial Pecahan. . . . . . . . . . . . . . . . . . . . 632
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634
 
15.8 Fraksi dan Desain Penyaringan yang Lebih Tinggi. . . . . . . . . . . . . . . . . . . . . . . . . 636
15.9 Konstruksi Desain Resolusi III dan IV dengan 8, 16, dan 32
Poin Desain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637
15.10 Desain Resolusi III Dua Tingkat Lainnya ; Desain Plackett-Burman . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 638
15.11 Pengantar Metodologi Permukaan Respon. . . . . . . . . . . . . . . . . . 639 15.12
Desain Parameter yang Kokoh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652 Review
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653
15.13 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654

16 Statistik Nonparametrik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
16.1 Tes Nonparametrik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
16.2 Tes Peringkat yang Ditandatangani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
 
16.3 Tes Rank-Sum Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
16.4 Tes Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
 
16.5 Jalankan Tes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
16.6 Batas Toleransi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
16.7 Koefisien Korelasi Peringkat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
 
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

xiv Isi

17 Kontrol Kualitas Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681 17.1


Pendahuluan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 681 17.2
Sifat Batasan Kontrol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683 17.3 Tujuan
Diagram Kontrol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683 17.4 Grafik Kontrol untuk
Variabel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684 17.5 Bagan Kontrol untuk
Atribut. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697 17.6 Grafik Kontrol Cusum. . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706

18 Statistik Bayesian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709


18.1 Konsep Bayesian. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709
18.2 Kesimpulan Bayesian. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 710
18.3 Estimasi Bayes Menggunakan Kerangka Teori Keputusan. . . . . . . . . . . . . 717
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 718

Bibliografi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721
Lampiran A: Tabel dan Bukti Statistik . . . . . . . . . . . . . . . . . . 725
Lampiran B: Jawaban untuk Non-Review bernomor ganjil  
Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 769

Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785
Kata pengantar

Pendekatan Umum dan Tingkat Matematika


Penekanan kami dalam menciptakan edisi kesembilan bukan pada penambahan
materi baru tetapi lebih pada memberikan kejelasan dan pemahaman yang lebih
dalam. Tujuan ini dicapai sebagian dengan memasukkan materi akhir bab baru
yang menambahkan jaringan ikat antar bab. Kami dengan senang hati menyebut
komentar ini di akhir bab "Lubang Pot". Mereka sangat berguna untuk
mengingatkan siswa tentang gambaran besar dan bagaimana setiap bab cocok
dengan gambar itu, dan mereka membantu siswa dalam belajar tentang
keterbatasan dan kesulitan yang mungkin terjadi jika prosedur disalahgunakan.
Pemahaman yang lebih dalam tentang penggunaan statistik di dunia nyata tersedia
melalui proyek kelas, yang ditambahkan dalam beberapa bab. Proyek-proyek ini
memberikan kesempatan bagi siswa sendiri, atau dalam kelompok, untuk
mengumpulkan data eksperimen mereka sendiri dan menarik kesimpulan. Dalam
beberapa kasus, pekerjaan melibatkan masalah yang solusinya akan
menggambarkan makna sebuah konsep atau memberikan pemahaman empiris
tentang hasil statistik yang penting. Beberapa contoh yang ada diperluas dan yang
baru diperkenalkan untuk membuat "studi kasus," di mana komentar diberikan
untuk memberikan siswa pemahaman yang jelas tentang konsep statistik dalam
konteks situasi praktis.
Pada edisi ini, kami terus menekankan keseimbangan antara teori dan aplikasi.
Kalkulus dan jenis dukungan matematika lainnya (misalnya, aljabar linier)
digunakan pada level yang hampir sama seperti edisi sebelumnya. Cakupan alat
analisis dalam statistik ditingkatkan dengan penggunaan kalkulus ketika diskusi
berpusat pada aturan dan konsep dalam probabilitas. Distribusi probabilitas dan
inferensi statistik disorot dalam Bab 2 hingga 10. Aljabar dan matriks linier
diterapkan dengan sangat ringan di Bab 11 hingga 15, di mana regresi linier dan
analisis varians dibahas. Siswa yang menggunakan teks ini seharusnya sudah
setara dengan satu semester kalkulus diferensial dan integral. Aljabar linier sangat
membantu tetapi tidak perlu selama bagian pada Bab 12 tentang regresi linier
berganda yang menggunakan aljabar matriks tidak dibahas oleh instruktur. Seperti
pada edisi sebelumnya, sejumlah besar latihan yang berhubungan dengan aplikasi
sains dan teknik kehidupan nyata tersedia untuk menantang siswa. Banyak
kumpulan data yang terkait dengan latihan tersedia untuk diunduh dari situs web
http://www.pearsonhighered.com/datasets.

xv

xvi Kata pengantar

Ringkasan Perubahan dalam Edisi Kesembilan

• Proyek kelas ditambahkan dalam beberapa bab untuk memberikan


pemahaman yang lebih dalam tentang penggunaan statistik dunia nyata .
Siswa diminta untuk menghasilkan atau mengumpulkan data eksperimen
mereka sendiri dan menarik kesimpulan dari data tersebut.
• Lebih banyak studi kasus ditambahkan dan yang lainnya diperluas untuk
membantu siswa memahami metode statistik yang disajikan dalam konteks
situasi kehidupan nyata . Misalnya, interpretasi batas kepercayaan, batas
prediksi, dan batas toleransi diberikan menggunakan situasi kehidupan nyata
.
• "Pot Holes" ditambahkan di akhir beberapa bab dan diperluas di bab lain.
Komentar ini dimaksudkan untuk menyajikan setiap bab dalam konteks
gambaran besarnya dan membahas bagaimana bab-bab tersebut
berhubungan satu sama lain. Mereka juga memberikan peringatan tentang
kemungkinan penyalahgunaan teknik statistik yang disajikan dalam bab ini.
• Bab 1 telah ditingkatkan untuk memasukkan lebih banyak tentang statistik
bilangan tunggal serta teknik grafis. Materi dasar baru tentang pengambilan
sampel dan desain eksperimental disajikan.
• Contoh ditambahkan ke Bab 8 pada distribusi sampel dimaksudkan untuk
moti- vate P -values dan pengujian hipotesis. Ini mempersiapkan siswa untuk
materi yang lebih menantang tentang topik ini yang akan disajikan di Bab 10.
• Bab 12 berisi perkembangan tambahan mengenai pengaruh variabel regresi
tunggal dalam model di mana kolinearitas dengan variabel lain sangat parah.
• Bab 15 sekarang memperkenalkan materi tentang topik penting metodologi
permukaan respons (RSM). Penggunaan variabel kebisingan di RSM
memungkinkan ilustrasi pemodelan mean dan varians (permukaan respon
ganda).
• Desain komposit pusat (CCD) diperkenalkan di Bab 15.
• Lebih banyak contoh diberikan di Bab 18, dan pembahasan tentang
penggunaan metode Bayesian untuk pengambilan keputusan statistik telah
ditingkatkan.

Isi dan Perencanaan Kursus


Teks ini dirancang untuk kursus satu atau dua semester . Rencana yang masuk
akal untuk kursus satu semester dapat mencakup Bab 1 sampai 10. Ini akan
menghasilkan kurikulum yang diakhiri dengan dasar-dasar pengujian estimasi dan
hipotesis. Instruktur yang ingin agar siswa dihadapkan pada regresi linier
sederhana mungkin ingin memasukkan sebagian dari Bab 11. Untuk instruktur
yang ingin menyertakan analisis varian daripada regresi, kursus satu semester
dapat mencakup Bab 13 daripada Bab 11 dan 12 Bab 13 menampilkan analisis
varian satu faktor . Pilihan lain adalah menghilangkan bagian-bagian dari Bab 5
dan / atau 6 serta Bab 7. Dengan opsi ini, satu atau lebih dari distribusi diskrit atau
kontinu di Bab 5 dan 6 dapat dihilangkan. Distribusi ini termasuk distribusi normal
binomial, geometri, gamma, Weibull, beta, dan log negatif. Fitur lain yang mungkin
dipertimbangkan untuk dipindahkan dari kurikulum satu semester termasuk
estimasi kemungkinan maksimum,

Kata pengantar xvii

prediksi, dan / atau toleransi batas dalam Bab 9. Sebuah satu semester kurikulum
telah built-in fl eksibilitas, tergantung pada kepentingan relatif dari instruktur di
regresi, analisis varians, desain eksperimen, dan metode respon permukaan (Bab
15). Ada beberapa distribusi diskrit dan kontinu (Bab 5 dan 6) yang memiliki
aplikasi di berbagai bidang teknik dan ilmiah.
Bab 11 sampai 18 berisi materi substansial yang dapat ditambahkan untuk semester
kedua mata kuliah dua semester . Materi tentang regresi linier sederhana dan berganda
masing-masing ada pada Bab 11 dan 12. Bab 12 sendiri menawarkan sejumlah besar
fleksibilitas. Regresi linier berganda mencakup "topik khusus" seperti variabel kategori
atau indikator, metode pemilihan model sekuensial seperti regresi bertahap, studi residual
untuk mendeteksi pelanggaran asumsi, validasi silang dan penggunaan statistik PRESS
serta C p , dan regresi logistik. Penggunaan regressor ortogonal, pendahulu desain
eksperimental di Bab 15, disorot. Bab 13 dan 14 menawarkan sejumlah besar materi
tentang Analisis Varian (ANOVA) dengan model tetap, acak, dan campuran. Bab 15
menyoroti penerapan desain dua tingkat dalam konteks eksperimen faktorial penuh dan
pecahan (2 k ). Disain penyaringan khusus diilustrasikan. Bab 15 juga menampilkan bagian
baru pada metodologi permukaan respons (RSM) untuk menggambarkan penggunaan
desain eksperimental untuk menemukan kondisi proses yang optimal. Pemasangan
model orde dua melalui penggunaan desain komposit pusat dibahas. RSM diperluas untuk
mencakup analisis masalah jenis desain parameter yang kuat. Variabel kebisingan
digunakan untuk mengakomodasi model permukaan respons ganda. Bab 16, 17, dan 18
berisi sejumlah materi yang moderat tentang statistik nonparametrik, kendali mutu, dan
inferensi Bayesian.

Bab 1 adalah ikhtisar inferensi statistik yang disajikan pada tingkat sederhana
secara matematis. Ini telah diperluas dari edisi kedelapan menjadi lebih
menyeluruh mencakup statistik nomor tunggal dan teknik grafis. Ini dirancang
untuk memberi siswa presentasi pendahuluan dari konsep dasar yang akan
memungkinkan mereka untuk memahami lebih banyak detail terkait yang
mengikuti. Konsep dasar dalam pengambilan sampel, pengumpulan data, dan
desain eksperimental disajikan, dan aspek dasar alat grafis diperkenalkan, serta
pengertian tentang apa yang dikumpulkan dari kumpulan data. Plot
batang-dan-daun serta plot kotak-dan-kumis telah ditambahkan. Grafik diatur dan
diberi label dengan lebih baik. Diskusi tentang ketidakpastian dan variasi dalam
suatu sistem dilakukan secara menyeluruh dan diilustrasikan dengan baik. Ada
beberapa contoh bagaimana memilah karakteristik penting dari suatu proses atau
sistem ilmiah, dan ide-ide ini diilustrasikan dalam pengaturan praktis seperti
proses manufaktur, studi biomedis, dan studi sistem biologi dan ilmiah lainnya.
Perbedaan dibuat antara penggunaan data diskrit dan kontinu. Penekanan
ditempatkan pada penggunaan model dan informasi mengenai model statistik
yang dapat diperoleh dari alat grafis.

Bab 2, 3, dan 4 membahas probabilitas dasar serta variabel acak diskrit dan kontinu.
Bab 5 dan 6 berfokus pada distribusi diskrit dan kontinu tertentu serta hubungan di antara
mereka. Bab-bab ini juga menyoroti contoh aplikasi distribusi dalam studi sains dan teknik
kehidupan nyata . Contoh, studi kasus, dan sejumlah besar latihan meneguhkan siswa
tentang penggunaan distribusi ini. Proyek menghidupkan penggunaan praktis distribusi ini
melalui kerja kelompok. Bab 7 adalah bab paling teoretis

xviii Kata pengantar

dalam teks. Ini berkaitan dengan transformasi variabel acak dan kemungkinan
besar tidak akan digunakan kecuali instruktur ingin mengajar kursus yang relatif
teoritis. Bab 8 berisi materi grafis, memperluas seperangkat alat grafis yang lebih
mendasar yang disajikan dan diilustrasikan dalam Bab 1. Pemetaan probabilitas
dibahas dan diilustrasikan dengan contoh-contoh. Konsep yang sangat penting
dari distribusi sampling disajikan secara menyeluruh, dan ilustrasi diberikan yang
melibatkan teorema limit pusat dan distribusi varians sampel di bawah sampling
normal, independen (iid). The t dan F distribusi diperkenalkan untuk memotivasi
penggunaannya dalam bab-bab untuk mengikuti. Materi baru di Bab 8 membantu
siswa untuk memvisualisasikan pentingnya pengujian hipotesis, memotivasi
konsep nilai- P .
Bab 9 berisi materi tentang satu dan dua titik sampel dan estimasi interval. Diskusi
menyeluruh dengan contoh menunjukkan kontras antara berbagai jenis interval — interval
kepercayaan , interval prediksi, dan interval toleransi. Sebuah studi kasus
menggambarkan tiga jenis interval statistik dalam konteks situasi manufaktur. Studi
kasus ini menyoroti perbedaan antara interval, sumbernya, dan asumsi yang dibuat dalam
perkembangannya, serta jenis studi atau pertanyaan ilmiah apa yang memerlukan
penggunaan masing-masing. Sebuah metode pendekatan baru telah ditambahkan untuk
kesimpulan tentang proporsi. Bab 10 dimulai dengan presentasi dasar tentang makna
pragmatis dari pengujian hipotesis, dengan penekanan pada konsep dasar seperti
hipotesis nol dan hipotesis alternatif, peran probabilitas dan nilai- P , dan kekuatan
pengujian. Setelah ini, ilustrasi diberikan tentang pengujian mengenai satu dan dua
sampel dalam kondisi standar. The dua sampel t -test dengan pengamatan dipasangkan
juga dijelaskan. Sebuah studi kasus membantu siswa untuk mengembangkan gambaran
yang jelas tentang apa arti interaksi antara faktor-faktor yang sebenarnya serta bahaya
yang dapat muncul ketika ada interaksi antara perlakuan dan unit eksperimen. Pada akhir
Bab 10 adalah bagian yang sangat penting yang menghubungkan Bab 9 dan 10 (estimasi
dan pengujian hipotesis) dengan Bab 11 hingga 16, di mana pemodelan statistik
menonjol. Penting bagi siswa untuk menyadari hubungan yang kuat.
Bab 11 dan 12 berisi materi tentang regresi linier sederhana dan berganda. Perhatian
yang lebih besar diberikan dalam edisi ini pada pengaruh yang dimainkan oleh kolinearitas
di antara variabel-variabel regresi. Sebuah situasi disajikan yang menunjukkan bagaimana
peran variabel regresi tunggal dapat bergantung sebagian besar pada regressor apa yang
ada dalam model dengannya. Prosedur pemilihan model sekuensial (maju atau, mundur,
bertahap, dll) kemudian ditinjau kembali dalam hal konsep ini, dan alasan untuk
menggunakan tertentu P -values dengan prosedur ini disediakan. Bab 12 menawarkan
materi tentang pemodelan nonlinier dengan presentasi khusus tentang regresi logistik,
yang memiliki aplikasi di bidang teknik dan ilmu biologi. Materi tentang regresi berganda
cukup ekstensif dan dengan demikian memberikan fleksibilitas yang cukup besar bagi
instruktur, seperti yang ditunjukkan sebelumnya. Di akhir Bab 12 terdapat komentar yang
berkaitan dengan bab tersebut dengan Bab 14 dan 15. Beberapa fitur ditambahkan untuk
memberikan pemahaman yang lebih baik tentang materi secara umum. Misalnya, materi
akhir bab membahas tentang kehati-hatian dan kesulitan yang mungkin ditemui. Hal ini
menunjukkan bahwa ada jenis tanggapan yang terjadi secara alami dalam praktik
(misalnya tanggapan proporsi, menghitung tanggapan, dan beberapa lainnya) dengan
mana regresi kuadrat terkecil standar tidak boleh digunakan karena asumsi standar tidak
berlaku dan pelanggaran asumsi dapat terjadi. menyebabkan kesalahan serius. Sarannya
adalah

Kata pengantar xix

membuat transformasi data pada respons dapat meringankan masalah dalam


beberapa kasus. Fleksibilitas sekali lagi tersedia di Bab 13 dan 14, tentang topik
analisis varians. Bab 13 mencakup ANOVA satu faktor dalam konteks desain acak
lengkap. Topik pelengkap termasuk tes pada varians dan beberapa perbandingan.
Perbandingan perlakuan dalam blok disorot, bersama dengan topik blok lengkap
acak. Metode grafis diperluas ke ANOVA untuk membantu siswa dalam
melengkapi inferensi formal dengan jenis inferensi bergambar yang dapat
membantu ilmuwan dan insinyur dalam menyajikan materi. Sebuah proyek baru
diberikan di mana siswa menggabungkan pengacakan yang sesuai ke setiap
rencana dan menggunakan teknik grafis dan P -values dalam melaporkan hasil.
Bab 14 memperluas materi dalam Bab 13 untuk mengakomodasi dua atau lebih
faktor yang ada dalam struktur faktorial. Presentasi ANOVA di Bab 14 mencakup
pekerjaan di kedua model efek acak dan tetap. Bab 15 menawarkan materi yang
terkait dengan 2 k desain faktorial; contoh dan studi kasus menyajikan
penggunaan desain penyaringan dan pecahan khusus yang lebih tinggi dari 2 k .
Dua fitur baru dan khusus adalah presentasi metodologi permukaan respons
(RSM) dan desain parameter yang kuat. Topik-topik ini dihubungkan dalam studi
kasus yang menjelaskan dan mengilustrasikan desain dan analisis permukaan
respons ganda yang menampilkan penggunaan rata-rata proses dan permukaan
respons varian.

Perangkat lunak komputer


Studi kasus, dimulai dari Bab 8, menampilkan cetakan komputer dan materi grafis
yang dihasilkan menggunakan SAS dan MINITAB. Dimasukkannya komputer
mencerminkan keyakinan kami bahwa siswa harus memiliki pengalaman
membaca dan menafsirkan hasil cetak dan grafik komputer, bahkan jika perangkat
lunak dalam teks bukan yang digunakan oleh instruktur. Paparan lebih dari satu
jenis perangkat lunak dapat memperluas basis pengalaman bagi siswa. Tidak ada
alasan untuk percaya bahwa perangkat lunak yang digunakan dalam kursus akan
menjadi perangkat yang akan digunakan oleh siswa untuk digunakan dalam
praktik setelah lulus. Contoh dan studi kasus dalam teks dilengkapi, jika sesuai,
dengan berbagai jenis plot sisa, plot kuantil, plot probabilitas normal, dan plot
lainnya. Plot semacam itu sangat lazim di Bab 11 hingga 15.

Suplemen
Panduan Solusi Instruktur . Sumber daya ini berisi solusi yang telah dikerjakan
untuk semua latihan teks dan tersedia untuk diunduh dari Pusat Sumber Daya
Instruktur Pearson Education.

Panduan Solusi Siswa ISBN-10: 0-321-64013-6; ISBN-13:


978-0-321-64013-0. Menampilkan solusi lengkap untuk latihan yang dipilih, ini
adalah alat yang hebat bagi siswa saat mereka belajar dan mengerjakan materi
soal.
Slide Kuliah PowerPoint R ISBN-10: 0-321-73731-8; ISBN-13: 978-0-321-73731-
1. Slide ini mencakup sebagian besar gambar dan tabel dari teks. Slide tersedia
untuk diunduh dari Pusat Sumber Instruktur Pendidikan Pearson.

xx Kata pengantar

StatCrunch eText . Buku teks interaktif dan online ini mencakup StatCrunch,
perangkat lunak statistik berbasis web yang kuat . Tombol StatCrunch yang
disematkan memungkinkan pengguna untuk membuka semua kumpulan data dan
tabel dari buku dengan mengklik sebuah tombol dan segera melakukan analisis
menggunakan StatCrunch.

StatCrunch TM . StatCrunch adalah perangkat lunak statistik berbasis web yang


memungkinkan pengguna melakukan analisis kompleks, berbagi kumpulan data,
dan menghasilkan laporan yang menarik dari data mereka. Pengguna dapat
mengunggah data mereka sendiri ke StatCrunch atau mencari di perpustakaan
lebih dari dua belas ribu kumpulan data yang dibagikan secara publik, mencakup
hampir semua topik yang menarik. Keluaran grafis interaktif membantu pengguna
memahami konsep statistik dan tersedia untuk diekspor guna memperkaya
laporan dengan representasi visual data. Fitur tambahan termasuk
• Berbagai metode numerik dan grafis yang memungkinkan pengguna
menganalisis dan mendapatkan wawasan dari kumpulan data apa pun.
• Opsi pelaporan yang membantu pengguna membuat berbagai macam
representasi data yang menarik secara visual.
• Alat survei online yang memungkinkan pengguna membuat dan mengelola
survei dengan cepat melalui formulir web.
StatCrunch tersedia untuk pengadopsi yang memenuhi syarat. Untuk informasi
lebih lanjut, kunjungi situs web kami di www.statcrunch.com atau hubungi
perwakilan Pearson Anda.

Ucapan Terima Kasih


Kami berterima kasih kepada rekan-rekan yang telah meninjau edisi sebelumnya
dari buku ini dan memberikan banyak saran berguna untuk edisi ini. Mereka
adalah David Groggel, Universitas Miami ; Lance Hemlow, Perguruan Tinggi
Komunitas Lembah Raritan ; Ying Ji, Universitas Texas di San Antonio ; Thomas
Kline, Universitas Iowa Utara ; Sheila Lawrence, Universitas Rutgers ; Luis Moreno,
Perguruan Tinggi Komunitas Broome County ; Donald Waldman, Universitas
Colorado — Boulder ; dan Marlene Will, Universitas Spalding . Kami juga ingin
berterima kasih kepada Delray Schulz, Universitas Millersville ; Roxane Burrows,
Universitas Hocking ; dan Frank Chmely untuk memastikan keakuratan teks ini.
Kami ingin berterima kasih kepada editorial dan layanan produksi yang
diberikan oleh banyak orang dari Pearson / Prentice Hall, terutama pemimpin
redaksi Deirdre Lynch, editor akuisisi Christopher Cummings, editor konten
eksekutif Chris- tine O'Brien, editor produksi Tracy Patruno, dan copyeditor Sally Li
fl dan. Banyak komentar dan saran berguna dari korektor Gail Magin sangat
dihargai. Kami berterima kasih kepada Pusat Konsultasi Statistik Virginia Tech,
yang merupakan sumber dari banyak kumpulan data kehidupan nyata .
RHM
SLM
KY

Bab 1

Pengantar Statistik dan


Analisis Data
1.1 Tinjauan: Inferensi Statistik, Sampel, Populasi, dan
Peran Probabilitas
Dimulai pada 1980-an dan berlanjut hingga abad ke-21, sejumlah besar perhatian
telah difokuskan pada peningkatan kualitas di industri Amerika. Banyak yang telah
dikatakan dan ditulis tentang "keajaiban industri" Jepang, yang dimulai pada
pertengahan abad ke-20. Orang Jepang dapat berhasil di mana kita dan negara
lain telah gagal - yaitu, menciptakan suasana yang memungkinkan produksi
produk berkualitas tinggi . Banyak keberhasilan orang Jepang telah dikaitkan
dengan penggunaan metode statistik dan pemikiran statistik di antara personel
manajemen.

Penggunaan Data Ilmiah


Penggunaan metode statistik dalam pembuatan, pengembangan produk makanan,
perangkat lunak komputer, sumber energi, obat-obatan, dan banyak bidang lainnya
melibatkan pengumpulan informasi atau data ilmiah. Tentunya pengumpulan data
bukanlah hal baru. Itu telah dilakukan selama lebih dari seribu tahun. Data telah
dikumpulkan, diringkas, dilaporkan, dan disimpan untuk dibaca dengan teliti. Akan
tetapi, terdapat perbedaan yang mencolok antara pengumpulan informasi ilmiah
dan statistik inferensial. Yang terakhir inilah yang telah menerima perhatian yang
semestinya dalam beberapa dekade terakhir.
Sumber statistik inferensial telah menjadi “kotak peralatan” besar metode
statistik yang digunakan oleh praktisi statistik. Metode statistik ini dirancang untuk
memberikan kontribusi pada proses membuat penilaian ilmiah dalam menghadapi
ketidakpastian dan variasi. Kepadatan produk bahan tertentu dari proses
pembuatan tidak selalu sama. Memang, jika proses yang terlibat adalah proses
batch daripada kontinu, tidak hanya akan ada variasi dalam kepadatan material di
antara batch yang keluar dari jalur ( variasi batch-ke-batch ), tetapi juga variasi
dalam batch . Metode statistik digunakan untuk menganalisis data dari proses
seperti ini untuk mendapatkan pemahaman yang lebih tentang di mana dalam
proses perubahan dapat dilakukan untuk meningkatkan kualitas proses. Dalam
proses ini, kualifikasi

2 Bab 1 Pengantar Statistik dan Analisis Data


ity mungkin didefinisikan dalam kaitannya dengan kedekatan dengan nilai kepadatan
target selaras dengan bagian waktu mana kriteria kedekatan ini terpenuhi. Seorang
insinyur mungkin peduli dengan instrumen khusus yang digunakan untuk mengukur sulfur
monoksida di udara selama studi polusi. Jika insinyur meragukan keefektifan instrumen,
ada dua sumber variasi yang harus ditangani. Yang pertama adalah variasi nilai sulfur
monoksida yang ditemukan di lokasi yang sama pada hari yang sama. Yang kedua adalah
variasi antara nilai yang diamati dan jumlah sebenarnya dari sulfur monoksida yang ada di
udara pada saat itu. Jika salah satu dari dua sumber variasi ini sangat besar (menurut
beberapa standar yang ditetapkan oleh insinyur), instrumen mungkin perlu diganti. Dalam
studi biomedis tentang obat baru yang mengurangi hipertensi, 85% pasien mengalami
kelegaan, sementara secara umum diakui bahwa obat saat ini, atau obat "lama",
membawa kelegaan pada 80% pasien yang menderita hipertensi kronis. Namun, obat baru
ini lebih mahal untuk dibuat dan dapat mengakibatkan efek samping tertentu. Haruskah
obat baru diadopsi? Ini adalah masalah yang sering dihadapi (seringkali dengan
kompleksitas yang jauh lebih) oleh perusahaan farmasi dalam hubungannya dengan FDA
(Federal Drug Administration). Sekali lagi, pertimbangan variasi perlu diperhitungkan. Nilai
"85%" didasarkan pada sejumlah pasien yang dipilih untuk penelitian. Mungkin jika
penelitian diulangi dengan pasien baru, jumlah "keberhasilan" yang diamati akan menjadi
75%! Variasi alami dari studi ke studi yang harus diperhitungkan dalam proses keputusan.
Jelaslah bahwa variasi ini penting, karena variasi dari pasien ke pasien adalah endemik
masalah tersebut.

Variabilitas dalam Data Ilmiah


Dalam masalah yang dibahas di atas, metode statistik yang digunakan melibatkan
berurusan dengan variabilitas, dan dalam setiap kasus variabilitas yang akan
dipelajari adalah yang ditemui dalam data ilmiah. Jika kerapatan produk yang
diamati dalam proses selalu sama dan selalu sesuai target, maka tidak diperlukan
metode statistik. Jika perangkat untuk mengukur sulfur monoksida selalu
memberikan nilai yang sama dan nilainya akurat (yaitu benar), tidak diperlukan
analisis statistik. Jika tidak ada variabilitas pasien-ke-pasien yang melekat dalam
respons terhadap obat (yaitu, selalu membawa bantuan atau tidak), hidup akan
menjadi sederhana bagi para ilmuwan di perusahaan farmasi dan FDA dan tidak
ada ahli statistik yang diperlukan dalam pengambilan keputusan. proses. Peneliti
statistik telah menghasilkan sejumlah besar metode analitik yang memungkinkan
analisis data dari sistem seperti yang dijelaskan di atas. Ini mencerminkan sifat
sebenarnya dari sains yang kita sebut statistik inferensial, yaitu, menggunakan
teknik yang memungkinkan kita untuk melampaui sekadar melaporkan data ke
menarik kesimpulan (atau kesimpulan) tentang sistem ilmiah. Ahli statistik
menggunakan hukum dasar probabilitas dan inferensi statistik untuk menarik
kesimpulan tentang sistem ilmiah. Informasi dikumpulkan dalam bentuk sampel,
atau kumpulan observasi. Proses pengambilan sampel diperkenalkan di Bab 2,
dan diskusi berlanjut di seluruh buku.

Sampel dikumpulkan dari populasi, yang merupakan kumpulan semua individu


atau item individu dari jenis tertentu. Kadang-kadang populasi menandakan
sistem ilmiah. Misalnya, produsen papan komputer mungkin ingin menghilangkan
cacat. Proses pengambilan sampel mungkin melibatkan pengumpulan informasi
pada 50 papan komputer yang diambil sampelnya secara acak dari proses
tersebut. Di sini, populasinya semuanya

1.1 Ringkasan: Inferensi Statistik, Sampel, Populasi, dan Peran Probabilitas 3

papan komputer yang diproduksi oleh perusahaan selama periode waktu tertentu. Jika
perbaikan dibuat dalam proses papan komputer dan sampel papan kedua dikumpulkan,
kesimpulan apa pun yang diambil mengenai keefektifan perubahan proses harus meluas
ke seluruh populasi papan komputer yang diproduksi di bawah "proses yang ditingkatkan."
Dalam percobaan obat, sampel pasien diambil dan masing-masing diberi obat khusus
untuk menurunkan tekanan darah. Minat ini difokuskan untuk menarik kesimpulan tentang
populasi mereka yang menderita hipertensi.
Seringkali, sangat penting untuk mengumpulkan data ilmiah secara sistematis,
dengan perencanaan sebagai agenda utama. Terkadang perencanaan, karena
kebutuhan, sangat terbatas. Kita seringkali hanya berfokus pada properti atau
karakteristik tertentu dari item atau objek dalam populasi. Setiap karakteristik
memiliki teknik tertentu atau, katakanlah, kepentingan biologis bagi "pelanggan",
ilmuwan atau insinyur yang berusaha mempelajari populasi. Misalnya, dalam salah
satu ilustrasi di atas, kualitas proses berkaitan dengan kepadatan produk dari
output suatu proses. Seorang insinyur mungkin perlu mempelajari pengaruh
kondisi proses, suhu, kelembaban, jumlah bahan tertentu, dan seterusnya. Ia dapat
secara sistematis memindahkan faktor-faktor ini ke tingkat apa pun yang
disarankan sesuai dengan resep atau rancangan eksperimen apa pun yang
diinginkan. Akan tetapi, seorang ilmuwan kehutanan yang tertarik dengan studi
tentang faktor-faktor yang mempengaruhi kerapatan kayu pada jenis pohon
tertentu tidak dapat selalu merancang sebuah eksperimen. Kasus ini mungkin
memerlukan studi observasi di mana data dikumpulkan di lapangan tetapi tingkat
faktor tidak dapat dipilih sebelumnya. Kedua jenis studi ini cocok dengan metode
inferensi statistik. Yang pertama, kualitas kesimpulan akan bergantung pada
perencanaan eksperimen yang tepat. Yang terakhir, ilmuwan bergantung pada apa
yang bisa dikumpulkan. Misalnya, sangat menyedihkan jika seorang ahli agronomi
tertarik untuk mempelajari pengaruh curah hujan terhadap hasil tanaman dan data
dikumpulkan selama musim kemarau.

Pentingnya pemikiran statistik oleh manajer dan penggunaan inferensi statistik


oleh personel ilmiah diakui secara luas. Ilmuwan riset memperoleh banyak manfaat
dari data ilmiah. Data memberikan pemahaman tentang fenomena ilmiah. Para
insinyur produk dan proses belajar banyak dalam upaya resmi mereka untuk
meningkatkan proses. Mereka juga mendapatkan wawasan berharga dengan
mengumpulkan data produksi (pemantauan online) secara teratur. Hal ini
memungkinkan mereka untuk menentukan modifikasi yang diperlukan untuk
menjaga proses pada tingkat kualitas yang diinginkan.
Ada kalanya seorang praktisi ilmiah hanya ingin mendapatkan semacam
ringkasan dari sekumpulan data yang direpresentasikan dalam sampel. Dengan
kata lain, statistik inferensial tidak diperlukan. Sebaliknya, satu set statistik
angka tunggal atau statistik deskriptif sangat membantu. Angka-angka ini
memberikan gambaran tentang pusat lokasi data, variabilitas data, dan sifat
umum distribusi observasi dalam sampel. Meskipun tidak ada metode statistik
khusus yang mengarah ke inferensi statistik yang digabungkan, banyak yang bisa
dipelajari. Kadang-kadang, statistik deskriptif disertai dengan grafik. Paket
perangkat lunak statistik modern memungkinkan penghitungan sarana, median,
deviasi standar, dan statistik bilangan tunggal lainnya serta produksi grafik yang
menunjukkan “jejak” sifat sampel. Definisi dan ilustrasi statistik dan grafik
bilangan tunggal , termasuk histogram, petak batang dan daun , petak sebar, petak
titik, dan petak kotak, akan diberikan pada bagian berikutnya.

4 Bab 1 Pengantar Statistik dan Analisis Data

Peran Probabilitas
Dalam buku ini, Bab 2 sampai 6 membahas pengertian dasar tentang probabilitas.
Landasan menyeluruh dalam konsep ini memungkinkan pembaca memiliki
pemahaman yang lebih baik tentang inferensi statistik. Tanpa beberapa
formalisme teori probabilitas, siswa tidak dapat menghargai interpretasi yang
sebenarnya dari analisis data melalui metode statistik modern. Sangat wajar
untuk mempelajari probabilitas sebelum mempelajari inferensi statistik. Elemen
probabilitas memungkinkan kita untuk mengukur kekuatan atau "kepercayaan"
dalam kesimpulan kita. Dalam pengertian ini, konsep dalam probabilitas
membentuk komponen utama yang melengkapi metode statistik dan membantu
kita mengukur kekuatan inferensi statistik. Disiplin probabilitas, kemudian,
memberikan transisi antara statistik deskriptif dan metode inferensial. Elemen
probabilitas memungkinkan kesimpulan dimasukkan ke dalam bahasa yang
dibutuhkan oleh para praktisi sains atau teknik. Sebuah contoh berikut ini akan
memungkinkan pembaca untuk memahami pengertian nilai- P , yang sering kali
memberikan "garis bawah" dalam interpretasi hasil dari penggunaan metode
statistik.

Contoh 1.1: Misalkan seorang insinyur menemukan data dari proses manufaktur di mana 100 item
dijadikan sampel dan 10 ditemukan cacat. Diharapkan dan diantisipasi bahwa
sesekali akan ada barang yang cacat. Tentunya 100 item ini mewakili sampel.
Namun, telah ditentukan bahwa dalam jangka panjang, perusahaan hanya dapat
mentolerir 5% cacat dalam proses tersebut. Sekarang, elemen probabilitas
memungkinkan insinyur untuk menentukan seberapa konklusif informasi sampel
berkaitan dengan sifat proses. Dalam hal ini, populasi secara konseptual mewakili
semua kemungkinan item dari proses tersebut. Misalkan kita belajar bahwa jika
proses dapat diterima , yaitu jika tidak menghasilkan item tidak lebih dari 5% yang
rusak, ada kemungkinan 0,0282 untuk mendapatkan 10 atau lebih item cacat
dalam sampel acak 100 item. dari proses. Kemungkinan kecil ini menunjukkan
bahwa proses tersebut memang memiliki tingkat jangka panjang untuk item cacat
yang melebihi 5%. Dengan kata lain, dalam kondisi proses yang dapat diterima,
informasi sampel yang diperoleh jarang terjadi. Namun, itu memang terjadi! Jelas,
meskipun, itu akan terjadi dengan probabilitas yang jauh lebih tinggi jika tingkat
kerusakan proses melebihi 5% dengan jumlah yang signifikan.

Dari contoh ini menjadi jelas bahwa elemen bantuan probabilitas dalam
terjemahan informasi sampel menjadi sesuatu yang konklusif atau tidak
meyakinkan tentang sistem ilmiah. Sebenarnya, apa yang dipelajari kemungkinan
besar adalah informasi yang mengkhawatirkan bagi insinyur atau manajer.
Metode statistik, yang akan kami jelaskan di Bab 10, menghasilkan nilai- P 0,0282.
Hasilnya menunjukkan bahwa proses tersebut kemungkinan besar tidak dapat
diterima. Konsep dari P -nilai dibahas panjang lebar dalam berhasil bab. Contoh
berikut memberikan ilustrasi kedua.

Contoh 1.2: Seringkali sifat studi ilmiah akan menentukan peran yang dimainkan oleh probabilitas dan
penalaran deduktif dalam inferensi statistik. Latihan 9.40 di halaman 294 memberikan
data yang terkait dengan studi yang dilakukan di Virginia Polytechnic Institute dan State
University tentang pengembangan hubungan antara akar pohon dan aksi jamur. Mineral
dipindahkan dari jamur ke pohon dan gula dari pohon ke jamur. Dua sampel dari 10 bibit
ek merah utara ditanam di rumah kaca, satu berisi bibit yang diolah dengan nitrogen dan

1.1 Ringkasan: Inferensi Statistik, Sampel, Populasi, dan Peran Probabilitas 5

yang lainnya mengandung bibit tanpa nitrogen. Semua kondisi lingkungan lainnya
dipertahankan konstan. Semua bibit mengandung jamur Pisolithus tinctorus .
Rincian lebih lanjut diberikan di Bab 9. Bobot batang dalam gram dicatat setelah
akhir 140 hari. Data diberikan pada Tabel 1.1.

Tabel 1.1: Kumpulan Data untuk Contoh 1.2


Tanpa Nitrogen Nitrogen
0.32 0.26
0,53 0.43
0.28 0.47
0.37 0.49
0.47 0,52
0.43 0.75
0.36 0.79
0.42 0.86
0.38 0.62
0.43 0.46
0.25 0.30 0.35 0.40 0.45 0,50 0,55 0.60 0.65 0.70 0.75 0.80 0.85 0.90

Gambar 1.1: Plot titik data berat batang.

Dalam contoh ini terdapat dua sampel dari dua populasi yang terpisah. Tujuan
percobaan adalah untuk mengetahui apakah penggunaan nitrogen berpengaruh
pada pertumbuhan akar. Studi ini adalah studi perbandingan (yaitu, kami berusaha
untuk membandingkan dua populasi sehubungan dengan karakteristik penting
tertentu). Sebaiknya plot data seperti yang ditunjukkan pada plot titik pada
Gambar 1.1. Nilai ◦ mewakili data "nitrogen" dan nilai × mewakili data
"tanpa nitrogen" .
Perhatikan bahwa tampilan umum data mungkin memberi kesan kepada
pembaca bahwa, rata-rata, penggunaan nitrogen meningkatkan bobot batang.
Empat pengamatan nitrogen jauh lebih besar daripada pengamatan tanpa nitrogen
. Sebagian besar pengamatan tanpa nitrogen tampaknya berada di bawah pusat
data. Munculnya kumpulan data tampaknya menunjukkan bahwa nitrogen efektif.
Tapi bagaimana ini bisa diukur? Bagaimana semua bukti visual yang tampak
diringkas dalam arti tertentu? Seperti pada contoh sebelumnya, dasar-dasar
probabilitas dapat digunakan. Kesimpulan dapat diringkas dalam pernyataan
probabilitas atau nilai- P . Kami tidak akan menunjukkan inferensi statistik yang
menghasilkan probabilitas ringkasan. Seperti pada Contoh 1.1, metode ini akan
dibahas dalam Bab 10. Masalahnya berkisar pada "kemungkinan bahwa data
seperti ini dapat diamati" mengingat bahwa nitrogen tidak berpengaruh , dengan
kata lain, mengingat kedua sampel dihasilkan dari populasi yang sama . Misalkan
probabilitas ini kecil, katakanlah 0,03. Itu pasti akan menjadi bukti kuat bahwa
penggunaan nitrogen memang memengaruhi (tampaknya meningkatkan) bobot
batang rata-rata dari bibit oak merah.

6 Bab 1 Pengantar Statistik dan Analisis Data

Bagaimana Probabilitas dan Inferensi Statistik Bekerja Sama?


Penting bagi pembaca untuk memahami perbedaan yang jelas antara disiplin
probabilitas, ilmu dalam dirinya sendiri, dan disiplin statistik inferensia. Seperti
yang telah kami tunjukkan, penggunaan atau penerapan konsep dalam
probabilitas memungkinkan interpretasi kehidupan nyata dari hasil inferensi
statistik. Akibatnya, dapat dikatakan bahwa inferensi statistik menggunakan
konsep-konsep dalam probabilitas. Kita dapat mengambil dari dua contoh di atas
bahwa informasi sampel disediakan untuk analis dan, dengan bantuan metode
statistik dan elemen probabilitas, kesimpulan ditarik tentang beberapa fitur
populasi (proses tampaknya tidak dapat diterima di Contoh 1.1, dan nitrogen
tampaknya memengaruhi bobot batang rata-rata di Contoh 1.2). Jadi untuk
masalah statistik, sampel bersama dengan statistik inferensial memungkinkan
kita untuk menarik kesimpulan tentang populasi, dengan statistik inferensial
memperjelas penggunaan elemen probabilitas. Penalaran ini bersifat induktif .
Sekarang saat kita beralih ke Bab 2 dan seterusnya, pembaca akan mencatat
bahwa, tidak seperti apa yang kita lakukan dalam dua contoh kita di sini, kita tidak
akan fokus pada pemecahan masalah statistik. Banyak contoh akan diberikan
tanpa melibatkan sampel. Akan ada suatu populasi yang digambarkan dengan
jelas dengan semua ciri populasi yang diketahui. Kemudian pertanyaan-
pertanyaan penting akan difokuskan pada sifat data yang secara hipotetis dapat
diambil dari populasi. Dengan demikian, dapat dikatakan bahwa elemen dalam
probabilitas memungkinkan kita untuk menarik kesimpulan tentang karakteristik
data hipotetis yang diambil dari populasi, berdasarkan fitur populasi yang
diketahui. Jenis penalaran ini bersifat deduktif . Gambar 1.2 menunjukkan
hubungan fundamental antara probabilitas dan statistik inferensial.

Kemungkinan
Populasi Sampel

Inferensi Statistik

Gambar 1.2: Hubungan mendasar antara probabilitas dan statistik inferensial.

Sekarang, dalam skema besar hal-hal, mana yang lebih penting, bidang
probabilitas atau bidang statistik? Keduanya sangat penting dan jelas saling
melengkapi. Satu-satunya kepastian mengenai pedagogi dari dua disiplin ini
terletak pada kenyataan bahwa jika statistik diajarkan lebih dari sekedar tingkat
"buku masak", maka disiplin probabilitas harus diajarkan terlebih dahulu. Aturan ini
berasal dari fakta bahwa tidak ada yang dapat dipelajari tentang suatu populasi
dari sampel sampai analis mempelajari dasar-dasar ketidakpastian dalam sampel
tersebut. Misalnya, perhatikan Contoh 1.1. Pertanyaannya berpusat pada apakah
populasi, ditentukan oleh proses, tidak lebih dari 5% cacat atau tidak. Dengan kata
lain, dugaannya adalah rata-rata 5 dari 100 item rusak. Sekarang, sampel berisi 100
item dan 10 rusak. Apakah ini mendukung dugaan atau membantahnya? Di

1.2 Prosedur Pengambilan Sampel; Pengumpulan Data 7

permukaan itu akan tampak sebagai sanggahan dari dugaan karena 10 dari 100
tampaknya "sedikit banyak." Tetapi tanpa unsur probabilitas, bagaimana kita tahu?
Hanya melalui studi materi di bab-bab selanjutnya kita akan mempelajari kondisi
di mana proses tersebut dapat diterima (5% rusak). Probabilitas untuk
mendapatkan 10 atau lebih item cacat dalam sampel 100 adalah 0,0282.
Kami telah memberikan dua contoh di mana elemen probabilitas memberikan
ringkasan yang dapat digunakan ilmuwan atau insinyur sebagai bukti untuk
membangun keputusan. Jembatan antara data dan kesimpulan, tentu saja,
didasarkan pada dasar-dasar inferensi statistik, teori distribusi, dan distribusi
sampling yang dibahas dalam bab-bab selanjutnya.

1.2 Prosedur Pengambilan Sampel; Pengumpulan Data


Pada Bagian 1.1 kita membahas secara singkat pengertian pengambilan sampel
dan proses pengambilan sampel. Walaupun pengambilan sampel tampaknya
merupakan konsep yang sederhana, kompleksitas pertanyaan yang harus dijawab
tentang populasi atau populasi mengharuskan proses pengambilan sampel
menjadi sangat kompleks pada waktu-waktu tertentu. Sementara gagasan
pengambilan sampel dibahas secara teknis di Bab 8, kami akan berusaha di sini
untuk memberikan beberapa gagasan pengambilan sampel yang masuk akal . Ini
adalah transisi alami ke diskusi tentang konsep variabilitas.

Contoh acak sederhana


Pentingnya pengambilan sampel yang tepat berkisar pada tingkat kepercayaan
yang dapat digunakan analis untuk menjawab pertanyaan yang diajukan. Mari kita
asumsikan bahwa hanya ada satu populasi dalam masalah tersebut. Ingatlah
bahwa dalam Contoh 1.2 dua populasi terlibat. Pengambilan sampel acak
sederhana menyiratkan bahwa sampel tertentu dari ukuran sampel tertentu
memiliki peluang yang sama untuk dipilih sebagai sampel lain dengan ukuran yang
sama. Istilah ukuran sampel berarti jumlah elemen dalam sampel. Jelas, tabel
angka acak dapat digunakan dalam pemilihan sampel dalam banyak hal.
Keutamaan dari pengambilan sampel acak sederhana adalah bahwa hal itu
membantu dalam menghilangkan masalah karena sampel mencerminkan
populasi yang berbeda (mungkin lebih terbatas) daripada yang perlu dibuat
kesimpulan. Misalnya, sampel akan dipilih untuk menjawab pertanyaan tertentu
tentang preferensi politik di negara bagian tertentu di Amerika Serikat. Sampel
tersebut melibatkan pemilihan, katakanlah, 1000 keluarga, dan survei akan
dilakukan. Sekarang, misalkan ternyata random sampling tidak digunakan.
Sebaliknya, semua atau hampir semua dari 1000 keluarga yang dipilih tinggal di
lingkungan perkotaan. Diyakini bahwa preferensi politik di perdesaan berbeda
dengan di perkotaan. Dengan kata lain, sampel yang diambil sebenarnya
membatasi populasi dan dengan demikian kesimpulan perlu dibatasi pada
"populasi terbatas", dan dalam hal ini membatasi mungkin tidak diinginkan. Jika,
memang, kesimpulan perlu dibuat tentang keadaan secara keseluruhan, sampel
dengan ukuran 1000 yang dijelaskan di sini sering disebut sebagai sampel yang
bias.

Seperti yang kami tunjukkan sebelumnya, pengambilan sampel acak


sederhana tidak selalu tepat. Pendekatan alternatif mana yang digunakan
tergantung pada kompleksitas masalah. Seringkali, misalnya, unit pengambilan
sampel tidak homogen dan secara alami membagi dirinya menjadi kelompok-
kelompok yang tidak tumpang tindih yang homogen. Kelompok-kelompok ini
disebut strata ,

8 Bab 1 Pengantar Statistik dan Analisis Data

dan prosedur yang disebut pengambilan sampel acak bertingkat melibatkan


pemilihan sampel secara acak dalam setiap strata. Tujuannya adalah untuk
memastikan bahwa setiap strata tidak terlalu terwakili atau kurang terwakili.
Misalnya, survei sampel dilakukan untuk mengumpulkan pendapat awal tentang
referendum obligasi yang sedang dipertimbangkan di kota tertentu. Kota ini terbagi
menjadi beberapa kelompok etnis yang mewakili strata alam. Agar tidak
mengabaikan atau merepresentasikan kelompok mana pun, sampel keluarga yang
terpisah dapat dipilih dari setiap kelompok.

Desain eksperimental
Konsep keacakan atau tugas acak memainkan peran besar dalam bidang desain
eksperimental, yang diperkenalkan secara singkat di Bagian 1.1 dan merupakan
pokok penting di hampir semua bidang ilmu teknik atau eksperimental. Ini akan
dibahas panjang lebar di Bab 13 hingga 15. Namun, presentasi singkat di sini
bermanfaat dalam konteks pengambilan sampel acak. Seperangkat yang disebut
pengobatan atau kombinasi pengobatan menjadi populasi untuk dipelajari atau
dibandingkan dalam arti tertentu. Contohnya adalah perlakuan nitrogen versus
tanpa nitrogen dalam Contoh 1.2. Contoh sederhana lainnya adalah "plasebo"
versus "obat aktif", atau dalam studi kelelahan korosi, kami mungkin memiliki
kombinasi pengobatan yang melibatkan spesimen yang dilapisi atau tidak dilapisi
serta kondisi kelembaban rendah atau tinggi di mana spesimen terpapar.
Faktanya, ada empat kombinasi perlakuan atau faktor (yaitu, 4 populasi), dan
banyak pertanyaan ilmiah dapat ditanyakan dan dijawab melalui metode statistik
dan inferensial. Pertimbangkan dulu situasi di Contoh 1.2. Ada 20 bibit penyakit
yang dilibatkan dalam percobaan ini. Dari data itu sendiri, mudah dilihat bahwa
bibit-bibit itu berbeda satu sama lain. Dalam kelompok nitrogen (atau kelompok
tanpa nitrogen ) terdapat variabilitas yang cukup besar dalam bobot batang.
Variabilitas ini disebabkan oleh apa yang umumnya disebut unit eksperimental. Ini
adalah konsep yang sangat penting dalam statistik inferensial, yang uraiannya
tidak akan berakhir di bab ini. Sifat variabilitas sangat penting. Jika terlalu besar,
yang berasal dari kondisi nonhomogenitas yang berlebihan dalam unit
eksperimen, variabilitas akan "menghapus" perbedaan yang dapat dideteksi antara
dua populasi. Ingatlah bahwa dalam kasus ini itu tidak terjadi.

Titik Plot pada Gambar 1.1 dan P -nilai menunjukkan perbedaan yang jelas
antara dua kondisi tersebut. Peran apa yang dimainkan unit eksperimen tersebut
dalam proses pengambilan data itu sendiri? The akal sehat dan, memang,
pendekatan cukup standar untuk menetapkan 20 bibit atau unit eksperimental
acak untuk dua KASIH atau kondisi memperlakukan. Dalam studi obat, kami
mungkin memutuskan untuk menggunakan total 200 pasien yang tersedia, pasien
yang jelas akan berbeda dalam beberapa hal. Mereka adalah unit eksperimental.
Namun, mereka semua mungkin memiliki kondisi kronis yang sama dimana obat
tersebut merupakan pengobatan potensial. Kemudian dalam apa yang disebut
desain yang sepenuhnya acak, 100 pasien secara acak menggunakan plasebo dan
100 untuk obat aktif. Sekali lagi, unit eksperimental dalam suatu kelompok atau
pengobatan inilah yang menghasilkan variabilitas dalam hasil data (yaitu,
variabilitas dalam hasil yang diukur), misalnya tekanan darah, atau nilai efektivitas
obat apa pun yang penting. Dalam studi kelelahan korosi, unit eksperimen adalah
spesimen yang menjadi subjek korosi.

1.2 Prosedur Pengambilan Sampel; Pengumpulan Data 9

Mengapa Menetapkan Unit Eksperimen Secara Acak?


Apa dampak negatif yang mungkin terjadi jika tidak menetapkan unit eksperimen
secara acak ke perawatan atau kombinasi perawatan? Ini terlihat paling jelas
dalam kasus studi obat. Di antara karakteristik pasien yang menghasilkan
variabilitas dalam hasil adalah usia, jenis kelamin, dan berat badan. Anggap saja
secara kebetulan kelompok plasebo berisi sampel orang yang sebagian besar
lebih berat daripada kelompok perlakuan. Mungkin orang yang lebih berat memiliki
kecenderungan untuk memiliki tekanan darah yang lebih tinggi. Ini jelas
membiaskan hasil, dan memang, hasil apa pun yang diperoleh melalui penerapan
inferensi statistik mungkin tidak ada hubungannya dengan obat dan lebih
berkaitan dengan perbedaan bobot di antara dua sampel pasien.
Kita harus menekankan keterikatan pentingnya istilah variabilitas. Variabilitas
yang berlebihan di antara unit eksperimental "kamuflase" penemuan ilmiah. Di
bagian selanjutnya, kami mencoba untuk mengkarakterisasi dan mengukur ukuran
variabilitas. Pada bagian selanjutnya, kami memperkenalkan dan mendiskusikan
kuantitas spesifik yang dapat dihitung dalam sampel; kuantitas memberikan
gambaran tentang sifat sampel sehubungan dengan pusat lokasi data dan
variabilitas dalam data. Pembahasan tentang beberapa ukuran angka tunggal ini
berfungsi untuk memberikan tinjauan tentang informasi statistik apa yang akan
menjadi komponen penting dari metode statistik yang digunakan dalam bab-bab
selanjutnya. Pengukuran ini yang membantu mengkarakterisasi sifat kumpulan
data termasuk dalam kategori statistik deskriptif. Materi ini merupakan
pendahuluan dari presentasi singkat metode bergambar dan grafis yang
melangkah lebih jauh dalam karakterisasi kumpulan data. Pembaca harus
memahami bahwa metode statistik yang diilustrasikan di sini akan digunakan di
seluruh teks. Untuk memberi pembaca gambaran yang lebih jelas tentang apa
yang terlibat dalam studi desain eksperimental, kami menawarkan Contoh 1.3.

Contoh 1.3: Studi korosi dilakukan untuk menentukan apakah melapisi logam aluminium dengan
zat penghambat korosi dapat mengurangi jumlah korosi. Pelapis adalah pelindung
yang diiklankan untuk meminimalkan kerusakan akibat kelelahan pada jenis bahan
ini. Yang juga menarik adalah pengaruh kelembapan pada jumlah korosi.
Pengukuran korosi dapat diekspresikan dalam ribuan siklus menuju kegagalan.
Dua tingkat pelapisan, tanpa pelapis dan pelapis korosi kimia, digunakan. Selain
itu, dua tingkat kelembapan relatif adalah kelembapan relatif 20% dan kelembapan
relatif 80%.
Eksperimen ini melibatkan empat kombinasi perlakuan yang tercantum dalam
tabel berikut. Ada delapan unit percobaan yang digunakan, yaitu spesimen
aluminium yang disiapkan; dua ditugaskan secara acak untuk masing-masing dari
empat kombinasi pengobatan. Data disajikan pada Tabel 1.2.
Data korosi adalah rata-rata dari dua spesimen. Plot rata-rata digambarkan
pada Gambar 1.3. Nilai siklus menuju kegagalan yang relatif besar menunjukkan
jumlah korosi yang kecil. Seperti yang diharapkan, peningkatan kelembapan
tampaknya memperburuk korosi. Penggunaan prosedur pelapisan korosi kimia
tampaknya mengurangi korosi.
Dalam ilustrasi desain eksperimental ini, insinyur telah secara sistematis memilih
empat kombinasi perlakuan. Untuk menghubungkan situasi ini dengan konsep-konsep
yang pembaca telah diekspos pada poin ini, harus diasumsikan bahwa
10 Bab 1 Pengantar Statistik dan Analisis Data
 

Tabel 1.2: Data untuk Contoh 1.3


     
           
 
      Korosi Rata-rata dalam
Lapisan Kelembaban Ribuan Siklus menuju Kegagalan
          
20% 975
   Tidak dilapisi   
    80% 350  
20% 1750
   Korosi Kimia   
    80% 1550  
     

2000

Pelapisan Korosi Kimia


Korosi Rata-Rata

1000

Tidak dilapisi

0
0 20% 80%
Kelembaban

Gambar 1.3: Hasil Korosi untuk Contoh 1.3.

kondisi yang mewakili empat kombinasi perlakuan adalah empat populasi


terpisah dan dua nilai korosi yang diamati untuk setiap populasi merupakan
informasi penting. Pentingnya rata-rata dalam menangkap dan meringkas ciri-ciri
tertentu dalam populasi akan disoroti di Bagian 1.3. Meskipun kita dapat menarik
kesimpulan tentang peran kelembaban dan dampak pelapisan spesimen dari
gambar, kita tidak dapat benar-benar mengevaluasi hasil dari sudut pandang
analisis tanpa memperhitungkan variabilitas di sekitar rata-rata. Sekali lagi, seperti
yang kami tunjukkan sebelumnya, jika dua nilai korosi untuk setiap kombinasi
perlakuan berdekatan, gambar pada Gambar 1.3 mungkin merupakan gambaran
yang akurat. Tetapi jika setiap nilai korosi dalam gambar adalah rata-rata dari dua
nilai yang tersebar luas, maka variabilitas ini mungkin benar-benar
"menghilangkan" informasi apa pun yang muncul ketika seseorang hanya
mengamati rata-rata. Contoh di atas menggambarkan konsep-konsep ini:
(1) penugasan acak kombinasi perlakuan (pelapisan, kelembaban) ke unit
percobaan (spesimen)
(2) penggunaan rata-rata sampel (nilai korosi rata-rata) dalam meringkas
informasi sampel
(3) perlunya pertimbangan ukuran variabilitas dalam analisis setiap sampel atau
set sampel

1.3 Ukuran Lokasi: Sample Mean dan Median 11

Contoh ini menunjukkan perlunya hal-hal berikut dalam Bagian 1.3 dan 1.4,
yaitu, statistik deskriptif yang menunjukkan ukuran pusat lokasi dalam satu set
data, dan yang mengukur variabilitas.

1.3 Pengukuran Lokasi: Sample Mean dan Median


Pengukuran lokasi dirancang untuk memberikan analis beberapa nilai kuantitatif di
mana pusat, atau beberapa lokasi lain, data berada. Dalam Contoh 1.2, tampak
seolah-olah pusat sampel nitrogen jelas melebihi sampel tanpa nitrogen . Satu
ukuran yang jelas dan sangat berguna adalah mean sampel. Mean hanyalah rata-
rata numerik.

Definisi 1.1: Misalkan pengamatan dalam suatu sampel adalah x 1 , x 2 ,. . . , x n . Rata-rata


sampel, dilambangkan dengan x ¯, adalah
n
x¯= x i = x 1+ x 2+ · · · + x n .
   
n
i=1 n
 
Ada ukuran lain dari tendensi sentral yang dibahas secara rinci pada bab-bab
selanjutnya. Salah satu ukuran penting adalah median sampel. Tujuan median
sampel adalah untuk mencerminkan tendensi sentral sampel sedemikian rupa
sehingga tidak dipengaruhi oleh nilai ekstrim atau pencilan.

Definisi 1.2: Diketahui bahwa observasi dalam suatu sampel adalah x 1 , x 2 ,. . . , x n , disusun
dalam urutan kenaikan besarnya, median sampel adalah
x ( n +1) / 2 , jika n ganjil ,
x˜=  
1
2 ( x n / 2 + x n / 2 + 1 ) , jika n genap .

Sebagai contoh, misalkan kumpulan data adalah sebagai berikut: 1.7, 2.2, 3.9,
3.11, dan 14.7. Rata-rata sampel dan median adalah,

x ¯ = 5 . 12 , x ˜ = 3 . 9 .

Jelas, mean sangat dipengaruhi oleh kehadiran pengamatan ekstrim, 14,7,


sedangkan median menempatkan penekanan pada "pusat" sebenarnya dari
kumpulan data. Dalam kasus kumpulan data dua sampel dari Contoh 1.2, dua
ukuran tendensi sentral untuk sampel individu adalah

x ¯ (tanpa nitrogen) = 0 . 399 gram ,


 
0 . 38 + 0 . 42
x ˜ (tanpa nitrogen) =    = 0 . 400 gram ,
    2   
x ¯ (nitrogen) = 0 . 565 gram ,  

x ˜ (nitrogen) =  0 . 49 + 0 . 52 = 0 . 505 gram .


  
    2   

Jelas ada perbedaan konsep antara mean dan median. Mungkin menarik bagi
pembaca dengan latar belakang teknik yang dimaksud sampel tersebut

12 Bab 1 Pengantar Statistik dan Analisis Data

adalah pusat data dalam sampel. Dalam arti tertentu, ini adalah titik di mana titik
tumpu dapat ditempatkan untuk menyeimbangkan sistem "bobot" yang
merupakan lokasi data individu. Hal ini ditunjukkan pada Gambar 1.4 berkaitan
dengan sampel dengan-nitrogen .

x ? 0,565

0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90

Gambar 1.4: Rata-rata sampel sebagai sentroid dari bobot batang dengan-nitrogen .

Dalam bab-bab selanjutnya, dasar penghitungan x ¯ adalah perkiraan rata-rata


populasi. Seperti yang kami tunjukkan sebelumnya, tujuan dari kesimpulan
statistik adalah untuk menarik kesimpulan tentang karakteristik atau parameter
populasi dan estimasi adalah fitur yang sangat penting dari inferensi statistik.
Median dan mean bisa sangat berbeda satu sama lain. Akan tetapi, perlu
dicatat bahwa dalam kasus data berat batang, nilai rata-rata sampel untuk
tanpa nitrogen sangat mirip dengan nilai median.

Ukuran Lain dari Lokasi


Ada beberapa metode lain untuk mengukur pusat lokasi data dalam sampel. Kami
tidak akan menangani mereka saat ini. Sebagian besar, alternatif mean sampel
dirancang untuk menghasilkan nilai yang mewakili kompromi antara mean dan
median. Kami jarang menggunakan tindakan lain ini. Akan tetapi, ada baiknya
membahas satu kelas penduga, yaitu kelas sarana yang dipangkas. Rata-rata yang
dipotong dihitung dengan "memotong" persentase tertentu dari kumpulan nilai
terbesar dan terkecil. Misalnya, rata-rata pemangkasan 10% ditemukan dengan
menghilangkan 10% terbesar dan 10% terkecil dan menghitung rata-rata dari nilai
yang tersisa. Misalnya, untuk data berat batang, kami akan menghilangkan yang
terbesar dan terkecil karena ukuran sampel adalah 10 untuk setiap sampel. Jadi
untuk kelompok tanpa nitrogen diberikan rata-rata pemangkasan 10%
0 . 32 + 0 . 37 + 0 . 47 + 0 . 43 + 0 . 36 + 0 . 42 + 0 . 38 + 0 . 43
x ¯ tr (10) = = 0 . 39750 ,
   
8  

dan untuk rata-rata pemangkasan 10% untuk grup dengan nitrogen yang kami miliki

0 . 43 + 0 . 47 + 0 . 49 + 0 . 52 + 0 . 75 + 0 . 79 + 0 . 62 + 0 . 46
x ¯ tr (10) = = 0 . 56625 .
   
8  

Perhatikan bahwa dalam kasus ini, seperti yang diharapkan, mean yang dipotong
mendekati mean dan median untuk sampel individu. Rata-rata yang dipangkas,
tentu saja, lebih tidak sensitif terhadap pencilan daripada rata-rata sampel, tetapi
tidak sepeka median. Di sisi lain, pendekatan rata-rata yang dipangkas
menggunakan lebih banyak informasi daripada median sampel. Perhatikan bahwa
median sampel memang merupakan kasus khusus dari rata-rata yang dipotong di
mana semua data sampel dihilangkan terlepas dari satu atau dua pengamatan di
tengah.

Latihan 13

Latihan

1.1 Pengukuran berikut dicatat untuk waktu polimer? Menjelaskan.


pengeringan, dalam jam, dari merek cat lateks (c) Hitung kekuatan tarik rata-rata sampel dari dua
tertentu. sampel.
3.4 2.5 4.8 2.9 3.6
(d) Hitung median untuk keduanya. Diskusikan
2.8 3.3 5.6 3.7 2.8
kesamaan atau kurangnya kesamaan antara mean
4.4 4.0 5.2 3.0 4.8 dan median masing-masing kelompok.
Asumsikan bahwa pengukuran adalah sampel acak
sederhana. 1.4 Dalam studi yang dilakukan oleh Departemen Teknik
(a) Berapa ukuran sampel untuk sampel di atas? Tanaman di Virginia Tech, batang baja yang dipasok oleh
(b) Hitung mean sampel untuk data ini. dua perusahaan yang berbeda dibandingkan. Sepuluh pegas
sampel dibuat dari batang baja yang dipasok oleh masing-
(c) Hitung median sampel. masing perusahaan, dan ukuran fleksibilitas dicatat untuk
(d) Plot data dengan cara plot titik. masing-masing. Datanya adalah sebagai berikut:
(e) Hitung 20% rata-rata yang dipangkas untuk Perusahaan A: 9.3 8.8 6.8 8.7 8.5
kumpulan data di atas. 6.7 8.0 6.5 9.2 7.0
(f) Apakah rata-rata sampel untuk data ini lebih atau Perusahaan B: 11.0 9.8 9.9 10.2 10.1
kurang menggambarkan sebagai pusat lokasi 9.7 11.0 11.1 10.2 9.6
daripada rata-rata yang dipangkas? (a) Hitung mean dan median sampel untuk data
1.2 Menurut jurnal Chemical Engineering , properti penting kedua perusahaan.
(b) Plotkan data untuk dua perusahaan pada baris yang
dari serat adalah kemampuan menyerap air. Sebuah sampel
acak dari 20 potong serat kapas diambil dan serapan pada sama dan berikan kesan Anda tentang perbedaan yang
masing-masing bagian diukur. Berikut nilai absorbansi: terlihat antara kedua perusahaan.
18.71 21.41 20.72 21.81 19.29 22.43 20.17 1.5 Dua puluh laki-laki dewasa antara usia 30 dan 40
23.71 19.44 20.50 18.92 20.33 23.00 22.85 berpartisipasi dalam penelitian untuk mengevaluasi
19.25 21.77 22.11 19.77 18.04 21.12 efek dari rejimen kesehatan tertentu yang melibatkan
(a) Hitung mean dan median sampel untuk nilai diet dan olahraga terhadap kolesterol darah. Sepuluh
sampel di atas. dipilih secara acak untuk menjadi kelompok kontrol,
(b) Hitung 10% rata-rata yang dipangkas. dan sepuluh lainnya ditugaskan untuk mengambil
bagian dalam rejimen sebagai kelompok pengobatan
(c) Buat plot titik dari data serap. untuk jangka waktu 6 bulan. Data berikut menunjukkan
(d) Dengan hanya menggunakan nilai mean, median, penurunan kolesterol yang dialami selama periode
dan trimmed mean, apakah Anda memiliki bukti waktu untuk 20 subjek:
outlier dalam data?
Kelompok kontrol: 7 3 - 4 14 2
1.3 Polimer tertentu digunakan untuk sistem evakuasi   5 22 - 7 9 5
pesawat terbang. Penting agar polimer tahan terhadap Kelompok pengobatan: - 6 5 9 4 4
proses penuaan. Dua puluh spesimen polimer digunakan   12 37 5 3 3
dalam sebuah percobaan. Sepuluh orang ditugaskan secara
(a) Buat plot titik dari data untuk kedua kelompok
acak untuk terkena proses penuaan batch yang dipercepat
yang melibatkan paparan suhu tinggi selama 10 hari. pada grafik yang sama.
Pengukuran kekuatan tarik spesimen dilakukan, dan data (b) Hitung mean, median, dan 10% rata-rata yang
berikut dicatat pada kekuatan tarik dalam psi: dipangkas untuk kedua kelompok.
Tidak ada penuaan: 227222 (c) Jelaskan mengapa perbedaan cara menunjukkan
218217225218229229222 satu kesimpulan tentang efek rejimen, sedangkan
perbedaan dalam median atau sarana yang
Penuaan: 219 214 215 211 209
dipangkas menunjukkan kesimpulan yang
218203 204 201205
berbeda.
(a) Lakukan plot titik dari data.
(b) Dari plot Anda, apakah tampak seolah-olah proses 1.6 Kekuatan tarik karet silikon dianggap sebagai
penuaan berpengaruh pada kekuatan tarik ini fungsi suhu pengawetan. Sebuah studi adalah
dilakukan di mana sampel 12 spesimen dari ber rub-
disusun menggunakan menyembuhkan suhu 20 ◦ C
dan 45 ◦ C. Data di bawah menunjukkan nilai kekuatan
tarik di megapascal.

14 Bab 1 Pengantar Statistik dan Analisis Data

20 ◦ C: 2.07 2.14 2.22 2.03 2.21 2.03


(b) Hitung sampel rata-rata kekuatan tarik untuk
2.05 2.18 2.09 2.14 2.11 2.02
45 ◦ C: 2.52 kedua sampel.
2.15 2.49 2.03 2.37 2.05
1.99 2.42 2.08 2.42 2.29 2.01 (c) Apakah suhu curing tampaknya berpengaruh pada
  kekuatan tarik, berdasarkan plot? Beri komentar
lebih lanjut.
(a) Tunjukkan plot titik data dengan nilai kekuatan
(d) Apakah ada hal lain yang tampaknya dipengaruhi
tarik suhu rendah dan tinggi.
oleh peningkatan suhu curing? Menjelaskan.

1.4 Ukuran Variabilitas


Variabilitas sampel memainkan peran penting dalam analisis data. Variabilitas
proses dan produk adalah fakta kehidupan dalam sistem teknik dan ilmiah:
Pengendalian atau pengurangan variabilitas proses sering kali menjadi sumber
kesulitan utama. Semakin banyak insinyur dan manajer proses mempelajari
bahwa kualitas produk dan, sebagai hasilnya, keuntungan yang diperoleh dari
produk manufaktur sangat banyak merupakan fungsi dari variabilitas proses.
Akibatnya, sebagian besar Bab 9 hingga 15 membahas analisis data dan prosedur
pemodelan di mana variabilitas sampel memainkan peran utama. Bahkan dalam
masalah analisis data kecil, keberhasilan metode statistik tertentu mungkin
bergantung pada besarnya variabilitas di antara pengamatan dalam sampel.
Pengukuran lokasi dalam sampel tidak memberikan ringkasan yang tepat tentang
sifat kumpulan data. Misalnya, dalam Contoh 1.2 kita tidak dapat menyimpulkan
bahwa penggunaan nitrogen meningkatkan pertumbuhan tanpa memperhitungkan
variabilitas sampel.
Sementara rincian analisis dari jenis kumpulan data ini tunduk pada Bab 9,
harus jelas dari Gambar 1.1 bahwa variabilitas di antara pengamatan
tanpa nitrogen dan variabilitas di antara pengamatan nitrogen tentu saja memiliki
beberapa konsekuensi. Nyatanya, tampak bahwa variabilitas dalam sampel
nitrogen lebih besar daripada sampel tanpa nitrogen . Mungkin ada sesuatu
tentang penyertaan nitrogen yang tidak hanya meningkatkan tinggi batang (¯ x
0,565 gram dibandingkan dengan x ¯ 0,399 gram untuk sampel tanpa nitrogen )
tetapi juga meningkatkan variabilitas tinggi batang (yaitu, membuat tinggi batang
lebih tidak konsisten).
Sebagai contoh lain, kontraskan dua kumpulan data di bawah ini. Masing-
masing berisi dua sampel dan perbedaan rata-rata hampir sama untuk kedua
sampel, tetapi kumpulan data B tampaknya memberikan kontras yang jauh lebih
tajam antara dua populasi tempat sampel diambil. Jika tujuan dari percobaan
semacam itu adalah untuk mendeteksi perbedaan antara dua populasi, tugas
diselesaikan dalam kasus kumpulan data B. Namun, dalam kumpulan data A,
variabilitas yang besar dalam dua sampel menciptakan kesulitan. Faktanya, tidak
jelas apakah ada perbedaan antara kedua populasi tersebut.

Kumpulan data A: XXXXXX 0 XX 0 0 XXX 0 0 0 00 000


xX x0

1.4 Ukuran Variabilitas 15

Rentang Sampel dan Deviasi Standar Sampel


Seperti halnya ada banyak ukuran kecenderungan atau lokasi pusat, ada banyak
ukuran penyebaran atau variabilitas. Mungkin yang paling sederhana adalah
rentang sampel X max - X min . Rentang ini bisa sangat berguna dan dibahas panjang
lebar di Bab 17 tentang kendali mutu statistik . Ukuran sampel penyebaran yang
paling sering digunakan adalah deviasi standar sampel. Kami kembali
membiarkan x 1 , x 2 ,. . . , x n menunjukkan nilai sampel.

Definisi 1.3: Varians sampel, dilambangkan dengan s 2 , diberikan oleh


n
( x i - x ¯) 2 n
s 2= .
-1
i=1

Simpangan baku sampel, dilambangkan dengan s , adalah akar kuadrat positif


dari s 2 , yaitu,

s=s2.

Harus jelas bagi pembaca bahwa deviasi standar sampel sebenarnya adalah
ukuran variabilitas. Variabilitas besar dalam kumpulan data menghasilkan nilai ( x -
x ¯) 2 yang relatif besar dan dengan demikian varian sampel yang besar. Besaran n -
1 sering disebut derajat kebebasan yang diasosiasikan dengan estimasi varians.
Dalam contoh sederhana ini, derajat kebebasan menggambarkan jumlah informasi
independen yang tersedia untuk menghitung variabilitas. Misalnya, kita ingin
menghitung varians sampel dan deviasi standar dari kumpulan data (5, 17, 6, 4).
Rata-rata sampel adalah x ¯ = 8. Penghitungan varians melibatkan

(5 - 8) 2 + (17 - 8) 2 + (6 - 8) 2 + (4 - 8) 2 = ( - 3) 2 + 9 2 + ( - 2) 2 + ( - 4) 2 .
n
Kuantitas di dalam tanda kurung berjumlah nol. Secara umum, ( x i - x ¯) = 0 (lihat
i=1
Latihan 1.16 di halaman 31). Kemudian perhitungan varians sampel tidak
melibatkan n penyimpangan kuadrat independen dari mean x ¯. Faktanya, karena
nilai terakhir dari x - x ¯ ditentukan oleh awal n - 1 dari mereka, kita katakan bahwa
ini adalah n - 1 “potongan informasi” yang menghasilkan s 2 . Jadi, ada n - 1 derajat
kebebasan daripada n derajat kebebasan untuk menghitung varians sampel.

Contoh 1.4: Dalam contoh yang dibahas secara ekstensif di Bab 10, seorang insinyur tertarik untuk
menguji "bias" dalam pengukur pH. Data dikumpulkan di meteran dengan
mengukur pH zat netral (pH = 7,0). Sampel berukuran 10 diambil, dengan hasil
yang diberikan oleh

7 . 07 7 . 00 7 . 10 6 . 97 7 . 00 7 . 03 7 . 01 7 . 01 6 . 98 7 . 08 .
Rata-rata sampel x ¯ diberikan oleh
7 . 07 + 7 . 00 + 7 . 10 + · · · + 7 . 08
x¯= =7.
10
0250

16 Bab 1 Pengantar Statistik dan Analisis Data

Varians sampel s 2 diberikan oleh

1
s2= [(7 . 07 - 7 . 025) 2 + (7 . 00 - 7 . 025) 2 + (7 . 10 - 7
9
. 025) 2 + · + (7 . 08 - 7 . 025) 2 ] = 0 . 001939 .
Hasilnya, deviasi standar sampel diberikan oleh

s = 0 . 001939 = 0 . 044 .

Jadi standar deviasi sampel adalah 0,0440 dengan n - 1 = 9 derajat kebebasan.

Satuan untuk Standar Deviasi dan Varians


Jelas dari Definisi 1.3 bahwa varians adalah ukuran deviasi kuadrat rata-rata dari
mean x ¯. Kami menggunakan istilah deviasi kuadrat rata-rata meskipun definisi
menggunakan pembagian dengan derajat kebebasan n - 1 daripada n . Tentu saja,
jika n besar, perbedaan penyebut tidak penting. Akibatnya, varians sampel
memiliki satuan yang merupakan kuadrat dari satuan dalam data yang diamati
sedangkan deviasi standar sampel ditemukan dalam satuan linier. Sebagai
contoh, perhatikan data dari Contoh 1.2. Berat batang diukur dalam gram.
Hasilnya, simpangan baku sampel dalam gram dan variansnya diukur dalam gram
2 . Faktanya, deviasi standar individu adalah 0,0728 gram untuk kasus
tanpa nitrogen dan 0,1867 gram untuk kelompok nitrogen. Perhatikan bahwa
deviasi standar menunjukkan variabilitas yang jauh lebih besar dalam sampel
nitrogen. Kondisi ini ditunjukkan pada Gambar 1.1.

Ukuran Variabilitas Mana Yang Lebih Penting?


Seperti yang kami tunjukkan sebelumnya, rentang sampel memiliki aplikasi di
bidang kendali mutu statistik. Bagi pembaca, penggunaan varian sampel dan
deviasi standar sampel mungkin berlebihan. Kedua ukuran tersebut
mencerminkan konsep yang sama dalam mengukur variabilitas, tetapi deviasi
standar sampel mengukur variabilitas dalam satuan linier sedangkan varians
sampel diukur dalam satuan kuadrat. Keduanya memainkan peran besar dalam
penggunaan metode statistik. Banyak dari apa yang dicapai dalam konteks
inferensi statistik melibatkan penarikan kesimpulan tentang karakteristik populasi.
Di antara karakteristik tersebut terdapat konstanta yang disebut parameter
populasi. Dua parameter penting adalah mean populasi dan varians populasi.
Varians sampel memainkan peran eksplisit dalam metode statistik yang
digunakan untuk menarik kesimpulan tentang varians populasi. Simpangan baku
sampel memiliki peran penting bersama dengan mean sampel dalam kesimpulan
yang dibuat tentang mean populasi. Secara umum, varians dianggap lebih banyak
dalam teori inferensial, sedangkan deviasi standar lebih banyak digunakan dalam
aplikasi.
1.5 Data Diskrit dan Kontinu 17

Latihan

1.7 Pertimbangkan data waktu pengeringan untuk 1.10 Untuk data Latihan 1.4 di halaman 13, hitung
Latihan 1.1 di halaman 13. Hitung varians sampel dan mean dan varians dalam “eksibilitas” untuk
perusahaan A dan perusahaan B. Apakah tampaknya
deviasi standar sampel.
ada perbedaan fl eksibilitas antara perusahaan A dan
1.8 Hitung varians sampel dan deviasi standar untuk perusahaan B?
data absorbansi air dari Latihan 1.2 di halaman 13.
1.11 Pertimbangkan data dalam Latihan 1.5 di halaman 13.
1.9 Latihan 1.3 di halaman 13 menunjukkan data
Hitung varians sampel dan deviasi standar sampel untuk
kekuatan tarik untuk dua sampel, satu di mana
kelompok kontrol dan perlakuan.
spesimen terkena proses penuaan dan satu di mana
tidak ada penuaan spesimen. 1.12 Untuk Latihan 1.6 di halaman 13, hitung
(a) Hitung varians sampel serta deviasi standar dalam
simpangan baku sampel dalam kekuatan tarik untuk
kekuatan tarik untuk kedua sampel.
sampel secara terpisah untuk dua suhu. Apakah
tampaknya peningkatan suhu memengaruhi
(b) Apakah tampaknya ada bukti bahwa penuaan variabilitas kekuatan tarik? Menjelaskan.
memengaruhi variabilitas dalam kekuatan tarik?
(Lihat juga plot untuk Latihan 1.3 di halaman 13.)

1.5 Data Diskrit dan Kontinu


Inferensi statistik melalui analisis studi observasional atau eksperimen yang
dirancang digunakan di banyak bidang ilmiah. Data yang dikumpulkan mungkin
terpisah atau kontinu, tergantung pada area aplikasi. Misalnya, seorang insinyur
kimia mungkin tertarik untuk melakukan percobaan yang akan mengarah pada
kondisi dimana hasil dimaksimalkan. Di sini, tentu saja, hasil mungkin dalam
persen atau gram / pon, diukur dalam satu kontinum. Di sisi lain, ahli toksikologi
yang melakukan eksperimen obat kombinasi mungkin menemukan data yang
bersifat biner (yaitu, pasien merespons atau tidak).
Perbedaan besar dibuat antara data diskrit dan kontinu dalam teori
probabilitas yang memungkinkan kita untuk menarik kesimpulan statistik.
Seringkali aplikasi inferensi statistik ditemukan ketika datanya adalah data
hitungan . Misalnya, seorang insinyur mungkin tertarik mempelajari jumlah partikel
radioaktif yang melewati penghitung dalam, katakanlah, 1 milidetik. Personil yang
bertanggung jawab atas efisiensi fasilitas pelabuhan mungkin tertarik dengan
properti jumlah kapal tanker minyak yang tiba setiap hari di kota pelabuhan
tertentu. Dalam Bab 5, beberapa skenario berbeda, yang mengarah ke berbagai
cara penanganan data, dibahas untuk situasi dengan data hitungan.
Perhatian khusus bahkan pada tahap awal buku teks ini harus diberikan pada
beberapa detail yang terkait dengan data biner. Aplikasi yang membutuhkan
analisis statistik data biner sangat banyak. Seringkali ukuran yang digunakan
dalam analisis adalah proporsi sampel . Jelas, situasi biner melibatkan dua
kategori. Jika ada n unit yang terlibat dalam data dan x didefinisikan sebagai
bilangan yang termasuk dalam kategori 1, maka n - x termasuk dalam kategori 2.
Jadi, x / n adalah proporsi sampel dalam kategori 1, dan 1 - x / n adalah proporsi
sampel dalam kategori 2. Dalam aplikasi biomedis, 50 pasien dapat mewakili unit
sampel, dan jika 20 dari 50 mengalami perbaikan dalam penyakit perut (umum
untuk semua 50) setelah semua diberi obat, maka 20 50 = 0 . 4 adalah proporsi
sampelnya

18 Bab 1 Pengantar Statistik dan Analisis Data

obat itu sukses dan 1 - 0 . 4 = 0 . 6 adalah proporsi sampel yang obatnya tidak
berhasil. Sebenarnya pengukuran numerik dasar untuk data biner umumnya
dilambangkan dengan 0 atau 1. Sebagai contoh, dalam contoh medis kita, hasil
yang berhasil dilambangkan dengan 1 dan tidak berhasil dengan 0. Akibatnya,
proporsi sampel sebenarnya adalah sampel rata-rata dari satu dan nol. Untuk
kategori sukses,
= = =0.4.
x 1 + x 2 + · · · + x 50 1+1+0+···+0+1 20
50   50   50 

Jenis Masalah Apa yang Dipecahkan dalam Situasi Data Biner?


Jenis masalah yang dihadapi para ilmuwan dan insinyur yang berurusan dengan data
biner tidak banyak berbeda dengan yang terlihat di mana pengukuran berkelanjutan
menjadi perhatian. Namun, teknik yang berbeda digunakan karena sifat statistik dari
proporsi sampel cukup berbeda dari rata-rata sampel yang dihasilkan dari rata-rata yang
diambil dari populasi berkelanjutan. Perhatikan contoh data di Latihan 1.6 di halaman 13.
Masalah statistik yang mendasari ilustrasi ini berfokus pada apakah intervensi,
katakanlah, peningkatan suhu pengeringan, akan mengubah kekuatan tarik rata-rata
populasi yang terkait dengan proses karet silikon. Di sisi lain, di area kendali mutu,
misalkan produsen ban mobil melaporkan bahwa pengiriman 5.000 ban dipilih secara
acak dari hasil proses.
100
di 100 di antaranya menunjukkan noda. Di sini proporsi sampelnya = 0 . 02. Setelah
5.000perubahan
dalam proses yang dirancang untuk mengurangi noda, sampel kedua diambil 5.000 dan 90 ban
rusak. Proporsi sampel telah dikurangi = 0 . 018. Timbul pertanyaan, “Apakah penurunan proporsi
menjadi
sampel dari 0,02 menjadi 0,018 cukup substansial untuk menunjukkan peningkatan nyata dalam
90
5000 populasi
proporsi ulasi? " Kedua ilustrasi ini memerlukan penggunaan properti statistik
rata-rata sampel — satu dari sampel dari populasi kontinu, dan yang lainnya dari
sampel dari populasi diskrit (biner). Dalam kedua kasus, rata-rata sampel adalah
perkiraan parameter populasi, rata-rata populasi dalam ilustrasi pertama (yaitu,
kekuatan tarik rata-rata), dan proporsi populasi dalam kasus kedua (yaitu, proporsi
ban yang rusak dalam populasi). Jadi di sini kami memiliki perkiraan sampel yang
digunakan untuk menarik kesimpulan ilmiah tentang parameter populasi. Seperti
yang kami tunjukkan di Bagian 1.3, ini adalah tema umum dalam banyak masalah
praktis yang menggunakan inferensi statistik.

1.6 Pemodelan Statistik, Inspeksi Ilmiah, dan Diagnostik Grafis

Seringkali hasil akhir dari analisis statistik adalah estimasi parameter model yang
didalilkan. Ini wajar bagi ilmuwan dan insinyur karena mereka sering berurusan
dengan pemodelan. Model statistik tidak deterministik tetapi harus melibatkan
beberapa aspek probabilistik. Suatu bentuk model seringkali menjadi landasan
asumsi yang dibuat oleh analis. Misalnya, dalam Contoh 1.2, ilmuwan mungkin
ingin menggambarkan beberapa tingkat perbedaan antara populasi nitrogen dan
tanpa nitrogen melalui informasi sampel. Analisis mungkin memerlukan model
tertentu

1.6 Pemodelan Statistik, Inspeksi Ilmiah, dan Diagnostik Grafis 19

data, misalnya, bahwa dua sampel berasal dari distribusi normal atau Gaussian.
Lihat Bab 6 untuk diskusi tentang distribusi normal.
Jelas, pengguna metode statistik tidak dapat menghasilkan informasi yang
cukup atau data eksperimen untuk mengkarakterisasi populasi secara total. Tetapi
kumpulan data sering digunakan untuk mempelajari sifat-sifat tertentu dari
populasi. Ilmuwan dan insinyur terbiasa berurusan dengan kumpulan data.
Pentingnya mengkarakterisasi atau meringkas sifat kumpulan data harus jelas.
Seringkali ringkasan dari kumpulan data melalui tampilan grafis dapat
memberikan pemahaman tentang sistem dari mana data tersebut diambil.
Misalnya, di Bagian 1.1 dan 1.3, kami telah menunjukkan plot titik.
Pada bagian ini, peran pengambilan sampel dan tampilan data untuk
peningkatan inferensi statistik dieksplorasi secara rinci. Kami hanya
memperkenalkan beberapa tampilan sederhana namun sering kali efektif yang
melengkapi studi populasi statistik.

Plot Sebar
Kadang-kadang model yang didalilkan mungkin mengambil bentuk yang agak
rumit. Pertimbangkan, misalnya, produsen tekstil yang merancang eksperimen di
mana spesimen kain yang mengandung berbagai persentase kapas diproduksi.
Perhatikan data pada Tabel 1.3.

Tabel 1.3: Kekuatan Tarik


Persentase Kapas Daya tarik
15 7, 7, 9, 8, 10
20 19, 20, 21, 20, 22
25 21, 21, 17, 19, 20
30 8, 7, 8, 9, 10

Lima spesimen kain diproduksi untuk masing-masing dari empat persentase


kapas. Dalam hal ini, baik model eksperimen maupun jenis analisis yang
digunakan harus mempertimbangkan tujuan eksperimen dan masukan penting
dari ilmuwan tekstil. Beberapa gambar sederhana dapat menjelaskan perbedaan
yang jelas antara sampel. Lihat Gambar 1.5; rata-rata sampel dan variabilitas
digambarkan dengan baik dalam plot pencar. Satu tujuan yang mungkin dari
percobaan ini adalah untuk menentukan persentase kapas mana yang benar-benar
berbeda dari yang lain. Dengan kata lain, seperti dalam kasus data
nitrogen / tanpa nitrogen , untuk persentase kapas manakah terdapat perbedaan
yang jelas antara populasi atau, lebih khusus lagi, antara mean populasi? Dalam
kasus ini, mungkin model yang masuk akal adalah bahwa setiap sampel berasal
dari distribusi normal. Di sini tujuannya sangat mirip dengan data
nitrogen / tanpa nitrogen kecuali bahwa lebih banyak sampel yang terlibat.
Formalisme analisis melibatkan gagasan pengujian hipotesis yang dibahas dalam
Bab 10. Secara kebetulan, formalitas ini mungkin tidak diperlukan dalam kaitannya
dengan plot diagnostik. Tetapi apakah ini menjelaskan tujuan sebenarnya dari
eksperimen dan karenanya merupakan pendekatan yang tepat untuk analisis
data? Kemungkinan bahwa ilmuwan mengantisipasi keberadaan kekuatan tarik
rata-rata populasi maksimum dalam kisaran konsentrasi koton dalam percobaan.
Di sini analisis data harus berputar

20 Bab 1 Pengantar Statistik dan Analisis Data

di sekitar jenis model yang berbeda, model yang mendalilkan jenis struktur yang
menghubungkan kekuatan tarik rata-rata populasi dengan konsentrasi kapas.
Dengan kata lain, model dapat ditulis
μ t, c = β 0 + β 1 C + β 2 C 2 ,
di mana μ t, c adalah penduduk rata-rata kekuatan tarik, yang bervariasi dengan
jumlah kapas dalam produk C . Implikasi dari model ini adalah bahwa untuk
tingkat kapas tetap, terdapat populasi pengukuran kuat tarik dan rata-rata populasi
adalah μ t, c . Jenis model ini, yang disebut model regresi, dibahas dalam Bab 11
dan 12. Bentuk fungsional dipilih oleh ilmuwan. Terkadang analisis data mungkin
menyarankan agar model diubah. Kemudian analis data "menghibur" model yang
mungkin diubah setelah beberapa analisis dilakukan. Penggunaan model empiris
disertai dengan teori estimasi, dimana β 0 , β 1 , dan β 2 diestimasi oleh data.
Selanjutnya, inferensi statistik kemudian dapat digunakan untuk menentukan
kecukupan model.

25

20

15
Daya tarik
10

5
  15 20 25 30
Persentase Kapas

Gambar 1.5: Plot sebar kekuatan tarik dan persentase kapas.

Dua poin menjadi bukti dari dua ilustrasi data di sini: (1) Jenis model yang
digunakan untuk mendeskripsikan data seringkali bergantung pada tujuan
eksperimen; dan (2) struktur model harus memanfaatkan masukan ilmiah
nonstatistik. Pilihan model mewakili asumsi mendasar yang menjadi dasar
inferensi statistik yang dihasilkan. Di seluruh buku ini akan terlihat betapa
pentingnya grafik. Seringkali, plot dapat menggambarkan informasi yang
memungkinkan hasil inferensi statistik formal untuk dikomunikasikan dengan
lebih baik kepada ilmuwan atau insinyur. Kadang-kadang, plot atau analisis data
eksplorasi dapat mengajarkan analis sesuatu yang tidak diambil dari analisis
formal. Hampir semua analisis formal membutuhkan asumsi yang berkembang
dari model data. Grafik dapat dengan baik menyoroti pelanggaran asumsi yang
seharusnya tidak diperhatikan. Di sepanjang buku ini, grafik digunakan secara
ekstensif untuk melengkapi analisis data formal. Bagian berikut mengungkapkan
beberapa alat grafis yang berguna dalam analisis data eksplorasi atau deskriptif.

1.6 Pemodelan Statistik, Inspeksi Ilmiah, dan Diagnostik Grafis 21

Plot Batang dan Daun


Data statistik, yang dihasilkan dalam massa besar, dapat sangat berguna untuk
mempelajari perilaku distribusi jika disajikan dalam tampilan tabel dan grafik
gabungan yang disebut plot batang dan daun .
Untuk mengilustrasikan konstruksi petak batang-dan-daun , perhatikan data
pada Tabel 1.4, yang merinci “masa pakai” 40 aki mobil serupa yang direkam
hingga sepersepuluh tahun terdekat. Baterai dijamin bertahan 3 tahun. Pertama,
bagi setiap pengamatan menjadi dua bagian yang terdiri dari batang dan daun
sehingga batang mewakili digit sebelum desimal dan daun sesuai dengan bagian
desimal dari angka tersebut. Dengan kata lain, untuk angka 3.7, angka 3
melambangkan batang dan angka 7 melambangkan daun. Empat batang 1, 2, 3,
dan 4 untuk data kami terdaftar secara vertikal di sisi kiri pada Tabel 1.5; daun
dicatat pada sisi kanan berlawanan dengan nilai batang yang sesuai. Jadi, daun 6
dari angka 1.6 dicatat di seberang batang 1; daun 5 nomor 2.5 dicatat di seberang
batang 2; Dan seterusnya. Jumlah daun yang dicatat di seberang setiap batang
diringkas di bawah kolom frekuensi.

Tabel 1.4: Umur Baterai Mobil


2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6
3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7
2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1
3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4
4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5

Tabel 1.5: Plot Batang-dan-Daun Umur Baterai


Batang Daun Frekuensi
1 69 2
2 25669 5
3 0011112223334445567778899 25
4 11234577 8
The stem-and-leaf plot Tabel 1.5 hanya berisi empat batang dan akibatnya
tidak memberikan gambaran yang memadai dari distribusi. Untuk mengatasi
masalah ini, kita perlu menambah jumlah batang di plot kita. Salah satu cara
sederhana untuk melakukannya adalah dengan menulis setiap nilai batang dua
kali dan kemudian mencatat daun 0, 1, 2, 3, dan 4 yang berlawanan dengan nilai
batang yang sesuai di mana muncul untuk pertama kali, dan daun 5, 6, 7, 8, dan 9
berlawanan dengan nilai batang yang sama ini di mana ia muncul untuk kedua
kalinya. Plot batang dan daun yang dimodifikasi ini diilustrasikan pada Tabel 1.6, di
mana batang yang berhubungan dengan daun 0 sampai 4 telah diberi kode simbol
dan batang yang berhubungan dengan daun 5 sampai 9 diberi simbol · .
Dalam masalah apa pun, kita harus memutuskan nilai batang yang sesuai.
Keputusan ini dibuat agak sewenang-wenang, meskipun kami dipandu oleh ukuran
sampel kami. Biasanya, kami memilih antara 5 dan 20 batang. Semakin kecil
jumlah data yang tersedia, semakin kecil pilihan kita untuk jumlah batangnya.
Misalnya, jika

22 Bab 1 Pengantar Statistik dan Analisis Data

data terdiri dari angka 1 sampai 21 yang mewakili jumlah orang di antrean kafetaria pada
40 hari kerja yang dipilih secara acak dan kita memilih plot batang dan daun ganda ,
batangnya akan menjadi 0, 0 · , 1, 1 · , dan 2 sehingga pengamatan terkecil 1 memiliki
batang 0 dan daun 1, angka 18 memiliki batang 1 · dan daun 8, dan pengamatan terbesar
21 memiliki batang 2 dan daun 1. Sebaliknya jika data terdiri dari angka-angka dari $
18.800 hingga $ 19.600 mewakili kemungkinan kesepakatan terbaik untuk 100 mobil baru
dari dealer tertentu dan kami memilih plot batang dan daun tunggal , batangnya akan
menjadi 188, 189, 190 ,. . . , 196 dan daun sekarang masing-masing berisi dua digit.
Sebuah mobil yang dijual seharga $ 19.385 akan memiliki nilai batang 193 dan daun
dua digit 85. Daun multi digit yang berasal dari batang yang sama biasanya dipisahkan
dengan koma di petak batang dan daun . Titik desimal dalam data umumnya diabaikan
jika semua angka di sebelah kanan desimal mewakili daun. Seperti yang terjadi pada
Tabel 1.5 dan 1.6. Namun jika datanya terdiri dari angka mulai dari
21,8 hingga 74,9, kita dapat memilih angka 2, 3, 4, 5, 6, dan 7 sebagai batang
sehingga bilangan seperti 48,3 akan memiliki nilai batang 4 dan daun 8,3.

Tabel 1.6: Plot Dua Batang dan Daun Umur Baterai


Batang Daun Frekuensi
1· 69 2
2 2 1
2· 5669 4
3 001111222333444 15
3· 5567778899 10
4 11234 5
4· 577 3

The stem-and-leaf plot yang merupakan e ff efektif cara untuk meringkas data.
Cara lain adalah melalui penggunaan distribusi frekuensi, di mana data, yang
dikelompokkan ke dalam kelas atau interval yang berbeda, dapat dibuat dengan
menghitung daun di setiap batang dan mencatat bahwa setiap batang
menentukan interval kelas. Pada Tabel 1.5, batang 1 dengan 2 daun
mendefinisikan interval 1,0–1,9 yang berisi 2 pengamatan; batang 2 dengan 5
daun mendefinisikan interval 2,0–2,9 yang berisi 5 pengamatan; batang 3 dengan
25 daun mendefinisikan interval 3,0–3,9 dengan 25 pengamatan; dan batang 4
dengan 8 daun mendefinisikan interval 4,0–4,9 yang terdiri dari 8 pengamatan.
Untuk plot batang dan daun ganda pada Tabel 1.6, batang mendefinisikan tujuh
interval kelas 1.5–1.9, 2.0–2.4, 2.5–2.9 , 3.0–3.4, 3.5–3.9, 4.0–4.4, dan 4.5–4.9
dengan frekuensi 2, 1, 4, 15, 10, 5, dan 3, masing-masing.

Histogram
Dengan membagi frekuensi tiap kelas dengan jumlah total observasi, diperoleh
proporsi himpunan observasi di masing-masing kelas. Tabel yang mencantumkan
frekuensi relatif disebut distribusi frekuensi relatif. Distribusi frekuensi relatif
untuk data pada Tabel 1.4, yang menunjukkan titik tengah setiap interval kelas,
disajikan pada Tabel 1.7.
Informasi yang diberikan oleh distribusi frekuensi relatif dalam bentuk tabel
lebih mudah dipahami jika disajikan dalam bentuk grafik. Menggunakan titik
tengah setiap interval dan

1.6 Pemodelan Statistik, Inspeksi Ilmiah, dan Diagnostik Grafis 23

Tabel 1.7: Distribusi Frekuensi Relatif Umur Baterai


                 
  Kelas Kelas Frekuensi, Relatif
Selang Titik tengah f Frekuensi
            
  1.5–1.9 1.7 2 0,050  
2.0–2.4 2.2 1 0,025
   
2.5–2.9 2.7 4 0.100
   
3.0–3.4 3.2 15 0,375
   
3.5–3.9 3.7 10 0.250
   
4.0–4.4 4.2 5 0.125
   
4.5–4.9 4.7 3 0,075
           

0,375
           

0.250
Frekuensi Relatif

           

0.125
           

1.7 2.2 2.7 3.2 3.7 4.2 4.7


Daya Tahan Baterai (tahun)

Gambar 1.6: Histogram frekuensi relatif.

sesuai frekuensi relatif, kami membangun histogram frekuensi relatif (Gambar


1.6).
Banyak distribusi frekuensi kontinu dapat direpresentasikan secara grafis oleh
karakteristik kurva berbentuk lonceng pada Gambar 1.7. Alat grafis seperti yang
kita lihat pada Gambar 1.6 dan 1.7 membantu dalam karakterisasi sifat populasi.
Dalam Bab 5 dan 6 kita membahas properti populasi yang disebut distribusinya.
Sementara definisi yang lebih ketat dari distribusi atau distribusi probabilitas akan
diberikan nanti dalam teks, pada titik ini orang dapat melihatnya seperti yang akan
terlihat pada Gambar 1.7 di batas saat ukuran sampel menjadi lebih besar.
Sebuah distribusi dikatakan simetris jika dapat dilipat sepanjang sumbu
vertikal sehingga kedua sisinya bertepatan. Distribusi yang kurang simetris
sehubungan dengan sumbu vertikal disebut miring. Distribusi yang diilustrasikan
pada Gambar 1.8 (a) dikatakan miring ke kanan karena memiliki ekor kanan yang
panjang dan ekor kiri yang jauh lebih pendek. Pada Gambar 1.8 (b) kita melihat
bahwa distribusinya simetris, sedangkan pada Gambar 1.8 (c) distribusinya miring
ke kiri.
Jika kita memutar plot batang dan daun berlawanan arah jarum jam melalui
sudut 90◦ , kita amati bahwa kolom daun yang dihasilkan membentuk gambar yang
mirip dengan histogram. Akibatnya, jika tujuan utama kita dalam melihat data
adalah untuk menentukan bentuk umum atau distribusi, hal itu jarang diperlukan.
24 Bab 1 Pengantar Statistik dan Analisis Data

f (x)

0 1 2 3 4 5 6
Daya Tahan Baterai (tahun)
       

Gambar 1.7: Memperkirakan distribusi frekuensi.

(Sebuah) (b) (c)

Gambar 1.8: Kecondongan data.

untuk membuat histogram frekuensi relatif.

Plot Kotak-dan-Kumis atau Plot Kotak


Tampilan lain yang berguna untuk mencerminkan properti sampel adalah plot
kotak -dan-kumis . Plot ini membungkus rentang interkuartil dari data dalam kotak
yang mediannya ditampilkan di dalamnya. Kisaran interkuartil memiliki persentil
ke-75 (kuartil atas) dan persentil ke-25 (kuartil bawah) yang ekstrem. Selain kotak,
“kumis” memanjang, menunjukkan pengamatan ekstrim pada sampel. Untuk
sampel yang cukup besar, tampilan menunjukkan pusat lokasi, variabilitas, dan
derajat asimetri.
Selain itu, variasi yang disebut plot kotak dapat memberikan informasi kepada
pengamat tentang pengamatan mana yang mungkin merupakan pencilan.
Pencilan adalah pengamatan yang dianggap sangat jauh dari kumpulan data. Ada
banyak uji statistik yang dirancang untuk mendeteksi pencilan. Secara teknis,
seseorang mungkin melihat pencilan sebagai pengamatan yang mewakili
"peristiwa langka" (ada kemungkinan kecil untuk mendapatkan nilai yang jauh dari
sebagian besar data). Konsep pencilan muncul kembali di Bab 12 dalam konteks
analisis regresi.

1.6 Pemodelan Statistik, Inspeksi Ilmiah, dan Diagnostik Grafis 25

Informasi visual dalam plot box-and-whisker atau box plot tidak dimaksudkan
sebagai tes formal untuk outlier. Sebaliknya, ini dipandang sebagai alat diagnostik.
Sementara penentuan observasi mana yang outlier bervariasi dengan jenis
perangkat lunak yang digunakan, salah satu prosedur yang umum adalah dengan
menggunakan beberapa rentang interkuartil. Misalnya, jika jarak dari kotak
melebihi 1,5 kali jarak antar kuartil (di kedua arah), observasi dapat diberi label
outlier.

Contoh 1.5: Kadar nikotin diukur dalam sampel acak sebanyak 40 batang rokok. Data tersebut
ditampilkan pada Tabel 1.8.

Tabel 1.8: Data Nikotin untuk Contoh 1.5


1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97
0.85 1.24 1.58 2.03 1.70 2.17 2.55 2.11
1.86 1.90 1.68 1.51 1.64 0.72 1.69 1.85
1.82 1.79 2.46 1.88 2.08 1.67 1.37 1.93
1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69

                             

                             
                             

                             
     
                       

                                            
1.0 1.5 2.0 2.5
Nikotin
     

Gambar 1.9: Plot kotak-dan-kumis untuk Contoh 1.5.

Gambar 1.9 menunjukkan plot kotak-dan-kumis dari data, yang


menggambarkan pengamatan 0,72 dan 0,85 sebagai pencilan ringan di ekor
bawah, sedangkan pengamatan 2,55 adalah pencilan ringan di ekor atas. Dalam
contoh ini, rentang interkuartil adalah 0,365, dan 1,5 kali rentang interkuartil adalah
0,5475. Gambar 1.10, sebaliknya, memberikan plot batang dan daun .

Contoh 1.6: Perhatikan data pada Tabel 1.9, yang terdiri dari 30 sampel pengukur ketebalan cat
“kuping” (lihat karya Hogg dan Ledolter, 1992, dalam Bibliografi). Gambar 1.11
menggambarkan plot kotak-dan-kumis untuk kumpulan data asimetris ini.
Perhatikan bahwa balok kiri jauh lebih besar dari balok di kanan. Mediannya
adalah 35. Kuartil bawah adalah 31, sedangkan kuartil atas adalah 36. Perhatikan
juga bahwa pengamatan ekstrim di sebelah kanan lebih jauh dari kotak daripada
pengamatan ekstrim di sebelah kiri. Tidak ada pencilan dalam kumpulan data ini.

26 Bab 1 Pengantar Statistik dan Analisis Data

Titik desimal adalah 1 digit di sebelah kiri |


7 |2
8 |5
9 |
10 | 9
11 |
12 | 4
13 | 7
14 | 07
15 | 18
16 | 3447899
17 | 045599
18 | 2568
19 | 0237
20 | 389
21 | 17
22 |8
23 | 17
24 |6
25 |5

Gambar 1.10: Plot batang dan daun untuk data nikotin.

Tabel 1.9: Data untuk Contoh 1.6


Sampel Pengukuran Sampel Pengukuran
1 29 36 39 34 34 16 35 30 35 29 37
2 29 29 28 32 31 17 40 31 38 35 31
3 34 34 39 38 37 18 35 36 30 33 32
4 35 37 33 38 41 19 35 34 35 30 36
5 30 29 31 38 29 20 35 35 31 38 36
6 34 31 37 39 36 21 32 36 36 32 36
7 30 35 33 40 36 22 36 37 32 34 34
8 28 28 31 34 30 23 29 34 33 37 35
9 32 36 38 38 35 24 36 36 35 37 37
10 35 30 37 35 31 25 36 30 35 33 31
11 35 30 35 38 35 26 35 30 29 38 35
12 38 34 35 35 31 27 35 36 30 34 36
13 34 35 33 30 34 28 35 30 36 29 35
14 40 35 34 33 35 29 38 36 35 31 31
15 34 35 38 35 30 30 30 34 40 28 30
       

Ada cara tambahan agar plot box-and-whisker dan tampilan grafis lainnya
dapat membantu analis. Beberapa sampel dapat dibandingkan secara grafis. Plot
data dapat menunjukkan hubungan antar variabel. Grafik dapat membantu dalam
mendeteksi anomali atau observasi luar dalam sampel.
Ada jenis alat grafis dan plot lain yang digunakan. Ini dibahas dalam Bab 8
setelah kami memperkenalkan detail teoretis tambahan.

1.7 Jenis Umum Studi Statistik 27

                         

                         
                         

                         
                         

                                      
28 30 32 34 36 38 40
Cat

Gambar 1.11: Plot kotak-dan-kumis untuk ketebalan cat bisa “telinga”.

Fitur Pembeda Lain dari Sampel


Terdapat ciri-ciri distribusi atau sampel selain ukuran pusat lokasi dan variabilitas
yang selanjutnya menentukan sifatnya. Misalnya, saat median membagi data
(atau distribusi) menjadi dua bagian, ada ukuran lain yang membagi bagian atau
bagian dari distribusi yang bisa sangat berguna. Pemisahan dibuat menjadi empat
bagian oleh kuartil , dengan kuartil ketiga memisahkan kuartil atas dari data
lainnya, kuartil kedua adalah median, dan kuartil pertama memisahkan kuartil
bawah dari data lainnya. Distribusi bahkan dapat lebih halus dibagi dengan
menghitung persentil distribusi. Kuantitas ini memberi analis gambaran tentang
apa yang disebut ekor distribusi (yaitu, nilai yang relatif ekstrim, baik kecil maupun
besar). Misalnya, persentil ke-95 memisahkan 5% tertinggi dari 95% terbawah.
Definisi serupa berlaku untuk ekstrem di sisi bawah atau ekor bawah distribusi.
Persentil ke-1 memisahkan 1% terbawah dari distribusi lainnya. Konsep persentil
akan memainkan peran utama dalam banyak hal yang akan dibahas di bab-bab
selanjutnya.

1.7 Jenis Umum Studi Statistik: Eksperimen Dirancang, Studi


Observasional, dan Studi Retrospektif
Pada bagian sebelumnya kami telah menekankan pengertian pengambilan sampel
dari populasi dan penggunaan metode statistik untuk mempelajari atau mungkin
informasi penting tentang populasi. Informasi yang dicari dan dipelajari melalui
penggunaan metode statistik ini seringkali dapat berpengaruh dalam pengambilan
keputusan dan pemecahan masalah di banyak bidang ilmu pengetahuan dan
teknik yang penting. Sebagai ilustrasi, Contoh 1.3 menjelaskan percobaan
sederhana di mana hasil dapat memberikan bantuan dalam menentukan jenis
kondisi di mana tidak disarankan untuk menggunakan paduan aluminium tertentu
yang mungkin memiliki kerentanan berbahaya terhadap korosi. Hasilnya mungkin
berguna tidak hanya bagi mereka yang memproduksi paduan, tetapi juga bagi
pelanggan yang mungkin mempertimbangkan untuk menggunakannya. Ilustrasi
ini, serta banyak lagi yang muncul di Bab 13 hingga 15, menyoroti konsep
perancangan atau pengendalian kondisi eksperimental (kombinasi kondisi
pelapisan dan kelembapan)

28 Bab 1 Pengantar Statistik dan Analisis Data

minat untuk mempelajari beberapa karakteristik atau pengukuran (tingkat korosi) yang
dihasilkan dari kondisi tersebut. Metode statistik yang menggunakan ukuran tendensi
sentral dalam pengukuran korosi, serta pengukuran variabilitas, digunakan. Sebagaimana
pembaca akan amati nanti dalam teks, metode ini sering mengarah pada model statistik
seperti yang dibahas di Bagian 1.6. Dalam hal ini, model dapat digunakan untuk
memperkirakan (atau memprediksi) ukuran korosi sebagai fungsi kelembaban dan jenis
lapisan yang digunakan. Sekali lagi, dalam mengembangkan model semacam ini, statistik
deskriptif yang menonjolkan tendensi sentral dan variabilitas menjadi sangat berguna.
Informasi yang diberikan dalam Contoh 1.3 menggambarkan dengan baik jenis
pertanyaan teknik yang diajukan dan dijawab dengan menggunakan metode
statistik yang digunakan melalui percobaan yang dirancang dan disajikan dalam
teks ini. Mereka
(i) Bagaimana sifat dari dampak kelembaban relatif terhadap korosi paduan
aluminium dalam kisaran kelembaban relatif dalam percobaan ini?
(ii) Apakah lapisan korosi kimiawi mengurangi tingkat korosi dan dapatkah
pengaruhnya diukur dengan cara tertentu?
(iii) Apakah ada interaksi antara jenis lapisan dan kelembaban relatif yang
mempengaruhi pengaruhnya terhadap korosi paduan? Jika ya, apa
interpretasinya?

Apakah Interaksi Itu?


Pentingnya pertanyaan (i) dan (ii) harus jelas bagi pembaca, karena menangani
masalah yang penting bagi produsen dan pengguna paduan. Tapi bagaimana
dengan pertanyaan (iii)? Konsep interaksi akan dibahas panjang lebar di Bab 14
dan 15. Perhatikan plot pada Gambar 1.3. Ini adalah ilustrasi pendeteksian
interaksi antara dua faktor dalam eksperimen yang dirancang sederhana.
Perhatikan bahwa garis yang menghubungkan sarana sampel tidak sejajar.
Paralelisme akan menunjukkan bahwa efek (terlihat sebagai hasil dari kemiringan
garis) kelembaban relatif adalah sama, yaitu efek negatif, baik untuk kondisi tanpa
lapisan maupun lapisan korosi kimia. Ingatlah bahwa kemiringan negatif
menyiratkan bahwa korosi menjadi lebih parah saat kelembaban meningkat.
Kurangnya paralelisme menyiratkan interaksi antara jenis lapisan dan kelembaban
relatif. Garis yang hampir "datar" untuk lapisan korosi yang berlawanan dengan
kemiringan yang lebih curam untuk kondisi tidak dilapisi menunjukkan bahwa
tidak hanya lapisan korosi kimiawi yang bermanfaat (perhatikan perpindahan
antar garis), tetapi adanya lapisan tersebut membuat efek kelembaban diabaikan .
Jelas semua pertanyaan ini sangat penting untuk pengaruh dua faktor individu
dan interpretasi interaksi, jika ada.

Model statistik sangat berguna dalam menjawab pertanyaan seperti yang tercantum
dalam (i), (ii), dan (iii), di mana datanya berasal dari eksperimen yang dirancang. Tetapi
seseorang tidak selalu memiliki kemewahan atau sumber daya untuk menggunakan
eksperimen yang dirancang. Misalnya, ada banyak contoh di mana kondisi yang diminati
ilmuwan atau insinyur tidak dapat diterapkan hanya karena faktor penting tidak dapat
dikontrol . Dalam Contoh 1.3, kelembaban relatif dan jenis lapisan (atau tidak adanya
lapisan) cukup mudah untuk dikontrol. Ini tentu saja adalah fitur yang menentukan dari
eksperimen yang dirancang. Di banyak bidang, faktor-faktor yang perlu dipelajari tidak
dapat dikontrol karena berbagai alasan. Kontrol ketat seperti pada Contoh 1.3
memungkinkan analis untuk yakin bahwa setiap perbedaan yang ditemukan (misalnya,
dalam tingkat korosi)

1.7 Jenis Umum Studi Statistik 29

disebabkan oleh faktor-faktor yang terkendali. Sebagai ilustrasi kedua, pertimbangkan


Latihan
1.6 pada halaman 13. Misalkan dalam hal ini 24 spesimen karet silikon dipilih dan
12 ditentukan untuk masing-masing tingkat suhu pengawetan. Suhu dikontrol
dengan hati-hati, dan dengan demikian ini adalah contoh eksperimen yang
dirancang dengan faktor tunggal adalah suhu pengeringan. Perbedaan yang
ditemukan dalam kekuatan tarik rata-rata akan diasumsikan terkait dengan suhu
pengeringan yang berbeda.

Bagaimana Jika Faktor Tidak Terkontrol?


Misalkan tidak ada faktor yang dikontrol dan tidak ada tugas acak dari perlakuan
tetap untuk unit eksperimental, namun ada kebutuhan untuk mengumpulkan
informasi dari kumpulan data. Sebagai ilustrasi, perhatikan sebuah penelitian yang
minatnya berpusat pada hubungan antara kadar kolesterol darah dan jumlah
natrium yang diukur dalam darah. Sekelompok individu dimonitor dari waktu ke
waktu untuk kolesterol darah dan natrium. Tentunya beberapa informasi yang
berguna dapat dikumpulkan dari kumpulan data seperti itu. Namun, harus jelas
bahwa tidak ada kontrol ketat terhadap kadar natrium darah. Idealnya, subjek
harus dibagi secara acak menjadi dua kelompok, dengan satu kelompok diberi
kadar natrium darah tinggi tertentu dan kelompok lain diberi kadar natrium darah
rendah spesifik. Jelas ini tidak bisa dilakukan. Jelaslah bahwa perubahan
kolesterol dapat dialami karena perubahan salah satu dari sejumlah faktor lain
yang tidak terkontrol. Studi semacam ini, tanpa pengendalian faktor, disebut studi
observasional. Seringkali ini melibatkan situasi di mana subjek diamati sepanjang
waktu.

Studi biologi dan biomedis seringkali merupakan studi observasional


kebutuhan. Namun, studi observasional tidak terbatas pada area tersebut.
Misalnya, pertimbangkan studi yang dirancang untuk menentukan pengaruh suhu
lingkungan pada daya listrik yang dikonsumsi oleh pabrik kimia. Jelasnya, tingkat
suhu lingkungan tidak dapat dikontrol, dan dengan demikian struktur data hanya
dapat menjadi pemantauan data dari pabrik dari waktu ke waktu.
Jelaslah bahwa perbedaan yang mencolok antara eksperimen yang dirancang
dengan baik dan studi observasional adalah kesulitan dalam menentukan sebab
yang sebenarnya dan efeknya dengan yang terakhir. Juga, perbedaan yang
ditemukan dalam respon fundamental (misalnya, tingkat korosi, kolesterol darah,
konsumsi tenaga listrik) mungkin disebabkan oleh faktor-faktor mendasar lainnya
yang tidak terkontrol. Idealnya, dalam eksperimen yang dirancang, faktor - faktor
gangguan akan disamakan melalui proses pengacakan. Tentunya perubahan
kolesterol darah bisa karena asupan lemak, aktivitas olahraga, dan lain
sebagainya. Konsumsi daya listrik dapat dipengaruhi oleh jumlah produk yang
dihasilkan atau bahkan kemurnian produk yang dihasilkan.
Kerugian lain yang sering diabaikan dari studi observasional jika dibandingkan
dengan eksperimen yang dirancang dengan cermat adalah bahwa, tidak seperti
eksperimen yang terakhir, studi observasional bergantung pada alam, lingkungan,
atau keadaan tak terkendali lainnya yang memengaruhi rentang faktor yang
menarik. Misalnya, dalam studi biomedis mengenai pengaruh kadar natrium darah
pada kolesterol darah, ada kemungkinan bahwa memang ada pengaruh yang kuat
tetapi kumpulan data tertentu yang digunakan tidak cukup melibatkan variasi
kadar natrium yang diamati karena sifat subjeknya. terpilih. Tentu saja, dalam
eksperimen yang dirancang, analis memilih dan mengontrol rentang faktor.

30 Bab 1 Pengantar Statistik dan Analisis Data

Jenis studi statistik ketiga yang bisa sangat berguna tetapi memiliki
kelemahan yang jelas jika dibandingkan dengan eksperimen yang dirancang
adalah studi retrospektif. Jenis studi ini menggunakan data historis yang ketat,
data yang diambil selama periode waktu tertentu. Satu keuntungan nyata dari data
retrospektif adalah pengurangan biaya dalam mengumpulkan data. Namun,
seperti yang diharapkan, ada kelemahan yang jelas.
(i) Validitas dan reliabilitas data historis sering kali diragukan.
(ii) Jika waktu merupakan aspek penting dari struktur data, mungkin ada data
yang hilang.
(iii) Mungkin ada kesalahan dalam pengumpulan data yang tidak diketahui.
(iv) Sekali lagi, seperti dalam kasus data observasi, tidak ada kontrol pada
rentang variabel yang diukur (faktor-faktor dalam sebuah penelitian).
Memang, kisaran yang ditemukan dalam data historis mungkin tidak relevan
untuk penelitian saat ini.
Dalam Bagian 1.6, beberapa perhatian diberikan untuk pemodelan hubungan antar
variabel. Kami memperkenalkan pengertian analisis regresi, yang dibahas dalam
Bab 11 dan 12 dan diilustrasikan sebagai bentuk analisis data untuk eksperimen
yang dirancang yang dibahas dalam Bab 14 dan 15. Di Bagian 1.6, model yang
menghubungkan kekuatan tarik rata-rata populasi kain dengan persentase kapas
digunakan untuk ilustrasi, di mana 20 spesimen kain mewakili unit percobaan.
Dalam hal ini, data berasal dari eksperimen yang dirancang sederhana di mana
persentase kapas individu dipilih oleh ilmuwan.
Seringkali baik data observasi dan data retrospektif digunakan untuk tujuan
mengamati hubungan antar variabel melalui prosedur pembangunan model yang
dibahas dalam Bab 11 dan 12. Sementara keuntungan dari eksperimen yang
dirancang pasti berlaku ketika tujuannya adalah membangun model statistik, ada
banyak area yang tidak memungkinkan untuk merancang eksperimen. Dengan
demikian, data observasi atau historis harus digunakan . Kami merujuk di sini ke
kumpulan data historis yang ditemukan di Latihan
12.5 di halaman 450. Tujuannya adalah untuk membangun model yang akan
menghasilkan persamaan atau hubungan yang menghubungkan daya listrik
bulanan yang dikonsumsi dengan suhu lingkungan rata-rata x 1 , jumlah hari dalam
bulan x 2 , kemurnian produk rata-rata x 3 , dan ton produk yang dihasilkan x 4 .
Data tersebut merupakan data historis tahun lalu.

Latihan
1.13 Produsen komponen elektronik tertarik untuk (a) Tentukan mean dan median sampel.
menentukan masa pakai baterai jenis tertentu. (b) Tentukan varians sampel, deviasi standar, dan
Sampel, dalam jam kehidupan, adalah sebagai berikut:
rentang.
123 , 116 , 122 , 110 , 175 , 126 , 125 , 111 , 118 , 117 .
(a) Tentukan mean dan median sampel. (c) Dengan menggunakan statistik yang dihitung
(b) Fitur apa dalam kumpulan data ini yang pada bagian (a) dan (b), dapatkah Anda
bertanggung jawab atas perbedaan substansial di mengomentari kualitas ban?
antara keduanya?
1.15 Lima lemparan koin independen menghasilkan
1.14 Produsen ban ingin menentukan diameter HHHHH . Ternyata bahwa jika koin adil probabilitas
bagian dalam dari ban kelas tertentu. Idealnya, hasil ini adalah (1 / 2) 5 = 0 . 03125. Apakah ini
diameternya 570 mm. Datanya adalah sebagai berikut: menghasilkan bukti kuat bahwa koin itu tidak adil?
Beri komentar dan gunakan konsep nilai- P yang
572 , 572 , 573 , 568 , 569 , 575 , 565 , 570 . dibahas di Bagian 1.1.

Latihan 31

1.16 Tunjukkan bahwa n potongan informasi di (c) Hitung mean sampel, rentang sampel, dan deviasi
n
( x i - x ¯) 2 tidak independen; yaitu, tunjukkan itu standar sampel.
i=1
n 1.20 Data berikut menunjukkan lamanya hidup,
( x i - x ¯) = 0 . dalam detik, dari 50 lalat buah yang disemprotkan
i=1 baru dalam percobaan laboratorium terkontrol:
1.17 Sebuah studi tentang efek merokok pada pola 17 20 10 9 23 13 12 19 18 24
tidur dilakukan. Ukuran yang diamati adalah waktu, 12 14 6 9 13 6 7 10 13 7
dalam menit, yang dibutuhkan untuk tertidur. Data ini 16 18 8 13 3 32 9 7 10 11
diperoleh: 13 7 18 7 10 4 27 19 16 8
Perokok: 69.3 56.0 22.1 47.6 7 10 5 14 15 10 9 6 7 15
53.2 48.1 52.7 34.4 (a) Buatlah plot batang dan daun ganda untuk umur hidup
60.2 43.8 23.2 13.8 buah dengan menggunakan batang 0, 0 · , 1, 1 · , 2, 2 · ,
Bukan Perokok: 28.6 25.1 26.4 34.9 dan 3 sehingga batang diberi kode oleh simbol dan ·
29.8 28.4 38.5 30.2 dikaitkan, masing-masing, dengan daun 0
30.6 31.8 41.6 21.1 melalui 4 dan 5 hingga 9.
36.0 37.9 13.9 (b) Atur distribusi frekuensi relatif.
(a) Tentukan mean sampel untuk setiap kelompok. (c) Buat histogram frekuensi relatif.
(b) Tentukan simpangan baku sampel untuk setiap (d) Tentukan mediannya.
kelompok.
(c) Buat plot titik dari kumpulan data A dan B pada 1.21 Lama kegagalan daya, dalam menit, dicatat
baris yang sama. dalam tabel berikut.
(d) Mengomentari dampak seperti apa yang tampaknya 22 18 135 15 90 78 69 98 102
ditimbulkan merokok pada waktu yang dibutuhkan 83 55 28 121 120 13 22 124 112
untuk tertidur. 70 66 74 89 103 24 21 112 21
40 98 87 132 115 21 28 43 37
1.18 Skor berikut mewakili nilai ujian akhir untuk 50 96 118 158 74 78 83 93 95
kursus statistik dasar: (a) Tentukan mean sampel dan median sampel waktu
23 60 79 32 57 74 52 70 82 mati listrik .
36 80 77 81 95 41 65 92 85 (b) Tentukan deviasi standar sampel waktu mati
55 76 52 10 64 75 78 25 80 listrik.
98 81 67 41 71 83 54 64 72
88 62 74 43 60 78 89 76 84 1.22 Data berikut adalah ukuran diameter 36 kepala
48 84 90 15 79 34 67 17 82
paku keling dalam 1/100 inci.
69 74 63 80 85 61
      6.72 6.77 6.82 6.70 6.78 6.70 6.62 6.75
(a) Buat plot batang-dan-daun untuk kelas ujian di mana 6.66 6.66 6.64 6.76 6.73 6.80 6.72 6.76
batang adalah 1 , 2 , 3 ,. . . , 9. 6.76 6.68 6.66 6.62 6.72 6.76 6.70 6.78
(b) Buat histogram frekuensi relatif, buat perkiraan 6.76 6.67 6.70 6.72 6.74 6.81 6.79 6.78
grafik distribusi, dan diskusikan kemiringan 6.66 6.76 6.76 6.72
distribusi. (a) Hitung mean sampel dan deviasi standar sampel.
(c) Hitung mean sampel, median sampel, dan deviasi (b) Buat histogram frekuensi relatif dari data.
standar sampel. (c) Mengomentari ada tidaknya indikasi yang jelas
bahwa sampel berasal dari populasi yang memiliki
1.19 Data berikut menunjukkan lama masa pakai distribusi berbentuk lonceng .
dalam tahun, diukur ke sepersepuluh terdekat, dari 30
pompa bahan bakar serupa: 1.23 Emisi hidrokarbon pada kecepatan diam dalam
2.0 3.0 0.3 3.3 1.3 0.4 bagian per juta (ppm) untuk mobil model tahun 1980
0.2 6.0 5.5 6.5 0.2 2.3 dan 1990 diberikan untuk 20 mobil yang dipilih secara
1.5 4.0 5.9 1.8 4.7 0.7 acak.
4.5 0.3 1.5 0,5 2.5 5.0
1.0 6.0 5.6 6.0 1.2 0.2
(a) Buat plot batang-dan-daun untuk umur pompa
bahan bakar selama bertahun-tahun,
menggunakan digit di sebelah kiri koma desimal
sebagai batang untuk setiap pengamatan.
(b) Atur distribusi frekuensi relatif.

32 Bab 1 Pengantar Statistik dan Analisis Data

Model 1980: dan rata-rata sampel adalah 210, 325, dan 375.
141359247 940882494306 210105880
(a) Buat plot keausan rata-rata terhadap beban.
2002231888940241 190300435241 380
Model 1990: (b) Dari plot di (a), apakah tampak seolah-olah ada
140160 20 20223 60 20 95 360 70 hubungan antara keausan dan beban?
220400 217 58 235380200175 85 65 (c) Misalkan kita melihat nilai keausan individu untuk
(a) Buat plot titik seperti pada Gambar 1.1. masing-masing dari empat spesimen pada setiap
(b) Hitung rata-rata sampel selama dua tahun dan tingkat beban (lihat data berikut). Plotkan hasil
keausan untuk semua spesimen terhadap ketiga
taruh di atas dua rata-rata di plot.
nilai beban.
(c) Beri komentar tentang apa yang diindikasikan oleh
(d) Dari plot Anda di (c), apakah tampak seolah-olah
dot plot terkait apakah emisi populasi berubah dari
ada hubungan yang jelas? Jika jawaban Anda
1980 ke 1990. Gunakan konsep variabilitas dalam
berbeda dengan jawaban di (b), jelaskan
komentar Anda.
alasannya.
1.24 Berikut ini adalah data historis tentang gaji staf (dolar    
x  
700 1000 1300
per murid) untuk 30 sekolah sampel di bagian timur  
Amerika Serikat pada awal tahun 1970-an. y1 145 250 150
y2 105 195 180
3.79 2.99 2.77 2.91 3.10 1.84 2.52 3.22 y3 260 375 420
2.45 2.14 2.67 2.52 2.71 2.75 3.57 3.85 y4 330 480 750
3.36 2.05 2.89 2.83 3.13 2.44 2.10 3.71
3.14 3.54 2.37 2.68 3.51 3.37  
y ¯ 1 = 210 y ¯ 2 = 325 y ¯ 3 = 375
(a) Hitung mean sampel dan deviasi standar sampel. 1.28 Banyak perusahaan manufaktur di Amerika Serikat
(b) Buat histogram frekuensi relatif dari data. dan luar negeri menggunakan suku cadang yang dicetak
(c) Buat tampilan data batang-dan-daun . sebagai komponen dari suatu proses. Penyusutan seringkali
menjadi masalah utama. Jadi, cetakan cetakan untuk suatu
1.25 Kumpulan data berikut ini terkait dengan yang ada di bagian dibangun lebih besar dari ukuran nominal untuk
Latihan 1.24. Ini memberikan persentase keluarga yang memungkinkan penyusutan bagian. Dalam studi injection
berada di tingkat pendapatan atas, untuk masing-masing moulding diketahui bahwa penyusutan dipengaruhi oleh
sekolah yang sama dengan urutan yang sama seperti pada banyak faktor, di antaranya adalah kecepatan injeksi
Latihan 1.24. dalam ft / detik dan suhu cetakan dalam ◦ C.Dua
72.2 31.9 26.5 29.1 27.3 8.6 22.3 26.5 kumpulan data berikut menunjukkan hasil dari
20.4 12.8 25.1 19.2 24.1 58.2 68.1 89.2 percobaan yang dirancang di mana kecepatan injeksi
55.1 9.4 14.5 13.9 20.7 17.9 8.5 55.4 dilakukan pada dua tingkat (rendah dan tinggi) dan
38.1 54.2 21.5 26.2 59.1 43.3 suhu cetakan dipertahankan konstan pada level
(a) Hitung mean sampel. rendah. Penyusutan diukur dalam cm × 10 4 .
(b) Hitung median sampel. Nilai penyusutan pada kecepatan injeksi
(c) Buat histogram frekuensi relatif dari data. rendah: 72.68 72.62 72.58 72.48
(d) Hitung rata-rata pemangkasan 10%. Bandingkan 73.07
dengan hasil di (a) dan (b) dan komentar. 72.55 72.42 72.84 72.58 72.92
Nilai penyusutan pada kecepatan injeksi tinggi:
1.26 Anggaplah menarik untuk menggunakan 71.62 71.68 71.74 71.48 71.55
kumpulan data dalam Latihan 1.24 dan 1.25 untuk
mendapatkan model yang akan memprediksi gaji staf 71,52 71,71 71,56 71,70 71,50
sebagai fungsi persentase keluarga berpenghasilan (a) Buat plot titik dari kedua kumpulan data pada
tinggi untuk sistem sekolah saat ini. Beri komentar grafik yang sama. Tunjukkan pada plot kedua cara
tentang kerugian apa pun dalam melakukan analisis penyusutan, yaitu untuk kecepatan injeksi rendah
jenis ini. dan kecepatan injeksi tinggi.
(b) Berdasarkan hasil grafik di (a), dengan
1.27 Sebuah penelitian dilakukan untuk mengetahui menggunakan lokasi dari dua cara dan rasa
pengaruh keausan, y , dari suatu bantalan sebagai fungsi variabilitas Anda, apa yang Anda simpulkan
dari beban, x , pada bantalan. Eksperimen yang dirancang mengenai pengaruh kecepatan injeksi terhadap
digunakan untuk penelitian ini. Tiga tingkat beban penyusutan pada suhu cetakan rendah?
digunakan, 700 lb, 1000 lb, dan 1300 lb. Empat spesimen
digunakan pada setiap tingkat, 1.29 Gunakan data dalam Latihan 1.24 untuk membuat
sebuah kotak
merencanakan.
1.30 Di bawah ini adalah masa pakai, dalam jam, dari
lima puluh 40 watt, lampu pijar internal 110 volt yang
dibekukan, diambil dari tes umur paksa:
Latihan 33

919 1196 785 1126 936 918 (b) Seperti dalam Latihan 1.28, komentar tentang
1156 920 948 1067 1092 1162 pengaruh kecepatan injeksi pada penyusutan
1170 929 950 905 972 1035 untuk suhu cetakan yang tinggi. Pertimbangkan
1045 855 1195 1195 1340 1122 posisi kedua mean dan variabilitas di sekitar
938 970 1237 956 1102 1157 setiap mean.
978 832 1009 1157 1151 1009
(c) Bandingkan kesimpulan Anda dalam (b) dengan
765 958 902 1022 1333 811
1217 1085 896 958 1311 1037 kesimpulan (b) Latihan 1.28 di mana suhu jamur
702 923 dipertahankan pada tingkat yang rendah. Apakah
        Anda akan mengatakan bahwa ada interaksi
Buat plot kotak untuk data ini.
antara kecepatan injeksi dan suhu cetakan?
1.31 Pertimbangkan situasi Latihan 1.28. Tapi sekarang Menjelaskan.
gunakan kumpulan data berikut, di mana penyusutan diukur
sekali lagi pada kecepatan injeksi rendah dan kecepatan 1.32 Gunakan hasil Latihan 1.28 dan 1.31 untuk
injeksi tinggi. Namun, kali ini suhu cetakan dinaikkan ke membuat plot yang menggambarkan interaksi yang
tingkat yang tinggi dan dipertahankan konstan. terlihat dari data. Gunakan plot pada Gambar 1.3 di
Contoh 1.3 sebagai panduan. Mungkinkah jenis
Nilai penyusutan pada kecepatan injeksi informasi yang ditemukan dalam Latihan 1.28 dan
rendah: 76.20 76.09 75.98 76.15 1.31 telah ditemukan dalam studi observasi di mana
76.17 tidak ada kontrol pada kecepatan injeksi dan suhu
75.94 76.12 76.18 76.25 75.82 cetakan oleh analis? Jelaskan mengapa atau
Nilai penyusutan pada kecepatan injeksi tinggi: mengapa tidak.
93.25 93.19 92.87 93.29 93.37
92,98 93,47 93,75 93,89 91,62 1.33 Proyek Kelompok: Kumpulkan ukuran sepatu setiap
(a) Seperti dalam Latihan 1.28, buatlah plot titik orang di kelas. Gunakan sarana sampel dan varians serta
dengan kedua kumpulan data pada grafik yang jenis plot yang disajikan dalam bab ini untuk meringkas fitur
sama dan identifikasi kedua mean (yaitu, apa pun yang menggambarkan perbedaan antara distribusi
penyusutan rata-rata untuk kendaraan injeksi ukuran sepatu untuk pria dan wanita. Lakukan hal yang
rendah dan kecepatan injeksi tinggi). sama untuk tinggi semua orang di kelas.

halaman ini sengaja dibiarkan kosong


Bab 2

Kemungkinan

2.1 Ruang Sampel


Dalam studi statistik, kami pada dasarnya prihatin dengan presentasi dan
interpretasi hasil kebetulan yang terjadi dalam studi terencana atau penyelidikan
ilmiah. Misalnya, kami dapat mencatat jumlah kecelakaan yang terjadi setiap
bulan di persimpangan Jalur Kayu Apung dan Royal Oak Drive, dengan harapan
dapat membenarkan pemasangan lampu lalu lintas; kita mungkin
mengklasifikasikan item yang muncul dari baris gabungan sebagai "cacat" atau
"tidak rusak"; atau kami mungkin tertarik dengan volume gas yang dilepaskan
dalam reaksi kimia ketika konsentrasi asam bervariasi. Oleh karena itu, ahli
statistik sering berurusan dengan data numerik, mewakili hitungan atau
pengukuran, atau data kategori, yang dapat diklasifikasikan menurut beberapa
kriteria.
Kami akan mengacu pada pencatatan informasi apa pun, apakah itu numerik
atau kategorikal, sebagai pengamatan. Jadi, angka 2, 0, 1, dan 2, yang mewakili
jumlah kecelakaan yang terjadi setiap bulan dari Januari hingga April selama
setahun terakhir di persimpangan Jalur Kayu Apung dan Royal Oak Drive,
merupakan serangkaian pengamatan. Demikian pula, data kategori N, D, N, N, dan
D , yang mewakili item yang ditemukan cacat atau tidak cacat ketika lima item
diinspeksi, dicatat sebagai observasi.
Ahli statistik menggunakan kata eksperimen untuk menggambarkan proses
apa pun yang menghasilkan sekumpulan data. Contoh sederhana dari eksperimen
statistik adalah melempar koin. Dalam eksperimen ini, hanya ada dua
kemungkinan hasil, head atau tails. Eksperimen lain mungkin berupa peluncuran
rudal dan mengamati kecepatannya pada waktu yang ditentukan. Pendapat
pemilih tentang pajak penjualan baru juga dapat dianggap sebagai pengamatan
percobaan. Kami sangat tertarik dengan pengamatan yang diperoleh dengan
mengulangi eksperimen beberapa kali. Dalam kebanyakan kasus, hasil akan
bergantung pada peluang dan, oleh karena itu, tidak dapat diprediksi dengan pasti.
Jika seorang ahli kimia menjalankan analisis beberapa kali dalam kondisi yang
sama, dia akan memperoleh pengukuran yang berbeda, yang menunjukkan elemen
kebetulan dalam prosedur eksperimental. Bahkan ketika koin dilemparkan
berulang kali, kita tidak dapat memastikan bahwa lemparan yang diberikan akan
menghasilkan kepala. Namun, kami mengetahui seluruh rangkaian kemungkinan
untuk setiap lemparan.
Mengingat pembahasan di Bagian 1.7, kita harus membahas luasnya istilah
eksperimen . Tiga jenis studi statistik ditinjau, dan beberapa contoh diberikan untuk
masing-masingnya. Dalam masing-masing dari tiga kasus, eksperimen yang dirancang ,
studi observasional , dan studi retrospektif , hasil akhirnya adalah sekumpulan data yang
tentu saja adalah

35

Anda mungkin juga menyukai