Isi ix
x Isi
Isi xi
xii Isi
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
12.9 Metode Sekuensial untuk Pemilihan Model. . . . . . . . . . . . . . . . . . . . . . . . . 476
12.10 Studi Sisa dan Pelanggaran Asumsi (Model Check-
ing). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
12.11 Validasi Silang, C p , dan Kriteria Lain untuk Pemilihan Model. . . . 487
. . . 494
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.12 Model Nonlinier Khusus untuk Kondisi Nonideal. . . . . . . . . . . . . . . 496
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 500
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
12.13 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
Isi xiii
14.5 Eksperimen Faktorial untuk Efek Acak dan Model Campuran. . . . 588 Latihan. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592 Review
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594
14.6 Potensi Kesalahpahaman dan Bahaya; Hubungan dengan Material
di Bab Lain. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
16 Statistik Nonparametrik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
16.1 Tes Nonparametrik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
16.2 Tes Peringkat yang Ditandatangani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
16.3 Tes Rank-Sum Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
16.4 Tes Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
16.5 Jalankan Tes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
16.6 Batas Toleransi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
16.7 Koefisien Korelasi Peringkat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Review Latihan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
xiv Isi
Bibliografi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 721
Lampiran A: Tabel dan Bukti Statistik . . . . . . . . . . . . . . . . . . 725
Lampiran B: Jawaban untuk Non-Review bernomor ganjil
Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 769
Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785
Kata pengantar
xv
prediksi, dan / atau toleransi batas dalam Bab 9. Sebuah satu semester kurikulum
telah built-in fl eksibilitas, tergantung pada kepentingan relatif dari instruktur di
regresi, analisis varians, desain eksperimen, dan metode respon permukaan (Bab
15). Ada beberapa distribusi diskrit dan kontinu (Bab 5 dan 6) yang memiliki
aplikasi di berbagai bidang teknik dan ilmiah.
Bab 11 sampai 18 berisi materi substansial yang dapat ditambahkan untuk semester
kedua mata kuliah dua semester . Materi tentang regresi linier sederhana dan berganda
masing-masing ada pada Bab 11 dan 12. Bab 12 sendiri menawarkan sejumlah besar
fleksibilitas. Regresi linier berganda mencakup "topik khusus" seperti variabel kategori
atau indikator, metode pemilihan model sekuensial seperti regresi bertahap, studi residual
untuk mendeteksi pelanggaran asumsi, validasi silang dan penggunaan statistik PRESS
serta C p , dan regresi logistik. Penggunaan regressor ortogonal, pendahulu desain
eksperimental di Bab 15, disorot. Bab 13 dan 14 menawarkan sejumlah besar materi
tentang Analisis Varian (ANOVA) dengan model tetap, acak, dan campuran. Bab 15
menyoroti penerapan desain dua tingkat dalam konteks eksperimen faktorial penuh dan
pecahan (2 k ). Disain penyaringan khusus diilustrasikan. Bab 15 juga menampilkan bagian
baru pada metodologi permukaan respons (RSM) untuk menggambarkan penggunaan
desain eksperimental untuk menemukan kondisi proses yang optimal. Pemasangan
model orde dua melalui penggunaan desain komposit pusat dibahas. RSM diperluas untuk
mencakup analisis masalah jenis desain parameter yang kuat. Variabel kebisingan
digunakan untuk mengakomodasi model permukaan respons ganda. Bab 16, 17, dan 18
berisi sejumlah materi yang moderat tentang statistik nonparametrik, kendali mutu, dan
inferensi Bayesian.
Bab 1 adalah ikhtisar inferensi statistik yang disajikan pada tingkat sederhana
secara matematis. Ini telah diperluas dari edisi kedelapan menjadi lebih
menyeluruh mencakup statistik nomor tunggal dan teknik grafis. Ini dirancang
untuk memberi siswa presentasi pendahuluan dari konsep dasar yang akan
memungkinkan mereka untuk memahami lebih banyak detail terkait yang
mengikuti. Konsep dasar dalam pengambilan sampel, pengumpulan data, dan
desain eksperimental disajikan, dan aspek dasar alat grafis diperkenalkan, serta
pengertian tentang apa yang dikumpulkan dari kumpulan data. Plot
batang-dan-daun serta plot kotak-dan-kumis telah ditambahkan. Grafik diatur dan
diberi label dengan lebih baik. Diskusi tentang ketidakpastian dan variasi dalam
suatu sistem dilakukan secara menyeluruh dan diilustrasikan dengan baik. Ada
beberapa contoh bagaimana memilah karakteristik penting dari suatu proses atau
sistem ilmiah, dan ide-ide ini diilustrasikan dalam pengaturan praktis seperti
proses manufaktur, studi biomedis, dan studi sistem biologi dan ilmiah lainnya.
Perbedaan dibuat antara penggunaan data diskrit dan kontinu. Penekanan
ditempatkan pada penggunaan model dan informasi mengenai model statistik
yang dapat diperoleh dari alat grafis.
Bab 2, 3, dan 4 membahas probabilitas dasar serta variabel acak diskrit dan kontinu.
Bab 5 dan 6 berfokus pada distribusi diskrit dan kontinu tertentu serta hubungan di antara
mereka. Bab-bab ini juga menyoroti contoh aplikasi distribusi dalam studi sains dan teknik
kehidupan nyata . Contoh, studi kasus, dan sejumlah besar latihan meneguhkan siswa
tentang penggunaan distribusi ini. Proyek menghidupkan penggunaan praktis distribusi ini
melalui kerja kelompok. Bab 7 adalah bab paling teoretis
dalam teks. Ini berkaitan dengan transformasi variabel acak dan kemungkinan
besar tidak akan digunakan kecuali instruktur ingin mengajar kursus yang relatif
teoritis. Bab 8 berisi materi grafis, memperluas seperangkat alat grafis yang lebih
mendasar yang disajikan dan diilustrasikan dalam Bab 1. Pemetaan probabilitas
dibahas dan diilustrasikan dengan contoh-contoh. Konsep yang sangat penting
dari distribusi sampling disajikan secara menyeluruh, dan ilustrasi diberikan yang
melibatkan teorema limit pusat dan distribusi varians sampel di bawah sampling
normal, independen (iid). The t dan F distribusi diperkenalkan untuk memotivasi
penggunaannya dalam bab-bab untuk mengikuti. Materi baru di Bab 8 membantu
siswa untuk memvisualisasikan pentingnya pengujian hipotesis, memotivasi
konsep nilai- P .
Bab 9 berisi materi tentang satu dan dua titik sampel dan estimasi interval. Diskusi
menyeluruh dengan contoh menunjukkan kontras antara berbagai jenis interval — interval
kepercayaan , interval prediksi, dan interval toleransi. Sebuah studi kasus
menggambarkan tiga jenis interval statistik dalam konteks situasi manufaktur. Studi
kasus ini menyoroti perbedaan antara interval, sumbernya, dan asumsi yang dibuat dalam
perkembangannya, serta jenis studi atau pertanyaan ilmiah apa yang memerlukan
penggunaan masing-masing. Sebuah metode pendekatan baru telah ditambahkan untuk
kesimpulan tentang proporsi. Bab 10 dimulai dengan presentasi dasar tentang makna
pragmatis dari pengujian hipotesis, dengan penekanan pada konsep dasar seperti
hipotesis nol dan hipotesis alternatif, peran probabilitas dan nilai- P , dan kekuatan
pengujian. Setelah ini, ilustrasi diberikan tentang pengujian mengenai satu dan dua
sampel dalam kondisi standar. The dua sampel t -test dengan pengamatan dipasangkan
juga dijelaskan. Sebuah studi kasus membantu siswa untuk mengembangkan gambaran
yang jelas tentang apa arti interaksi antara faktor-faktor yang sebenarnya serta bahaya
yang dapat muncul ketika ada interaksi antara perlakuan dan unit eksperimen. Pada akhir
Bab 10 adalah bagian yang sangat penting yang menghubungkan Bab 9 dan 10 (estimasi
dan pengujian hipotesis) dengan Bab 11 hingga 16, di mana pemodelan statistik
menonjol. Penting bagi siswa untuk menyadari hubungan yang kuat.
Bab 11 dan 12 berisi materi tentang regresi linier sederhana dan berganda. Perhatian
yang lebih besar diberikan dalam edisi ini pada pengaruh yang dimainkan oleh kolinearitas
di antara variabel-variabel regresi. Sebuah situasi disajikan yang menunjukkan bagaimana
peran variabel regresi tunggal dapat bergantung sebagian besar pada regressor apa yang
ada dalam model dengannya. Prosedur pemilihan model sekuensial (maju atau, mundur,
bertahap, dll) kemudian ditinjau kembali dalam hal konsep ini, dan alasan untuk
menggunakan tertentu P -values dengan prosedur ini disediakan. Bab 12 menawarkan
materi tentang pemodelan nonlinier dengan presentasi khusus tentang regresi logistik,
yang memiliki aplikasi di bidang teknik dan ilmu biologi. Materi tentang regresi berganda
cukup ekstensif dan dengan demikian memberikan fleksibilitas yang cukup besar bagi
instruktur, seperti yang ditunjukkan sebelumnya. Di akhir Bab 12 terdapat komentar yang
berkaitan dengan bab tersebut dengan Bab 14 dan 15. Beberapa fitur ditambahkan untuk
memberikan pemahaman yang lebih baik tentang materi secara umum. Misalnya, materi
akhir bab membahas tentang kehati-hatian dan kesulitan yang mungkin ditemui. Hal ini
menunjukkan bahwa ada jenis tanggapan yang terjadi secara alami dalam praktik
(misalnya tanggapan proporsi, menghitung tanggapan, dan beberapa lainnya) dengan
mana regresi kuadrat terkecil standar tidak boleh digunakan karena asumsi standar tidak
berlaku dan pelanggaran asumsi dapat terjadi. menyebabkan kesalahan serius. Sarannya
adalah
Suplemen
Panduan Solusi Instruktur . Sumber daya ini berisi solusi yang telah dikerjakan
untuk semua latihan teks dan tersedia untuk diunduh dari Pusat Sumber Daya
Instruktur Pearson Education.
xx Kata pengantar
StatCrunch eText . Buku teks interaktif dan online ini mencakup StatCrunch,
perangkat lunak statistik berbasis web yang kuat . Tombol StatCrunch yang
disematkan memungkinkan pengguna untuk membuka semua kumpulan data dan
tabel dari buku dengan mengklik sebuah tombol dan segera melakukan analisis
menggunakan StatCrunch.
Bab 1
papan komputer yang diproduksi oleh perusahaan selama periode waktu tertentu. Jika
perbaikan dibuat dalam proses papan komputer dan sampel papan kedua dikumpulkan,
kesimpulan apa pun yang diambil mengenai keefektifan perubahan proses harus meluas
ke seluruh populasi papan komputer yang diproduksi di bawah "proses yang ditingkatkan."
Dalam percobaan obat, sampel pasien diambil dan masing-masing diberi obat khusus
untuk menurunkan tekanan darah. Minat ini difokuskan untuk menarik kesimpulan tentang
populasi mereka yang menderita hipertensi.
Seringkali, sangat penting untuk mengumpulkan data ilmiah secara sistematis,
dengan perencanaan sebagai agenda utama. Terkadang perencanaan, karena
kebutuhan, sangat terbatas. Kita seringkali hanya berfokus pada properti atau
karakteristik tertentu dari item atau objek dalam populasi. Setiap karakteristik
memiliki teknik tertentu atau, katakanlah, kepentingan biologis bagi "pelanggan",
ilmuwan atau insinyur yang berusaha mempelajari populasi. Misalnya, dalam salah
satu ilustrasi di atas, kualitas proses berkaitan dengan kepadatan produk dari
output suatu proses. Seorang insinyur mungkin perlu mempelajari pengaruh
kondisi proses, suhu, kelembaban, jumlah bahan tertentu, dan seterusnya. Ia dapat
secara sistematis memindahkan faktor-faktor ini ke tingkat apa pun yang
disarankan sesuai dengan resep atau rancangan eksperimen apa pun yang
diinginkan. Akan tetapi, seorang ilmuwan kehutanan yang tertarik dengan studi
tentang faktor-faktor yang mempengaruhi kerapatan kayu pada jenis pohon
tertentu tidak dapat selalu merancang sebuah eksperimen. Kasus ini mungkin
memerlukan studi observasi di mana data dikumpulkan di lapangan tetapi tingkat
faktor tidak dapat dipilih sebelumnya. Kedua jenis studi ini cocok dengan metode
inferensi statistik. Yang pertama, kualitas kesimpulan akan bergantung pada
perencanaan eksperimen yang tepat. Yang terakhir, ilmuwan bergantung pada apa
yang bisa dikumpulkan. Misalnya, sangat menyedihkan jika seorang ahli agronomi
tertarik untuk mempelajari pengaruh curah hujan terhadap hasil tanaman dan data
dikumpulkan selama musim kemarau.
Peran Probabilitas
Dalam buku ini, Bab 2 sampai 6 membahas pengertian dasar tentang probabilitas.
Landasan menyeluruh dalam konsep ini memungkinkan pembaca memiliki
pemahaman yang lebih baik tentang inferensi statistik. Tanpa beberapa
formalisme teori probabilitas, siswa tidak dapat menghargai interpretasi yang
sebenarnya dari analisis data melalui metode statistik modern. Sangat wajar
untuk mempelajari probabilitas sebelum mempelajari inferensi statistik. Elemen
probabilitas memungkinkan kita untuk mengukur kekuatan atau "kepercayaan"
dalam kesimpulan kita. Dalam pengertian ini, konsep dalam probabilitas
membentuk komponen utama yang melengkapi metode statistik dan membantu
kita mengukur kekuatan inferensi statistik. Disiplin probabilitas, kemudian,
memberikan transisi antara statistik deskriptif dan metode inferensial. Elemen
probabilitas memungkinkan kesimpulan dimasukkan ke dalam bahasa yang
dibutuhkan oleh para praktisi sains atau teknik. Sebuah contoh berikut ini akan
memungkinkan pembaca untuk memahami pengertian nilai- P , yang sering kali
memberikan "garis bawah" dalam interpretasi hasil dari penggunaan metode
statistik.
Contoh 1.1: Misalkan seorang insinyur menemukan data dari proses manufaktur di mana 100 item
dijadikan sampel dan 10 ditemukan cacat. Diharapkan dan diantisipasi bahwa
sesekali akan ada barang yang cacat. Tentunya 100 item ini mewakili sampel.
Namun, telah ditentukan bahwa dalam jangka panjang, perusahaan hanya dapat
mentolerir 5% cacat dalam proses tersebut. Sekarang, elemen probabilitas
memungkinkan insinyur untuk menentukan seberapa konklusif informasi sampel
berkaitan dengan sifat proses. Dalam hal ini, populasi secara konseptual mewakili
semua kemungkinan item dari proses tersebut. Misalkan kita belajar bahwa jika
proses dapat diterima , yaitu jika tidak menghasilkan item tidak lebih dari 5% yang
rusak, ada kemungkinan 0,0282 untuk mendapatkan 10 atau lebih item cacat
dalam sampel acak 100 item. dari proses. Kemungkinan kecil ini menunjukkan
bahwa proses tersebut memang memiliki tingkat jangka panjang untuk item cacat
yang melebihi 5%. Dengan kata lain, dalam kondisi proses yang dapat diterima,
informasi sampel yang diperoleh jarang terjadi. Namun, itu memang terjadi! Jelas,
meskipun, itu akan terjadi dengan probabilitas yang jauh lebih tinggi jika tingkat
kerusakan proses melebihi 5% dengan jumlah yang signifikan.
Dari contoh ini menjadi jelas bahwa elemen bantuan probabilitas dalam
terjemahan informasi sampel menjadi sesuatu yang konklusif atau tidak
meyakinkan tentang sistem ilmiah. Sebenarnya, apa yang dipelajari kemungkinan
besar adalah informasi yang mengkhawatirkan bagi insinyur atau manajer.
Metode statistik, yang akan kami jelaskan di Bab 10, menghasilkan nilai- P 0,0282.
Hasilnya menunjukkan bahwa proses tersebut kemungkinan besar tidak dapat
diterima. Konsep dari P -nilai dibahas panjang lebar dalam berhasil bab. Contoh
berikut memberikan ilustrasi kedua.
Contoh 1.2: Seringkali sifat studi ilmiah akan menentukan peran yang dimainkan oleh probabilitas dan
penalaran deduktif dalam inferensi statistik. Latihan 9.40 di halaman 294 memberikan
data yang terkait dengan studi yang dilakukan di Virginia Polytechnic Institute dan State
University tentang pengembangan hubungan antara akar pohon dan aksi jamur. Mineral
dipindahkan dari jamur ke pohon dan gula dari pohon ke jamur. Dua sampel dari 10 bibit
ek merah utara ditanam di rumah kaca, satu berisi bibit yang diolah dengan nitrogen dan
yang lainnya mengandung bibit tanpa nitrogen. Semua kondisi lingkungan lainnya
dipertahankan konstan. Semua bibit mengandung jamur Pisolithus tinctorus .
Rincian lebih lanjut diberikan di Bab 9. Bobot batang dalam gram dicatat setelah
akhir 140 hari. Data diberikan pada Tabel 1.1.
Dalam contoh ini terdapat dua sampel dari dua populasi yang terpisah. Tujuan
percobaan adalah untuk mengetahui apakah penggunaan nitrogen berpengaruh
pada pertumbuhan akar. Studi ini adalah studi perbandingan (yaitu, kami berusaha
untuk membandingkan dua populasi sehubungan dengan karakteristik penting
tertentu). Sebaiknya plot data seperti yang ditunjukkan pada plot titik pada
Gambar 1.1. Nilai ◦ mewakili data "nitrogen" dan nilai × mewakili data
"tanpa nitrogen" .
Perhatikan bahwa tampilan umum data mungkin memberi kesan kepada
pembaca bahwa, rata-rata, penggunaan nitrogen meningkatkan bobot batang.
Empat pengamatan nitrogen jauh lebih besar daripada pengamatan tanpa nitrogen
. Sebagian besar pengamatan tanpa nitrogen tampaknya berada di bawah pusat
data. Munculnya kumpulan data tampaknya menunjukkan bahwa nitrogen efektif.
Tapi bagaimana ini bisa diukur? Bagaimana semua bukti visual yang tampak
diringkas dalam arti tertentu? Seperti pada contoh sebelumnya, dasar-dasar
probabilitas dapat digunakan. Kesimpulan dapat diringkas dalam pernyataan
probabilitas atau nilai- P . Kami tidak akan menunjukkan inferensi statistik yang
menghasilkan probabilitas ringkasan. Seperti pada Contoh 1.1, metode ini akan
dibahas dalam Bab 10. Masalahnya berkisar pada "kemungkinan bahwa data
seperti ini dapat diamati" mengingat bahwa nitrogen tidak berpengaruh , dengan
kata lain, mengingat kedua sampel dihasilkan dari populasi yang sama . Misalkan
probabilitas ini kecil, katakanlah 0,03. Itu pasti akan menjadi bukti kuat bahwa
penggunaan nitrogen memang memengaruhi (tampaknya meningkatkan) bobot
batang rata-rata dari bibit oak merah.
Kemungkinan
Populasi Sampel
Inferensi Statistik
Sekarang, dalam skema besar hal-hal, mana yang lebih penting, bidang
probabilitas atau bidang statistik? Keduanya sangat penting dan jelas saling
melengkapi. Satu-satunya kepastian mengenai pedagogi dari dua disiplin ini
terletak pada kenyataan bahwa jika statistik diajarkan lebih dari sekedar tingkat
"buku masak", maka disiplin probabilitas harus diajarkan terlebih dahulu. Aturan ini
berasal dari fakta bahwa tidak ada yang dapat dipelajari tentang suatu populasi
dari sampel sampai analis mempelajari dasar-dasar ketidakpastian dalam sampel
tersebut. Misalnya, perhatikan Contoh 1.1. Pertanyaannya berpusat pada apakah
populasi, ditentukan oleh proses, tidak lebih dari 5% cacat atau tidak. Dengan kata
lain, dugaannya adalah rata-rata 5 dari 100 item rusak. Sekarang, sampel berisi 100
item dan 10 rusak. Apakah ini mendukung dugaan atau membantahnya? Di
permukaan itu akan tampak sebagai sanggahan dari dugaan karena 10 dari 100
tampaknya "sedikit banyak." Tetapi tanpa unsur probabilitas, bagaimana kita tahu?
Hanya melalui studi materi di bab-bab selanjutnya kita akan mempelajari kondisi
di mana proses tersebut dapat diterima (5% rusak). Probabilitas untuk
mendapatkan 10 atau lebih item cacat dalam sampel 100 adalah 0,0282.
Kami telah memberikan dua contoh di mana elemen probabilitas memberikan
ringkasan yang dapat digunakan ilmuwan atau insinyur sebagai bukti untuk
membangun keputusan. Jembatan antara data dan kesimpulan, tentu saja,
didasarkan pada dasar-dasar inferensi statistik, teori distribusi, dan distribusi
sampling yang dibahas dalam bab-bab selanjutnya.
Desain eksperimental
Konsep keacakan atau tugas acak memainkan peran besar dalam bidang desain
eksperimental, yang diperkenalkan secara singkat di Bagian 1.1 dan merupakan
pokok penting di hampir semua bidang ilmu teknik atau eksperimental. Ini akan
dibahas panjang lebar di Bab 13 hingga 15. Namun, presentasi singkat di sini
bermanfaat dalam konteks pengambilan sampel acak. Seperangkat yang disebut
pengobatan atau kombinasi pengobatan menjadi populasi untuk dipelajari atau
dibandingkan dalam arti tertentu. Contohnya adalah perlakuan nitrogen versus
tanpa nitrogen dalam Contoh 1.2. Contoh sederhana lainnya adalah "plasebo"
versus "obat aktif", atau dalam studi kelelahan korosi, kami mungkin memiliki
kombinasi pengobatan yang melibatkan spesimen yang dilapisi atau tidak dilapisi
serta kondisi kelembaban rendah atau tinggi di mana spesimen terpapar.
Faktanya, ada empat kombinasi perlakuan atau faktor (yaitu, 4 populasi), dan
banyak pertanyaan ilmiah dapat ditanyakan dan dijawab melalui metode statistik
dan inferensial. Pertimbangkan dulu situasi di Contoh 1.2. Ada 20 bibit penyakit
yang dilibatkan dalam percobaan ini. Dari data itu sendiri, mudah dilihat bahwa
bibit-bibit itu berbeda satu sama lain. Dalam kelompok nitrogen (atau kelompok
tanpa nitrogen ) terdapat variabilitas yang cukup besar dalam bobot batang.
Variabilitas ini disebabkan oleh apa yang umumnya disebut unit eksperimental. Ini
adalah konsep yang sangat penting dalam statistik inferensial, yang uraiannya
tidak akan berakhir di bab ini. Sifat variabilitas sangat penting. Jika terlalu besar,
yang berasal dari kondisi nonhomogenitas yang berlebihan dalam unit
eksperimen, variabilitas akan "menghapus" perbedaan yang dapat dideteksi antara
dua populasi. Ingatlah bahwa dalam kasus ini itu tidak terjadi.
Titik Plot pada Gambar 1.1 dan P -nilai menunjukkan perbedaan yang jelas
antara dua kondisi tersebut. Peran apa yang dimainkan unit eksperimen tersebut
dalam proses pengambilan data itu sendiri? The akal sehat dan, memang,
pendekatan cukup standar untuk menetapkan 20 bibit atau unit eksperimental
acak untuk dua KASIH atau kondisi memperlakukan. Dalam studi obat, kami
mungkin memutuskan untuk menggunakan total 200 pasien yang tersedia, pasien
yang jelas akan berbeda dalam beberapa hal. Mereka adalah unit eksperimental.
Namun, mereka semua mungkin memiliki kondisi kronis yang sama dimana obat
tersebut merupakan pengobatan potensial. Kemudian dalam apa yang disebut
desain yang sepenuhnya acak, 100 pasien secara acak menggunakan plasebo dan
100 untuk obat aktif. Sekali lagi, unit eksperimental dalam suatu kelompok atau
pengobatan inilah yang menghasilkan variabilitas dalam hasil data (yaitu,
variabilitas dalam hasil yang diukur), misalnya tekanan darah, atau nilai efektivitas
obat apa pun yang penting. Dalam studi kelelahan korosi, unit eksperimen adalah
spesimen yang menjadi subjek korosi.
Contoh 1.3: Studi korosi dilakukan untuk menentukan apakah melapisi logam aluminium dengan
zat penghambat korosi dapat mengurangi jumlah korosi. Pelapis adalah pelindung
yang diiklankan untuk meminimalkan kerusakan akibat kelelahan pada jenis bahan
ini. Yang juga menarik adalah pengaruh kelembapan pada jumlah korosi.
Pengukuran korosi dapat diekspresikan dalam ribuan siklus menuju kegagalan.
Dua tingkat pelapisan, tanpa pelapis dan pelapis korosi kimia, digunakan. Selain
itu, dua tingkat kelembapan relatif adalah kelembapan relatif 20% dan kelembapan
relatif 80%.
Eksperimen ini melibatkan empat kombinasi perlakuan yang tercantum dalam
tabel berikut. Ada delapan unit percobaan yang digunakan, yaitu spesimen
aluminium yang disiapkan; dua ditugaskan secara acak untuk masing-masing dari
empat kombinasi pengobatan. Data disajikan pada Tabel 1.2.
Data korosi adalah rata-rata dari dua spesimen. Plot rata-rata digambarkan
pada Gambar 1.3. Nilai siklus menuju kegagalan yang relatif besar menunjukkan
jumlah korosi yang kecil. Seperti yang diharapkan, peningkatan kelembapan
tampaknya memperburuk korosi. Penggunaan prosedur pelapisan korosi kimia
tampaknya mengurangi korosi.
Dalam ilustrasi desain eksperimental ini, insinyur telah secara sistematis memilih
empat kombinasi perlakuan. Untuk menghubungkan situasi ini dengan konsep-konsep
yang pembaca telah diekspos pada poin ini, harus diasumsikan bahwa
10 Bab 1 Pengantar Statistik dan Analisis Data
2000
1000
Tidak dilapisi
0
0 20% 80%
Kelembaban
Contoh ini menunjukkan perlunya hal-hal berikut dalam Bagian 1.3 dan 1.4,
yaitu, statistik deskriptif yang menunjukkan ukuran pusat lokasi dalam satu set
data, dan yang mengukur variabilitas.
Definisi 1.2: Diketahui bahwa observasi dalam suatu sampel adalah x 1 , x 2 ,. . . , x n , disusun
dalam urutan kenaikan besarnya, median sampel adalah
x ( n +1) / 2 , jika n ganjil ,
x˜=
1
2 ( x n / 2 + x n / 2 + 1 ) , jika n genap .
Sebagai contoh, misalkan kumpulan data adalah sebagai berikut: 1.7, 2.2, 3.9,
3.11, dan 14.7. Rata-rata sampel dan median adalah,
x ¯ = 5 . 12 , x ˜ = 3 . 9 .
Jelas ada perbedaan konsep antara mean dan median. Mungkin menarik bagi
pembaca dengan latar belakang teknik yang dimaksud sampel tersebut
adalah pusat data dalam sampel. Dalam arti tertentu, ini adalah titik di mana titik
tumpu dapat ditempatkan untuk menyeimbangkan sistem "bobot" yang
merupakan lokasi data individu. Hal ini ditunjukkan pada Gambar 1.4 berkaitan
dengan sampel dengan-nitrogen .
x ? 0,565
0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90
Gambar 1.4: Rata-rata sampel sebagai sentroid dari bobot batang dengan-nitrogen .
dan untuk rata-rata pemangkasan 10% untuk grup dengan nitrogen yang kami miliki
0 . 43 + 0 . 47 + 0 . 49 + 0 . 52 + 0 . 75 + 0 . 79 + 0 . 62 + 0 . 46
x ¯ tr (10) = = 0 . 56625 .
8
Perhatikan bahwa dalam kasus ini, seperti yang diharapkan, mean yang dipotong
mendekati mean dan median untuk sampel individu. Rata-rata yang dipangkas,
tentu saja, lebih tidak sensitif terhadap pencilan daripada rata-rata sampel, tetapi
tidak sepeka median. Di sisi lain, pendekatan rata-rata yang dipangkas
menggunakan lebih banyak informasi daripada median sampel. Perhatikan bahwa
median sampel memang merupakan kasus khusus dari rata-rata yang dipotong di
mana semua data sampel dihilangkan terlepas dari satu atau dua pengamatan di
tengah.
Latihan 13
Latihan
Harus jelas bagi pembaca bahwa deviasi standar sampel sebenarnya adalah
ukuran variabilitas. Variabilitas besar dalam kumpulan data menghasilkan nilai ( x -
x ¯) 2 yang relatif besar dan dengan demikian varian sampel yang besar. Besaran n -
1 sering disebut derajat kebebasan yang diasosiasikan dengan estimasi varians.
Dalam contoh sederhana ini, derajat kebebasan menggambarkan jumlah informasi
independen yang tersedia untuk menghitung variabilitas. Misalnya, kita ingin
menghitung varians sampel dan deviasi standar dari kumpulan data (5, 17, 6, 4).
Rata-rata sampel adalah x ¯ = 8. Penghitungan varians melibatkan
(5 - 8) 2 + (17 - 8) 2 + (6 - 8) 2 + (4 - 8) 2 = ( - 3) 2 + 9 2 + ( - 2) 2 + ( - 4) 2 .
n
Kuantitas di dalam tanda kurung berjumlah nol. Secara umum, ( x i - x ¯) = 0 (lihat
i=1
Latihan 1.16 di halaman 31). Kemudian perhitungan varians sampel tidak
melibatkan n penyimpangan kuadrat independen dari mean x ¯. Faktanya, karena
nilai terakhir dari x - x ¯ ditentukan oleh awal n - 1 dari mereka, kita katakan bahwa
ini adalah n - 1 “potongan informasi” yang menghasilkan s 2 . Jadi, ada n - 1 derajat
kebebasan daripada n derajat kebebasan untuk menghitung varians sampel.
Contoh 1.4: Dalam contoh yang dibahas secara ekstensif di Bab 10, seorang insinyur tertarik untuk
menguji "bias" dalam pengukur pH. Data dikumpulkan di meteran dengan
mengukur pH zat netral (pH = 7,0). Sampel berukuran 10 diambil, dengan hasil
yang diberikan oleh
7 . 07 7 . 00 7 . 10 6 . 97 7 . 00 7 . 03 7 . 01 7 . 01 6 . 98 7 . 08 .
Rata-rata sampel x ¯ diberikan oleh
7 . 07 + 7 . 00 + 7 . 10 + · · · + 7 . 08
x¯= =7.
10
0250
1
s2= [(7 . 07 - 7 . 025) 2 + (7 . 00 - 7 . 025) 2 + (7 . 10 - 7
9
. 025) 2 + · + (7 . 08 - 7 . 025) 2 ] = 0 . 001939 .
Hasilnya, deviasi standar sampel diberikan oleh
√
s = 0 . 001939 = 0 . 044 .
Latihan
1.7 Pertimbangkan data waktu pengeringan untuk 1.10 Untuk data Latihan 1.4 di halaman 13, hitung
Latihan 1.1 di halaman 13. Hitung varians sampel dan mean dan varians dalam “eksibilitas” untuk
perusahaan A dan perusahaan B. Apakah tampaknya
deviasi standar sampel.
ada perbedaan fl eksibilitas antara perusahaan A dan
1.8 Hitung varians sampel dan deviasi standar untuk perusahaan B?
data absorbansi air dari Latihan 1.2 di halaman 13.
1.11 Pertimbangkan data dalam Latihan 1.5 di halaman 13.
1.9 Latihan 1.3 di halaman 13 menunjukkan data
Hitung varians sampel dan deviasi standar sampel untuk
kekuatan tarik untuk dua sampel, satu di mana
kelompok kontrol dan perlakuan.
spesimen terkena proses penuaan dan satu di mana
tidak ada penuaan spesimen. 1.12 Untuk Latihan 1.6 di halaman 13, hitung
(a) Hitung varians sampel serta deviasi standar dalam
simpangan baku sampel dalam kekuatan tarik untuk
kekuatan tarik untuk kedua sampel.
sampel secara terpisah untuk dua suhu. Apakah
tampaknya peningkatan suhu memengaruhi
(b) Apakah tampaknya ada bukti bahwa penuaan variabilitas kekuatan tarik? Menjelaskan.
memengaruhi variabilitas dalam kekuatan tarik?
(Lihat juga plot untuk Latihan 1.3 di halaman 13.)
obat itu sukses dan 1 - 0 . 4 = 0 . 6 adalah proporsi sampel yang obatnya tidak
berhasil. Sebenarnya pengukuran numerik dasar untuk data biner umumnya
dilambangkan dengan 0 atau 1. Sebagai contoh, dalam contoh medis kita, hasil
yang berhasil dilambangkan dengan 1 dan tidak berhasil dengan 0. Akibatnya,
proporsi sampel sebenarnya adalah sampel rata-rata dari satu dan nol. Untuk
kategori sukses,
= = =0.4.
x 1 + x 2 + · · · + x 50 1+1+0+···+0+1 20
50 50 50
Seringkali hasil akhir dari analisis statistik adalah estimasi parameter model yang
didalilkan. Ini wajar bagi ilmuwan dan insinyur karena mereka sering berurusan
dengan pemodelan. Model statistik tidak deterministik tetapi harus melibatkan
beberapa aspek probabilistik. Suatu bentuk model seringkali menjadi landasan
asumsi yang dibuat oleh analis. Misalnya, dalam Contoh 1.2, ilmuwan mungkin
ingin menggambarkan beberapa tingkat perbedaan antara populasi nitrogen dan
tanpa nitrogen melalui informasi sampel. Analisis mungkin memerlukan model
tertentu
data, misalnya, bahwa dua sampel berasal dari distribusi normal atau Gaussian.
Lihat Bab 6 untuk diskusi tentang distribusi normal.
Jelas, pengguna metode statistik tidak dapat menghasilkan informasi yang
cukup atau data eksperimen untuk mengkarakterisasi populasi secara total. Tetapi
kumpulan data sering digunakan untuk mempelajari sifat-sifat tertentu dari
populasi. Ilmuwan dan insinyur terbiasa berurusan dengan kumpulan data.
Pentingnya mengkarakterisasi atau meringkas sifat kumpulan data harus jelas.
Seringkali ringkasan dari kumpulan data melalui tampilan grafis dapat
memberikan pemahaman tentang sistem dari mana data tersebut diambil.
Misalnya, di Bagian 1.1 dan 1.3, kami telah menunjukkan plot titik.
Pada bagian ini, peran pengambilan sampel dan tampilan data untuk
peningkatan inferensi statistik dieksplorasi secara rinci. Kami hanya
memperkenalkan beberapa tampilan sederhana namun sering kali efektif yang
melengkapi studi populasi statistik.
Plot Sebar
Kadang-kadang model yang didalilkan mungkin mengambil bentuk yang agak
rumit. Pertimbangkan, misalnya, produsen tekstil yang merancang eksperimen di
mana spesimen kain yang mengandung berbagai persentase kapas diproduksi.
Perhatikan data pada Tabel 1.3.
di sekitar jenis model yang berbeda, model yang mendalilkan jenis struktur yang
menghubungkan kekuatan tarik rata-rata populasi dengan konsentrasi kapas.
Dengan kata lain, model dapat ditulis
μ t, c = β 0 + β 1 C + β 2 C 2 ,
di mana μ t, c adalah penduduk rata-rata kekuatan tarik, yang bervariasi dengan
jumlah kapas dalam produk C . Implikasi dari model ini adalah bahwa untuk
tingkat kapas tetap, terdapat populasi pengukuran kuat tarik dan rata-rata populasi
adalah μ t, c . Jenis model ini, yang disebut model regresi, dibahas dalam Bab 11
dan 12. Bentuk fungsional dipilih oleh ilmuwan. Terkadang analisis data mungkin
menyarankan agar model diubah. Kemudian analis data "menghibur" model yang
mungkin diubah setelah beberapa analisis dilakukan. Penggunaan model empiris
disertai dengan teori estimasi, dimana β 0 , β 1 , dan β 2 diestimasi oleh data.
Selanjutnya, inferensi statistik kemudian dapat digunakan untuk menentukan
kecukupan model.
25
20
15
Daya tarik
10
5
15 20 25 30
Persentase Kapas
Dua poin menjadi bukti dari dua ilustrasi data di sini: (1) Jenis model yang
digunakan untuk mendeskripsikan data seringkali bergantung pada tujuan
eksperimen; dan (2) struktur model harus memanfaatkan masukan ilmiah
nonstatistik. Pilihan model mewakili asumsi mendasar yang menjadi dasar
inferensi statistik yang dihasilkan. Di seluruh buku ini akan terlihat betapa
pentingnya grafik. Seringkali, plot dapat menggambarkan informasi yang
memungkinkan hasil inferensi statistik formal untuk dikomunikasikan dengan
lebih baik kepada ilmuwan atau insinyur. Kadang-kadang, plot atau analisis data
eksplorasi dapat mengajarkan analis sesuatu yang tidak diambil dari analisis
formal. Hampir semua analisis formal membutuhkan asumsi yang berkembang
dari model data. Grafik dapat dengan baik menyoroti pelanggaran asumsi yang
seharusnya tidak diperhatikan. Di sepanjang buku ini, grafik digunakan secara
ekstensif untuk melengkapi analisis data formal. Bagian berikut mengungkapkan
beberapa alat grafis yang berguna dalam analisis data eksplorasi atau deskriptif.
data terdiri dari angka 1 sampai 21 yang mewakili jumlah orang di antrean kafetaria pada
40 hari kerja yang dipilih secara acak dan kita memilih plot batang dan daun ganda ,
batangnya akan menjadi 0, 0 · , 1, 1 · , dan 2 sehingga pengamatan terkecil 1 memiliki
batang 0 dan daun 1, angka 18 memiliki batang 1 · dan daun 8, dan pengamatan terbesar
21 memiliki batang 2 dan daun 1. Sebaliknya jika data terdiri dari angka-angka dari $
18.800 hingga $ 19.600 mewakili kemungkinan kesepakatan terbaik untuk 100 mobil baru
dari dealer tertentu dan kami memilih plot batang dan daun tunggal , batangnya akan
menjadi 188, 189, 190 ,. . . , 196 dan daun sekarang masing-masing berisi dua digit.
Sebuah mobil yang dijual seharga $ 19.385 akan memiliki nilai batang 193 dan daun
dua digit 85. Daun multi digit yang berasal dari batang yang sama biasanya dipisahkan
dengan koma di petak batang dan daun . Titik desimal dalam data umumnya diabaikan
jika semua angka di sebelah kanan desimal mewakili daun. Seperti yang terjadi pada
Tabel 1.5 dan 1.6. Namun jika datanya terdiri dari angka mulai dari
21,8 hingga 74,9, kita dapat memilih angka 2, 3, 4, 5, 6, dan 7 sebagai batang
sehingga bilangan seperti 48,3 akan memiliki nilai batang 4 dan daun 8,3.
The stem-and-leaf plot yang merupakan e ff efektif cara untuk meringkas data.
Cara lain adalah melalui penggunaan distribusi frekuensi, di mana data, yang
dikelompokkan ke dalam kelas atau interval yang berbeda, dapat dibuat dengan
menghitung daun di setiap batang dan mencatat bahwa setiap batang
menentukan interval kelas. Pada Tabel 1.5, batang 1 dengan 2 daun
mendefinisikan interval 1,0–1,9 yang berisi 2 pengamatan; batang 2 dengan 5
daun mendefinisikan interval 2,0–2,9 yang berisi 5 pengamatan; batang 3 dengan
25 daun mendefinisikan interval 3,0–3,9 dengan 25 pengamatan; dan batang 4
dengan 8 daun mendefinisikan interval 4,0–4,9 yang terdiri dari 8 pengamatan.
Untuk plot batang dan daun ganda pada Tabel 1.6, batang mendefinisikan tujuh
interval kelas 1.5–1.9, 2.0–2.4, 2.5–2.9 , 3.0–3.4, 3.5–3.9, 4.0–4.4, dan 4.5–4.9
dengan frekuensi 2, 1, 4, 15, 10, 5, dan 3, masing-masing.
Histogram
Dengan membagi frekuensi tiap kelas dengan jumlah total observasi, diperoleh
proporsi himpunan observasi di masing-masing kelas. Tabel yang mencantumkan
frekuensi relatif disebut distribusi frekuensi relatif. Distribusi frekuensi relatif
untuk data pada Tabel 1.4, yang menunjukkan titik tengah setiap interval kelas,
disajikan pada Tabel 1.7.
Informasi yang diberikan oleh distribusi frekuensi relatif dalam bentuk tabel
lebih mudah dipahami jika disajikan dalam bentuk grafik. Menggunakan titik
tengah setiap interval dan
0,375
0.250
Frekuensi Relatif
0.125
f (x)
0 1 2 3 4 5 6
Daya Tahan Baterai (tahun)
Informasi visual dalam plot box-and-whisker atau box plot tidak dimaksudkan
sebagai tes formal untuk outlier. Sebaliknya, ini dipandang sebagai alat diagnostik.
Sementara penentuan observasi mana yang outlier bervariasi dengan jenis
perangkat lunak yang digunakan, salah satu prosedur yang umum adalah dengan
menggunakan beberapa rentang interkuartil. Misalnya, jika jarak dari kotak
melebihi 1,5 kali jarak antar kuartil (di kedua arah), observasi dapat diberi label
outlier.
Contoh 1.5: Kadar nikotin diukur dalam sampel acak sebanyak 40 batang rokok. Data tersebut
ditampilkan pada Tabel 1.8.
1.0 1.5 2.0 2.5
Nikotin
Contoh 1.6: Perhatikan data pada Tabel 1.9, yang terdiri dari 30 sampel pengukur ketebalan cat
“kuping” (lihat karya Hogg dan Ledolter, 1992, dalam Bibliografi). Gambar 1.11
menggambarkan plot kotak-dan-kumis untuk kumpulan data asimetris ini.
Perhatikan bahwa balok kiri jauh lebih besar dari balok di kanan. Mediannya
adalah 35. Kuartil bawah adalah 31, sedangkan kuartil atas adalah 36. Perhatikan
juga bahwa pengamatan ekstrim di sebelah kanan lebih jauh dari kotak daripada
pengamatan ekstrim di sebelah kiri. Tidak ada pencilan dalam kumpulan data ini.
Ada cara tambahan agar plot box-and-whisker dan tampilan grafis lainnya
dapat membantu analis. Beberapa sampel dapat dibandingkan secara grafis. Plot
data dapat menunjukkan hubungan antar variabel. Grafik dapat membantu dalam
mendeteksi anomali atau observasi luar dalam sampel.
Ada jenis alat grafis dan plot lain yang digunakan. Ini dibahas dalam Bab 8
setelah kami memperkenalkan detail teoretis tambahan.
28 30 32 34 36 38 40
Cat
minat untuk mempelajari beberapa karakteristik atau pengukuran (tingkat korosi) yang
dihasilkan dari kondisi tersebut. Metode statistik yang menggunakan ukuran tendensi
sentral dalam pengukuran korosi, serta pengukuran variabilitas, digunakan. Sebagaimana
pembaca akan amati nanti dalam teks, metode ini sering mengarah pada model statistik
seperti yang dibahas di Bagian 1.6. Dalam hal ini, model dapat digunakan untuk
memperkirakan (atau memprediksi) ukuran korosi sebagai fungsi kelembaban dan jenis
lapisan yang digunakan. Sekali lagi, dalam mengembangkan model semacam ini, statistik
deskriptif yang menonjolkan tendensi sentral dan variabilitas menjadi sangat berguna.
Informasi yang diberikan dalam Contoh 1.3 menggambarkan dengan baik jenis
pertanyaan teknik yang diajukan dan dijawab dengan menggunakan metode
statistik yang digunakan melalui percobaan yang dirancang dan disajikan dalam
teks ini. Mereka
(i) Bagaimana sifat dari dampak kelembaban relatif terhadap korosi paduan
aluminium dalam kisaran kelembaban relatif dalam percobaan ini?
(ii) Apakah lapisan korosi kimiawi mengurangi tingkat korosi dan dapatkah
pengaruhnya diukur dengan cara tertentu?
(iii) Apakah ada interaksi antara jenis lapisan dan kelembaban relatif yang
mempengaruhi pengaruhnya terhadap korosi paduan? Jika ya, apa
interpretasinya?
Model statistik sangat berguna dalam menjawab pertanyaan seperti yang tercantum
dalam (i), (ii), dan (iii), di mana datanya berasal dari eksperimen yang dirancang. Tetapi
seseorang tidak selalu memiliki kemewahan atau sumber daya untuk menggunakan
eksperimen yang dirancang. Misalnya, ada banyak contoh di mana kondisi yang diminati
ilmuwan atau insinyur tidak dapat diterapkan hanya karena faktor penting tidak dapat
dikontrol . Dalam Contoh 1.3, kelembaban relatif dan jenis lapisan (atau tidak adanya
lapisan) cukup mudah untuk dikontrol. Ini tentu saja adalah fitur yang menentukan dari
eksperimen yang dirancang. Di banyak bidang, faktor-faktor yang perlu dipelajari tidak
dapat dikontrol karena berbagai alasan. Kontrol ketat seperti pada Contoh 1.3
memungkinkan analis untuk yakin bahwa setiap perbedaan yang ditemukan (misalnya,
dalam tingkat korosi)
Jenis studi statistik ketiga yang bisa sangat berguna tetapi memiliki
kelemahan yang jelas jika dibandingkan dengan eksperimen yang dirancang
adalah studi retrospektif. Jenis studi ini menggunakan data historis yang ketat,
data yang diambil selama periode waktu tertentu. Satu keuntungan nyata dari data
retrospektif adalah pengurangan biaya dalam mengumpulkan data. Namun,
seperti yang diharapkan, ada kelemahan yang jelas.
(i) Validitas dan reliabilitas data historis sering kali diragukan.
(ii) Jika waktu merupakan aspek penting dari struktur data, mungkin ada data
yang hilang.
(iii) Mungkin ada kesalahan dalam pengumpulan data yang tidak diketahui.
(iv) Sekali lagi, seperti dalam kasus data observasi, tidak ada kontrol pada
rentang variabel yang diukur (faktor-faktor dalam sebuah penelitian).
Memang, kisaran yang ditemukan dalam data historis mungkin tidak relevan
untuk penelitian saat ini.
Dalam Bagian 1.6, beberapa perhatian diberikan untuk pemodelan hubungan antar
variabel. Kami memperkenalkan pengertian analisis regresi, yang dibahas dalam
Bab 11 dan 12 dan diilustrasikan sebagai bentuk analisis data untuk eksperimen
yang dirancang yang dibahas dalam Bab 14 dan 15. Di Bagian 1.6, model yang
menghubungkan kekuatan tarik rata-rata populasi kain dengan persentase kapas
digunakan untuk ilustrasi, di mana 20 spesimen kain mewakili unit percobaan.
Dalam hal ini, data berasal dari eksperimen yang dirancang sederhana di mana
persentase kapas individu dipilih oleh ilmuwan.
Seringkali baik data observasi dan data retrospektif digunakan untuk tujuan
mengamati hubungan antar variabel melalui prosedur pembangunan model yang
dibahas dalam Bab 11 dan 12. Sementara keuntungan dari eksperimen yang
dirancang pasti berlaku ketika tujuannya adalah membangun model statistik, ada
banyak area yang tidak memungkinkan untuk merancang eksperimen. Dengan
demikian, data observasi atau historis harus digunakan . Kami merujuk di sini ke
kumpulan data historis yang ditemukan di Latihan
12.5 di halaman 450. Tujuannya adalah untuk membangun model yang akan
menghasilkan persamaan atau hubungan yang menghubungkan daya listrik
bulanan yang dikonsumsi dengan suhu lingkungan rata-rata x 1 , jumlah hari dalam
bulan x 2 , kemurnian produk rata-rata x 3 , dan ton produk yang dihasilkan x 4 .
Data tersebut merupakan data historis tahun lalu.
Latihan
1.13 Produsen komponen elektronik tertarik untuk (a) Tentukan mean dan median sampel.
menentukan masa pakai baterai jenis tertentu. (b) Tentukan varians sampel, deviasi standar, dan
Sampel, dalam jam kehidupan, adalah sebagai berikut:
rentang.
123 , 116 , 122 , 110 , 175 , 126 , 125 , 111 , 118 , 117 .
(a) Tentukan mean dan median sampel. (c) Dengan menggunakan statistik yang dihitung
(b) Fitur apa dalam kumpulan data ini yang pada bagian (a) dan (b), dapatkah Anda
bertanggung jawab atas perbedaan substansial di mengomentari kualitas ban?
antara keduanya?
1.15 Lima lemparan koin independen menghasilkan
1.14 Produsen ban ingin menentukan diameter HHHHH . Ternyata bahwa jika koin adil probabilitas
bagian dalam dari ban kelas tertentu. Idealnya, hasil ini adalah (1 / 2) 5 = 0 . 03125. Apakah ini
diameternya 570 mm. Datanya adalah sebagai berikut: menghasilkan bukti kuat bahwa koin itu tidak adil?
Beri komentar dan gunakan konsep nilai- P yang
572 , 572 , 573 , 568 , 569 , 575 , 565 , 570 . dibahas di Bagian 1.1.
Latihan 31
1.16 Tunjukkan bahwa n potongan informasi di (c) Hitung mean sampel, rentang sampel, dan deviasi
n
( x i - x ¯) 2 tidak independen; yaitu, tunjukkan itu standar sampel.
i=1
n 1.20 Data berikut menunjukkan lamanya hidup,
( x i - x ¯) = 0 . dalam detik, dari 50 lalat buah yang disemprotkan
i=1 baru dalam percobaan laboratorium terkontrol:
1.17 Sebuah studi tentang efek merokok pada pola 17 20 10 9 23 13 12 19 18 24
tidur dilakukan. Ukuran yang diamati adalah waktu, 12 14 6 9 13 6 7 10 13 7
dalam menit, yang dibutuhkan untuk tertidur. Data ini 16 18 8 13 3 32 9 7 10 11
diperoleh: 13 7 18 7 10 4 27 19 16 8
Perokok: 69.3 56.0 22.1 47.6 7 10 5 14 15 10 9 6 7 15
53.2 48.1 52.7 34.4 (a) Buatlah plot batang dan daun ganda untuk umur hidup
60.2 43.8 23.2 13.8 buah dengan menggunakan batang 0, 0 · , 1, 1 · , 2, 2 · ,
Bukan Perokok: 28.6 25.1 26.4 34.9 dan 3 sehingga batang diberi kode oleh simbol dan ·
29.8 28.4 38.5 30.2 dikaitkan, masing-masing, dengan daun 0
30.6 31.8 41.6 21.1 melalui 4 dan 5 hingga 9.
36.0 37.9 13.9 (b) Atur distribusi frekuensi relatif.
(a) Tentukan mean sampel untuk setiap kelompok. (c) Buat histogram frekuensi relatif.
(b) Tentukan simpangan baku sampel untuk setiap (d) Tentukan mediannya.
kelompok.
(c) Buat plot titik dari kumpulan data A dan B pada 1.21 Lama kegagalan daya, dalam menit, dicatat
baris yang sama. dalam tabel berikut.
(d) Mengomentari dampak seperti apa yang tampaknya 22 18 135 15 90 78 69 98 102
ditimbulkan merokok pada waktu yang dibutuhkan 83 55 28 121 120 13 22 124 112
untuk tertidur. 70 66 74 89 103 24 21 112 21
40 98 87 132 115 21 28 43 37
1.18 Skor berikut mewakili nilai ujian akhir untuk 50 96 118 158 74 78 83 93 95
kursus statistik dasar: (a) Tentukan mean sampel dan median sampel waktu
23 60 79 32 57 74 52 70 82 mati listrik .
36 80 77 81 95 41 65 92 85 (b) Tentukan deviasi standar sampel waktu mati
55 76 52 10 64 75 78 25 80 listrik.
98 81 67 41 71 83 54 64 72
88 62 74 43 60 78 89 76 84 1.22 Data berikut adalah ukuran diameter 36 kepala
48 84 90 15 79 34 67 17 82
paku keling dalam 1/100 inci.
69 74 63 80 85 61
6.72 6.77 6.82 6.70 6.78 6.70 6.62 6.75
(a) Buat plot batang-dan-daun untuk kelas ujian di mana 6.66 6.66 6.64 6.76 6.73 6.80 6.72 6.76
batang adalah 1 , 2 , 3 ,. . . , 9. 6.76 6.68 6.66 6.62 6.72 6.76 6.70 6.78
(b) Buat histogram frekuensi relatif, buat perkiraan 6.76 6.67 6.70 6.72 6.74 6.81 6.79 6.78
grafik distribusi, dan diskusikan kemiringan 6.66 6.76 6.76 6.72
distribusi. (a) Hitung mean sampel dan deviasi standar sampel.
(c) Hitung mean sampel, median sampel, dan deviasi (b) Buat histogram frekuensi relatif dari data.
standar sampel. (c) Mengomentari ada tidaknya indikasi yang jelas
bahwa sampel berasal dari populasi yang memiliki
1.19 Data berikut menunjukkan lama masa pakai distribusi berbentuk lonceng .
dalam tahun, diukur ke sepersepuluh terdekat, dari 30
pompa bahan bakar serupa: 1.23 Emisi hidrokarbon pada kecepatan diam dalam
2.0 3.0 0.3 3.3 1.3 0.4 bagian per juta (ppm) untuk mobil model tahun 1980
0.2 6.0 5.5 6.5 0.2 2.3 dan 1990 diberikan untuk 20 mobil yang dipilih secara
1.5 4.0 5.9 1.8 4.7 0.7 acak.
4.5 0.3 1.5 0,5 2.5 5.0
1.0 6.0 5.6 6.0 1.2 0.2
(a) Buat plot batang-dan-daun untuk umur pompa
bahan bakar selama bertahun-tahun,
menggunakan digit di sebelah kiri koma desimal
sebagai batang untuk setiap pengamatan.
(b) Atur distribusi frekuensi relatif.
Model 1980: dan rata-rata sampel adalah 210, 325, dan 375.
141359247 940882494306 210105880
(a) Buat plot keausan rata-rata terhadap beban.
2002231888940241 190300435241 380
Model 1990: (b) Dari plot di (a), apakah tampak seolah-olah ada
140160 20 20223 60 20 95 360 70 hubungan antara keausan dan beban?
220400 217 58 235380200175 85 65 (c) Misalkan kita melihat nilai keausan individu untuk
(a) Buat plot titik seperti pada Gambar 1.1. masing-masing dari empat spesimen pada setiap
(b) Hitung rata-rata sampel selama dua tahun dan tingkat beban (lihat data berikut). Plotkan hasil
keausan untuk semua spesimen terhadap ketiga
taruh di atas dua rata-rata di plot.
nilai beban.
(c) Beri komentar tentang apa yang diindikasikan oleh
(d) Dari plot Anda di (c), apakah tampak seolah-olah
dot plot terkait apakah emisi populasi berubah dari
ada hubungan yang jelas? Jika jawaban Anda
1980 ke 1990. Gunakan konsep variabilitas dalam
berbeda dengan jawaban di (b), jelaskan
komentar Anda.
alasannya.
1.24 Berikut ini adalah data historis tentang gaji staf (dolar
x
700 1000 1300
per murid) untuk 30 sekolah sampel di bagian timur
Amerika Serikat pada awal tahun 1970-an. y1 145 250 150
y2 105 195 180
3.79 2.99 2.77 2.91 3.10 1.84 2.52 3.22 y3 260 375 420
2.45 2.14 2.67 2.52 2.71 2.75 3.57 3.85 y4 330 480 750
3.36 2.05 2.89 2.83 3.13 2.44 2.10 3.71
3.14 3.54 2.37 2.68 3.51 3.37
y ¯ 1 = 210 y ¯ 2 = 325 y ¯ 3 = 375
(a) Hitung mean sampel dan deviasi standar sampel. 1.28 Banyak perusahaan manufaktur di Amerika Serikat
(b) Buat histogram frekuensi relatif dari data. dan luar negeri menggunakan suku cadang yang dicetak
(c) Buat tampilan data batang-dan-daun . sebagai komponen dari suatu proses. Penyusutan seringkali
menjadi masalah utama. Jadi, cetakan cetakan untuk suatu
1.25 Kumpulan data berikut ini terkait dengan yang ada di bagian dibangun lebih besar dari ukuran nominal untuk
Latihan 1.24. Ini memberikan persentase keluarga yang memungkinkan penyusutan bagian. Dalam studi injection
berada di tingkat pendapatan atas, untuk masing-masing moulding diketahui bahwa penyusutan dipengaruhi oleh
sekolah yang sama dengan urutan yang sama seperti pada banyak faktor, di antaranya adalah kecepatan injeksi
Latihan 1.24. dalam ft / detik dan suhu cetakan dalam ◦ C.Dua
72.2 31.9 26.5 29.1 27.3 8.6 22.3 26.5 kumpulan data berikut menunjukkan hasil dari
20.4 12.8 25.1 19.2 24.1 58.2 68.1 89.2 percobaan yang dirancang di mana kecepatan injeksi
55.1 9.4 14.5 13.9 20.7 17.9 8.5 55.4 dilakukan pada dua tingkat (rendah dan tinggi) dan
38.1 54.2 21.5 26.2 59.1 43.3 suhu cetakan dipertahankan konstan pada level
(a) Hitung mean sampel. rendah. Penyusutan diukur dalam cm × 10 4 .
(b) Hitung median sampel. Nilai penyusutan pada kecepatan injeksi
(c) Buat histogram frekuensi relatif dari data. rendah: 72.68 72.62 72.58 72.48
(d) Hitung rata-rata pemangkasan 10%. Bandingkan 73.07
dengan hasil di (a) dan (b) dan komentar. 72.55 72.42 72.84 72.58 72.92
Nilai penyusutan pada kecepatan injeksi tinggi:
1.26 Anggaplah menarik untuk menggunakan 71.62 71.68 71.74 71.48 71.55
kumpulan data dalam Latihan 1.24 dan 1.25 untuk
mendapatkan model yang akan memprediksi gaji staf 71,52 71,71 71,56 71,70 71,50
sebagai fungsi persentase keluarga berpenghasilan (a) Buat plot titik dari kedua kumpulan data pada
tinggi untuk sistem sekolah saat ini. Beri komentar grafik yang sama. Tunjukkan pada plot kedua cara
tentang kerugian apa pun dalam melakukan analisis penyusutan, yaitu untuk kecepatan injeksi rendah
jenis ini. dan kecepatan injeksi tinggi.
(b) Berdasarkan hasil grafik di (a), dengan
1.27 Sebuah penelitian dilakukan untuk mengetahui menggunakan lokasi dari dua cara dan rasa
pengaruh keausan, y , dari suatu bantalan sebagai fungsi variabilitas Anda, apa yang Anda simpulkan
dari beban, x , pada bantalan. Eksperimen yang dirancang mengenai pengaruh kecepatan injeksi terhadap
digunakan untuk penelitian ini. Tiga tingkat beban penyusutan pada suhu cetakan rendah?
digunakan, 700 lb, 1000 lb, dan 1300 lb. Empat spesimen
digunakan pada setiap tingkat, 1.29 Gunakan data dalam Latihan 1.24 untuk membuat
sebuah kotak
merencanakan.
1.30 Di bawah ini adalah masa pakai, dalam jam, dari
lima puluh 40 watt, lampu pijar internal 110 volt yang
dibekukan, diambil dari tes umur paksa:
Latihan 33
919 1196 785 1126 936 918 (b) Seperti dalam Latihan 1.28, komentar tentang
1156 920 948 1067 1092 1162 pengaruh kecepatan injeksi pada penyusutan
1170 929 950 905 972 1035 untuk suhu cetakan yang tinggi. Pertimbangkan
1045 855 1195 1195 1340 1122 posisi kedua mean dan variabilitas di sekitar
938 970 1237 956 1102 1157 setiap mean.
978 832 1009 1157 1151 1009
(c) Bandingkan kesimpulan Anda dalam (b) dengan
765 958 902 1022 1333 811
1217 1085 896 958 1311 1037 kesimpulan (b) Latihan 1.28 di mana suhu jamur
702 923 dipertahankan pada tingkat yang rendah. Apakah
Anda akan mengatakan bahwa ada interaksi
Buat plot kotak untuk data ini.
antara kecepatan injeksi dan suhu cetakan?
1.31 Pertimbangkan situasi Latihan 1.28. Tapi sekarang Menjelaskan.
gunakan kumpulan data berikut, di mana penyusutan diukur
sekali lagi pada kecepatan injeksi rendah dan kecepatan 1.32 Gunakan hasil Latihan 1.28 dan 1.31 untuk
injeksi tinggi. Namun, kali ini suhu cetakan dinaikkan ke membuat plot yang menggambarkan interaksi yang
tingkat yang tinggi dan dipertahankan konstan. terlihat dari data. Gunakan plot pada Gambar 1.3 di
Contoh 1.3 sebagai panduan. Mungkinkah jenis
Nilai penyusutan pada kecepatan injeksi informasi yang ditemukan dalam Latihan 1.28 dan
rendah: 76.20 76.09 75.98 76.15 1.31 telah ditemukan dalam studi observasi di mana
76.17 tidak ada kontrol pada kecepatan injeksi dan suhu
75.94 76.12 76.18 76.25 75.82 cetakan oleh analis? Jelaskan mengapa atau
Nilai penyusutan pada kecepatan injeksi tinggi: mengapa tidak.
93.25 93.19 92.87 93.29 93.37
92,98 93,47 93,75 93,89 91,62 1.33 Proyek Kelompok: Kumpulkan ukuran sepatu setiap
(a) Seperti dalam Latihan 1.28, buatlah plot titik orang di kelas. Gunakan sarana sampel dan varians serta
dengan kedua kumpulan data pada grafik yang jenis plot yang disajikan dalam bab ini untuk meringkas fitur
sama dan identifikasi kedua mean (yaitu, apa pun yang menggambarkan perbedaan antara distribusi
penyusutan rata-rata untuk kendaraan injeksi ukuran sepatu untuk pria dan wanita. Lakukan hal yang
rendah dan kecepatan injeksi tinggi). sama untuk tinggi semua orang di kelas.
Kemungkinan
35