Ingatlah bahwa karena semua prediktor adalah variabel indikator, model ini kadang-kadang
diklaim sebagai analisis varians model.
Untuk contoh pertama, kita punya alternatif. Karena tingkat faktor-dosis - bersifat kuantitatif
dengan tiga tingkat, kita juga dapat memodelkan efeknya dengan menggunakan model regresi
polinomial orde kedua (orde lebih rendah), seperti yang dijelaskan pada Bagian 8. 1 Secara
khusus, dua pilihan untuk contoh pertama adalah:
𝑛𝑇 = ∑ 𝑛𝑖 (16.1)
𝑖=1
Notasi ini ditinjau dari yang digunakan sebelumnya untuk model regresi, dimana i
mengidentifikasi kasus atau percobaan.
Untuk analisis varians model, kami selalu menggunakan subskrip terakhir untuk
mewakili kasus atau uji coba untuk tingkat faktor atau perlakuan tertentu. Di sini, indeks j akan
digunakan kasus identitas atau uji coba yang diberikan untuk tingkat faktor tertentu. Kita harus
membiarkan 𝑌𝑖𝑗 menunjukkan notasi nilai variabel respon dalam uji coba untuk tingkat faktor
ke-i. Misalnya, 𝑌𝑖𝑗 adalah produktivitas karyawan ke-j dalam rencana insentif, atau volume
penjualan toko ke-j yang menampilkan tipe layar hias. Karena jumlah kasus atau uji coba untuk
tingkat faktor ke-1 dilambangkan dengan 𝑛𝑡 , kita memiliki j = 1, ..., 𝑛𝑡 .
Model ANOVA sekarang dapat dinyatakan sebagai berikut:
𝑌𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗 (16.2)
dimana:
𝑌𝑖𝑗 adalah adalah nilai variabel respon pada percobaan jth untuk tingkat faktor ke-i atau
perlakuan
𝜇𝑖 adalah parameter
𝜀𝑖𝑗 adalah independent 𝑁(0. 𝜎 2 )
𝑖 = 1, … 𝑟; 𝑗 = 1, … , 𝑛𝑖
Model ini disebut sel berarti model karena alasan yang akan dijelaskan segera. Model ini dapat
digunakan untuk data dari penelitian observasional atau data dari studi eksperimental
berdasarkan rancangan acak lengkap.
Fitur Penting Model
1. Nilai Y yang diamati pada uji coba untuk tingkat faktor atau perlakuan adalah jumlah dua
komponen: (a) istilah konstan 𝜇𝑖 dan (b) istilah acak 𝜀𝑖𝑗 .
2. Karena 𝐸{𝜀𝑖𝑗 } = 0 = 0, maka berikut ini:
𝐸{𝑌𝑖𝑗 } = 𝜇𝑖 (16.3)
Dengan demikian, semua respon atau pengamatan 𝑌𝑖𝑗 untuk tingkat faktor memiliki harapan
yang sama 𝜇𝑖 , dan parameter ini adalah respons rata-rata untuk tingkat faktor atau perlakuan.
3. Karena 𝜇𝑖 adalah konstanta, berikut dari (A.16a) bahwa:
𝜎 2 {𝑌𝑖𝑗 } = 𝜎 2 {𝜀𝑖𝑗 } = 𝜎 2 (16.4)
Dengan demikian, semua pengamatan memiliki varians yang sama, terlepas dari tingkat
faktornya.
4. Karena setiap 𝜀𝑖𝑗 adalah berdistribusi normal, maka masing-masing 𝑌𝑖𝑗 . Ini mengikuti dari
(A.36) karena 𝑌𝑖𝑗 adalah fungsi linear dari 𝜀𝑖𝑗 .
5. Istilah error diasumsikan independen. Oleh karena itu, istilah kesalahan untuk hasil pada satu
percobaan tidak berpengaruh pada istilah kesalahan untuk hasil uji coba lain untuk tingkat
faktor yang sama atau untuk tingkat faktor yang berbeda. Karena eij bersifat independen,
demikian juga respon 𝑌𝑖𝑗 .
6. Mengingat fitur ini, model ANOVA (16.2) dapat disajikan kembali sebagai berikut:
𝑌𝑖𝑗 adalah independent 𝑁 (𝜇𝑖 , 𝜎 2 ) (16.5)
Contoh
Anggaplah bahwa model ANOVA (16.2) berlaku untuk ilustrasi studi gaji insentif sebelumnya
dan bahwa parameternya adalah sebagai berikut:
𝜇1 = 70 𝜇2 = 58 𝜇3 = 90𝜇4 = 84 𝜎 = 4
Gambar 16.2 berisi representasi model ini. Perhatikan bahwa produktivitas karyawan untuk
tipe gaji insentif 1 sesuai dengan model ini biasanya didistribusikan dengan mean 𝜇1 =
70 dan standar deviasi 𝜎 = 4.
Misalkan dalam uji coba ke-j tipe insentif tipe 1, produktivitas yang diamati adalah
𝑌𝑖𝑗 = 78. Dalam hal ini, nilai kesalahan adalah 𝜀1𝑗 = 8, karena kita memiliki:
𝜀1𝑗 = 𝑌1𝑗 − 𝜇1 = 78 − 70 = 8
Gambar 16.2 menunjukkan pengamatan ini 𝑌𝑖𝑗 . Perhatikan bahwa deviasi 𝑌𝑖𝑗 dari mean 𝜇1
merepresentasikan istilah error 𝜀𝑖𝑗 . Angka ini juga menunjukkan pengamatan 𝑌𝑖𝑗 = 51, dimana
nilai kesalahan adalah 𝜀2𝑗 = −7.
Model ANOVA Merupakan Model Linear
Model ANOVA (16.2) adalah model linier karena dapat dinyatakan dalam bentuk matriks
dalam bentuk (6.19), yaitu 𝒀 = 𝑿𝜷 + 𝜺. Kami menggambarkan hal ini untuk penelitian yang
melibatkan r = 3 perlakuan, dan dimana 𝑛1 , 𝑛2 , 𝑛3 = 2 𝐘, 𝐗, 𝛃 dan 𝛆, kemudian didefinisikan
sebagai berikut:
𝑌11 1 0 0 𝜀11
𝑌12 1 0 0 𝜀12
𝜇1
𝑌21 0 1 0 𝜀21
𝑌= 𝑋= 𝛽 = [𝜇 2 ] 𝜀 = 𝜀 (16.6)
𝑌22 0 1 0 𝜇3 22
𝑌31 0 0 1 𝜀31
[𝑌32 ] [ 0 0 1] [𝜀32 ]
Perhatikan struktur sederhana dari matriks X dan bahwa vektor terdiri dari mean 𝜇𝑖 , untuk
melihat bahwa matriks-matriks ini menghasilkan model ANOVA (16.2), ingat dari (6.20)
bahwa vektor nilai yang diharapkan 𝑬{𝒀𝒊𝒋 } diberikan oleh 𝑬{𝒀} = 𝑿𝜷. Dengan demikian kita
memperoleh:
𝐸{𝑌11 } 1 0 0 𝜇1
𝐸{𝑌12 } 1 0 0 𝜇1 𝜇2
𝐸{𝑌21 } 0 1 0 𝜇 𝜇
𝑬{𝒀} = = 𝑿𝜷 = [ 2 ] = 𝜇3 (16.7)
𝐸{𝑌22 } 0 1 0 𝜇 1
𝐸{𝑌31 } 0 0 1 3 𝜇2
[0 0 1] [𝜇3 ]
[𝐸{𝑌32 }]
Ini menunjukkan dengan benar bahwa 𝐸{𝑌𝑖𝑗 } = 𝜇𝑖 . Oleh karena itu, model ANOVA (l6.2)
𝑌𝑖𝑗 = 𝜇𝑖 + 𝜀𝑖𝑗𝑘 dalam bentuk matriks diberikan oleh 𝒀 = 𝑿𝜷 + 𝜺.
𝑌11 𝜇1 𝜀11
𝑌12 𝜇2 𝜀12
𝑌21 𝜇3 𝜀21
𝑌= = 𝑋𝛽 + 𝜀 = 𝜇 + 𝜀 (16.8)
𝑌22 1 22
𝑌31 𝜇2 𝜀31
[𝑌32 ] [𝜇3 ] [𝜀32 ]
Karena istilah kesalahan dalam model memiliki struktur yang sama dengan model
regresi linier umum (6.19) secara umum, varians independensi dan konstan - matriks varian-
covarian dari istilah kesalahan pada model ANOVA sama seperti pada (6.19):
𝜎2 0 ⋯ 0
𝜎 2 {𝜀} = [ 0 𝜎2 ⋯ 0 ] = 𝜎2𝐈 (16.9)
⋮ ⋮ ⋮
0 0 ⋯ 𝜎2
Selain itu, seperti untuk model regresi linier umum (6.19), matriks varian-kovariansi dari
respons Y sama dengan kesalahan:
𝜎 2 {𝒀} = 𝜎 2 𝐈 (16.10)
Bila model ANOVA (16.2) dinyatakan sebagai model linier, seperti pada (16.8), dapat
diketahui mengapa disebut model sel berarti, karena vektor 𝜷 mengandung Arti dari sel-sel
yang ada faktor Ievels. Pada Bagian 16.7 kita membahas model ANOVA yang setara yang
disebut model efek faktor, dimana vektor 𝜷 mengandung komponen dari tingkat faktor.
Interpretasi Tingkat Faktor Sarana
Data Pengamatan. Dalam sebuah penelitian observasi, tingkat faktor berarti 𝜇𝑖 sesuai dengan
mean untuk populasi tingkat faktor yang berbeda. Misalnya, dalam sebuah penelitian tentang
produktivitas karyawan di masing-masing tiga shift opera merah di pabrik, populasi tersebut
terdiri dari produktivitas karyawan untuk masing-masing dari ketiga shift tersebut. Populasi
berarti 𝜇1 adalah produktivitas rata-rata untuk karyawan dalam shift 1, dan 𝜇2 dan 𝜇3
ditafsirkan sama. Varians 𝜎 2 mengacu pada variabilitas dari produktivitas kerja karyawan
dalam suatu shift.
Data Penelitian. Dalam sebuah studi eksperimental, tingkat faktor berarti 𝜇𝑖 adalah singkatan
dari respon rata-rata yang akan diperoleh jika perlakuan tersebut diterapkan pada semua unit
dalam populasi unit eksperimen yang menyimpulkan kesimpulannya. Demikian pula, varians
𝜎 2 merujuk pada variabilitas respons jika ada perlakuan eksperimental yang diterapkan pada
keseluruhan populasi unit eksperimen. Misalnya, dalam rancangan acak lengkap untuk
mempelajari dampak dari tiga program pelatihan yang berbeda mengenai produktivitas
karyawan, di mana 90 karyawan berpartisipasi, sepertiga dari karyawan ini ditugaskan secara
acak untuk masing-masing dari ketiga program tersebut. Mean 𝜇1 di sini menunjukkan
produktivitas rata-rata jika program pelatihan diberikan kepada setiap karyawan dalam
populasi unit eksperimen, sarana 𝜇2 dan 𝜇3 ditafsirkan secara bersamaan. Varians 𝜎 2
menunjukkan variabilitas ubin dalam produktivitas jika ada satu program pelatihan yang
diberikan kepada setiap karyawan dalam populasi unit eksperimen.
Perbedaan antara ANOVA Model I dan II
Kita akan mempertimbangkan dua analisis faktor tunggal untuk varians model. Singkatnya,
kita akan mengacu pada model ANOVA I dan II ini. Model ANOVA I, yang dinyatakan dalam
(16.2), berlaku untuk kasus-kasus seperti perbandingan lima iklan yang berbeda atau
perbandingan dari penghambat karat yang berbeda, di mana kesimpulan tersebut hanya
berkaitan dengan tingkat faktor yang termasuk dalam penelitian ini. Model ANOVA II, yang
akan dibahas di Bab 25, berlaku untuk jenis situasi yang berbeda, yaitu, di mana kesimpulan
memperluas populasi tingkat faktor dimana tingkat dalam penelitian ini adalah sampel.
Pertimbangkan, misalnya, perusahaan yang memiliki beberapa ratus toko ritel di seluruh
negeri. Tujuh toko ini dipilih secara acak, dan sampel karyawan dari masing-masing toko
kemudian dipilih dan diajukan dalam wawancara rahasia untuk evaluasi pengelolaan toko.
Tujuh toko dalam studi ini merupakan tujuh tingkat faktor yang diteliti, yaitu toko ritel. Dalam
kasus ini, bagaimanapun, manajemen tidak hanya tertarik pada tujuh toko yang termasuk dalam
penelitian namun ingin menggeneralisasi hasil penelitian ke semua toko ritel yang dimilikinya.
Contoh lain ketika model ANOVA II berlaku adalah ketika tiga mesin keluar dari 75 di pabrik
dipilih secara acak dan keluaran hariannya dipelajari untuk jangka waktu 10 hari. Ketiga mesin
merupakan tiga tingkat faktor dalam penelitian ini, namun minat tidak hanya pada ketiga mesin
dalam penelitian namun di semua mesin di pabrik.
Jadi, perbedaan mendasar antara situasi di mana model ANOVA I dan II dapat diterapkan
adalah bahwa model I relevan bila tingkat faktor dipilih karena kepentingan intrinsik di
dalamnya (misalnya lima iklan berbeda) dan tidak dianggap sebagai sampel dari populasi yang
lebih besar Model ANOVA II sesuai bila tingkat faktor merupakan sampel dari populasi yang
lebih besar (misalnya, tiga mesin dari 75) dan minat ada pada populasi yang lebih besar ini.
Dengan demikian, model ANOVA I juga disebut sebagai model efek jepung, dan model
ANOVA II disebut model efek acak. Dalam bab ini dan berikutnya, kita fokus pada model
ANOVA I. Singkatnya, kita menghilangkan kata "tetap" atau "model I" dan hanya mengacu
pada model tersebut sebagai model ANOVA.
Komentar
Model ANOVA (16.2) untuk studi faktor tunggal, seperti model statistik lainnya, tidak
mungkin dipenuhi persis oleh situasi dunia nyata. Namun, akan ketemu kira-kira dalam banyak
kasus. Seperti yang akan kita catat nanti, prosedur statistik berdasarkan model ANOVA (16.2)
cukup kuat, sehingga walaupun kondisi sebenarnya berbeda secara substansial dari model,
analisis statistik mungkin masih merupakan perkiraan yang tepat.
Desain paket diberikan ke lima toko. Sebuah kebakaran terjadi di satu toko selama
masa studi, jadi toko ini harus dikeluarkan dari penelitian ini. Makanya, salah satu desain itu
hanya diuji di empat toko. Toko-toko itu dipilih sebanding di lokasi dan volume penjualan.
Kondisi lain yang relevan yang dapat mempengaruhi penjualan, seperti itu sebagai harga,
jumlah dan lokasi ruang rak, dan upaya promosi khusus, dijaga tetap sama untuk semua toko
dalam percobaan. Penjualan. dalam jumlah kasus, diamati untuk periode penelitian, dan
hasilnya dicatat pada Tabel 16.1. Penelitian ini adalah rancangan acak lengkap dengan desain
paket sebagai faktor tunggal empat tingkat.
Gambar 16.3 berisi plot penyebaran JMP dari jumlah kasus yang terjual versus jumlah paket
perancangan. Kami dengan mudah melihat bahwa desain 3 dan 4 menghasilkan penjualan
terbesar, dan sehingga desain rendah 1 dan 2 menghasilkan penjualan yang lebih kecil. Kami
juga melihat bahwa variabilitas penjualan toko tampaknya sama dengan empat desain,
konsisten dengan model ANOVA (16.2) Untuk membuat kesimpulan yang lebih formal,
pertama kita perlu mengembangkan beberapa notasi tambahan.
Notasi
Seperti yang dijelaskan sebelumnya, 𝑌𝑖𝑗 mewakili pengamatan atau respon ke-j untuk unit
sampel untuk tingkat faktor ke-i. Sebagai contoh perusahaan Kenton Food, 𝑌𝑖𝑗 menunjukkan
jumlah kasus yang dijual oleh toko ke-j yang ditugaskan pada desain paket ke-i. Sebagai
contoh, 𝑌1𝑖 mewakili penjualan ubin dari desain paket yang ditugaskan pertama 1. Sebagai
contoh, 𝑌1𝑖 = 11 kasus. Demikian pula, penjualan toko kedua yang diberi desain paket 3 adalah
𝑌32 = 20 kasus.
Total pengamatan untuk tingkat faktor ke-i dinotasikan dengan 𝑌𝑖. :
𝑛𝑖
Perhatikan bahwa titik pada 𝑌𝑖. menunjukkan agregasi di atas indeks 𝑗, dalam contoh kita,
agregasi adalah di atas semua toko yang ditugaskan pada desain paket i. Misalnya, total
penjualan untuk semua toko desain paket yang ditandatangani 1, sesuai dengan Tabel
16.1, 𝑌𝑖. = 73 kasus. Demikian pula, total penjualan untuk semua toko yang diberi paket
desain 4 adalah 𝑌4. = 136 kasus.
Sampel berarti untuk tingkat faktor ke-i dilambangkan dengan 𝑌̅𝑖. :
∑𝑛𝑗=1
𝑖
𝑌𝑖𝑗 𝑌𝑖.
𝑌̅𝑖. = = (16.12)
𝑛𝑖 𝑛𝑖
Dalam contoh kita, jumlah kasus rata-rata yang terjual oleh toko yang diberi desain paket 1
adalah 𝑌̅1. = 73⁄5 = 14.6. Perhatikan bahwa titik di subscript 𝑌̅1. menunjukkan bahwa rata-
rata dilakukan di atas j (toko).
Total semua pengamatan dalam penelitian ini dilambangkan dengan 𝑌.. :
𝑟 𝑛𝑖
dimana dua titik menunjukkan agregasi di atas indeks j dan i (dalam contoh kita, di atas semua
toko untuk desain paket siapa pun dan kemudian di atas semua desain paket). Dalam contoh
kita, total penjualan untuk semua toko untuk semua desain adalah 𝑌.. = 354.
̅.. :
Akhirnya, keseluruhan mean untuk semua respon dilambangkan dengan 𝑌
∑𝑖 ∑𝑗 𝑌𝑖𝑗 𝑌..
𝑌̅.. = =
𝑛𝑇 𝑛𝑇
Dua titik di sini menunjukkan bahwa rata-rata dilakukan pada kedua i dan j. Sebagai contoh,
kita memiliki dari Tabel 16.1 bahwa 𝑌̅.. = 354⁄19 = 18.63. Perhatikan bahwa rata-rata
keseluruhan (16.14) dapat ditulis sebagai rata-rata tertimbang tingkat faktor yang berarti dalam
(16.12):
𝑟
𝑛𝑖
𝑌̅.. = ∑ 𝑌̅ (16.14a)
𝑛𝑡 𝑖.
𝑖=1
𝚀 = ∑ ∑(𝑌𝑖𝑗 − 𝜇𝑖 )2 (16.15)
𝑖 𝑗
Perhatikan bahwa masing-masing parameter hanya ada pada salah satu dari jumlah komponen
(16.15a). Oleh karena itu, 𝚀 dapat diminimalkan dengan meminimalkan jumlah komponen
yang terpisah. Saya tahu bahwa mean sampel meminimalkan jumlah penyimpangan kuadrat.
Oleh karena itu, penduga kuadrat terkecil dari 𝜇𝑖 , dinotasikan dengan 𝜇̂ 𝑖 adalah:
𝜇̂ 𝑖 = 𝑌̅𝑖. (16.16)
Dengan demikian, nilai pas untuk observasi 𝑌𝑖𝑗 , dilambangkan dengan 𝑌̅𝑖𝑗 untuk model regresi,
adalah Simply the level faktor tingkat yang sesuai berarti di sini:
𝑌̂𝑖𝑗 = 𝑌̅𝑖. (16.17)
Estimasi yang sama diperoleh dengan metode maksimum likelihood. Fungsi likelihood disini
sesuai dengan (1.26) untuk model regresi linier error normal, kecuali bahwa model regresi
yang diharapkan bernilai 𝛽0 + 𝛽1 𝑋𝑡 diganti disini 𝜇𝑖 :
1 1 2
𝐿(𝜇1 , … , 𝜇𝑟 , 𝜎 2 ) = 𝑒xp [− ∑ ∑(𝑌𝑖𝑗 − 𝜇 𝑡 ) ] (16.18)
(2𝜋𝜎 2 )𝑖𝑡 2𝜎 2
𝑖 𝑗
𝑄𝑡 = ∑(𝑌𝑖𝑗 − 𝜇𝑖 )2 (16.19)
𝑖
Bila kita menetapkan derivatif ini 'nol ke nol dan mengganti parameternya! -LI oleh estimator
kuadrat terkecil 𝛽𝑖 , kita mendapatkan hasilnya (16.16):
𝑛𝑖
−2 ∑(𝑌𝑖𝑗 − 𝜇̂ 𝑖 ) = 0
𝑗=1
∑ 𝑌𝑖𝑗 = 𝑛𝑖 𝜇̂ 𝑖
𝑗
𝜇̂ 𝑖 = 𝑌̅𝑖.
Residual
Residu sangat berguna untuk memeriksa kecocokan model ANOVA. Residual 𝑒𝑖𝑗 didefinisikan
lagi, seperti untuk model regresi, sebagai perbedaan antara nilai yang diamati dan yang
dipasang:
𝑒𝑖𝑗 = 𝑌𝑖𝑗 − 𝑌̂𝑖𝑗 = 𝑌𝑖𝑗 − 𝑌̅𝑖. (16.20)
Dengan demikian, residu di sini mewakili deviasi pengamatan dari perkiraan tingkat faktor
rata-rata
Properti penting residu untuk model ANOVA (16.2) adalah jumlah mereka sampai nol untuk
setiap tingkat faktor i:
∑ 𝑒𝑖𝑗 = 0 𝑖 = 1, … , 𝑟 (16.21)
𝑗
Sedangkan untuk analisis regresi, residu untuk model ANOVA berguna untuk menguji
kesesuaian model ANOVA. Kita akan membahas penggunaan residu ini di Bab 18.
Tabel 16.2 berisi residu untuk contoh Kenton Food Company. Misalnya, dari Tabel 16.1, kita
menemukan:
Dengan demikian, total deviasi 𝑌𝑖𝑗 − 𝑌̅.. dapat dilihat sebagai jumlah dari dua komponen:
1. Penyimpangan tingkat faktor estimasi berarti meningkatkan keseluruhan mean.
2. Deviasi 𝑌𝑖𝑗 di sekitar perkiraan tingkat faktor rata-ratanya, yang hanya merupakan residu 𝑒𝑖𝑗
menurut (16.20).
Gambar 16.4 mengilustrasikan dekomposisi ini untuk contoh Kenton Food Company untuk
dua pengamatan, 𝑌𝑖1 dan 𝑌45 .
Ketika kita membuat kedua belah pihak di (16.25) dan kemudian jumlah, produk silang di drop
out yang tepat dan kita memperoleh:
Istilah ke kiri mengukur variabilitas total 𝑌𝑖𝑗 observasi dan dilambangkan sebagai
untuk regresi, dengan SSTO untuk jumlah total kuadrat .:
Istilah pertama di sebelah kanan dalam (16.26) akan dilambangkan dengan SSTR, berdiri untuk
jumlah perawatan kotak:
2
𝑆𝑆𝑇𝑅 = ∑ 𝑛𝑖 (𝑌̅1, − 𝑌̅.. ) (16.28)
𝑖
Istilah kedua di sebelah kanan dalam (16.26) akan dilambangkan dengan SSE, berdiri untuk
jumlah kesalahan kuadrat:
Contoh
Analisis variasi varians dari jumlah total kotak untuk contoh Kenton Food C0mpany pada
Tabel 16.1 diperoleh sebagai berikut, dengan menggunakan (16.27), (16.28), dan (16.29):
𝑆𝑆𝑇𝑂 = (11 − 18.63)2 + (17 − 18.63)2 + (16 − 18.63)2 + ⋯ + (28 − 18.63)2 = 746.42
𝑆𝑆𝑇𝑅 = 5(14.6 − 18.63)2 + 5(13.4 − 18.63)2 + 4(19.5 − 18.63)2 + 5(27.2 − 18.63)2
= 588.22
𝑆𝑆𝐸 = (11 − 14.6)2 + (17 − 14.6)2 + (16 − 14.6)2 + ⋯ (28 − 14.6)2 = 158.20
Perhatikan bahwa sebagian besar variasi total dalam pengamatan dikaitkan dengan variasi
antara mean tingkat faktor perkiraan.
Comments
1. Untuk membuktikan (16.26), kita mulai dengan consideIing (16.25):
𝑌𝑖𝑗 − 𝑌̅.. = (𝑌̅𝑖. − 𝑌̅.. ) + (𝑌𝑖𝑗 − 𝑌̅𝑖. )
Kuadratkan kedua belah pihak kita memperoleh:
(𝑌𝑖𝑗 − 𝑌̅.. )2 = (𝑌̅𝑖. − 𝑌̅.. )2 + (𝑌𝑖𝑗 − 𝑌̅𝑖. )2 + 2(𝑌̅𝑖. − 𝑌̅.. )2 (𝑌𝑖𝑗 − 𝑌̅𝑖. )2
Ketika kita menyimpulkan semua pengamatan sampel dalam penelitian ini (yaitu, atas kedua i
dan j), kita memperoleh:
∑ ∑(𝑌𝑖𝑗 − 𝑌̅.. )2 = ∑ ∑(𝑌̅𝑖. − 𝑌̅.. )2 + ∑ ∑(𝑌𝑖𝑗 − 𝑌̅𝑖. )2 + ∑ ∑ 2(𝑌̅𝑖. − 𝑌̅.. )2 (𝑌𝑖𝑗 − 𝑌̅𝑖. )2 (16.31)
𝑖 𝑗 𝑖 𝑗 𝑖 𝑗 𝑖 𝑗
Karena (𝑌̅𝑖. − 𝑌̅.. )2 konstan saat dijumlahkan di j ;Oleh karena itu 𝑛𝑖 , istilah-istilah semacam
itu dijemput untuk penjumlahan di atas j.
Istilah ketiga di sebelah kanan di (16.31) sama dengan nol:
2
∑ ∑ 2(𝑌̅𝑖. − 𝑌̅.. )2 (𝑌𝑖𝑗 − 𝑌̅𝑖. )2 = 2 ∑(𝑌̅𝑖. − 𝑌̅.. )2 ∑(𝑌𝑖𝑗 − 𝑌̅𝑖. ) = 0 (16.33)
𝑖 𝑗 𝑖 𝑗
Ini mengikuti karena 𝑌̃𝑗. − 𝑌̃.. adalah konstanta untuk penjumlahan j; Oleh karena itu, bisa
dibawa di depan tanda penjumlahan j. Selanjutnya, L j (Yij - B.) = 0 untuk semua i, karena
jumlah penyimpangan di sekitar mean aritmetika selalu nol: Jadi. (16.31) dikurangi menjadi
(16.26).
2. Tingkat perkiraan faktor kuadrat berarti penyimpangan (Yt - y '.) 2 di SSTR pada (16,28)
dibobot dengan jumlah kasus nl untuk tingkat kejadian. Alasannya adalah bahwa untuk
setiap pengamatan YiJ pada tingkat faktor i, komponen penyimpangan Yi. - Y .. adalah
sama
Ekspresi dalam (16.34) adalah setara dengan jumlah total kuadrat mengingat hanya tingkat
faktor ke-i. Oleh karena itu, ada ni - 1 derajat kebebasan yang terkait dengan jumlah kuadrat
ini. Karena SSE adalah jumlah jumlah kuadrat komponen seperti yang ada di (16,34), tingkat
kebebasan yang terkait dengan SSE adalah jumlah dari tingkat kebebasan komponen:
(𝑛1 − 1) + (𝑛2 − 1) + ⋯ + (𝑛𝑟 − 1) = 𝑛𝑇 − 𝑟 (16.35)
Contoh
Untuk contoh Perusahaan Makanan Kenton, dimana nT = 19 dan r = 4, derajat kebebasan yang
terkait dengan tiga kuadrat kuadrat adalah sebagai berikut:
SS Df
SSTO 19 – 1 = 18
SSTR 4–1=3
SSE 19 – 4 = 15
dimana
∑ 𝑛𝑖 𝜇𝑖
𝜇. = (16.37𝑐)
𝑛𝑇
dianggap sebagai mean tertimbang. Nilai yang diharapkan ini ditunjukkan di kolom E {MS}
pada Tabel 16.3.
Table 16.3 Anova Faktor Tunggal
Sumber Variasi SS Df MS 𝐸{MS}
1 ∑𝑗(𝑌𝑖𝑗 − 𝑌̅𝑖. )2
= ∑ [(𝑛𝑖 − 1) ] 16.38
𝑛𝑇 − 1 𝑛𝑇 − 1
𝑖
Sekarang mari kita tunjukkan varians sampel biasa dari pengamatan untuk tingkat faktor ke-i
oleh sf:
∑𝑗(𝑌𝑖𝑗 − 𝑌̅𝑖. )2
𝑠𝑖2 = (16.39)
𝑛𝑇 − 1
Karenanya. (16.38) dapat dinyatakan sebagai berikut:
1
𝑀𝑆𝐸 = ∑(𝑛𝑖 − 1) 𝑠𝑖2 (16.40)
𝑛𝑇 − 1
𝑖
Karena sudah diketahui bahwa varians sampel (16.39) adalah estimator tidak bias dari varians
populasi. yang dalam kasus kami adalah 2 untuk semua tingkat faktor, kita dapatkan:
1
𝐸{𝑀𝑆𝐸} = ∑(𝑛𝑖 − 1) 𝐸{𝑠𝑖2 }
𝑛𝑇 − 1
𝑖
1
= ∑(𝑛𝑖 − 1) 𝜎 2
𝑛𝑇 − 1
𝑖
= 𝜎2
b. Kami akan menurunkan nilai MSTR yang diharapkan untuk kasus khusus bila semua
ukuran sampel 11; adalah sama. yaitu. kapan / II == II. Hasil umum umum (1637b)
menjadi kasus khusus ini:
∑ 𝑛(𝜇𝑖 − 𝜇. )2
𝐸{𝑀𝑆𝑇𝑅} = 𝜎 2 + 𝑘𝑒𝑡𝑖𝑘𝑎 𝑛𝑖 = 𝑛 (16.41)
𝑟−1
Selanjutnya, bila semua ukuran sampel tingkat faktor n. MSTR sebagaimana didefinisikan
dalam (16.28) dan (16.36a) menjadi:
Kita sekarang ingin menemukan E {L (Y; '- y'.) 2}, dan karena itu perlu untuk menemukan
nilai yang diharapkan dari setiap istilah di sebelah kanan di (16.50):
a. Sebuah. Karena L (fJi-f-L.) 2 adalah konstan, ekspektasinya adalah:
Ini adalah varians sampel biasa, karena B .. adalah mean sampel r terms Bi 'per (16.48). Kita
lebih jauh tahu bahwa varians sampel adalah estimator yang tidak bias terhadap varians
variabel, dalam hal ini variabel yang Bi "But Bi 'hanyalah mean dari n independent error terms
Bij oleh (16.44) .Oleh karena itu:
Karena itu:
maka:
c. Karena keduanya Ef. dan E .. adalah istilah berarti atau Ef}. semua yang memiliki harapan
0, berikut bahwa:
Karenanya:
Kami telah menunjukkan demikian. dengan (16,51), (16,52), dan (16,53), bahwa:
Tapi kemudian (16,41) berikut sekaligus:
Adalah kebiasaan untuk memulai analisis studi faktor tunggal dengan menentukan apakah
tingkat faktor berarti sama atau tidak. Jika, misalnya, empat desain paket dalam contoh Kenton
Food Company mengarah pada volume penjualan rata-rata yang sama, tidak perlu untuk
analisis lebih lanjut, seperti untuk menentukan desain mana yang terbaik atau bagaimana dua
desain tertentu dibandingkan dalam merangsang penjualan.
Dengan demikian, kesimpulan alternatif yang ingin kita pertimbangkan adalah:
Statistik Uji
Statistik uji yang digunakan untuk memilih antara alternatif di (16.54) adalah:
Perhatikan bahwa MSTR disini memainkan peran sesuai dengan MSR untuk model regresi.
(16.55)
Nilai besar F * mendukung HlI, karena MSTR akan cenderung melebihi MSE saat HlI
bertahan, seperti yang kita lihat dari (16.37). Nilai F * di dekat saya mendukung H (), karena
MSTR dan MSE memiliki nilai harapan yang sama dengan yang dimiliki Ho. Oleh karena itu,
uji yang tepat adalah ekor bagian atas.
Distribusi F
Bila semua perlakuan berarti fJ.i sama, setiap respon Yij memiliki nilai harapan yang sama.
Mengingat aditifitasnya. Jumlah kuadrat dan derajat kebebasan, teorema Cochran (2.61)
kemudian menyiratkan:
dimana F (1-a; r -1, nT-r) adalah (1-a) 100 persentil dari distribusi F yang sesuai
Contoh
Untuk contoh Perusahaan Kenton Food, kami ingin menguji apakah atau tidak berarti penjualan
sama untuk keempat rancangan paket tersebut:
Manajemen ingin mengendalikan risiko membuat kesalahan Tipe I pada a = .05. Oleh karena
itu, kita memerlukan F (.95; 3,15), di mana derajat kebebasannya adalah yang ditunjukkan pada
Gambar 16.5. Dari Tabel B.4 pada Lampiran B, kita menemukan F (.95; 3, 15) = 3.29.
Makanya, aturan keputusannya adalah:
Using the data in the ANOVA table in Figure 16.5, we obtain the test statistic:
Karena F * = 18,6> 3,29, kita simpulkan Ha, bahwa tingkat faktor berarti f.1-i tidak sama
dengan keempat rancangan paket yang berbeda tidak menghasilkan volume penjualan rata-rata
yang sama. Dengan demikian kita simpulkan bahwa ada hubungan antara desain paket dan
volume penjualan.
Nilai P untuk statistik uji adalah probabilitas P {F (3, 15)> F * = 18.6}, yaitu .00003.
Nilai P ini lagi menunjukkan bahwa data dari eksperimen tidak konsisten dengan semua desain
yang memiliki efek yang sama terhadap volume penjualan.
Kesimpulan dari hubungan antara desain paket dan penjualan volume tidak mengejutkan
manajer penjualan Kenton Food Company. Penelitian ini dilakukan di tempat pertama karena
manajer penjualan mengharapkan desain empat paket genteng memiliki efek CtJ yang berbeda.
volume penjualan dan tertarik untuk mengetahui sifat dari perbedaan ini. Pada bab selanjutnya,
kita membahas tahap kedua analisis genteng, yaitu bagaimana mempelajari sifat tingkat faktor
artinya bila ada perbedaan.
Komentar
1. Jika hanya ada dua tingkat faktor sehingga r = 2. dapat dengan mudah ditunjukkan bahwa
tes yang menggunakan F * pada (16.55) sama dengan uji dua populasi, uji Iwo-sisi pada
Tabel A.2a. Uji F di sini memiliki derajat kebebasan (I. III - 2). dan uji f memiliki derajat
kebebasan III + 112 - 2 atau Il r - 2 derajat; sehingga kedua tes tersebut mengarah ke titik
kritis yang setara ~. Untuk membandingkan dua mean populasi. uji f umumnya lebih
disukai karena dapat digunakan untuk melakukan uji dua sisi dan satu sisi (Tabel A.2); Tes
F hanya bisa digunakan untuk tes dua sisi.
2. Karena uji F untuk pengujian alternatif (16.54) adalah uji model statistik linier, dapat
diperoleh dengan uji linier linier yang dijelaskan pada Bagian 2.8;
a. Model lengkap model ANOVA (16.2):
Pemasangan model penuh dengan metode kuadrat sederhana atau metode kemungkinan
maksimum menghasilkan 10 nilai pas yang sesuai f ', -; = Y i., Pel '(16.17). dan jumlah
kesalahan kuadrat yang dihasilkan:
SSE (F) memiliki ((ff '= I1T-r derajat kebebasan yang dikaitkan dengannya karena nilai
parameter r Cill' .... Ile) harus diperkirakan.
b. Model yang dikurangi dibawah HII adalah:
dimana 11 ,. adalah mean umum untuk semua tingkatan. Pemasangan model yang dikurangi
mengarah ke estimator P ,. = Y .. sehingga semua nilai yang pas adalah fti == Y. .. dan jumlah
kesalahan yang dihasilkan dari kuadrat adalah:
Derajat yang berhubungan dengan SSE (R) adalah dIN = nT - 1 karena satu parameter (f - Lc)
harus diestimasi.
c. Karena, menurut (16.27) dan (16.29), masing-masing:
dan karena dengan (16.30) ssro - SSE = SSTR, statistik uji linier umum (2,70) menjadi di sini:
dimana f1 ,. adalah konstanta yang dapat didefinisikan agar sesuai dengan tujuan penelitian.
Kita akan menunjukkan perbedaan f.1, i - f1 ,. oleh ri:
dimana:
f.1 ,. adalah komponen konstan yang umum untuk semua pengamatan
ri adalah efek dari tingkat faktor ke-i (konstan untuk setiap tingkat faktor)
t: ij adalah independen N (O, 0'2)
i = 1, ..., r; j = 1, ..., ni
Model ANOVA (16,62) disebut model faktor efek karena dinyatakan dalam bentuk efek faktor
ri, berbeda dengan model mean sel (16,2), yang dinyatakan dalam istilah sel (perlakuan) berarti
Model efek faktor (16.62) adalah model linier, seperti model mean sel setara (16.2) Kami akan
menunjukkan hal ini pada bagian berikutnya.
Definisi dari miu
Pemisahan tingkat faktor berarti fJi menjadi dua komponen, sebuah fJ konstan secara
keseluruhan. dan tingkat faktor atau efek pengobatan ii, tergantung pada definisi fJ ·, yang
dapat didefinisikan dengan berbagai cara. Kami sekarang menjelaskan dua cara dasar untuk
mendefinisikan fJ
Rata-rata tak terboboti. Seringkali, definisi fJ. sebagai rata-rata tak tertimbang dari semua
tingkat faktor berarti fJi ditemukan berguna:
Mean Tertimbang konstanta f.1 ,. juga dapat didefinisikan sebagai beberapa rata-rata
tertimbang tingkat faktor berarti f.1, i:
Perhatikan bahwa Wi adalah bobot yang didefinisikan sehingga jumlah mereka adalah 1.
Pembatasan pada Ti yang tersirat oleh definisi (16.65) adalah:
Ini mengikuti cara yang sama seperti (16.64). (16.66) Pilihan bobot Wi harus bergantung pada
keberartian mean keseluruhan yang dihasilkan f.1, .. Kami menyajikan dua contoh di mana
pembobotan yang berbeda sesuai: (1) pembobotan sesuai dengan ukuran kepentingan yang
diketahui dan (2) pembobotan menurut ukuran sampel.
Contoh 1
Sebuah perusahaan rental mobil ingin memperkirakan konsumsi bahan bakar rata-rata (dalam
mil per galon) untuk armada besar mobilnya, yang terdiri dari compacts 50 persen, 30 persen
sedan, dan 20 persen station wagon. Di sini, ukuran yang berarti dari f.1 ,. mungkin dalam hal
konsumsi bahan bakar rata-rata secara keseluruhan:
Dimana f.1,1, f.1,2, dan f.1,3 adalah konsumsi bahan bakar rata-rata untuk ketiga jenis mobil
di armada. Perkiraan f.1 ,. disini adalah:
Contoh 2
Bila bobot yang tepat tidak diketahui, ukuran sampel subkelompok mungkin berguna sebagai
bobot yang relatif penting. Misalnya, proporsi rumah tangga di kota tanpa anak, satu anak, dan
lebih dari satu anak tidak diketahui. Sampel acak dari rumah nT adalah dipilih, yang berisi III
rumah tangga tanpa anak, 112 rumah tangga dengan satu anak dan rumah tangga dengan lebih
dari satu anak. Untuk menguji apakah rata-rata hiburan sama dengan ketiga jenis rumah tangga,
gunakan proporsi yang tidak sesuai dengan bobot yang mungkin berarti. Definisi yang
dihasilkan secara keseluruhan secara keseluruhan ~~: pengeluaran konstan fA .. maka akan
menjadi:
Bila semua ukuran sampel sama, /. seperti yang didefinisikan dalam (16.69) dikurangi ke mean
yang tidak tertimbang (16,63).
Uji Kesamaan rata-rata level faktor
Karena model faktor efek (16.62) adalah eq ui valent ke model mean sel (16,2), uji untuk
persamaan tingkat faktor berarti menggunakan statistik uji F yang sama (16.55). Satu-satunya
perbedaan adalah dalam pernyataan dari e alternati ves. Untuk sel saya berarti mo del (I 6.2),
alternatifnya adalah seperti yang ditentukan dalam (16.54):
Untuk model efek t ~ lctor (16.62), alternatif yang sama ini dalam hal efek faktornya adalah:
Kesetaraan dua bentuk itu dapat segera dibangun. Kesamaan tingkat faktor berarti f.11 = / 12
= ... = f.1r menyiratkan bahwa semua Ti sama. Kesamaan dari Ti mengikuti dari (16.61) sejak
istilah konstan /. adalah umum untuk semua tingkat faktor efek ,; Ti. Kesamaan tingkat t ~ lctor
berarti pada gilirannya menyiratkan bahwa semua Ti = 0, apakah pembatasan pada Ti adalah
bentuk di (16.64) atau (16.66). Dalam kedua kasus tersebut, pembatasan hanya dapat dipuaskan
hanya dengan satu cara mengingat persamaan Ti. yaitu, bahwa Ti == O. Dengan demikian,
ekuivalennya menyatakan bahwa semua tingkat faktor berarti f.1i sama atau bahwa semua
faktor tingkat efek Ti sama nol.
16.8 Pendekatan Regresi terhadap Analisis Varian Faktor Tunggal
Kami mencatat sebelumnya bahwa sel berarti model (16,2) adalah model linier, dan bahwa kita
dapat memperoleh statistik uji F * untuk menguji persamaan tingkat faktor berarti f.1i dengan
menggunakan uji linier umum (2,70). Sekarang kita akan menjelaskan pendekatan regresi
terhadap analisis faktor tunggal varians untuk tiga model alternatif: (I) model faktor efek
dengan mean tak tertimbang, (2) model faktor efek dengan mean tertimbang, dan (3) model sel
berarti. Penting untuk ditekankan bahwa pilihan model mempengaruhi definisi parameter
model, dan bukan hasil uji untuk persamaan tingkat faktor.
Model Pengaruh Faktor dengan Model rata-rata tak terboboti
Untuk menyatakan model ANOVA (16.62):
Sebagai model regresi, kita perlu merepresentasikan parameter f.1,., rl> ..., rr dalam model.
Namun, kendala (16,64) untuk kasus bobot yang sama:
menyiratkan bahwa salah satu parameter r ri tidak diperlukan karena dapat dinyatakan dalam
bentuk r lain, - 1 parameter. Kita akan menurunkan parameter r,., Yang menurut batasan (16.64)
dapat dinyatakan dalam ragam parameter r - 1 lainnya seperti berikut:
Jadi, kita hanya akan menggunakan parameter f1,., Rl> ..., r '· _1 untuk model linier. Untuk
menggambarkan bagaimana model linier dikembangkan dengan pendekatan ini,
pertimbangkan sebuah studi faktor tunggal dengan r = 3 tingkat faktor ketika nl = n2 = n3 = 2.
Matriks Y, X, ~, dan E untuk kasus ini adalah sebagai berikut:
Perhatikan bahwa vektor nilai yang diharapkan, E {Y} = X ~, menghasilkan yang berikut ini:
Karena r3 = -rl-r2 menurut (16.72), kita melihat bahwa E {Y3d = E {Y32} = f1 ,. + r3. Dengan
demikian, matriks X dan representasi vektor di atas memberikan semua nilai yang sesuai yang
diharapkan:
Ilustrasi di (16.73) menunjukkan bagaimana kita mendefinisikan secara umum model regresi
berganda sehingga sama dengan model ANOVA satu faktor (16.62). Perhatikan bahwa kita
memerlukan variabel indikator yang mengambil nilai 0, 1, atau -1. Ini. pengkodean dibahas
pada Bagian 8.1. Sementara pengkodean ini tidak sesederhana 0,1 coding, · itu diinginkan
di sini karena ini mengarah ke koefisien regresi dalam ~ vektor yang merupakan
parameter '.' faktor etet ANOVA model. i.e., fJ .., TI. , Tr-I.
Kita akan membiarkan Xij I menunjukkan nilai variabel indikator XI untuk kasus ke-
j dari tingkat faktor '0, Xij2 nilai variabel indikator X2 untuk kasus yang sama ini, dan
seterusnya, kita: th: ,,, "sama sekali r - Saya indikator variabel dalam model. Model regresi
berganda kemudian 'ng., IS sebagai berikut:
Perhatikan bagaimana parameter model ANOVA memainkan peran parameter fungsi regresi
dalam (16.75); istilah intersep adalah fJ .., dan koefisien regresi adalah TI, T1, ..., Tr_ l.
Penaksir kuadrat terkecil fJ .. adalah rata-rata sampel sel artinya:
Perhatikan bahwa kuantitas ini umumnya tidak sama dengan nilai rata-rata Y .. kecuali ukuran
sampel sel sama. Juga, estimator kuadrat terkecil dari faktor ke-i adalah:
Untuk menguji persamaan perlakuan berarti fJ.i dengan menggunakan pendekatan regresi, kita
mengemukakan alternatif dalam formulasi ekuivalen (16.71), mencatat bahwa TI, harus sama
dengan nol ketika TI = T2 = '"= Tr _ 1 = 0 menurut (16.72):
Perhatikan bahwa Ho menyatakan bahwa semua koefisien regresi dalam model regresi (16,75)
adalah nol, dan model yang dikurangi karena itu:
Jadi, kita menggunakan statistik uji yang biasa (6.39b) untuk menguji ada tidaknya hubungan
regresi:
Contoh
Untuk menguji persamaan penjualan rata-rata untuk keempat desain paket sereal di contoh
Kenton Fc: Company dengan cara pendekatan regresi, kita harus menggunakan model regresi:
Sebagian data pada Tabel 16.1 diulang pada Tabel 16.4a, bersama dengan pengkodean variabel
indikator Xl, X2, dan X3 'Untuk pengamatan Yu, misalnya, catat bahwa Xl = 1, X2 = 0, dan
X3 = 0; Oleh karena itu, kita dapatkan dari (16.79):
Demikian pula, untuk pengamatan Y-l5 kita memiliki XI = -I, X ~ = -I. dan X 1 = -I; karenanya:
Karena…
Sebuah komputer yang menjalankan regresi berganda Y pada X h X ~, dan X 3 menghasilkan
fungsi regresi dan analisis tabel varians yang disajikan pada Tabel 16.4b dan 16.4c. Uji statistik
(16.78) oleh karena itu adalah:
Ini adalah statistik uji yang sama yang diperoleh lebih awal berdasarkan analisis perhitungan
varians. Memang, analisis tabel varians pada Tabel 16.4c yang diperoleh dengan pendekatan
regresi sama dengan yang ada pada Gambar 16.5 yang diperoleh dengan analisis varians
approach kecuali bahwa jumlah penjumlahan kuadrat dan mean square disebut jumlah regresi
kuadrat dan rata-rata di Tabel 16.4c. Dari sudut pandang ini, prosedur pengujian berdasarkan
pendekatan regresi sejajar dengan analisis varians prosedur uji yang dijelaskan sebelumnya.
Perhatikan bahwa dalam fungsi regresi pas pada Tabel 16.4b, intercept telm [1. = 18.675 adalah
rata-rata tak tertimbang dari tingkat faktor perkiraan yang berarti ri. • bukan keseluruhan mean
E .. 'karena f-l. didefinisikan sebagai rata-rata tingkat faktor takberat rata-rata! -Li. Koefisien
regresi b l = 1'1 = ri '- [1. = 14,6 - 18,675 = -4,075 hanyalah batas antara mean yang diperkirakan
pada sel pertama dan mean keseluruhan yang tidak rata. b2 dan bJ mewakili perbedaan yang
sama antara rata-rata tingkat faktor perkiraan dan keseluruhan mean yang tidak tertimbang.
Komentar
Pendekatan regresi tidak digunakan secara umum untuk analisis biasa mengenai masalah
varians. Alasannya adalah bahwa matriks X untuk analisis masalah varians biasanya adalah
struktur yang sangat sederhana, seperti yang telah kita lihat sebelumnya. Sirkuit sederhana ini
memungkinkan penyederhanaan komputasi yang secara eksplisit dikenali dalam prosedur
statistik untuk analisis varians. Kami mengambil pendekatan regresi untuk analisis varians di
sini. dan di bab selanjutnya. dua alasan utama. Pertama, kita melihat bahwa analisis varians
model dicakup oleh model statistik linier umum (6.19). Kedua. Pendekatan regresi sangat
berguna untuk menganalisis beberapa studi multifaktor ketika struktur matrix tidak sederhana.
Model Pengaruh Faktor dengan rata-rata terboboti
Bila faktor, model efek (16,62) digunakan dengan mean tertimbang, modifikasi skema
pengkodean'in (16.75) diperlukan. Skema pengkodean yang baru mengarah pada perubahan
definisi koefisien regresi. Kami menggambarkan skema pengkodean yang baru dan meringkas
perubahan dalam konteks bobot ukuran proporsi proporsional, Wi = n; / nT '
When the constant fJ,. is the weighted average of the factor level means using
proportional sample size weights, we have, from (16.65):
Perhatikan bahwa jika semua ukuran sampel sel sama, mean fJ ,. adalah mean yang tidak
tertimbang, dan skema pengkodean di atas sama dengan skema pengkodean unweighted yang
digunakan pada (16,75), karena -n; / nr = -1 fori = 1, ..., r-1. Bila ukuran sampel tidak semua
sama, seperti yang tercantum dalam (16.70), perkiraan kuadrat terkecil dari bobot
tertimbang.mean fJ ,. adalah keseluruhan mean Y .., dan estimasi kuadrat terkecil dari faktor
faktor ke i Ti adalah Y i. - Y ..,
Example
Dalam contoh Perusahaan Makanan Kenton, model rata-rata tertimbang (16,81) adalah:
dilakukan dengan menggunakan model penuh (16,82) dan membentuk model yang dikurangi dengan
menetapkan TI = T2 = T3 = 0 dengan model penuh (16,82). Uji statistik (16.78) untuk mengetahui
adanya hubungan regresi kembali menghasilkan:
Seperti yang diharapkan, hasilnya identik dengan yang diperoleh sebelumnya untuk uji
ANOVA F
Perhatikan bahwa model regresi (16.85) tidak memiliki istilah intersep. Bila paket regresi
komputer digunakan untuk kasus ini, penting agar sesuai dengan tidak ada istilah mencegat
yang harus ditentukan.
Tabel ANOVA yang diperoleh dengan model regresi (16,85) berbeda dengan model
ANOVA satu dengan faktor tunggal (16,2) karena model regresi (16,85) tidak memiliki istilah
intersep. Dengan demikian, uji F yang diperoleh dengan model regresi tidak dapat digunakan
untuk menguji persamaan tingkat faktor. Tes apakah tingkat faktor berarti sama, yaitu fJ.1 =
fJ.2 = ... = fJ.,,, Hanya menanyakan apakah atau tidak koefisien regresi dalam (16,83) sama,
bukan apakah atau tidak sama dengan nol Oleh karena itu, kita perlu menyesuaikan model
penuh dan kemudian model yang dikurangi untuk melakukan tes ini. Model yang dikurangi
saat Ho: fJ.1 = ... = fJ.r memegang adalah:
dimana fJ.c adalah nilai umum semua fJ.i di bawah Ho. Matriks X disini hanya terdiri dari
kolom Is. Matriks X dan ~ vektor untuk model yang dikurangi dalam contoh kita
akan menjadi:
Setelah model penuh dan dikurangi dipasang dan jumlah kuadrat error diperoleh untuk setiap
kecocokan, statistik uji linier umum biasa (2,70) kemudian dihitung.
Contoh
Untuk contoh Kenton Food Company, regresi yang sesuai untuk model mean sel di (16.85)
adalah:
dapat dilihat dengan mudah bahwa koefisien Xi sama dengan tingkat faktor perkiraan yang
berarti 1 '; untuk i = I. ..., 4.
dilakukan dengan menggunakan model full dan reduced pada (16.85) dan (16.86). Di sini kita
lagi menemukan bahwa SSE (R) = 746.42 dan bahwa SSE (F) = 158,2. Dari (2,70) kita
memiliki:
Ini menunjukkan bahwa uji untuk persamaan sarana menggunakan pendekatan regresi, seperti
yang diharapkan, sama seperti yang diperoleh sebelumnya untuk uji ANOVA F.
16.9 Pengujian Randomisasi
Pengacakan dapat memberikan dasar untuk membuat kesimpulan tanpa memerlukan asumsi
tentang distribusi istilah kesalahan c. Pertimbangkan model efek faktor (16.62) untuk studi
faktor tunggal:
Alih-alih menganggap bahwa ci; adalah variabel acak normal yang independen dengan mean
nol dan varians konstan (J2, kita sekarang harus mempertimbangkan masing-masing Cij
menjadi efek tetap a,> bersosialisasi dengan unit eksperimen.Dalam kerangka ini, kita melihat
unit eksperimen ilT menjadi populasi yang terbatas , dan yang terkait dengan masing-masing
unit adalah efek khusus unit C; j Ketika pengacakan menetapkan unit eksperimen ini ke
pengobatan i, respons yang diamati adalah Yij = fJ .. + T; + cu. Respon Yii masih merupakan
variabel acak , namun di bawah tampilan pengacakan keacakan muncul karena efek perlakuan
T; adalah hasil dari penugasan acak unit eksperimen terhadap perlakuan i.
Jika tidak ada efek pengobatan, yaitu jika semua T; = 0, maka respon Yij = fJ .. + Bij
hanya bergantung pada unit eksperimen. Karena dengan pengacakan unit eksperimen adalah
sama-sama mungkin ditugaskan untuk pengobatan apapun, respon Yij yang teramati. jika tidak
ada efek pengobatan, bisa dengan kemungkinan yang sama telah diamati untuk perawatan
apapun. Jadi, bila tidak ada efek pengobatan, pengacakan akan mengarah pada penugasan
populasi terbatas pengamatan nT Yij terhadap perlakuan sedemikian rupa sehingga semua
kombinasi perlakuan pengamatan sama-sama mungkin terjadi. Hal ini, pada gilirannya,
mengarah pada distribusi sampling yang tepat dari statistik uji di bawah Ho: Ti == 0, kadang-
kadang disebut distribusi pengacakan statistik uji. Persentase distribusi pengacakan kemudian
dapat digunakan untuk menguji adanya efek faktor. Penggunaan distribusi pengacakan ini
memberikan dasar uji nonparametrik untuk efek pengobatan.
Untuk menggambarkan konsep distribusi pengacakan, pertimbangkan eksperimen
satu faktor yang terdiri dari dua perlakuan dan dua ulangan. Dalam percobaan ini, alternatif
yang menarik adalah:
Uji statistik F * in (16.55) akan digunakan untuk melakukan tes. Hasil sampelnya adalah:
Dalam contoh ini, karena ukuran sampel sangat tinggi, distribusi F tidak memberikan perkiraan
yang sangat baik terhadap distribusi sampling F * yang tepat di bawah D 110 · Namun
demikian. baik penelitian empiris dan teoritis telah menunjukkan bahwa distribusi F adalah
pendekatan yang baik terhadap distribusi pengacakan yang tepat bila ukuran sampel tidak kecil.
Dengan demikian, pengacakan saja dapat membenarkan uji F sebagai uji coba yang bagus,
tanpa memerlukan asumsi independensi. istilah kesalahan normal Selanjutnya kita akan
menunjukkan penggunaan tes pengacakan secara lebih realistis.
Komentar I. Karena discretenes, distribusi pengacakan, konservatif untuk menentukan nilai P
sebagai probabilitas untuk menyamakan atau melebihi nilai statistik tesl yang diamati saat Ho
memegang. Untuk distribusi sampling kontinyu, tidak masalah apakah nilai P didefinisikan
sebagai probabilitas melebihi nilai uji statistik uji atau sebagai probabilitas untuk menyamakan
atau melampauinya. Misalnya, P {F (I, 2)> 3,20} = P {F (L 2) ~ 3.20}. Bila lebih dari satu
kombinasi perlakuan menghasilkan nilai statistik uji F *, beberapa penulis menyarankan bahwa
nilai P dihitung sebagai P {F> F *} + P {F = F *} / 2. Hal ini menyebabkan nilai P yang kurang
konservatif. 2. Tes pengacakan kadang-kadang disebut sebagai tes permutasi, walaupun tes
permutasi juga diterapkan pada penelitian nonrandomized. Karena konservatisme permutasi
(atau pengacakan) tes untuk sampel kecil, kebajikan mereka terus diperdebatkan dalam
literatur. Lihat Referensi 16.1.
Contoh
Produsen mainan plastik anak-anak mempertimbangkan pengenalan kontrol proses statistik
(SPC) dan pengendalian proses rekayasa (EPC) untuk mengurangi voln skrap dan pengerjaan
ulang pada masing-masing dari sembilan pabriknya. Untuk menilai efek dari praktik kualitas
ini, percobaan satu faktor dilakukan untuk periode enam bulan. Perlakuannya adalah:
Ketiga perlakuan masing-masing secara acak diberikan pada tiga dari sembilan tanaman yang
ada. Respon bunga adalah pengurangan tingkat cacat pada akhir periode percobaan enam
bulan. Hasilnya diberikan pada baris pertama (pengacakan I) pada Tabel 16.5. Manajemen
ingin menguji apakah penurunan rata-rata pada tingkat cacat sama dengan ketiganya
Risiko kesalahan Tipe I dikendalikan pada a = .10. Sekarang kita akan melakukan tes
ini dengan mendapatkan distribusi pengacakan yang tepat.
Dalam penelitian eksperimental ini, ada 9! / (3! 3! 3!) = 1,680 kemungkinan kombinasi dari
menugaskan sembilan unit percobaan ke tiga perlakuan. Program komputer digunakan untuk
menghitung 1.680 kombinasi ini dan untuk menghitung statistik F * untuk masing-masing.
Sebagian daftar hasil disajikan pada Tabel 16.5.
Dari 1.680 nilai yang mungkin dari statistik uji F *, 120 sama atau lebih besar dari nilai yang
diamati 4.39. Jadi, dari distribusi pengacakan kita temukan:
Karena 0,071 <a = .10, kita menyimpulkan bahwa penurunan rata-rata pada tingkat cacat tidak
sama untuk ketiga perlakuan.
Meskipun ukuran sampel tidak terlalu besar di sini, distribusi pengacakan yang tepat dapat
diperkirakan dengan baik oleh distribusi F. Gambar 16.8 menunjukkan pengacakan
16.10 Perencanaan ukuran sampel dengan pendekatan power
Untuk analisis studi varian, seperti untuk studi statistik lainnya, penting untuk merencanakan
ukuran sampel sehingga diperlukan perlindungan terhadap kesalahan Tipe I dan Tipe II dapat
diperoleh atau perkiraan taksiran memiliki ketepatan yang cukup untuk berguna. Perencanaan
ini diperlukan untuk studi observasional dan eksperimental untuk memastikan bahwa ukuran
sampee cukup besar untuk mendeteksi penundaan penting dengan probabilitas tinggi. Pada saat
yang sama, ukuran sampel tidak boleh begitu besar sehingga biaya studi menjadi berlebihan
dan perbedaan yang tidak penting secara statistik signifikan dengan probabilitas tinggi. Oleh
karena itu, perencanaan ukuran sampel merupakan bagian integral dari rancangan penelitian.
Umumnya kita akan berasumsi dalam pembahasan kita tentang merencanakan ukuran
sampel bahwa semua perawatan memiliki ukuran sampel yang sama, yang mencerminkan
bahwa hal itu sama pentingnya. Memang, bila minat utama terletak pada perbandingan
berpasangan dari semua mean pengobatan, dapat ditunjukkan bahwa ukuran sampel yang sama
memaksimalkan ketepatan perbandingan. Alasan lain untuk ukuran sampel yang sama adalah
bahwa kepergian tertentu dari model ANOVA yang diasumsikan kurang merepotkan jika
semua tingkat faktor memiliki ukuran sampel yang sama, seperti yang telah disebutkan
sebelumnya. Akan ada waktu, bagaimanapun, bila ukuran sampel yang tidak sama sesuai.
Misalnya, ketika empat perlakuan eksperimental masing-masing dibandingkan dengan kontrol,
mungkin masuk akal untuk membuat ukuran sampel untuk kontrol lebih besar. Kami akan
mengomentari perencanaan ukuran sampel untuk kasus semacam itu
Perencanaan ukuran sampel dapat didekati dalam hal (I) mengendalikan risiko membuat
kesalahan Tipe I dan Tipe II, (2) mengendalikan lebar interval kepercayaan yang diinginkan,
atau (3) kombinasi keduanya. Prosedur untuk merencanakan ukuran sampel yang akan kita
bahas di sini berlaku untuk studi observasional dan penelitian eksperimental berdasarkan
rancangan faktor tunggal acak sepenuhnya. Di bab selanjutnya, kita akan mempertimbangkan
perencanaan ukuran sampel untuk desain studi lainnya. Pada bagian ini, kami
mempertimbangkan perencanaan ukuran sampel dengan pendekatan kekuatan, yang
memungkinkan pengendalian risiko membuat kesalahan Tipe I dan Tipe II. Pada Bagian 16.11
kita membahas perencanaan ukuran sampel bila pengobatan terbaik harus diidentifikasi.
Kemudian, di Bagian 17.8, kami mengambil perencanaan dengan ukuran sampel 0 'untuk
mengendalikan ketepatan perkiraan dampak penting. Kami akan mempertimbangkan
perencanaan ukuran sampel untuk studi multifaktor di Bagian 24.7.
Sebelum kita bisa membahas perencanaan ukuran sampel dengan pendekatan kekuatan, kita
perlu mempertimbangkan kekuatan uji F.
Power Uji F
Dengan kekuatan uji F untuk studi satu faktor, kita mengacu pada probabilitas bahwa peraturan
keputusan akan mengarah pada kesimpulan H ", bahwa perlakuan berarti berbeda, padahal
sebenarnya H" berlaku. Secara khusus, kekuatan diberikan oleh ekspresi berikut untuk model
mean sel (16.2):
dimana 41 adalah A parameter noncentrality, yaitu ukuran bagaimana perlakuan yang tidak
setara berarti fJ.i adalah:
Bila semua sampel tingkat faktor memiliki ukuran yang sama n, maka parameter 41 menjadi:
Perhatikan bahwa kita masih perlu mengetahui (5, standar deviasi dari istilah kesalahan f:;
dalam model ini Misalkan dari pengalaman masa lalu diketahui bahwa (5 = 3,5 kasus
mendekati kita maka kita memiliki: y.
saya
Tabel B.II pada halaman 1338 menunjukkan bahwa daya adalah I - f3 = .91. Dengan kata lain,
ada 91 peluang dalam 100 bahwa aturan keputusan, berdasarkan ukuran sampel yang
digunakan, akan mengarah pada pendeteksian perbedaan dalam volume penjualan rata-rata
untuk keempat rancangan paket bila perbedaannya adalah yang ditentukan sebelumnya.
Comments
I. Nilai tertentu jika; Meliputi berbagai kombinasi tingkat faktor berarti Mi. Jadi, dalam contoh
Kenton Food Company, mean JJ.I = 12,5, JJ.2 = 13, JJ.3 = 18, JJ.4 = 21 dan mean JJ.I = 21,
JJ.2 = 12,5, JJ .3 = 18. JJ..j = I3 mengarah pada nilai yang sama jika; = 2,25 dan karenanya
memiliki kekuatan yang sama. 2. Semakin besar jika; -yaitu, semakin besar perbedaan antara
tingkat faktor - semakin besar kekuatan dan karenanya semakin kecil probabilitas untuk
membuat kesalahan Tipe II untuk CI risiko tertentu yang membuat kesalahan Tipe J. Juga,
semakin kecil resiko ex yang ditentukan. yang lebih kecil adalah kekuatan untuk setiap ¢
tertentu. dan karenanya semakin besar sk skype kesalahan Tipe II. 3. Karena banyak studi
faktor tunggal dibatalkan karena harapan bahwa tingkat faktor berarti berbeda dan diinginkan
untuk menyelidiki perbedaan ini, risiko CI yang digunakan dalam menyusun peraturan
keputusan untuk menentukan apakah tingkat faktor berarti sama atau tidak? sering ditetapkan
relatif tinggi (misalnya, 05 atau .10, bukan 0,01) sehingga meningkatkan kekuatan uji. 4. Meja
daya untuk VI = I tidak diproduksi ulang pada Tabel B.II karena kasus ini sesuai dengan
perbandingan dua mean populasi. Seperti yang telah disebutkan sebelumnya, uji F adalah setara
dengan uji dua sisi untuk kasus ini, dan tabel daya untuk uji dua sisi yang ditunjukkan pada
Tabel B.5 kemudian dapat digunakan, dengan parameter noncentrality:
3. Tingkat f3 di mana risiko membuat kesalahan Tipe II harus dikendalikan untuk spesifikasi
yang diberikan pada 2. Masuk ke Tabel B.I2 adalah dalam hal kekuatan 1 - f3.
Bila menggunakan Tabel B.I2, empat level tersedia dimana risiko membuat kesalahan Tipe J
dapat dikendalikan (a = .2, .1, .05, .01). Risiko kesalahan tipe II dapat dikontrol pada salah satu
dari empat f3level (f3 = .3, .2, .1, .05) melalui spesifikasi daya 1-f3. Tabel B.I2 menyediakan
ukuran sampel yang diperlukan untuk penelitian yang terdiri dari r = 2, ..., 10 tingkat faktor
atau perawatan.
Example
Sebuah perusahaan yang memiliki armada truk yang besar ingin menentukan apakah ada empat
jenis ban salju yang berbeda memiliki rata-rata tapak yang sama (dalam ribuan mil). Penting
untuk disimpulkan bahwa keempat merek ban salju memiliki kehidupan tapak rata-rata yang
berbeda bila perbedaan antara alat dengan merek terbaik dan terburuk adalah 3 (ribu mil) atau
lebih. Jadi, spesifikasi rentang minimum adalah b .. = 3. Telah diketahui dari pengalaman masa
lalu bahwa deviasi standar dari kehidupan tapak ban ini adalah = 2 (ribu mil), kira-kira.
Manajemen ingin mengendalikan risiko membuat keputusan yang salah pada tingkat berikut:
a = .05 f3 = .10 atau Power = 1 - f3 = .90 Memasuki Tabel B.I2 untuk b ../ a = 3/2 = 1,5, a =
.05, 1 - f3 = 0,90, dan r = 4, kita menemukan n = 14. Oleh karena itu, 14 ban salju setiap merek
perlu diuji untuk mengendalikan risiko membuat keputusan yang salah pada tingkat yang
diinginkan.
Spesifikasi /l./cr Langsung. Tabel B.I2 juga dapat digunakan bila kisaran minimum ditentukan
secara langsung dalam satuan standar deviasi a. Biarkan speCification dari b .. dalam hal ini
menjadi ka sehingga kita memiliki (16,91):
b .. = ka = k
example
Oleh karena itu, Tabel B.12 dimasukkan secara langsung untuk nilai yang ditentukan k dengan
pendekatan ini.
Misalkan itu ditentukan dalam contoh ban salju bahwa penting untuk mendeteksi perbedaan
antara rata-rata tapak kehidupan jika kisaran rata-rata tapak kehidupan adalah k = 2 standar
deviasi. atau lebih. Misalkan juga spesifikasi lainnya adalah:
Dari Tabel B.12, kita menemukan untuk k = 2 dan r = 4 bahwa n = 9 ban perlu diuji ~ setiap
merek agar proteksi risiko yang ditentukan akan tercapai. atau
Komentar
Sementara menentukan t :, / a secara langsung tidak memerlukan nilai perencanaan awal dari
standar deviasi, ini bukan keuntungan sebanyak mungkin karena spesifikasi yang berarti dari /
'; dalam satuan kemauan sering membutuhkan pengetahuan tentang perkiraan besaran standar
deviasi
adi, kecuali b. / a cukup kecil, kita tidak perlu terlalu khawatir tentang beberapa ketidaktepatan
dalam menentukan b./a. 2. Mengurangi salah satu dari yang ditentukan a atau {3 risiko atau
keduanya meningkatkan ukuran sampel yang dibutuhkan. misalnya, bila r = 4, a = .10, dan b. /
0 '= 1,25, kita memiliki:
Istilah 'L (fJ.i - fJ ..) 2 dari parameter noncentrality 41 di (16.88) berbeda untuk masing-masing
dari keempat kemungkinan ini dan karenanya daya berbeda, meskipun kisarannya sama dalam
semua kasus. Perhatikan bahwa istilah 'L (fJ.i - fJ ..) 2 adalah yang terkecil untuk kasus 4, di
mana dua tingkat faktor berarti berada di fJ .. dan dua lainnya sama-sama berjarak sekitar fJ. ..
Dapat ditunjukkan bahwa untuk rentang / ::;., Istilah 'L (fJ.i - fJ ..) 2 diminimalkan ketika semua
tapi dua tingkat faktor berarti berada di fJ .. dan dua faktor yang tersisa tingkat berarti sama
spasi di sekitar fJ. .. Jadi, kita memiliki:
Karena kekuatan uji bervariasi secara langsung dengan 'L (fJ.i - fJ ..) 2, penggunaan (16.92)
dalam menghitung Tabel B.12 memastikan bahwa daya paling sedikit 1 - f3 untuk kombinasi
nilai fJ.i dengan range / ::;
16.11 Perencanaan Ukuran Sampel untuk Menemukan Perlakuan "Terbaik"
Ada kalanya tujuan utama penelitian ini adalah untuk mengetahui pengobatan dengan mean
tertinggi atau terendah. Dalam contoh ban salju, misalnya, mungkin diinginkan untuk
menentukan merek mana dari empat merek yang memiliki tapak jinjing terpanjang. Tabel B.l3,
yang dikembangkan oleh Bechhofer, memungkinkan kita untuk menentukan ukuran sampel
yang diperlukan sehingga dengan probabilitas 1-a perkiraan pengobatan tertinggi (terendah)
adalah dari perlakuan dengan mean populasi tertinggi (terendah). Kita perlu menentukan
probabilitas 1-a, standar deviasi a, dan perbedaan terkecil A antara perlakuan tertinggi
(terendah) dan kedua tertinggi (kedua terendah) berarti penting untuk dikenali. Tabel B.l3
mengasumsikan bahwa ukuran sampel yang sama harus digunakan untuk semua perlakuan r.
Example
Misalkan dalam contoh ban salju, tujuan utamanya adalah untuk mengidentifikasi branc1
dengan tapak berantai terpanjang. Ada r = 4 merek. Kami antisipasi, seperti sebelumnya, bahwa
a = 2 (ribu
mil). Selanjutnya, kami diberi tahu bahwa perbedaan A = I (seribu mil) antara mean merek
tertinggi dan kedua penting untuk dikenali, dan probabilitasnya adalah untuk - t - ex = 0,90
atau lebih besar sehingga kami mengidentifikasi merek dengan tepat. dengan nilai rata-rata
tapak tertinggi ~ ketika A ::: 1. Entri pada Tabel B.13 adalah AJ / i / (5. Untuk r = 4 dan
probabilitas 1 - ex = 0,90, kita menemukan tabel B B3 yang A.Jii / (5 = 2.4516. Karenanya,
karena spesifikasi A = I, kita memperoleh:
Jadi, ketika rata-rata waktu tapak untuk merek terbaik melebihi yang terbaik kedua dengan
setidaknya saya (ribu mil) dan kapan (5 = 2 (ribu mil), ukuran sampel 25 ban untuk masing-
masing merek memberikan kepastian setidaknya. .90 bahwa merek dengan mean Yi tertinggi
berarti adalah merek dengan mean populasi tertinggi
Komentar Jika nilai perencanaan untuk standar deviasi tidak akurat, probabilitas untuk
mengidentifikasi populasi dengan mean tertinggi (paling rendah) tentu saja terpengaruh. Ini
tidak berbeda dengan pendekatan lainnya. dimana salah penilaian terhadap standar deviasi
mempengaruhi risiko membuat id II Tipe.
Paket Toko (j) Total Rata- Jumlah
Rancangan 1 2 3 4 5 rata toko
i 𝑌𝑖1 𝑌𝑖2 𝑌𝑖3 𝑌𝑖4 𝑌𝑖5 𝑌𝑖. 𝑌̅𝑖. 𝑛𝑖
1 11 17 16 14 15 73 14.6 5
2 12 10 15 19 11 67 13.4 5
3 23 20 18 17 78 19.5 4
4 27 33 22 26 28 136 27.2 5
Total 𝑌.. = 354 𝑌̅.. = 18.63 19
Rancangan