Anda di halaman 1dari 64

efek ini.

Juga, respon baik obat kumur dapat dipengaruhi oleh


pemerintahan sebelumnya atau berikutnya dari yang lain (interaksi
adalah istilah statistik teknis). Dalam administrasi kasus ekstrim dari
satu obat kumur setelah lain mungkin membuat kondisi pasien lebih
buruk, sedangkan jika salah diberikan secara terpisah, baik mungkin
bermanfaat. Dalam passing kami mencatat bahwa obat kumur tertentu
mengandung alkohol sehingga konsumsi minuman beralkohol selama
masa pengobatan tersebut mungkin tidak bijaksana atau mungkin
mempengaruhi hasil.

Kami tidak menganggap uji coba cross-over secara rinci tetapi analisis
dari
percobaan sederhana semacam ini digambarkan oleh Koch (1972) dan
rekening yang
lebih umum dari desain tersebut diberikan oleh Senn (1992). Selain itu,
jenis studi ini
hanya dapat dilakukan dengan kondisi kronis di mana pengobatan pertama
yang
diterima tidak mungkin menyebabkan pemulihan lengkap atau kematian.
gingivitis
ulseratif adalah suatu kondisi seperti (asma dan eksim yang lain) di mana
banyak
pasien, peningkatan di bawah pengobatan cepat tetapi kondisi memburuk
setelah
pengobatan ditarik. Penilaian ulserasi oleh seorang dokter gigi ini sangat
subjektif,
namun, seperti penilaian pasien nyeri. Untuk memungkinkan untuk ini buta
ganda Prosedur
harus digunakan di mana baik pasien maupun dokter gigi membuat
penilaian tahu urutan presentasi (yang harus random). Obat kumur
dapat dibuat untuk memiliki penampilan yang identik dan rasa.
Solusi yang diidentifikasi oleh kode yang tersedia hanya untuk
pekerja riset atau administrator yang tidak memiliki kontak
langsung dengan pasien (jika tablet yang digunakan mereka harus
dengan ukuran yang sama, warna dan rasa). Ganda membutakan
juga dapat digunakan untuk memungkinkan efek plasebo yang
merupakan respon psikologis yang ditunjukkan oleh beberapa
pasien dengan pengetahuan bahwa pengobatan yang diterima
meskipun solusi atau tablet (dikenal sebagai plasebo) tidak
mengandung bahan aktif. aspek-aspek studi harus hati-hati
dijelaskan dalam lembar informasi pasien jika berlaku. masalah
etika mungkin menghalangi penggunaan pasien yang sama untuk
membandingkan dua perlakuan. Misalnya, dalam perbandingan dua
metode untuk mengobati kanker mulut, yang keduanya melibatkan
radiasi, diperkirakan dosis radiasi dari perawatan gabungan dapat
dianggap sangat tinggi bagi pasien.
Jika diinginkan untuk alasan etis atau praktis untuk memberikan pasien
kedua perawatan, kita mungkin menggunakan pasangan individu dipilih
sehingga para anggota masing-masing pasangan adalah sebagai seperti
mungkin dalam semua karakteristik yang relevan. Proses ini dikenal sebagai
pencocokan. Sebagai contoh, seorang wanita berusia 30 tahun mungkin
dicocokkan dengan seorang wanita berusia sama dari kelompok etnis yang
sama, masing-masing menunjukkan bersangkutan yang sama

© 2001 CRC Press LLC


Status morbiditas. Dalam setiap pasangan salah satu wanita yang dipilih
secara acak menerima pengobatan pertama dan yang lainnya yang kedua.
Dalam hal ini kita melihat perbedaan penilaian antara anggota masing-
masing pasangan.
Seperti disebutkan dalam bagian 1.5 , Pasien harus bebas untuk menarik
dari sebuah studi pada setiap tahap. Konsekuensi dari ini adalah bahwa
beberapa pasien mungkin tidak mengambil pengobatan mereka
dialokasikan oleh penutupan studi dan beberapa mungkin telah ditarik
dari studi sama sekali. Disarankan bahwa hasil studi yang
membandingkan dua atau lebih kelompok pasien dianalisis pada niat
untuk mengobati dasar di mana kelompok-kelompok dibandingkan ketika
mereka awalnya dipilih. Alternatif yang menarik mungkin untuk
menganalisis pasien dengan perlakuan mereka yang sebenarnya pada
akhir penelitian. Hal ini akan menimbulkan bias Namun, sebagai orang-
orang yang tidak bersedia atau tidak mampu untuk melanjutkan studi
cenderung memiliki karakteristik (misalnya masalah kesehatan yang
lebih besar) yang berbeda dibandingkan dengan pasien lain. 'Niat untuk
mengobati' analisis juga memberikan penilaian yang lebih adil dari
dampak strategi ini di dunia nyata. Komentar-komentar ini relevan
dengan perencanaan percobaan, tidak peduli apakah kita menggunakan
metode parametrik atau nonparametrik analisis.

Kembali ke studi pengobatan sariawan, penilaian pasien nyeri mungkin


melibatkan tidak lebih dari yang menunjukkan obat kumur, jika salah,
memberikan bantuan yang lebih besar (misalnya obat kumur pertama
memberi paling lega, obat kumur kedua memberikan sebagian lega,
keduanya sama-sama baik atau keduanya tidak efektif ). Satu mungkin
mencetak gol obat kumur
A memberikan lebih lega sebagai plus, obat kumur B memberikan lebih lega
sebagai kurang dan tidak ada perbedaan sebagai nol atau 'skor tidak'. nilai
individu pasien - ditambah, dikurangi, atau nol - memberikan dasar dari uji tanda
H 0: obat sama-sama efektif terhadap alternatif satu atau dua ekor yang sesuai.

4.1.2 Contoh lebih lanjut

Kami memberikan empat contoh-contoh spesifik.


SAYA. Geffen, Bradshaw dan Nettleton (1973) ingin tahu apakah
nomor-nomor tertentu yang disajikan secara acak yang dirasakan
lebih cepat di kanan (RVF) atau bidang visual yang kiri (LVF), atau
apakah tidak ada perbedaan yang konsisten, itu menjadi masalah
kesempatan apakah seseorang merespon lebih cepat dalam satu
bidang atau yang lain. Untuk masing-masing 12 mata pelajaran
mean waktu respon terhadap informasi digital di masing-masing
bidang diukur. waktu respon bervariasi jauh lebih antara individu
daripada yang mereka lakukan antara kolom untuk setiap individu.
Data dan perbedaan LVF - RVF untuk setiap

© 2001 CRC Press LLC


tabel 4.1 Berarti waktu respon (ms) untuk informasi digital.
________________________________________________________________
Subyek 1 2 3 4 5 6 7 8 9 10 11 12
________________________________________________________________
LVF (1) 521 495 564 564 560 481 545 478 580
484 539 467
RVF (2) 505 465 562 557 544 448 531 520
458 560 485 445
(1) - (2) 71630 21633142020 -1 19
22
________________________________________________________________

individu diberikan dalam Tabel 4.1. Meja ini menunjukkan lebih cepat
waktu respon di RVF untuk semua tapi subjek 10. Tidak ada
perbedaan melebihi 33ms, sedangkan di baik bidang perbedaan
antara beberapa individu melebihi 100ms. Sebagai contoh, adalah
580-467 = 113 antara subjek 9 dan 12 di LVF. Tanpa pasangan yang
cocok perbedaan-perbedaan ini mungkin rawa perbedaan kecil tapi
relatif konsisten antara bidang bagi individu. Kami menjelajahi lebih
lanjut dalam Latihan 5.11 .

II.Sebuah organizer saja mungkin membandingkan dua metode


pengajaran seperti ceramah dan komputer dibantu belajar (CAL) dengan
pasangan siswa sehingga, jika mungkin, setiap anggota dari pasangan
adalah dari jenis kelamin yang sama dan memiliki pengetahuan sebelumnya
sama subjek. Untuk masing-masing pasangan, salah satu anggota
dialokasikan untuk kuliah kelas dan yang lain untuk bahan CAL. Pada akhir
kursus siswa mengambil tes yang sama dan hasilnya ditafsirkan dalam hal
perbedaan berpasangan.

AKU AKU AKU. Menggunakan double blind menandai (metode yang disukai
oleh beberapa lembaga) satu dapat membandingkan konsistensi antara dua
pemeriksa. Dua pemeriksa menandai seri yang sama esai tanpa mengungkapkan
penilaian mereka satu sama lain. Perbedaan antara tanda diberikan oleh masing-
masing penguji untuk setiap esai kemudian dibandingkan untuk melihat apakah
salah satu pemeriksa konsisten penghargaan tanda yang lebih tinggi, atau
apakah perbedaan memiliki beberapa pola yang lain atau apakah mereka tampak
murni acak.

IV. Untuk membandingkan dua makanan hewan menggunakan pasang


kembar domba diet diberi makan satu untuk setiap kembar, dan pertumbuhan
diukur selama periode: perhatian difokuskan pada perbedaan pertumbuhan
antara kembar dalam masing-masing pasangan. Karena kesamaan genetik
masing-masing sepasang domba kembar yang diberi diet identik cenderung
tumbuh pada tingkat yang sama; ketika diberi makan diet yang berbeda
setiap perbedaan yang konsisten dalam pertumbuhan mungkin disebabkan
efek dari diet.

Singkatnya, tujuan pasangan adalah membuat kondisi, selain


pengobatan atau faktor diselidiki, sebagai seperti mungkin
dalam setiap pasangan; perbedaan dalam pasangan memberikan
ukuran efek pengobatan yang mengambil bentuk 'shift' dalam
distribusi.

© 2001 CRC Press LLC


4.1.3 Analisis Single-sampel pasangan cocok

Perbedaan antara pengamatan dipasangkan memberikan sampel tunggal yang


dapat dianalisis dengan metode yang dikembangkan dalam Bab 2 dan 3. Kami
harus, bagaimanapun, mempertimbangkan asumsi tentang pengamatan pada
masing-masing anggota dari pasangan dan apa tindakan pencegahan dalam
prosedur eksperimental yang diperlukan untuk memvalidasi analisis. Titik-titik
ini yang terbaik dibawa oleh contoh.

contoh 4.1

Masalah. Menggunakan LVF, data yang RVF di tabel 4.1 , Menilai kekuatan
bukti perbedaan respon yang konsisten antara dua bidang bagi
individu. Mendapatkan 95 interval kepercayaan persen untuk
perbedaan itu.

Formulasi dan asumsi. Kami menunjukkan pengamatan pada subjek saya di RVF oleh
x saya dan bahwa dalam LVF oleh y saya dan menganalisis perbedaan d i= y saya -x saya, i = 1,
2,. . . . n. Itu d saya independen karena masing-masing mengacu pada individu yang
berbeda. Dibawah H 0: median dari perbedaan adalah nol itu d saya sama-sama cenderung
positif atau negatif dan uji tanda dibenarkan.
Jika kita mengasumsikan distribusi simetris dari d saya dibawah H 0 kita dapat
menggunakan Wilcoxon signed-rank (atau nilai normal) tes. Ada beberapa pola
respon yang berbeda di dua bidang visual yang dapat mengakibatkan distribusi
simetris perbedaan di bawah H 0. Secara khusus, jika kita menganggap waktu
respon yang identik dan independen (tetapi tidak harus simetris) didistribusikan
dalam dua kolom untuk setiap individu (tapi distribusi ini tidak perlu sama untuk
setiap individu) perbedaan untuk setiap individu akan simetris tentang nol
( karena jika X dan Y memiliki distribusi independen yang sama, maka X
- Y dan Y - X masing-masing akan memiliki distribusi yang sama dan karena itu
harus didistribusikan secara simetris tentang nol). Kami juga mendapatkan
distribusi simetris perbedaan jika LVF dan RVF untuk setiap individu memiliki
distribusi simetris yang berbeda memberikan masing-masing memiliki mean yang
sama. Hal ini juga untuk menyadari seluk-beluk seperti itu, tapi tes Wilcoxon jelas
dibenarkan ketika kita menganggap distribusi identik untuk LVF dan RVF untuk
setiap individu di bawah hipotesis null; hipotesis alternatif yang menarik biasanya
bahwa ada pergeseran sentralitas saja, seperti yang ditunjukkan oleh pergeseran
dalam satu bidang atau yang lain di median dari distribusi dinyatakan identik.
seringkali d saya nilai sendiri menunjukkan apakah ada asimetri serius yang
menunjukkan kondisi ini mungkin tidak berlaku.

Jika kita asumsikan juga bahwa perbedaan didistribusikan mendekati normal,


sebuah t tes sesuai. Kita mungkin menguji apakah normalitas adalah asumsi
yang wajar untuk d saya dengan uji Lilliefors' atau dengan uji Shapiro-Wilk, tetapi
tes ini mungkin memiliki daya rendah untuk sampel kecil.

Prosedur. Kami bekerja dengan sampel tunggal yang terdiri dari perbedaan d saya
dan prosedur penggunaan dikembangkan di Bab 2 , Rincian sehingga kita hanya sketsa.
Yang menunjukkan parameter sentralitas atau ukuran efek pengobatan (dengan asumsi ini
menjadi hanya 'sentralitas' atau shift 'lokasi') oleh θ, hipotesis nol H 0: θ = 0, sehingga
penyimpangan menandatangani memerintahkan hanya perbedaan memerintahkan diperoleh
dari
tabl e 4.1 yaitu:

© 2001 CRC Press LLC


-271411616192020223033

dan jajaran ditandatangani sesuai adalah

-12345.55.578.58.5101112

Menggunakan uji tanda untuk nol perbedaan median kita memiliki 1 dikurangi dan 11
tanda-tanda plus. Sesuai tabel atau perangkat lunak segera memberikan P = 0,0063,
memberikan bukti yang sangat kuat bahwa respon berbeda antara bidang. Nominal
95 per interval kepercayaan persen berdasarkan uji tanda (7, 22) karena kita
menolak H 0 pada nominal P = tingkat 0,05 hanya untuk 2 atau lebih sedikit atau 10
atau lebih tanda-tanda dikurangi. Untuk uji Wilcoxon S -= 1, sesuai dengan dua ekor
P < 0,001. Memang, Anda hanya perlu kalkulator saku untuk menunjukkan bahwa P
≈ 0,00098 dalam contoh ini! Untuk interval kepercayaan dengan cakupan minimal 95
meja persen menunjukkan kita membutuhkan 14 terbesar dan paling Walsh rata-
rata. rata-rata ini dapat diperoleh dengan menggunakan Minitab, yang lain StatXact
dapat digunakan untuk menemukan interval. Banyak paket perangkat lunak lain
termasuk program memberikan setidaknya perkiraan asimtotik. interval ternyata
(9,5, 23,5). The Hodges-Lehmann titik estimator dari median (yaitu median dari rata-
rata Walsh) adalah 17,25.

Jika kita asumsikan normalitas, dua ekor t tes memberikan P < 0,001 dan 95 persen
confidence interval (10.1, 22.9) berpusat sekitar mean 16,5. Teori yang normal
memberikan interval kepercayaan terpendek dan fakta bahwa interval hanya
sedikit pengungsi untuk uji tanda menyiratkan simetri yang wajar. Lilliefors' uji
statistik,
0,152, yang jauh di bawah nilai yang diperlukan untuk signifikansi dan untuk itu uji
StatXact memberikan perkiraan Monte Carlo untuk tepat P = 0,617. Untuk Shapiro-
Wilk tes StatXact memberi P = 0,685, sehingga tidak ada bukti nonnormality.

Kesimpulan. tanda, Wilcoxon dan t tes semua titik untuk bukti kuat terhadap
hipotesis nol dan kami menyimpulkan bahwa waktu respon di RVF yang lebih
cepat. Konsistensi interval kepercayaan yang diberikan oleh pendekatan tersebut
menunjukkan perbedaan rata-rata adalah antara 10 dan 22 ms.

Komentar. 1. Himpunan perbedaan kita membandingkan independen (a


kondisi yang diperlukan untuk validitas tes sentralitas kami) karena setiap perbedaan
dihitung untuk individu yang berbeda.
2. Jika tingkat respon dalam LVF telah diukur sebelum itu di RVF yang
untuk semua mata pelajaran kesulitan dalam penafsiran akan timbul.
Hasil kemudian mungkin menyiratkan proses belajar, orang menanggapi
lebih cepat di RVF karena mereka belajar untuk bereaksi lebih cepat; atau
mungkin ada campuran efek pembelajaran dan respon lebih cepat
melekat dalam RVF tersebut. Kami menghindari kesulitan ini jika kita
memutuskan secara acak yang lapangan - kiri atau kanan - harus diuji
terlebih dahulu untuk setiap individu; yang dilakukan dalam percobaan
ini. Ini harus menyeimbangkan dan sebagian besar menganulir faktor
belajar. Pendekatan lain adalah untuk mencapai keseimbangan dengan
memilih enam mata pelajaran (sebaiknya secara acak) untuk diuji
pertama di LVF. Enam yang tersisa diuji pertama dalam RVF tersebut.
desain yang seimbang seperti memberikan dasar untuk memisahkan efek
belajar dari perbedaan yang melekat antara respon lapangan,
aspek komputasi. Kebanyakan paket statistik yang memiliki program untuk prosedur yang
dibahas dalam contoh ini memungkinkan seseorang untuk memasukkan baik data untuk masing-
masing bidang untuk setiap individu dan kemudian menghitung perbedaan secara otomatis atau
untuk memasuki perbedaan diri mereka sebagai data mentah.

© 2001 CRC Press LLC


Sebuah modifikasi prosedur di atas memungkinkan kita menguji
hipotesis bahwa perbedaan sentralitas memiliki nilai prespecified θ.
Seperti dalam Bab 2 dan 3, kita hanya menganggap penyimpangan dari
nilai tersebut. Hal ini secara efektif menggeser asal ke median hipotetis,
sehingga untuk data direvisi kami (penyimpangan) kami menguji hipotesis
bahwa parameter sentralitas untuk populasi yang mengambil nilai nol.

contoh 4.2

Masalah. anak sebelas diberi tes aritmatika; setelah kuliah khusus 3


minggu mereka diberi tes lebih lanjut dari kesulitan yang sama (kita katakan
lebih lanjut tentang ini di Komentar). tanda mereka di setiap tes (dari 90)
dan perbedaan individu diberikan dalam Tabel 4.2. Apakah ini mendukung
klaim bahwa peningkatan rata-rata karena kuliah tambahan 10 tanda?

Formulasi dan asumsi. Pertanyaannya dasarnya adalah apakah, jika kita


menganggap anak-anak ini sampel acak dari beberapa populasi hipotetis
(mungkin anak-anak pada usia yang sama terlatih dalam sistem pendidikan yang
sama atau belajar silabus yang sama), adalah wajar untuk menganggap
perbedaan mark rata adalah 10 ?

Prosedur. Kami menganggap penyimpangan dari 10 untuk perbedaan tanda di baris terakhir dari
Tabel 4.2.
penyimpangan tersebut adalah:

-2-44-50-8-191-6-5
Perbedaan diatur dalam urutan besarnya dengan tanda-tanda
yang tepat adalah

0-11-2-44-5-5-6-89

dan jajaran tanpa tanda-tanda

1 2,5 2,5 4 5,5 5,5 7,5 7,5 9 10 11

Menggunakan aturan yang diberikan dalam bagian 2.2.3 untuk mid-barisan dengan ikatan
bersama-sama dengan konvensi yang disebutkan di akhir yang bagian untuk menggantikan
peringkat 1 terkait dengan perbedaan nol 0, kita mendapatkan ditandatangani jajaran:

0 -2,5 2,5 -4 -5,5 5,5 -7,5 -7,5 -9 -10 11 statistik kami adalah jumlah dari jajaran
positif S + = 0 + 2,5 + 5,5 + 11 = 19. Untuk tes permutasi tepat StatXact
memberikan Pr ( S + ≤ 19,0) = 0,124. Dua kali lipat nilai ini untuk uji dua ekor
kami segera melihat tidak ada bukti yang kuat terhadap
H 0, sejak P = 0,248.

tabel 4.2 Marks (dari 90) dalam dua tes aritmatika.

Murid ABC DEF GH sayaJK

tes pertama 45 61 33 29 21 47 53 32 37 25
81
tes kedua 53 67 47 34 31 49 62 51 48 29
86
Kedua - Pertama 8 6 14 5 10 2 91911 4 5

© 2001 CRC Press LLC


Sementara sampel terlalu kecil untuk memberikan kepercayaan pada prosedur
asimtotik untuk contoh ini ini memberikan dua ekor P = 0,229, membandingkan cukup
baik dengan tepat P = 0,248. Juga S + = 19 melebihi nominal P = 0,05 nilai, S = 10, yang
diberikan dalam tabel diterbitkan untuk n = 11 dalam situasi tanpa dasi.

Kesimpulan. Tidak ada bukti kuat terhadap hipotesis bahwa peningkatan rata-rata
mungkin
10.
Komentar. 1. Bagaimana seseorang memutuskan apakah dua tes aritmatika sama-sama
sulit? tidak mungkin tanda membaik pada tes kedua menyiratkan itu mudah?
statistik harus mencari jaminan dari pendidik melakukan tes yang tindakan
pencegahan telah diambil untuk memastikan kesulitan yang sama. tes kadang-
kadang standar yang telah mencoba pada kelompok besar siswa dengan hasil
yang menunjukkan secara meyakinkan bahwa mereka adalah untuk semua
tujuan praktis kesulitan yang sama, digunakan dalam situasi seperti itu.

2. Keyakinan interval untuk perbedaan mean atau median dapat diperoleh di


cara yang biasa. Nominal 95 per kepercayaan persen interval data ini
diberikan oleh StatXact adalah (5, 12), dalam perjanjian dekat dengan teori
yang normal t Tes Interval (5.14, 11.76).

3. Ini mungkin tidak realistis untuk menguji hanya untuk pergeseran sentralitas. Terkadang

murid yang berprestasi awalnya mendapatkan keuntungan sedikit dari pelajaran


tambahan; dalam contoh ini Murid K tidak mungkin meningkatkan lebih dari 9 tanda.
Demikian juga murid sangat miskin mungkin menemukan konsep aritmatika sulit untuk
memahami dan mendapatkan sedikit dari pelajaran tambahan. Seringkali hanya mereka
pada pertengahan-kemampuan berbagai acara manfaat yang cukup. Sebuah statistik
dapat menemukan bukti ini hanya dengan melihat data - dan memang ada tes untuk
kecenderungan tersebut. Memutuskan apa yang harus diuji atau estim- diciptakan
mungkin menjadi topik diskusi yang bermanfaat antara statistik dan eksperimen.

Contoh 4.3 didasarkan pada data untuk sekelompok mahasiswa


kedokteran 77 tahun pertama tersedia untuk salah satu dari kami (NCS).

contoh 4.3

Masalah. Data di bawah ini adalah perbedaan tekanan darah sistolik setelah
latihan - tekanan darah sistolik sebelum latihan diukur dalam mm Hg untuk
sampel acak dari 24 dari kelompok 77 siswa. Mendapatkan 95 per batas
kepercayaan persen untuk perbedaan penduduk berdasarkan (i) uji tanda, (ii)
Wilcoxon signed-rank test dan (iii) t tes, dan komentar pada riateness approp-
masing-masing. Untuk kenyamanan kami telah mengatur perbedaan dalam
urutan yang meningkat.

--
5025101515151
8202020202230
3034404040414
7 80 85
Formulasi dan asumsi. Kami menggunakan metode standar yang
dikembangkan pada Bab 2 dan dalam bab ini.

Prosedur. Kami menghilangkan rincian komputasi (lihat Latihan 4.16 ) Sejak contoh
perhitungan serupa telah diberikan. Interval dikutip di bawah ini
diperoleh dengan menggunakan software statistik yang relevan.

Kesimpulan. 95 interval kepercayaan persen nominal adalah:

© 2001 CRC Press LLC


uji tanda (15, 40)
Wilcoxon (17,5, 35)
t uji (16,87,
35,96)

Komentar. 1. Tidak mengherankan, interval uji tanda adalah terpanjang.


Ada bukti sedikit kemiringan, tapi tidak ada interval serius pengungsi
relatif terhadap orang lain. Wilcoxon Interval menjadi lebih pendek dari
yang didasarkan pada teori yang normal dapat dikaitkan dengan sedikit
lebih berat 'ekor atas' (terutama nilai 80, 85) dari satu harapkan
dengan sampel dari distribusi normal. Uji Lilliefors' normalitas
memberikan nilai uji statistik
0,162, dan diperkirakan P = 0,1071 berdasarkan 10 000 simulasi menggunakan
StatXact.
Untuk tes Shapiro-Wilk ada bukti kuat terhadap normalitas, statistik 0,8999 sesuai
dengan P = 0,0205.

2. Satu-satunya alasan untuk mengambil sampel acak dari 24


dari 77 pengamatan adalah untuk memberikan contoh ilustrasi nyaman.
Hampir pasti orang akan menggunakan semua pengamatan di setiap studi
rinci dari efek latihan pada tekanan darah (dan bunga akan dalam
distribusi perbedaan dan bukan hanya di mean atau perbedaan median).

3.Variasi dalam ukuran perbedaan mengherankan darah


Tekanan pengukuran yang dilakukan oleh berpengalaman mahasiswa
kedokteran tahun pertama. Bacaan biasanya dicatat dengan ketelitian mm
Hg namun dalam prakteknya mereka hanya dapat direkam ke terdekat 5
mm Hg oleh mereka yang tidak terbiasa dengan teknik. Latihan siswa akan
dilakukan dengan berbagai antusiasme. Beberapa perbedaan yang sangat
tinggi dan beberapa perubahan kecil negatif karena itu dimengerti.

4. Menyimpang Komentar 3, ada jelas kesalahan pada asli


komputer print-out yang kita digunakan. Untuk satu siswa pengukuran
tekanan darah sistolik setelah latihan tercatat sebagai 15 mm Hg dan
memberikan perbedaan 15
- 118 = -103. Sebuah pembacaan tekanan darah sistolik kurang dari 80 mm Hg
tidak mungkin (data tidak dipublikasikan dari London Selatan). Nilai dari 15 mm
Hg tekanan darah sistolik setelah latihan jelas tidak benar! Ada dugaan kuat
bahwa digit terakhir telah dihilangkan dan bahwa pembacaan yang benar harus
antara 150 dan 159. Sangat mudah untuk melihat perbedaan seperti pada print-
out dan dalam praktek satu maka akan berusaha untuk melacak sumber error
(dan jika mungkin membuat koreksi yang diperlukan). Kemungkinan sumber
kesalahan adalah kegagalan printer untuk mereproduksi karakter, kesalahan
dalam memasukkan data asli atau membaca awal atau rekaman data oleh
seorang mahasiswa lalai. Tujuan asli dan cara pengumpulan data dapat
mempengaruhi kemungkinan keakuratan hasil rekaman. Dengan meningkatnya
penggunaan paket komputer untuk mengolah data kesalahan seperti itu
mungkin tidak terdeteksi. Telah nilai ini, -103, termasuk dalam sampel kami 24
di tempat entri -5 kita akan memperoleh mengikuti 95 per interval kepercayaan
persen:
uji tanda (15, 40)
Wilcoxon (17,5,
34,5)
t uji (7.83,
36,83)

Pembaca yang memiliki kesulitan menjelaskan perbedaan antara hasil


ini dan yang tercatat di atas dalam hal efek dari 'outlier' harus
mengacu
bagian 2.3.2 . Secara khusus perlu dicatat interval Wilcoxon sedikit
© 2001 CRC Press LLC
berubah karena pengenalan -103 nilai memiliki kecenderungan untuk
membuat distribusi sampel, jika ada, lebih simetris sedikit dari sampel asli.
Namun, ekor menjadi agak lebih lama dari yang diharapkan untuk distribusi
normal dan ini memiliki efek elongating t berdasarkan interval. Untuk tes ini
data yang Lilliefors' diubah memberikan Monte Carlo diperkirakan P = 0,0083
dan tes Shapiro-Wilk memberi P = 0,0001, baik mengisyaratkan sangat di
nonnormality tersirat dalam nilai-nilai ekor.

pengalaman praktis dalam menangani data menyoroti pentingnya


penting untuk mendeteksi kesalahan data. Banyak program
komputer termasuk output untuk membantu mendeteksi outlier;
misalnya print-out dari nilai-nilai maksimum dan minimum sering
(tetapi tidak berarti selalu) menyoroti kesalahan data mencolok.

4.2 PENGGUNAAN KURANG JELAS DARI TANDA tes Cara data


disajikan dalam Contoh 4.4 tidak membuatnya jelas bahwa
tes tanda relevan.

contoh 4.4

Masalah. Anggota klub mountaineering telah lama berdebat tentang mana


dari dua tanjakan batu adalah lebih sulit. Berharap untuk menyelesaikan
pemeriksaan anggota argumen satu buku klub log. Ini mencatat untuk pendakian
apapun oleh anggota apakah itu berhasil diselesaikan. log menunjukkan bahwa
108 anggota telah berusaha baik tanjakan dengan hasil diringkas dalam Tabel
4.3. Apakah ada bukti bahwa satu pendakian lebih sulit?

Formulasi dan asumsi. refleksi Sesaat menunjukkan bahwa seorang pendaki


berhasil di kedua tanjakan, atau gagal di kedua, tidak memberikan informasi
tentang kesulitan relatif; kasus tersebut ikatan sejauh membandingkan kesulitan
yang bersangkutan. Jika kita memiliki informasi tambahan, misalnya tentang
penilaian pribadi masing-masing pendaki kesulitan, situasi akan berbeda. Karena,
pembanding kami hanya bermakna kesulitan adalah nomor yang berhasil pada satu
memanjat, tetapi gagal di lain. Dari Tabel 4.3 kita melihat bahwa 9 berhasil pada
pendakian pertama tetapi gagal pada detik; kita mungkin berpikir ini sebagai 'plus'
untuk pendakian pertama. Juga 14 gagal pada pendakian pertama, tetapi berhasil di
kedua; kita mungkin berpikir ini sebagai 'dikurangi' untuk pendakian pertama.

tabel 4.3 Hasil dari dua tanjakan batu.


________________________________________________

pendakian
pertama Digantikan Gagal
kedua pendakian berhasil 73 14

Gagal 9 12
________________________________________________

© 2001 CRC Press LLC


Ini adalah situasi uji tanda. Jika tanjakan yang sebesar kesulitan 'plus' atau
'dikurangi' adalah sama-sama mungkin untuk setiap pendaki. Jadi di bawah H 0:
tanjakan sama-sama sulit jumlah tanda-tanda
1

'plus' memiliki B ( n, 2) distribusi mana n adalah jumlah total plus dan minus tanda-tanda.

Prosedur. Ada 9 tanda-tanda plus dan 14 dikurangi sehingga n = 23. StatXact memberikan
tes yang tepat P = 0,4049. Atau, menggunakan pendekatan normal untuk distribusi binomial
kita menemukan, menggunakan ( 2.2 ), Yang Z = ( 9,5-11,5) / √ ( 23/4) = - 0,83 memberikan
dua ekor P = 0,4065, sehingga tidak ada bukti bahwa salah satu pendakian lebih mudah.

Kesimpulan. Kami mempertahankan H 0: tanjakan sama-sama sulit. Komentar. 1. Karena 73 + 12 = 85


dari 108

pasang tidak memberikan informasi

pada kesulitan relatif tanjakan ini mungkin tampak data yang terbuang, tapi
'terbuang' data seperti memberikan indikasi seberapa besar atau kecil perbedaan
mungkin. Dalam beberapa situasi kita perlu banyak observasi karena kami sedang
mencari perbedaan kecil yang mungkin tidak jelas dibedakan ketika satu-satunya
kriteria yang relevan adalah keberhasilan / kegagalan atau kategori kegagalan /
keberhasilan. Dalam konteks data ini ada kemungkinan bahwa sebagian besar dari
mereka yang gagal di kedua kurang berpengalaman atau kurang antusias dari
mereka yang mencapai satu keberhasilan dan juga bahwa mereka yang berhasil di
kedua adalah lebih berpengalaman atau lebih antusias.

2. kelangsungan koreksi menggantikan 9 9,5 di pembilang dari


pendekatan asimtotik memiliki efek yang nyata dalam contoh ini. Jika dihilangkan
dua ekor P berkurang 0,4065-0,2971. Kesimpulan kami, namun, dalam kasus ini
tidak akan diubah oleh perubahan numerik cukup ini.
3. Akan menarik untuk mengetahui apakah anggota klub umumnya berusaha
memanjat dalam urutan tertentu sebagai efek pembelajaran mungkin kemudian terlibat.

aspek komputasi. StatXact dan juga banyak paket umum termasuk program
untuk tes sederhana ini yang dapat digunakan untuk mendapatkan yang
relevan P Nilai untuk uji tanda.

Tes ini disebut Uji McNemar, yang telah diusulkan oleh


McNemar (1947). Conover (1999, bagian 3.5 ) Menyajikan lebih
formal, tetapi secara efektif uji tanda berpasangan-sampel.

4.3 DAYA DAN CONTOH UKURAN

Di bagian 3.1.3 kita menjelajahi kekuatan beberapa tes untuk probabilitas


binomial dalam
bentuk H 0: p = p 0 terhadap alternatif bernilai tunggal seperti H 1: p = p 1 di
mana pilihan p 0, p 1 ditentukan oleh relevansi mereka untuk risiko produser
dan konsumen terkait dengan skema
sampling. perhitungan daya yang tepat relatif mudah dan kami
diilustrasikan penggunaannya dalam menemukan ukuran sampel
untuk memenuhi risiko produsen dan konsumen tertentu. Kita
sekarang mempertimbangkan hubungan antara kekuasaan dan
ukuran sampel untuk tes sentralitas single-sampel yang relevan baik
untuk situasi single-sampel dasar atau perbedaan antara pasangan
yang cocok. hasil yang tepat hanya tersedia

© 2001 CRC Press LLC


dalam jumlah terbatas kasus dan dalam konteks ini kekuatan alternatif
yang ditentukan pada umumnya tidak distribusi bebas bahkan ketika
tes itu sendiri. Ini membatasi nilai keseluruhan perhitungan daya yang
tepat. Namun demikian, menyediakan satu latihan peduli dalam
penafsiran, daya komputasi perkiraan untuk ukuran sampel yang
diberikan sebelum memulai percobaan membantu satu memanfaatkan
sumber daya yang efisien. Kami pertama menyoroti beberapa fitur
utama dan keterbatasan menggunakan contoh sederhana untuk

uji tanda, di mana hanya relatif


perhitungan sederhana diperlukan. Kami kemudian
mempertimbangkan secara singkat Uji Peringkat Bertanda Wilcoxon
mana penentuan daya dan ukuran sampel memperkenalkan
kesulitan yang lebih besar baik dalam teori dan praktek.

4.3.1 Power dan sampel ukuran untuk uji tanda

contoh 4.5 untuk 4.7 mencakup tiga situasi di mana kita menggunakan uji tanda
untuk median θ form H 0: θ=θ 0 melawan H 1: θ>θ 0 di mana alternatif yang
spesifik H 1: θ=θ 0+ 1 mencerminkan keberangkatan minimal dari
H 0 kepentingan, yaitu hanya pergeseran positif dalam median
dari setidaknya satu unit penting praktis. Tanpa kehilangan umum
(lihat, misalnya
contoh 4.2 ) Kita set θ 0 = 0. Kami membatasi perhatian pada uji
satu-ekor, tapi modifikasi untuk uji dua-ekor mudah jika
menggunakan prinsip penggandaan satu-ekor P Nilai untuk
setara dua ekor. Jika kita menghitung kekuatan tes untuk
alternatif H 1: θ = 1 maka jika pergeseran benar melebihi satu
unit daya akan secara umum lebih besar. Dari contoh-contoh ini
akan muncul bahwa untuk tiga distribusi populasi yang berbeda
semua memiliki varians yang sama kekuatan dari tes setara
berbeda untuk masing-masing, membenarkan pernyataan di
atas kekuatan yang tidak properti distribusi bebas. Ini harus
menyebabkan tidak mengherankan dalam terang hasil yang
terkenal bahwa efisiensi Pitman tes tergantung pada distribusi
penduduk yang mendasari.

contoh 4.5

Masalah. Untuk sampel dari 10 dari distribusi normal dengan mean diketahui
θ dan standar deviasi 2 apa adalah kekuatan uji tanda untuk H 0: θ = 0 terhadap
H 1: θ = 1 ketika probabilitas dari kesalahan tipe I adalah α = 0.05? Berapa
ukuran sampel akan memastikan tes dengan kekuatan 0,9?
Formulasi dan asumsi. Dibawah H 0 jumlah nilai sampel positif (plus) memiliki B (10, 2)

distribusi. Jika
1

jumlah tanda plus adalah uji statistik kemudian di bawah H 1 ini masih akan
memiliki distribusi binomial, tetapi nilai p sekarang diberikan oleh Pr ( X> 0) = p 1,
mengatakan, di mana X memiliki N (1, 4) distribusi.
Dengan demikian tes ini setara dengan pengujian H 0: p = 2 melawan H 1: p = p 1 dan sekali
p 1 dihitung studi 1

daya saat n = 10 dan bahwa untuk menentukan ukuran sampel

© 2001 CRC Press LLC


diperlukan untuk setiap kekuasaan yang ditentukan melanjutkan dengan cara yang
dijelaskan dalam bagian 3.1.3 . Prosedur. Sejak X adalah N (1, 4) jika H 1 memegang itu
berikut bahwa Z = (X - 1) / 2 memiliki
1

standar distribusi normal, mana p 1= Pr ( X > 0) = Pr ( Z> - 2) = 0,6915, nilai yang dapat
diperoleh dari tabel atau perangkat lunak yang sesuai. Kekuatan kemudian dapat
diperoleh dari tabel atau perangkat lunak dalam cara yang dijelaskan di contoh 3.3 , Di
mana di sini kita menguji H 0: p = 0,5 terhadap H 1: p = 0,6915. Menggunakan perangkat
lunak komputer adalah lebih baik, karena tidak mungkin bahwa tabel akan tersedia
untuk tepatnya nilai akhir p dan perkiraan seperti p = 0,7 maka mungkin harus
digunakan. Dengan nilai-nilai ini dari p, StatXact memberikan kekuatan sebagai 0,1365
untuk ukuran sampel 10. Namun, diskontinuitas yang berpengaruh di sini sebagai
terkecil yang mungkin ekor satu- tepat P nilai-nilai di bawah H 0 adalah P = 0,001, P =
0,011 dan P = 0,055. Telah kita diganti

α = 0. 05 oleh α = 0. 01 1 th ep ow er wo ul d st i akan berada 0 0,1 36 5 wh e kembali sebagai ifwe se t

α = 0,055 listrik menjadi 0,3604. Minitab menggunakan imation approx- asimtotik


untuk kekuasaan, memberikan ini sebagai 0,3914 saat = 0,05. Satu memiliki
keberatanα tentang hasil asimtotik untuk sampel sangat kecil, tapi 0,3914 adalah
luas sejalan dengan nilai-nilai yang tepat diperoleh untuk kemungkinan kesalahan
tipe I sedikit di atas nominal 0,05. Hasil asymptotic harus lebih memuaskan untuk
menemukan yang lebih besar n
diperlukan untuk memastikan kekuatan, katakanlah, setidaknya 0,90. Program Minitab
memberikan ini sebagai n = 55. Finer tala menggunakan hasil yang tepat dari StatXact
memberikan n = 58 sebagai minimum yang diperlukan ukuran sampel yang sesuai dengan sebuah
tepat P = 0,0435 dan daya yang tepat 0,9031.

Kesimpulan. Untuk sampel n = 10 daya hanya 0,1365 tapi kekuatan ini rendah di
bagian mencerminkan kesenjangan yang besar antara yang mungkin P nilai 0,011
dan
0,055. Untuk daya setidaknya 0,90 untuk uji satu-ekor ukuran sampel harus setidaknya
58.

Komentar. 1. Pitman efisiensi uji tanda relatif terhadap t tes untuk sampel
dari populasi normal adalah 0,64. Ini berarti bahwa untuk besar n efisiensi
relatif kurang dari dua pertiga, menunjukkan bahwa sampel pertiga tentang dua
ukuran harus memiliki kekuatan yang sama jika kita menerapkan t uji. Banyak
paket statistik memungkinkan perhitungan daya untuk t Tes bila optimal, dan
dalam hal ini ini menunjukkan bahwa untuk N ( θ, 4) distribusi ukuran sampel
yang diperlukan dengan kekuatan 0,90 dengan nilai-nilai yang dipilih kami θ di
H 0 dan H 1 aku s n = 36, secara luas sejalan dengan yang disarankan oleh
efisiensi Pitman.

2. dihitung kami p 1= 0,6915 didasarkan pada asumsi yang kuat bahwa kami
sampel adalah dari N ( θ, 4) distribusi. Kita jarang mengetahui varians
populasi tetapi tidak berarti dan jika kita memiliki informasi tersebut (atau
hanya bisa berasumsi normalitas dengan tidak diketahui varians) jelas salah
satu harus memilih normal inferensi berbasis teori itu menggunakan uji
tanda. Namun, hasil yang diperoleh di sini menerangi untuk perbandingan
dengan situasi tertutup contoh 4.6
dan 4.7 di mana populasi tidak normal lagi dengan varians dari 4 diasumsikan.
contoh 4.6

Masalah. Mengingat sampel 10 dari distribusi ganda-eksponensial dengan


mean diketahui dan standar deviasi 2 menemukanθ kekuatan uji tanda untuk H 0:

= 0 terhadap H 1: = 1 jika probabilitas dari kesalahan θ tipe I adalah α = 0.05.


θBerapa ukuran sampel akan memastikan kekuatan setidaknya 0,9?

© 2001 CRC Press LLC


Formulasi dan asumsi. Ganda-eksponensial distribusi, juga dikenal
sebagai distribusi Laplace, dengan mean θ dan standar deviasi 2
(varians 4) memiliki fungsi kepadatan probabilitas
f (x) = [ 1 / (2 √ 2)] exp [- | ( x - ) | / √ 2]. (4.1)
θ
distribusi adalah simetris terhadap mean θ. Probabilitas yang terkait dengan
ekor yang lebih besar dari orang-orang untuk distribusi normal dengan mean
dan varians yang sama dan ini adalah contoh klasik dari distribusi simetris ekor
panjang.
Dibawah H 0 jumlah nilai sampel positif (plus) lagi memiliki B (10, 2)
1
distribusi. Jika jumlah tanda plus adalah uji statistik ini juga akan memiliki
distribusi binomial di bawah H 1 tapi parameter p sekarang diberikan oleh Pr (
X> 0) = p 1,

mengatakan, di mana X memiliki distribusi ganda-eksponensial (4.1) dengan θ = 1. Dengan


demikian tes asli setara dengan pengujian H 0: p = 2 melawan H 1: p = p 1 dan studi daya untuk
1
ukuran sampel yang diberikan dan untuk menentukan ukuran sampel yang diperlukan untuk
setiap kekuasaan yang ditentukan lanjutkan seperti dijelaskan dalam bagian 3.1.3 .

Prosedur. Nilai dari p 1 diberikan dengan menetapkan θ = 1 di (4.1) dan


mengintegrasikan lebih interval (0, ∞). Integrasi sangat mudah ( Latihan 4.17 ) Dan
memberikan p 1
1

= 0,7534. untuk pengujian H 0: p= 2 melawan H 1: p = 0,7534 saat α = 0,05 StatXact


memberikan kekuatan yang tepat 0,2518. Diskontinuitas dalam mungkin p- nilai-nilai yang
sama dengan yang di contoh 4.5 dan mengganti α = 0,05 dengan α = 0,011 tidak mengubah
kekuatan, sedangkan menggantinya dengan α = 0,055 memberikan kekuatan 0,5358.
Perhitungan kekuatan asymptotic diberikan oleh Minitab saat α = 0,05 adalah 0,4805. Sekali
lagi, di sini hasil asimtotik mungkin akan lebih memuaskan ketika mencari yang lebih besar n

diperlukan untuk memastikan kekuatan minimal 0,90. Minitab dalam hal ini memberikan n
= 30. Finer tala menggunakan hasil yang tepat menegaskan minimum yang diperlukan
ukuran sampel ini sesuai dengan sebuah tepat P = 0,0494 dan memberikan daya yang
tepat 0,9023.

Kesimpulan. Untuk sampel n = 10 kekuatan sekarang 0,2518 namun kekuatan


ini rendah di bagian mencerminkan kesenjangan yang besar antara yang mungkin
P nilai 0,011 dan
0,055. Sebuah sampel dari 30 memberikan kekuatan setidaknya 0,90 untuk uji satu-ekor.

Komentar. 1. Ukuran sampel 30 adalah sekitar setengah ukuran (58) yang dibutuhkan
untuk kekuatan yang sama ketika menggunakan uji tanda dengan distribusi
normal dengan varians yang sama. Hal ini sejalan dengan efisiensi Pitman dari
uji tanda relatif terhadap t Tes yang 2 ketika sampling dari distribusi ganda
eksponensial. Kita harus ingat, bagaimanapun, bahwa t tes itu sendiri memiliki
efisiensi yang lebih rendah untuk sampel dari distribusi ganda-eksponensial
daripada memiliki untuk distribusi normal dengan mean dan varians yang sama.

2. Alasannya uji tanda lumayan lebih kuat untuk menguji sama


hipotesis dasar tentang θ dalam tes ini daripada untuk tes setara dalam contoh sebelumnya
adalah bahwa meskipun nilai-nilai yang sama θ ditentukan dalam kedua contoh dan bahwa
untuk H 0 diterjemahkan menjadi p = 0,5 dalam setiap kasus, bahwa untuk H 1 mengubah ke
p = 0,6915 dan p = 0,7634 masing-masing, sehingga untuk contoh kedua kita memiliki
keberangkatan lebih ditandai dari nilai p dibawah H 0. Bahwa ini menghasilkan tes yang lebih
kuat ini sejalan dengan gagasan kami tes yang baik menjadi salah satu di mana meningkat
kekuatannya sebagai perbedaan antara nilai yang ditentukan dalam H 1 meningkatkan relatif
terhadap nilai tetap ditentukan dalam H 0.

© 2001 CRC Press LLC


contoh 4.5 dan 4.6 sampel unggulan dari tributions dis simetris.
Kita sekarang mempertimbangkan distribusi miring dengan unit
pergeseran yang sama satu-ke kanan.
terjadi di sini tidak biasa dalam praktek tetapi memberikan perbandingan
langsung dengan contoh 4.5 dan 4.6 karena kita lagi mengambil kasus di
mana kita sampel dari distribusi dengan varians dari 4.

Contoh 4.7.

Masalah. Mengingat sampel 10 dari suatu populasi dengan fungsi


kepadatan probabilitas distribusi eksponensial memiliki
f (x) = 1 (4.2)
2 exp [- 2 ( x + 1,3862 - θ)], x ≥ θ - 1,3862
1
yang memiliki median θ dan standar deviasi 2 apa adalah kekuatan uji tanda H 0: θ=0
terhadap H 1: θ = 1 jika probabilitas dari kesalahan tipe I adalah α = 0.05. Cari juga
ukuran sampel yang akan memastikan tes dengan kekuatan setidaknya 0,9.

Formulasi dan asumsi. Distribusi ditentukan oleh (4,2) adalah condong dengan ekor
panjang yang
tepat. Seperti pada contoh sebelumnya di bawah H 0 jumlah nilai sampel positif (plus)
memiliki B (10, 2) distribusi.
1
Menggunakan jumlah tanda plus sebagai uji statistik di tribusi binomial di bawah
s
ini juga memiliki H 1 tapi
sekarang p 1 = Pr ( X > 0). Dengan demikian tes asli setara dengan 1

pengujian H 0: p = 2

melawan H 1: p = Pr ( X > 0) dan studi daya untuk ukuran sampel yang diberikan dan untuk
menentukan ukuran sampel yang diperlukan untuk setiap kekuasaan yang ditentukan lagi
lanjutkan seperti dijelaskan dalam bagian 3.1.3 .

Prosedur. Hal ini mudah ditunjukkan oleh integrasi langsung dari fungsi kepadatan
probabilitas lebih (0, ∞) bahwa di bawah H 1 Pr ( X > 0) = 0,8244 ( Latihan 4.18 ). untuk
pengujian H 0: p = 2 melawan H 1: p = 0,8244 saat α = 0,05
1

StatXact memberikan kekuatan yang tepat 0,4539. Diskontinuitas dalam mungkin


P nilai-nilai yang dijelaskan dalam Contoh
4,5 yang lagi relevan dan jika kita mengganti α = 0,05 dengan α = 0,011 tes masih
memiliki kekuatan 0,4539 sedangkan jika kita menggantinya dengan α = 0,055
listrik menjadi 0,7499. Perhitungan kekuatan asymptotic diberikan oleh Minitab
saat α = 0,05 adalah
0,6970. Sekali lagi, di sini hasil asimtotik mungkin akan lebih memuaskan untuk menemukan
yang lebih besar n diperlukan untuk memastikan kekuatan minimal 0,90. Program Minitab
dalam hal ini memberikan n = 17. Finer tala menggunakan hasil yang tepat di StatXact
menunjukkan n = 18 adalah minimum yang diperlukan ukuran sampel yang sesuai dengan
sebuah tepat P =
0,0481 dan memberikan kekuatan yang tepat 0,9194.

Kesimpulan. Untuk sampel n = 10 kekuatan adalah 0,4539 tapi ini lagi


dipengaruhi oleh kesenjangan yang besar antara yang mungkin P nilai 0,011 dan
0,055. Untuk memberikan kekuatan setidaknya 0,90 untuk uji satu-ekor sampel
berukuran 18 sudah cukup.
Komentar. 1. uji tanda ini sangat berguna untuk distribusi miring dan
dalam contoh ini di mana kita memiliki ekor panjang yang tepat tes memiliki
kekuatan moderat untuk sampel cukup kecil untuk alternatif yang dipertimbangkan.
Kombinasi dari skewness dan ekor panjang mengurangi kekuatan dari t menguji
lumayan sebagai konsekuensi dari pemecahan asumsi normalitas.

2. Sebagaimana ditunjukkan di atas contoh tidak realistis dari sudut pandang praktis
karena kita jarang bertemu distribusi eksponensial di mana kita tertarik
© 2001 CRC Press LLC
pergeseran sederhana dari distribusi yang lengkap yang mempengaruhi mean atau median
saja. Kami lebih sering tertarik apakah sampel berasal dari satu atau lain dari satu set
distribusi eksponensial di mana semua nilai-nilai positif X yang mungkin tetapi di mana
parameter skala λ tidak diketahui. Perubahan dalam λ menyebabkan perubahan dalam tidak
hanya berarti atau median tetapi juga dalam varians dan saat-saat yang lebih tinggi. Ini
lebih rumit daripada pergeseran sentralitas sederhana. Namun demikian uji tanda masih
berlaku untuk mempelajari perubahan tersebut memberikan kita mendasarkan pengujian
kami pada alokasi tanda-tanda untuk pengamatan tergantung pada apakah mereka berada
di atas atau di bawah rata-rata yang ditentukan dalam H 0. Latihan 4.19 ditujukan untuk
pembaca yang tertarik dalam mengeksplorasi kekuatan dan sampel-ukuran hubungan untuk
kasus ini.

Menemukan ukuran sampel yang memadai untuk memberikan


kesempatan
yang baik untuk mendeteksi pergeseran rata-rata bunga adalah
latihan yang
berguna tetapi satu dengan keterbatasan praktis. contoh 4.5 untuk
4.7 mengkonfirmasi
bahwa bahkan jika tes adalah distribusi bebas perhitungan daya yang
terkait
dengan hipotesis spesifik tentang populasi berarti atau
median tidak lagi distribusi bebas. Selanjutnya, perhitungan
daya yang tepat hanya dapat dilakukan dengan mudah jika
kita menganggap semua pengamatan berasal dari populasi
dengan distribusi tertentu, sedangkan kita telah melihat
bahwa salah satu kekuatan uji tanda penerapannya pada
situasi di mana setiap pengamatan mungkin berasal dari
distribusi yang berbeda memberikan hanya itu semua distro
ini memiliki median umum. Ada juga ironi tertentu bahwa
kita dapat memilih tes bebas nonparametrik atau distribusi-
karena kita tidak yakin mengenai distribusi yang
menyediakan sampel kami, namun perhitungan ukuran
sampel untuk menjamin daya yang diinginkan membutuhkan
pengetahuan tentang distribusi!

Keterbatasan lebih lanjut untuk kegunaan kekuasaan dan sampel


perhitungan ukuran berlaku baik untuk inferensi parametrik dan
nonparametrik. Menggunakan uji dengan kekuatan yang baik untuk
penolakan H 0 perbedaan penting tidak berarti bahwa jika H 0 ditolak
maka perbedaan penting. Sebuah selang kepercayaan lebih informatif
tentang ini. Untuk menggambarkan hal ini, mempertimbangkan situasi
di contoh 4.5 untuk
4.7 . Dalam setiap kita mengasumsikan median nol, θ, dibawah H 0 dan
bahwa hanya nilai θ ≥ 1 mewakili keberangkatan yang menarik. Jika kita
menolak H 0 dan menghitung interval persen kepercayaan 95 per untuk θ
dan ini ternyata menjadi (0,2, 1,3) ada cukup keraguan tentang apakah ≥
1, sehingga keberangkatan dari H 0 masih mungkin tidak penting. Kamiθ
menekankan lagi perbedaan yang dibuat dalam bagian 1.4.2 antara
signifikansi statistik dan kepentingan praktis.

Meskipun keterbatasan mereka perhitungan kekuatan perkiraan adalah


langkah pertama yang berguna dalam banyak situasi eksperimental.
Mereka mungkin menunjukkan

© 2001 CRC Press LLC


bahwa percobaan yang diusulkan terlalu kecil untuk memiliki kesempatan
yang realistis mengambil keberangkatan menarik dari H 0, atau lebih jarang
mungkin menyarankan kita sia-sia menyia-nyiakan sumber daya ketika
sebuah eksperimen kecil akan memberi kita semua informasi yang kita
butuhkan. Power dan sampel penelitian ukuran memberikan ukuran target
untuk percobaan mungkin dari nilai, atau jika kita memiliki sumber daya
terbatas menunjukkan apakah menggunakan semua ini akan cukup untuk
mencapai tujuan suatu percobaan ini.

Meskipun kekuatan tes sederhana seperti uji tanda tidak distribusi


bebas, studi listrik masih berguna jika kita dapat membuat asumsi luas
tentang jenis penyebaran penduduk kita miliki, misalnya apakah simetris
dan ekor panjang, atau sesuatu yang lebih seperti distribusi seragam?
Apakah miring ke kanan atau ke kiri? Kecuali itu sangat kecil sampel itu
sendiri sering akan memberikan beberapa petunjuk, apakah itu berasal dari
distribusi dengan satu atau lebih karakteristik seperti. Jika ada bukti
bahwa distribusi ini cukup simetris dan memiliki ekor yang lebih panjang
daripada yang terkait dengan studi kekuatan distribusi normal yang
optimal untuk distribusi ganda-eksponensial dapat memberikan perkiraan
yang baik. contoh 4.7 menunjukkan bahwa untuk distribusi condong
tertentu dengan satu ekor panjang tes tanda berkinerja baik dibandingkan
dengan t tes dan studi lebih umum telah menunjukkan bahwa ini secara
luas berlaku untuk sebagian besar distribusi miring dengan ekor panjang.
Sangat sering pemeriksaan mata cepat dari nilai-nilai sampel dibantu
mungkin oleh beberapa analisis data eksplorasi yang melibatkan alat-alat
seperti kotak dan kumis petak akan menunjukkan bahwa sampel
tampaknya telah datang dari, katakanlah, distribusi ekor panjang yang
cukup simetris tidak berbeda dengan eksponensial ganda. Kami mungkin
'estimasi' varians sebesar varians sampel dan untuk hipotesis nol tentang
median, θ, H 0: θ=θ 0 dan alternatif tertentu H 1: θ=θ 1 menghitung nilai p
1 = Pr ( X > 0)

θ
dengan asumsi distribusi X adalah benar-benar sebuah double-eksponensial
dengan
varians sama dengan varians sampel. Dalam situasi seperti ini, kita tahu
distribusi
populasi yang sebenarnya kita secara efektif dengan asumsi bahwa yang
benar p 1 mungkin
sedikit berbeda dari yang untuk asumsi distribusi eksponensial ganda.
Misalkan untuk
hipotesis alternatif
bunga p 1= 0,82 untuk ganda-eksponensial
distribusi, maka kita mungkin konservatif dan bekerja di luar kekuasaan
untuk situasi ini dan juga bahwa untuk sedikit lebih rendah p 1,

mengatakan p 1= 0.78. Sangat mungkin bahwa kekuatan sejati akan


terletak di suatu tempat di dekat nilai yang diberikan oleh pendekatan ini.

Jika ada masalah dalam mengerjakan ukuran sampel yang tepat


untuk memastikan kekuatan tertentu untuk uji tanda karena
perangkat lunak yang sesuai tidak tersedia pendekatan asimtotik
baik karena Noether (1987a) dapat digunakan. Yang menunjukkan
probabilitas kesalahan tipe I dengan α

© 2001 CRC Press LLC


dan bahwa dari jenis kesalahan II oleh β, sehingga daya adalah 1 - β maka ukuran
sampel yang diperlukan untuk memperoleh kekuasaan yang dengan uji tanda
adalah
( zα + -zp )
β
n = 2 (4.3)
1 )2
4
1
( 2

dimana p 1 telah makna yang ditugaskan untuk itu seluruh bagian ini dan
z α adalah nilai dari variabel normal standar yang harus melebihi yang
sesuai dengan P nilai α kapan H 0 memegang. Sebagai contoh, dalam
uji satu-ekor dengan = 0,05, z α = 1,645. Sebuah makna yang miripα
melekat z β.

contoh 4.8

Masalah. Terapkan Noether rumus perkiraan untuk menghitung ukuran sampel n


untuk tes dipertimbangkan dalam contoh 4.6 untuk memberikan kekuatan
setidaknya 0,9 ketika
α = 0,05 dalam uji satu-ekor.

Formulasi dan asumsi. Nilai yang sesuai dari p 1 ditunjukkan di


contoh 4.6 menjadi p 1= 0,7534 dan jelas z α= 1,645 dan z β= 1,282.

Prosedur. Pergantian dari nilai-nilai di atas dalam rumus Noether memberikan n


≈ 33,4.

Kesimpulan. Konservatif pembulatan up menunjukkan ukuran sampel dari 34 adalah


tepat.

Komentar. 1. Hasil asymptotic ini dekat dengan ukuran n = 30 ditemukan di


contoh 4.6 . Mengingat bahwa kita mungkin sering menggunakan perhitungan
seperti ketika ada beberapa ketidakpastian tentang distribusi populasi yang tepat,
perhitungan dengan menggunakan rumus Noether akan sering memadai dalam
praktek.
2. Untuk masalah di contoh 4.5 rumus Noether memberikan n = 56.4 di
cl os e ag r ee saya nt wi th mantan ac tv al ue n = 58, nd di E xa mp le 4. 7 memberikan n
= 22,9 (nilai yang tepat n = 18) menyarankan pendekatan yang tidak masuk akal
bahkan ketika pengamatan berasal dari distribusi yang sangat miring.

4.3.2 Power dan sampel ukuran untuk Wilcoxon signed-rank tes

Kami menganggap topik ini dalam waktu kurang rinci daripada yang
kita lakukan untuk uji tanda sebagian karena kesulitan tambahan
dalam melakukan tes tepat tetapi juga karena keterbatasan
pendekatan ditunjukkan dalam diskusi kami untuk uji tanda berarti
bahwa hasil perkiraan sering semua bisa kita dapatkan di praktek.

Sebuah properti sederhana dari uji tanda di bawah


alternatif H 1 dipertimbangkan dalam bagian 4.3.1 adalah bahwa
tidak peduli dari apa distribusi kami sampling statistik uji, jumlah
tanda plus, memiliki distribusi binomial. Untuk statistik ini, untuk
setiap nilai tertentu θ di
H 1 semua yang berbeda antara sampel dari distribusi yang berbeda adalah

© 2001 CRC Press LLC


nilai parameter binomial p 1. Kesederhanaan ini adalah fitur
statistik yang digunakan, jumlah tanda-tanda plus.
Meskipun sesuai statistik untuk Wilcoxon signed-rank tes, jumlah
dari jajaran ditandatangani positif, memiliki distribusi simetris
relatif sederhana di bawah H 0 itu umumnya mendapat distribusi
yang agak keras di bawah setiap H 1 untuk semua tetapi beberapa
distribusi populasi sederhana. perhitungan daya yang tepat hanya
telah dibuat untuk ukuran sampel yang kecil dan untuk sejumlah
distribusi penduduk seperti normal dan beberapa t distribusi
dengan sejumlah kecil derajat kebebasan, Lihat misalnya Klotz
(1963) dan Arnold (1965). Bahkan perkiraan terbatas dalam
kegunaannya.
Formula perkiraan kekuasaan untuk ukuran sampel yang
diberikan terhadap alternatif dekat dengan yang di H 0 dibahas
secara rinci oleh Lehmann (1975, Bagian 4.2) dan contoh
penggunaannya diberikan oleh Hollander dan Wolfe (1999,
Bagian 3.1). Hasilnya hanya berlaku jika semua pengamatan
berasal dari distribusi yang sama. Selain itu, salah satu
kebutuhan untuk mengetahui nilai dari fungsi frekuensi
penduduk di median atau berarti yang ditentukan dalam H 0
( yang tanpa kehilangan umum dapat ditetapkan pada θ = 0) dan

juga nilai di median ini fungsi frekuensi untuk jumlah dari dua
variabel independen yang memiliki distribusi yang sama ini.
Kecuali untuk beberapa distribusi seperti biasa dimana jumlah
ini juga memiliki distribusi normal, perhitungan yang terakhir
membutuhkan pemahaman yang baik tentang teori distribusi
dan kalkulus.

Alasan distribusi jumlah dari dua pengamatan independen datang


ke dalam
perhitungan adalah serumpun dengan relevansi rata-rata
Walsh dalam prosedur
pengujian dan estimasi terkait dengan jajaran
ditandatangani. jumlah ini untuk
setiap dua nilai sampel memiliki tanda yang sama sebagai
Walsh rata-rata yang
sesuai (yang hanya bahwa jumlah dibagi 2) dan di bawah H 0:
θ = 0 tanda sama
1
cenderung positif atau negatif, yaitu Pr ( x saya + x j > 0) = 2

sedangkan di bawah H 1: θ=θ 1, jika θ 1 positif maka Pr ( x saya + x j> 0) = p 1


1
dimana p 1 > 2. Nilai dari p 1 tergantung pada distribusi
penduduk dan tidak selalu mudah untuk menghitung.
Meskipun signed-rank statistik tidak lagi memiliki distribusi binomial
pendekatan karena Noether diberikan dalam ( 4.3 ) Masih dapat
digunakan untuk memperkirakan ukuran sampel memiliki daya yang
diberikan. Namun, untuk diberikan θ 1 ini mungkin sulit untuk
menghitung kecuali untuk beberapa distribusi sederhana dan mungkin
juga sensitif terhadap pilihan yang salah penyebaran penduduk, sekali
lagi menggambarkan dilema yang terjadi dengan perhitungan daya
ketika menggunakan metode nonparametrik karena ketidakpastian
tentang distribusi penduduk.

© 2001 CRC Press LLC


contoh 4.9

Masalah. Menggunakan pendekatan berdasarkan ( 4.3 ) Menentukan


ukuran sampel perkiraan yang diperlukan untuk menjamin kekuatan 0,80 menggunakan uji
Wilcoxon ketika
sampling dari N normal ( θ, 4) distribusi dan kami ingin menggunakan tail test satu-
untuk H 0: θ = 0 terhadap H 1: θ = 1 dengan probabilitas dari kesalahan tipe I tidak
melebihi α = 0.05.

Formulasi dan asumsi. Kami membutuhkan p 1= Pr ( X 1+ X 2> 0) di mana X 1, X 2

yang independen N (1, 4) dan ini bersama-sama dengan nilai yang sesuai dari z α. z β yang
diganti di (4,3) untuk memperkirakan n. Prosedur. Menggunakan teori distribusi normal
konvensional kita tahu bahwa U = X 1+ X 2 didistribusikan N (2, 8) di bawah H 1. Jadi Z = (U - 2) /
(2 √ 2) memiliki distribusi normal standar dan itu berikut bahwa Pr ( U > 0) menyiratkan p 1= Pr
( Z > -1 / √ 2) = Pr ( Z > -0,7071) = 0,7601. Jelas z α= 1,645 ketika = 0,05 dan untuk daya 0,8 kita
memiliki β = 0,2 dan z β= 0,842. Pergantian dari nilai-nilai ini di ( 4.3 ) memberikan n ≈ 23.
α

Kesimpulan. Sebuah ukuran sampel dari 23 harus hampir memenuhi persyaratan.

Komentar. Minitab, seperti banyak paket lainnya, menyediakan program


untuk menentukan ukuran sampel untuk memberikan kekuatan yang diperlukan
ketika teori yang normal optimal t Tes digunakan dalam keadaan ini dan
menunjukkan ukuran sampel n = 25. Hal ini menunjukkan ukuran uji asimtotik
dari 23 untuk uji Wilcoxon mungkin meremehkan karena efisiensi Pitman dari
Wilcoxon tes relatif terhadap tes optimal dalam hal ini adalah 3 / π, yang sedikit
kurang dari 1. Namun, hasilnya adalah dari urutan yang benar besarnya.

4.4 BIDANG APLIKASI

Dalam sebagian besar aplikasi jika nilai numerik dari perbedaan


untuk masing-masing pasangan yang cocok tersedia dan ini tidak
tampak terlalu miring, uji Wilcoxon (atau tes analog
menggunakan skor normal) cenderung sesuai. pasang cocok t tes
tepat jika perbedaan d i = y saya - x saya sekitar terdistribusi normal;
kadang-kadang ini mungkin terjadi bahkan ketika distribusi X, Y

masing-masing jauh dari normal. Jika ada bukti skewness dalam


perbedaan tes tanda adalah lebih baik.

Laboratorium kalibrasi instrumen

Dua merek yang berbeda dari instrumen konon mengukur hal yang
sama (misalnya tekanan darah, kadar hormon, kadar gula urin, kadar
bakteri dari dahak), tetapi masing-masing tunduk pada beberapa
error. Sampel dari, katakanlah, masing-masing 15 pasien mungkin
dibagi menjadi dua subsampel, pertama yang dianalisis dengan satu
jenis instrumen, yang kedua dengan yang lain. Sebuah tes Wilcoxon
tepat untuk menguji

© 2001 CRC Press LLC


perbedaan sistematis antara instrumen. Ketika mengaku untuk
mengukur hal yang sama perbedaan sistematis dari nilai-nilai yang
benar dalam sarana atau median sering digambarkan sebagai berarti
atau Bias median.
'Bias' istilah saja biasanya diambil untuk menyiratkan berarti Bias.

Biologi

Tingkat detak jantung kelinci mungkin diukur sebelum dan


setelah mereka diberi makan diet kaya hormon-. Uji Wilcoxon
sesuai untuk menyelidiki pergeseran berarti. 'Sebelum' dan
'setelah' pengukuran yang umum dalam konteks medis dan
biologis, termasuk percobaan pada obat-obatan dan rangsangan
lainnya, yang dapat berupa fisik atau biologis (misalnya tekanan
darah kelinci dapat diukur ketika sendiri dan lagi setelah itu telah
berbagi kandang selama setengah jam dengan kelinci dari lawan
jenis). interval kepercayaan untuk selisih rata berguna baik
sebagai indikasi ketepatan percobaan ( bagian 1.4.2 ) Dan untuk
membantu dalam mencapai keputusan apakah perbedaan yang
signifikan secara statistik adalah penting praktis.

kedokteran kerja

Alat yang disebut Vitalograph digunakan untuk mengukur kapasitas


paru-paru. Bacaan mungkin diambil pada pekerja pada awal dan akhir
pergeseran untuk mempelajari efek pada kapasitas paru-paru dari asap
dihirup dalam beberapa proses industri, atau pada atlet sebelum dan
setelah bersaing di sprint 100 meter.

Pertanian

Dalam sebuah percobaan pengendalian hama masing-masing 10 plot


mungkin berisi 40 tanaman selada. Masing-masing plot dibagi menjadi dua
bagian: satu setengah dipilih secara acak disemprotkan dengan satu
insektisida, yang kedua dengan yang lain. Perbedaan dalam jumlah
tanaman uninfested di setiap plot dapat digunakan dalam tes Wilcoxon
untuk membandingkan efek dari insektisida. Kebetulan, percobaan
pengendalian hama adalah situasi di mana asumsi normalitas sering
menduga.

Psikologi
set diberikan kembar identik, itu yang dikenal untuk setiap pasangan
yang pertama kelahiran, untuk setiap individu dalam pasangan kali
untuk melaksanakan tugas manual yang diamati untuk melihat
apakah ada indikasi bahwa sulung cenderung lebih cepat. Pilihannya
mungkin terletak antara

© 2001 CRC Press LLC


uji Wilcoxon dan t uji. interval kepercayaan untuk selisih
rata-rata akan menunjukkan presisi dengan yang
perbedaan diukur dan apakah itu penting praktis.

Keamanan Jalan

Driver waktu reaksi dalam situasi berbahaya dapat dibandingkan


sebelum dan sesudah masing-masing telah dikonsumsi 2 gelas bir,
menggunakan peralatan yang mensimulasikan kondisi berkendara di
jalan. (Ini merupakan respon terhadap stimulus situasi dari jenis yang
disebutkan di atas di bawah judul
Biologi.)

Penelitian luar angkasa

Potensi astronot mungkin memiliki kandungan enzim air liur mereka


ditentukan sebelum dan setelah mereka dikenakan medan gravitasi
nol dalam simulator. Bukti biokimia seperti ini penting dalam
menentukan reaksi fisiologis untuk perjalanan ruang angkasa.

pendidikan

Untuk memutuskan mana dari dua pertanyaan pemeriksaan dirasakan


oleh siswa menjadi lebih keras, kedua pertanyaan bisa dimasukkan
dalam kertas tes di mana calon bebas memilih tidak, salah satu atau
kedua dari dua pertanyaan. Catatan diambil dari nomor yang
menyelesaikan keduanya, tidak, hanya yang pertama, hanya yang
kedua. Angka dalam dua terakhir kategori dapat digunakan dalam uji
tanda McNemar untuk bukti kesulitan yang dirasakan tidak seimbang.

Kebijakan sosial

Sebuah asosiasi dari pegawai pemerintah ingin menemukan bukti yang


mendukung kasus mereka bahwa gaji di sektor publik pada umumnya di
bawah mereka dibayar untuk pekerjaan yang setara di sektor swasta
mungkin mendapatkan data untuk gaji rata-rata dibayar di masing-
masing sektor untuk masing-masing nomor, n, kategori pekerjaan cocok
sehubungan dengan kondisi kerja, tanggung jawab, keamanan kerja, dll
dan menggunakan perbedaan untuk menilai bukti untuk kasus mereka.

4,5 RINGKASAN
tes sampel cocok pasangan perbedaan sentralitas
dipertimbangkan dalam bab ini mengurangi untuk tes
tunggal-sampel analog

© 2001 CRC Press LLC


dipertimbangkan dalam Bab 2. Lihat khususnya uji tanda (
bagian 2.3 ), Wilcoxon signed-rank test ( bagian 2.2 ), Skor data
mentah ( bagian 2.1 ), Normal, atau dimodifikasi van der skor
Waerden ( Bagian
2.4 ). tes umum untuk distribusi perbedaan dipasangkan
termasuk tes Kolmogorov ( bagian 3.3.1 ) Dan uji
Lilliefors dan uji Shapiro-Wilk untuk normalitas ( bagian
3.3.3 ).

Uji McNemar ( bagian 4.2 ) Relevan dengan pengamatan dipasangkan


untuk menilai perubahan sikap atau untuk penilaian kesulitan relatif. Hal
ini setara dengan uji tanda ( bagian 2.3 ).

Power dan sampel perhitungan ukuran untuk sampel tunggal


atau perbedaan pasangan cocok pada umumnya tidak
distribusi bebas dan perkiraan yang cukup baik tergantung
pada asumsi tentang distribusi penduduk. Beberapa
perhitungan kekuatan relatif mudah untuk uji tanda karena
statistik masih memiliki distribusi binomial di bawah
hipotesis alternatif, sedangkan itu
distribusi statistik signed-rank sering membuktikan keras di
bawah hipotesis alternatif.

LATIHAN

4.1 Verifikasi interval kepercayaan yang diberikan dalam Komentar 2 pada contoh 4.2 .
4.2 Tekanan darah 11 pasien diukur sebelum dan setelah
pemberian obat. Perbedaan tekanan darah sistolik (tekanan
sebelum - tekanan setelah) untuk setiap pasien adalah:
7512-3-5214181921-1

Gunakan tes nonparametrik yang tepat untuk melihat apakah sampel (diasumsikan
random)
bertentangan dengan hipotesis tidak ada perubahan sistematis dalam tekanan darah.

4.3 Sampel krim dari masing-masing 10 perusahaan susu (A ke J) masing-masing


dibagi menjadi dua bagian. Satu porsi dari masing-masing dikirim ke
Laboratorium saya, yang lain untuk Laboratorium II, untuk jumlah bakteri.
Hitungan (ribuan bakteri ml -1)

adalah:
__________________________________________________________

perusahaan susu ABCDEFG H saya J


_________________________________________________________

Lab saya 11,7 12,1 13,3 15,1 15,9 15,3 11,9 16,2 15,1 13,6
Lab II 10,9 11,9 13,4 15,4 14,8 14,8 12,3 15,0 14,2 13,1
__________________________________________________________ Gunakan Uji Peringkat
Bertanda Wilcoxon untuk menilai bukti untuk setiap perbedaan yang
konsisten antara laboratorium untuk Subsamples dari susu yang sama.
Mendapatkan juga nominal 95 dan 99 interval kepercayaan persen untuk
mean

© 2001 CRC Press LLC


Perbedaan dan membandingkannya dengan interval dengan menggunakan metode
yang optimal ketika normalitas diasumsikan.

4.4 Hormon ditambahkan ke salah satu diet dinyatakan identik diberikan kepada masing-
masing 40 pasang anak domba kembar. perbedaan pertumbuhan selama periode 3
minggu dicatat untuk setiap pasangan dan jajaran menandatangani dialokasikan
untuk 40 perbedaan. Semakin rendah jumlah peringkat adalah S 1= 242. Hanya ada
satu peringkat dasi. Menyelidiki bukti bahwa hormon dapat mempengaruhi
(meningkat atau menurun) tingkat pertumbuhan.

4,5 A wawancara psikolog ayah dan ibu masing-masing 17 anak yang tidak
berhubungan dengan kesulitan belajar, meminta setiap individu serangkaian
pertanyaan yang dirancang untuk menguji seberapa baik mereka memahami
masalah anak mereka kemungkinan menghadapi dalam kehidupan dewasa.
Catatan psikolog apakah ayah (F) atau ibu (M) menunjukkan pemahaman yang
lebih baik dari masalah-masalah potensial. Untuk 17 keluarga temuan ini

FMMFFFFFFFMFFFMFF Apakah psikolog dibenarkan dalam


menyimpulkan bahwa ayah menunjukkan pemahaman yang lebih
baik?

4.6 Untuk setiap sembilan pasangan yang cocok dari siswa, satu siswa
dialokasikan untuk serangkaian kuliah dan yang lainnya ke komputer
yang sesuai dibantu belajar (CAL) material. Pada akhir kursus siswa
diberi kertas ujian yang sama. Tanda dicapai (dari 100) adalah:
_____________________________________________________
Pasangan 1 2 3 4 5 6 7 8 9
_____________________________________________________
CAL 50 56 51 46 88 79 81 95
73
Kuliah 25 58 65 38 91 32 31 13
49
____________________________________________________ Menganalisis hasil ini dengan apa yang

Anda mempertimbangkan metode metrik atau nonparametrik para- paling tepat


untuk menentukan apakah atau tidak mereka memberikan bukti yang dapat diterima
bahwa bahan CAL mengarah ke hasil pemeriksaan yang lebih baik.
4,7 Seratus dokter umum menghadiri lokakarya promosi kesehatan. Pada awal
lokakarya mereka diminta untuk menunjukkan apakah mereka mendukung
secara rutin menanyakan pasien tentang konsumsi alkohol. Mereka
kemudian menunjukkan video pada masalah kesehatan dan sosial yang
disebabkan oleh konsumsi berlebihan minuman beralkohol. Video ini diikuti
dengan diskusi dalam kelompok kecil. Setelah video dan diskusi mereka
ditanya pertanyaan asli lagi. Apakah hasil yang diberikan di bawah
menunjukkan perubahan mendasar di antara keduanya dalam sikap
sebagai akibat dari video dan diskusi kelompok?

Sebelum video dan diskusi


Dalam
mendukung Melawan
setelah video Mendukun 41 27
yang g

dan diskusi Terhadap 16 58

© 2001 CRC Press LLC


4.8 Sebuah pabrik kaleng-sup adalah bereksperimen dengan sup tomat
baru-rumus. Sebuah panel mencicipi 70 masing-masing rasa sampel
produk saat ini dan yang baru (tanpa diberitahu yang mana). Dari
70, 32 lebih memilih produk baru-rumus, 25 produk saat ini dan
sisanya tidak dapat membedakan antara keduanya. Apakah ada
cukup bukti untuk menolak hipotesis bahwa preferensi konsumen
sama dibagi?

4.9 Apakah data dalam Latihan 4.8 dukungan klaim bahwa sebanyak 75 persen
dari mereka yang memiliki preferensi dapat memilih formula baru?
4.10 Untuk memproduksi baja berkualitas tinggi salah satu dari dua agen pengerasan A, B
dapat ditambahkan ke logam cair. Kekerasan baja bervariasi dari batch ke batch,
sehingga untuk menguji dua agen batch yang dibagi menjadi dua bagian, untuk
setiap agen bets A ditambahkan ke satu bagian, agen B yang lain. Untuk
membandingkan kekerasan, spesimen diasah untuk setiap pasangan yang
digunakan untuk membuat goresan pada satu sama lain; yang membuat goresan
yang lebih dalam di sisi lain adalah spesimen sulit. Untuk 40 pasang, B diputuskan
lebih keras dalam 24 kasus dan A di 16. Apakah bukti yang cukup ini untuk menolak
hipotesis kekerasan yang sama?

4.11 Untuk subsampel dari 10 pasang dari batch baja di Latihan 4.10 tes
yang lebih mahal digunakan untuk menghasilkan indeks kekerasan.
Semakin tinggi nilai indeks, semakin sulit baja. Indeks dicatat adalah:
____________________________________________________________
Batch tidak ada. 1 2 3 4 5 6 7 8 9 10
____________________________________________________________
aditif A 22 26 29 22 31 34 31 20 33
34
aditif B 27 25 31 27 29 41 32 27 32
34
____________________________________________________________ Gunakan uji yang tepat
untuk menentukan apakah data ini mendukung clusion con dicapai dalam
Latihan 4.10.

4.12 Pada hari putaran ketiga dari Golf Kejuaraan Terbuka pada tahun 1987
sebelum bermain mulai komentator televisi mengatakan bahwa kondisi
tersebut membuat skor rata-rata pemain yang mungkin setidaknya tiga
lebih tinggi daripada mereka untuk putaran kedua. Untuk sampel acak
dari 10 dari 77 pemain yang berpartisipasi di kedua putaran skor adalah:
__________________________________________________________

Pemain ABCD EFGH saya J


__________________________________________________________

Ronde 2 73 73 74 66 71 73 68 72 73 72
round 3 72 79 79 77 83 78 70 78 78 77
_________________________________________________________ Apakah data ini
mendukung klaim komentator? Pertimbangkan dengan hati-hati
apakah tes satu atau dua ekor sesuai.
4.13 Pearson dan Sprent (1968) memberikan data untuk gangguan pendengaran (dalam
desibel di bawah norma-norma yang ditentukan) pada berbagai frekuensi. Data di
bawah ini menunjukkan kerugian ini selama 10 individu berusia antara 46 dan 54 di
frekuensi 0,125 dan 0,25 kc s -1. Sebuah kerugian negatif menunjukkan mendengar di
atas normal. Apakah ada indikasi kerugian yang berbeda pada dua frekuensi?

© 2001 CRC Press LLC


____________________________________________________________
Subyek SEBUAH BCDEFGH saya J

____________________________________________________________

0.125 kc s -1 2,5 -7,5 11,25 7,5 10,0 5,0 7,5 2,5 5,0 8,75
0.25 kc s -1 2,5 -5,0 6,35 6,25 7,5 3,75 1,25 0,0 2,5 5,0
____________________________________________________________

4.14 Terapkan tes skor yang normal untuk data dalam contoh 4.2 .
4.15 Scott, Smith dan Jones (1977) memberikan tabel perkiraan
persentase pemilih UK diprediksi untuk memilih Konservatif oleh
dua organisasi polling pendapat, A dan B, di setiap bulan di tahun
1965-1970. Untuk sampel acak dari 15 bulan selama periode bahwa
persentase dipasangkan adalah:

SEBUAH 43,5 51,2 46,8 55,5 45,5 42,0 36,0 49,8 42,5 50,8 36,6 47,6 41,9 48,4
53,5
B 45,5 44,5 45,0 54,5 49,5 43,5 41,0 53,0 48,0 52,5 41,0 47,5 42,5 45,0
52,5

Apakah hasil ini menunjukkan kecenderungan yang signifikan untuk salah


satu organisasi untuk kembali persentase yang lebih tinggi dari yang lain?
Mendapatkan 95 persen interval kepercayaan yang tepat untuk setiap rata
atau median perbedaan antara prediksi selama periode.

4.16 Verifikasi kebenaran interval keyakinan dan hasilnya untuk uji Lilliefors'
dikutip dalam contoh
4.3 .
4.17 Konfirmasi nilai yang diberikan di contoh 4.6 untuk Pr ( X > 0 | θ = 1)
untuk distribusi yang diberikan di ( 4.1 ). Apa yang sesuai
probabilitas bersyarat θ = 2?

4.18 Konfirmasi nilai yang diberikan di contoh 4.7 untuk Pr ( X > 0 | θ = 1)


untuk distribusi yang diberikan di ( 4.2 ). Apa yang sesuai
probabilitas bersyarat θ = 1.2?

4.19. Menentukan ukuran sampel yang diperlukan untuk memiliki kekuatan minimal 0,80
untuk uji tanda bahwa median θ aku s H 0: θ = 1 terhadap alternatif H 1: θ=2
dengan satu ekor P = 0.05 jika pengamatan diketahui sampel acak dari distribusi
eksponensial dengan fungsi frekuensi f (x) = e -_ x, x
≥ 0. (Petunjuk: Anda akan perlu menemukan nilai-nilai λ yang memberikan
medianλ sesuai dengan yang ditetapkan dalam hipotesis nol dan
alternatif.)
© 2001 CRC Press LLC
5
Metode untuk dua sampel independen

5.1 TES sentralitas dan PERKIRAAN

5.1.1 Ekstensi dari sampel tunggal

Kita sering memiliki dua sampel acak independen (yaitu para


anggota sampel pertama atau kelompok independen dari orang-
orang di kedua) dan ingin membuat kesimpulan tentang dua
populasi yang mereka wakili. Kami menunjukkan para anggota
sampel dengan x 1, x 2, . . . . x m
dan y 1, y 2, . . . . y n di mana untuk kenyamanan dan tanpa kehilangan umum
kita berasumsi n ≥ m, yaitu bahwa sampel kedua adalah setidaknya sama
besar seperti yang pertama. Di bab 2 - 4 kita melihat bahwa beberapa tes
bebas distribusi-dan prosedur estimasi berdasarkan
permutasi berbeda hanya dalam skor ditugaskan, misalnya jajaran,
tanda-tanda, van der Waerden skor. asumsi yang relevan dan hal-hal
komputasi praktis diatur pilihan prosedur yang tepat. Ini erations
pertimbangan- memperpanjang dengan modifikasi dan penambahan
situasi dua sampel. Kami menganggap tes sentralitas pertama
dalam urutan yang sama seperti yang kita menutupi sampel analog
tunggal di Bab 2 .

5.1.2 Pitman tes permutasi

Tes permutasi Pitman untuk dua sampel independen memiliki


kelemahan yang sama dengan yang rekan satu sampel. seperti t tes,
tidak tahan terhadap keberangkatan tertentu dari asumsi yang
dibutuhkan untuk validitas dan ada kesulitan dalam menghitung
interval keyakinan. Selanjutnya, sifat bersyarat dari tes
membuatnya hampir mustahil untuk mendapatkan tepat P nilai-nilai
tanpa perangkat lunak khusus. Untuk alasan ini jarang digunakan
dalam praktek jadi kami menghilangkan detail di sini meskipun
kedua StatXact dan Testimate menyediakan program untuk tes
hipotesis yang tepat, mantan menggunakan pilihan program tes
permutasi dengan skor yang dipilih. Pembaca tertarik tes ini akan
menemukan akun dari aplikasi bersama-sama dengan contoh di
Sprent (1998, Bagian 4.1).
© 2001 CRC Press LLC
5.2 TES PERINGKAT BERBASIS

5.2.1 The Wilcoxon-Mann-Whitney tes

Selama dua sampel independen, analog dari satu sampel uji


Wilcoxon signed-rank adalah Wilcoxon rank-sum test
diusulkan oleh Wilcoxon (1945). Tes setara secara luas
disebut partic- ularly, tapi tidak hanya,
di medis literatur, sebagaiitu
Mann-Whitney U uji dikembangkan secara independen oleh Mann dan
Whitney (1947). Hal ini mudah, meskipun prakteknya tidak universal, untuk
merujuk pada tes bersama-sama sebagai uji Wilcoxon-Mann-Whitney, atau
untuk singkatnya sebagai tes WMW.

Data di contoh 1.4 dapat dilihat sebagai dua sampel independen,


pasien yang menerima obat baru membentuk sampel pertama dan
mereka yang tidak membentuk kedua. Informasi direkam pada
kondisi masing-masing pasien sudah dalam bentuk jajaran sehingga
pendekatan Wilcoxon-Mann-Whitney dapat segera diterapkan. Ini
adalah efektif apa yang kita lakukan pada contoh itu.

5.2.2 Wilcoxon formulasi

Dalam bentuk tes, dua sampel digabungkan dan data peringkat


keseluruhan. Asli dua sampel kemudian dipisahkan dengan masing-
masing peringkat yang melekat pada pengamatan yang sesuai.
Hipotesis nol yang biasa adalah bahwa dua sampel berasal dari
populasi identik dan hipotesis alternatif umum adalah bahwa
distribusi populasi berbeda hanya dalam mean atau median. Seperti
yang ditunjukkan di contoh 1.4 , Jika kedua sampel berasal dari
populasi yang sama (yang mungkin bentuk terus menerus dan tidak
perlu simetris) kami mengharapkan campuran rendah, sedang dan
peringkat tinggi dalam setiap sampel. Di bawah hipotesis alternatif
kami berharap jajaran yang lebih rendah mendominasi dalam satu
populasi dan peringkat yang lebih tinggi yang lain. Seperti
pergeseran sentralitas sering disebut sebagai efek pengobatan
'aditif', yaitu ada 'konstan' perbedaan antara dua perlakuan.

Jumlah jajaran dalam sampel pertama, S m, dapat digunakan


untuk menentukan kekuatan bukti terhadap hipotesis nol (yang,
kelompok lain mungkin lebih besar, bisa diambil sebagai
gantinya). Pengambilan
contoh 1.4 sebagai kasus di titik, kelompok kecil terdiri dari empat
pasien yang menerima pengobatan baru. Jika barisan mereka adalah
1, 2, 3 dan 5 (katakanlah), jajaran rendah mendominasi dan rank-
sum dari 11 kecil. Jika jajaran 6, 7, 8 dan 9, jajaran tinggi
mendominasi dan S m = 30 relatif besar. Jajaran 2, 3, 6 dan 8
menunjukkan nilai tidak jauh berbeda dalam dua kelompok. The rank
sum sekarang 19. Nilai dari

© 2001 CRC Press LLC


rank sum dekat dengan kemungkinan minimum (10) atau
maksimal (30) memberikan bukti kuat terhadap hipotesis null;
untuk nilai-nilai menengah S m bukti yang lemah.
Tes ini juga dapat digunakan ketika sampel dari dua
distribusi dengan fungsi distribusi kumulatif identik bawah
H 0, tetapi di bawah H 1, satu kurva distribusi kumulatif ( Lihat
Komentar 1 pada contoh 3.10 ) Terletak di bawah yang lain terlepas
dari beberapa titik di mana kurva menyentuh. merenung sejenak
menunjukkan bahwa di bawah H 1

rendah atau tinggi jajaran harus mendominasi dalam satu sampel,


sebagai lawan yang cukup pemerataan jajaran bawah H 0. Ini
kadang-kadang disebut sebagai 'dominasi' alternatif. Mengingat
distribusi permutasi dari peringkat jumlah di bawah H 0, P nilai-nilai
dapat ditentukan dengan cara yang dijelaskan untuk kasus tertentu
di contoh 1.4 .

contoh 5.1

Masalah. Untuk beberapa model kalkulator saku nilai-nilai fungsi trigonometri


diperoleh dengan memasukkan nomor sebelum menekan tombol fungsi (Tipe A
model, mengatakan). Model-model lain membutuhkan fungsi yang akan dipilih
sebelum nomor yang dimasukkan (model tipe B). Seorang guru matematika ingin
menentukan apakah Tipe A model khusus dari kalkulator memungkinkan
perhitungan yang akan dilakukan dengan kecepatan yang lebih besar dibandingkan
dengan model Tipe B tertentu. Sebuah kelas 21 murid secara acak dibagi dalam
kelompok SEBUAH ( menggunakan Tipe A model), dan

B ( menggunakan Type B model) dengan 10 dan 11 siswa di masing-masing


kelompok. Para murid diminta untuk melaksanakan set yang sama perhitungan
trigonometri. Total kali dalam menit untuk setiap anggota masing-masing kelompok
untuk menyelesaikan perhitungan yang

grup A 23 18 17 25 22 19 31 26
29 33
grup B 21 28 32 30 41 24 35 34
27 39 36

Apakah data menunjukkan bahwa salah satu model kalkulator unggul (yaitu
mengarah ke komputasi yang lebih cepat)?

Formulasi dan asumsi. Sebuah tes dua ekor yang sesuai. Kami memerlukan
jumlah jajaran terkait dengan sampel yang lebih kecil, Grup A, di peringkat
bersama dari semua data, atau alternatif rank sum untuk grup B bisa digunakan.
Itu P nilai yang terkait dengan jumlah ini memungkinkan kita menilai kekuatan
bukti terhadap H 0: median populasi adalah identik, di mana alternatif adalah
bahwa satu sampel adalah dari populasi dengan median yang lebih besar. Kami
lebih memilih untuk berpikir dalam hal median bukan berarti karena tidak ada
kebutuhan untuk membuat asumsi simetri. Tes ini juga akan berlaku untuk
alternatif dominasi, yaitu untuk kecenderungan untuk perhitungan harus
dilakukan lebih cepat dengan satu model kalkulator, meskipun perbedaan waktu
dapat bervariasi terhadap antara murid.

Prosedur. Ukuran sampel yang m = 10 dan n = 11. program perangkat lunak Kebanyakan
untuk uji Wilcoxon akan menghitung jajaran otomatis, tetapi untuk mendapatkan secara manual
membantu untuk mengatur data dalam urutan menaik dalam setiap sampel dan kemudian
mengalokasikan jajaran. Kami meninggalkan sebagai latihan bagi pembaca untuk menunjukkan
bahwa jika ini adalah

© 2001 CRC Press LLC


dilakukan jajaran ditugaskan untuk Grup A adalah 1, 2, 3, 5, 6, 8, 9, 12, 14, 16 dengan jumlah
pangkat S m= 76. rank sum untuk Grup B adalah S n= 155. Jika perangkat lunak untuk memberikan
tepat P nilai-nilai tidak tersedia beberapa nilai yang relevan untuk S m

diberikan dalam banyak tabel. Untuk contoh ini kita menggunakan program di
StatXact yang menunjukkan bahwa untuk uji dua ekor relevan tepat P = 0,0159.
output juga menegaskan nilai S m yang diberikan di atas.

Kesimpulan. Rendah P Nilai memberikan bukti yang cukup kuat terhadap


H 0. Rata-rata, murid tampak melakukan perhitungan lebih cepat dengan
tipe model yang A, dimana fungsi trigonometri yang dimasukkan setelah
nomor.

Komentar. 1. Tabel untuk statistik Wilcoxon-Mann-Whitney diberikan oleh


Neave (1981, 30 p.). Conover (1999, Tabel A7) dan lain-lain memberikan berbagai quantiles
untuk S m, S n. Sebenarnya, bukan nominal, tingkat signifikansi dapat diperoleh dari
program komputer memberikan distribusi permutasi tepat.
2. Penelitian ini merupakan perbandingan dari dua model tertentu kalkulator. Itu akan
tidak masuk akal bagi guru untuk merekomendasikan bahwa siswa membeli apa
saja Tipe A kalkulator atas dasar hanya penelitian ini. Selanjutnya, kalkulator yang
sangat berguna untuk operasi dengan fungsi trigonometri mungkin tidak
melakukan dengan baik dengan masalah lain seperti menghitung rata-rata atau
standar deviasi.
3. Misalkan penyelidikan ini telah dilakukan dalam pelajaran matematika
dari 40 menit. Murid kelima di Grup B akan kemudian tidak mampu untuk
menyelesaikan semua perhitungan dan pengamatan ini akan telah disensor.
Dalam peringkat data, namun, karena pengamatan ini adalah satu-satunya
dengan waktu lebih dari 40 menit pangkat 21 akan tetap diberikan. SEBUAH
t Tes tidak bisa secara sah digunakan sejak nilai yang pasti diperlukan untuk
setiap pengamatan.

aspek komputasi. StatXact dan Testimate memberikan tepat P nilai-nilai yang sesuai
dengan yang diamati S menyediakan M N tidak terlalu besar. Banyak paket statistik
umum menghitung S m tapi tinggalkan pengguna untuk berkonsultasi tabel atau
memberikan hasil asimtotik yang mungkin tidak memuaskan jika, misalnya, satu
sampel besar tapi kecil yang lain, atau jika ada banyak jajaran terikat.

5.2.3 Mann-Whitney formulasi

Sebuah statistik U, yang merupakan fungsi dari jumlah rank S, dapat dihitung
untuk kedua kelompok untuk menentukan kekuatan bukti terhadap hipotesis
nol. Untuk pertama dari dua sampel statistik ini diberikan oleh U m= S m - 1/2 m (m
+ 1), dengan statistik yang setara untuk (mungkin lebih besar) sampel makhluk
U n= S n - 1/2 n (n + 1). Kita hanya perlu menghitung salah satu dari S m atau S n,

untuk jumlah semua jajaran dari 1 sampai m + n aku s 1/2 ( m + n) (m + n + 1) =


S m + S n. Menggunakan hubungan U m = S m - 1/2 m (m + 1) dan U n = S n - 1/2 n (n +
1) satu dengan mudah menyimpulkan bahwa masing-masing memiliki nilai
minimum nol dan bahwa

U m= MN-U n (5.1)
sehingga lagi hanya satu dari U m, U n perlu dihitung. Entah dapat
digunakan dalam tes, meskipun U m umumnya diberikan dalam
tabel.

© 2001 CRC Press LLC


Dalam pendekatan Mann-Whitney, baik U m atau U n dihitung secara
langsung. Untuk memperoleh U m atau U n kita menghitung jumlah observasi
dalam satu sampel melebihi setiap anggota sampel lainnya. Jajaran tidak
diperlukan, dan prosedur memudahkan perhitungan jika tidak ada program
komputer yang tersedia untuk ujian. Hal ini juga membentuk dasar untuk
menentukan interval kepercayaan untuk perbedaan dalam sentralitas.

contoh 5.2

Masalah. Menghitung ulang statistik uji untuk data di contoh 5.1


menggunakan pendekatan Mann-Whitney.

Formulasi dan asumsi. Kami memeriksa pengamatan di setiap sampel; mereka


tidak perlu memesan, tapi penghitungan lebih mudah ketika mereka. Hal ini secara
visual lebih mudah untuk menghitung berapa
kali setiap pengamatan di Grup A terlampaui oleh pengamatan di Grup B. ini
memberikan U n, dari mana U m dapat ditentukan.

Prosedur. Data dari contoh 5.1 , Diatur untuk kenyamanan di ascending


Agar dalam setiap kelompok, yaitu:

grup A 17 18 19 22 23 25 26 29
31 33
grup B 21 24 27 28 30 32 34 35
36 39 41

Jelas pengamatan pertama 17 di Grup A terlampaui oleh semua 11 pengamatan di


Grup B. Demikian pula, pengamatan 18, 19 juga terlampaui oleh semua pengamatan di
Grup B. Pengamatan 22 terlampaui oleh 10 pengamatan di Grup B. Prosiding dalam
hal ini cara kita menemukan nomor pengamatan di Grup B melebihi setiap
pengamatan di Grup A dan kemudian menambahkan ini, yaitu. U n

= + 11 + 11 11 10 + 10 + 9 + 9 + 7 + 6 + 5 = 89. Menggunakan (5.1)


memberikan U m = 110-89 = 21, dengan mudah terbukti konsisten dengan
nilai S m ditemukan di contoh 5.1 .

Kesimpulan. Seperti dalam contoh 5.1 .

Komentar. Kesetaraan Wilcoxon dan Mann-Whitney formulasi adalah umum.

aspek komputasi. StatXact dan Testimate memberikan probabilitas ekor


yang tepat sesuai dengan nilai U ( pada kasus ini P = 0,0159). Seperti dengan
statistik S,
banyak paket statistik umum menghitung U tetapi meninggalkan pengguna untuk
berkonsultasi tabel atau memberikan hasil asymptotic berdasarkan distribusi normal (
Lihat bagian 5.6 ). Untuk contoh ini, Stata atau StatXact memberikan asimtotik P =
0,0167, yang mengarah ke kesimpulan yang sama; dalam situasi lain hasil asymptotic
mungkin tidak memuaskan. Banyak tabel hanya memberikan nilai-nilai statistik yang
sesuai dengan tingkat signifikansi konvensional nominal daripada yang sebenarnya P
nilai-nilai, tetapi kebanyakan menjelaskan apa yang diberikan dan bagaimana
menggunakan tabel. Misalnya, Neave (1981) menunjukkan bahwa jika salah U m atau U
n tidak melebihi 26, dua-tailed P Nilai untuk Contoh 5.2 kurang dari 0,05.
5.2.4 Hubungan

Kami menggunakan pertengahan peringkat untuk ikatan seperti yang kita


lakukan untuk uji Wilcoxon signed-rank ( bagian 2.2.3 ). Jika perangkat lunak untuk
menghitung dengan tepat P nilai-nilai tidak

© 2001 CRC Press LLC


tersedia dan hanya ada beberapa ikatan, mendasarkan tes signifikansi pada
nilai-nilai
penting yang sesuai untuk kasus 'tidak-dasi' tidak mungkin serius menyesatkan.
Jika M N keduanya cukup besar (katakan 15 atau lebih), suatu pendekatan normal
kita kembangkan di bagian
5.6 dapat digunakan dengan keyakinan yang wajar, penyesuaian
menjadi penting hanya ketika ada moderat untuk sejumlah besar
hubungan. Contoh 5. 4

menggambarkan situasi di mana ikatan mendominasi.


Dalam formulasi Mann-Whitney, jika pengamatan dalam sampel kedua
sama dengan pengamatan dalam sampel pertama itu mencetak gol
sebagai 1/2 dalam penghitungan jumlah observasi dalam sampel kedua
melebihi pengamatan di pertama.

Untuk kecil untuk sampel menengah ikatan hadir tidak ada


kesulitan jika program komputer yang tersedia untuk
menghasilkan probabilitas yang tepat untuk tes WMW
berdasarkan distribusi permutasi yang sesuai.

contoh 5.3

Masalah. Kami menganggap satu set data dari percobaan kedua mirip dengan yang di
contoh 5.1 dan 5.2 tetapi di mana sekarang ada beberapa hubungan di masa yang diambil
oleh peserta yang berbeda. Untuk kenyamanan data diberikan dalam urutan menaik tapi
ini tidak penting, terutama jika software yang cocok digunakan.

grup A 16 18 19 22 22 25 28 28 28 31 33
grup B 22 23 25 27 27 28 30 32 33 35 36 38 38 Apakah data
menunjukkan bahwa salah satu model kalkulator unggul (yaitu mengarah ke
komputasi yang lebih cepat)?

Formulasi dan asumsi. Kami menggunakan tes WMW dengan pertengahan jajaran untuk ikatan.

Prosedur. Kita punya m = 11 dan n = 13. Program komputer biasanya menetapkan


jajaran atau pertengahan jajaran otomatis, tetapi ini mudah dilakukan secara manual karena
data yang diperintahkan. pembaca harus memverifikasi bahwa ini adalah

grup A 1 23 5
5 8,5 13,5 13,5 13,5 17
19,5
grup B 5 7 8,5 10,5 10,5 13,5 16 18 19,5 21 22
23,5 23,5

Kecuali kita perlu S m khusus dan tidak memiliki perangkat lunak untuk menghitung itu
tidak perlu untuk mengalokasikan jajaran. Hal ini lebih mudah untuk mendapatkan U n

dengan menghitung untuk setiap nilai sampel pertama jumlah pengamatan melebihi dalam
sampel kedua (mencetak satu setengah untuk ikatan) dan menjumlahkan ini. Misalnya,
untuk setiap nilai 22 di Grup A ada satu nilai terikat, mencetak sebagai 1/2 dan 12 nilai
melebihi 22 di Grup B memberikan kontribusi 12,5 untuk U n. Melanjutkan dengan cara ini
kita menemukan
U n= 13 + 13 13 + 12,5 + 12,5 + 10,5 + 7,5 7,5 + 7,5 + + 6 + 4,5 = 107,5

Dari (5.1), U m= 11 × 13-107,5 = 35,5. StatXact menegaskan nilai ini untuk U m

hanya membutuhkan data asli untuk melakukannya, dan untuk uji dua ekor memberikan tepat
P = 0,0359.

© 2001 CRC Press LLC


Kesimpulan. Ada beberapa bukti melawan H 0 dan hasilnya
menunjukkan perhitungan selesai lebih cepat dengan model diuji oleh
Grup A.

Komentar. 1. Tabel seperti di Neave (1981) menunjukkan bahwa nilai-nilai


U m ≤ 37 menyiratkan P < 0,05 untuk tes dua ekor. salah satu contoh ini menunjukkan
bahwa beberapa ikatan tidak serius kesimpulan marah berdasarkan 'no-dasi' nilai-nilai
kritis untuk ukuran sampel yang moderat.

2. Situasi menggunakan konvensional tabel 'no-dasi' kurang memuaskan saat


ada banyak ikatan atau hubungan dalam sampel tidak seimbang. Sebagai contoh,
jika kita memiliki sampel 3 dengan nilai 1, 2, 2, dan sampel 13 dengan nilai 1, 1, 4, 5,
5, 5, 7,
8, 9, 9, 9, 9, 10 mudah untuk menunjukkan bahwa U m= 5. Dalam situasi yang tidak-dasi dua
ekor uji Pr ( U m ≤ 5) = 0,0571 sedangkan tes permutasi yang tepat memungkinkan untuk
ikatan memberikan Pr ( U m ≤ 5) = 0,0464 sebagai
benar P Nilai untuk pola dasi khusus ini. Meskipun kekuatan bukti terhadap hipotesis
nol tidak sangat berbeda, penggunaan tingkat signifikansi 5 persen kaku akan
menyebabkan kesimpulan berbeda.

3. Seperti yang kita ditunjukkan dalam contoh 2.5 , Jika ikatan hasil dari pembulatan dan
akurasi yang lebih besar memungkinkan kita untuk memutuskan hubungan, cara ikatan istirahat
dapat mengubah lumayan kesimpulan mengenai signifikansi.

aspek komputasi. Software untuk menentukan probabilitas permutasi yang tepat


terkait dengan statistik uji U atau S sangat berharga ketika ada ikatan. StatXact dan
Testimate memungkinkan ini. Beberapa program umum mengambil ikatan
memperhitungkan dengan menggunakan pertengahan jajaran tetapi hanya memberikan
tes asimtotik (yang mungkin tidak dapat diandalkan untuk kecil m + n atau ketika salah
satu m, n, kecil). Atau, satu dapat resor untuk tabel yang sesuai dengan situasi yang
tidak-dasi tetapi tingkat signifikan nominal tidak lagi dapat dijamin.

A 'dasi' situasi umum adalah salah satu di mana kita tidak diberi
pengukuran yang
tepat, tetapi hanya dikelompokkan data. Misalnya, alih-alih nilai sampel
lengkap
dalam contoh 5.3 kita dapat diberikan angka saja dari peserta
mengambil antara 10
dan 19 menit, 20 dan 29 menit, 30 dan 39 menit. Kita mungkin masih
menghitung U atau
S
statistik membuat tunjangan untuk dasi, tapi sekarang mungkin
menyesatkan untuk menggunakan nilai-nilai kritis ditabulasi untuk statistik
ini.

contoh 5.4

Masalah. Bukan data di contoh 5.3 misalkan kita hanya diberikan nomor
mengambil 10-19, 20-29, 30-39 menit mengarah ke data yang diberikan di
bawah ini. Lakukan tes di contoh 5.3 menggunakan informasi berkurang ini.
Jumlah menit 10-19 20-19 30-39

grup A 3 6 2

grup B 0 6 7

Formulasi dan asumsi. Kami melakukan tes WMW berdasarkan pertengahan


jajaran menggunakan, jika tersedia, program memberikan probabilitas permutasi
tepat.

© 2001 CRC Press LLC

Anda mungkin juga menyukai