Membuat Interval Keyakinan

Subscribe to DeepL Pro to translate larger documents.
Visit www.DeepL.com/pro for more information.
BAB 8
Membuat Interval Keyakinan
Kita telah membahas penggunaan distribusi normal dan t standar untuk interval kepercayaan untuk mean.
Kita juga dapat membuat interval kepercayaan untuk statistik lainnya. Interval kepercayaan menghindari
beberapa masalah logis dari pengujian hipotesis nol dan oleh karena itu direkomendasikan sebagai alternatif
dalam banyak kasus.
Pada bab ini, kita akan mengulas penggunaan R untuk mendapatkan interval kepercayaan untuk mean, dan
kemudian memeriksa penggunaan interval kepercayaan untuk statistik lainnya, seperti proporsi dan varians.
Untuk mengulangi, interval kepercayaan (atau taksiran interval) adalah rentang nilai yang mungkin digunakan
untuk menaksir nilai sebenarnya dari sebuah parameter populasi. Kami sering menyingkat interval kepercayaan
sebagai CI. Kami mengaitkan setiap interval kepercayaan dengan beberapa tingkat kepercayaan, seperti 90%,
95%, atau 99%. Tingkat kepercayaan adalah komplemen dari tingkat alfa, sehingga ketiga tingkat kepercayaan ini
sesuai dengan tingkat alfa 0,10, 0,05, dan 0,01.
Ide umum di balik interval kepercayaan (untuk distribusi simetris seperti distribusi normal dan t) adalah
bahwa kita memiliki estimasi sebuah parameter dan kita menghitung margin kesalahan, menambahkan margin
ke estimasi untuk mendapatkan batas atas dan mengurangkan margin dari estimasi untuk mendapatkan batas
bawah. Menginterpretasikan interval kepercayaan mengharuskan kita untuk memberikan taksiran
kepercayaan. Melanjutkan contoh kita dari Bab 7
Jika interval kepercayaan kita untuk rata-rata populasi memiliki batas bawah 164,13 dan batas atas 180,97, kita
dapat mengatakan bahwa kita 95% yakin bahwa rata-rata populasi yang sebenarnya (untuk pria yang
berolahraga) berada dalam rentang tersebut. Tidaklah tepat untuk mengatakan bahwa ada peluang 95% (atau
probabilitas 0,95) bahwa nilai μ yang sebenarnya akan berada di antara 164,13 dan 180,97. Sama tidak tepatnya
untuk mengatakan bahwa 95% dari rata-rata sampel berada di antara 164,97 dan 180,97.
Interval Keyakinan untuk Sarana

Memilih distribusi yang sesuai untuk interval kepercayaan untuk mean membutuhkan sedikit logika.
Tiga kandidat pendekatannya adalah menggunakan distribusi normal standar, menggunakan distribusi t,
atau menggunakan
metode bootstrapping atau nonparametrik. Diagram alir pada Gambar 8-1 akan membantu Anda
memvisualisasikan hal ini dan menentukan pendekatan mana yang terbaik untuk situasi tertentu.
113
BAB 8 ■ MEMBUAT INTERVAL KEPERCAYAAN
Apakah Ya. Apak Tid Apakah Tid

populasiny ah σ ak. populasiny ak.
a normal? diketa a normal?
Ya. hui
Tid
?
ak. Ya.
Ya. Tid
Apakah n Apakah n ak.
> 30? > 30?
Tid
ak.
Ya.
Gunakan Gunakan
distribusi z tombol t
distribusi
Gunakan metode Gunakan metode

nonparametrik nonparametrik
atau atau
bootstrapping bootstrapping
Gambar 8-1. Memilih pendekatan untuk interval kepercayaan untuk rata-rata
Interval Keyakinan untuk Rata-rata Menggunakan Distribusi Normal

Ketika kita mengetahui deviasi standar populasi dan dapat mengasumsikan bahwa populasi terdistribusi secara
normal, kita dapat menjustifikasi penggunaan distribusi normal standar untuk interval kepercayaan dan uji
hipotesis mengenai rata-rata. Kita akan menemukan nilai kritis dari z yang menempatkan setengah dari tingkat
alfa kita di ekor kanan dan setengahnya lagi di ekor kiri distribusi normal standar.
Seperti yang telah dibahas sebelumnya, ketika ukuran sampel semakin besar, perbedaan antara distribusi
normal standar dan distribusi t menjadi tidak berarti. Sebagian besar teks statistik memperkenalkan interval
kepercayaan berbasis z lebih sebagai perangkat pedagogis daripada sebagai rekomendasi penggunaannya dalam
pekerjaan terapan.
Interval kepercayaan untuk rata-rata ketika deviasi standar populasi diketahui dihitung sebagai berikut:
(x - zα/2σx ) < μ < (x + zα/2σx )
Kita dapat menggunakan sedikit aljabar dan memanipulasi rumus margin of error sedemikian rupa
sehingga kita dapat menemukan ukuran sampel yang diperlukan untuk tingkat akurasi tertentu. Biarkan E
menjadi margin kesalahan yang diinginkan. Dengan mengasumsikan bahwa kita mengetahui deviasi standar
populasi, kita dapat mencari n, ukuran sampel yang diperlukan. Kita membuat asumsi lebih lanjut bahwa
sampel adalah sampel acak sederhana. Berikut ini adalah rumus untuk menentukan ukuran sampel yang
diperlukan. Ingatlah bahwa kesalahan standar dari rata-rata, σx , adalah deviasi standar populasi dibagi dengan
akar kuadrat dari ukuran sampel. Margin of error (batas kesalahan) adalah
E= zα/2 (σ / n)
Kita dapat memanipulasi rumus ini secara aljabar untuk menyelesaikan n:
⎛ z σ⎞2
α/2
n=
⎮⎝ E ⎮⎠
114
Sebagai contoh, mari kita kembangkan interval kepercayaan 95% untuk berat badan 40 pria yang
berolahraga secara teratur. Setelah menentukan margin of error, kita akan menemukan ukuran sampel yang
diperlukan untuk margin of error yang lebih kecil. Ingatlah b a h w a a n g k a beban memiliki rata-rata
172,55, dengan deviasi standar 26,3272. Kita akan menggunakan s i m p a n g a n baku sampel sebagai
estimasi yang masuk akal untuk simpangan baku populasi, dan menemukan margin of error menjadi
E = zα/2 (s / n) = 1,96 (26,3272 / 40) = 8,1589
Dengan demikian, interval kepercayaan (dilaporkan dalam format yang disyaratkan oleh Publication
Manual of the American Psychological Association) adalah 95% CI [164,39, 180,71]. Asumsikan kita ingin
margin kesalahan tidak lebih dari 5 pon. Mari kita selesaikan untuk ukuran sampel yang diperlukan. Saat
menggunakan rumus ini, selalu bulatkan ke bilangan bulat berikutnya. Kita lihat bahwa kita akan
membutuhkan sampel lebih dari 100 orang untuk mempersempit margin kesalahan dari 8,15 menjadi 5.
⎛ 1.96(26.3272) ⎞2
n= = 107
⎮⎝ 5 ⎮⎠
Mari kita kembangkan sebuah fungsi R untuk memperkirakan ukuran sampel yang diperlukan berdasarkan
rumus-rumus di atas. Kode fungsi ditampilkan dari Editor R. Seperti yang telah saya nyatakan berkali-kali,
sebuah fungsi tidak harus rumit untuk menjadi berguna. Fungsi ini hanya perlu mengotomatiskan perhitungan
yang mungkin Anda lakukan secara teratur. Perhatikan penggunaan fungsi ceiling() untuk membulatkan ke
bilangan bulat yang lebih tinggi.
sampsize.est <- function(E, sigma, alpha = .05){ #

E adalah margin kesalahan yang
diinginkan
n <- ((qnorm(alpha/2)*sigma)/E)^2
estsize <- ceiling(n)
cat("untuk margin kesalahan yang diinginkan sebesar:",E, "ukuran sampel yang diperlukan
adalah:",estsize,"\n")
}
Fungsi kami menghasilkan hasil yang sama dengan perhitungan manual:
> sampsize.est(5, sd(bobot))

untuk margin kesalahan yang diinginkan sebesar: 5 ukuran sampel yang diperlukan adalah: 107
Interval Keyakinan untuk Rata-rata Menggunakan Distribusi t

Jika kita tidak mengetahui deviasi standar populasi, kita menggunakan deviasi standar sampel sebagai estimasi yang
masuk akal. Kami menggunakan distribusi t dan bukan distribusi normal, dan menghitung interval kepercayaan
sebagai berikut:
(x - tα/2 sx ) < μ < (x + tα/2 sx )
Pada Bab 2, kita telah membuat sebuah fungsi untuk menghasilkan interval kepercayaan untuk rata-rata
dengan menggunakan distribusi t. Juga, ingatlah diskusi kita sebelumnya di mana kita menemukan bahwa uji t
satu sampel akan menghasilkan interval kepercayaan untuk mean. Kita dapat memperindah ini sedikit jika kita
mau, tetapi aplikasi ini cukup dapat digunakan sebagaimana adanya. Karena fungsi untuk interval kepercayaan
dalam paket statistika juga diberi label confint(), kita akan mengubah nama fungsi R kita menjadi confint.mean.
Berikut adalah fungsi interval kepercayaan yang telah kita perbaharui:
115
confint.mean <- function(x, alpha = .05, two.tailed = TRUE) { cat("\t",
"Interval Keyakinan untuk Rata-rata","\n") cat("Rata-
BABrata:",mean(x),"\n")
8 ■ MEMBUAT INTERVAL KEPERCAYAAN
df <- length(x) - 1
stderr <- sd(x)/sqrt(length(x))
116
cat("Standar error dari rata-rata:",stderr,"\n")

conflevel <- 1 - alpha/2
if (two.tailed == FALSE) {
conflevel <- 1 - alpha
}
tcrit <- qt(conflevel, df)
margin <- stderr * tcrit LL
<- mean(x) - margin
UL <- mean(x) + margin
if (two.tailed == FALSE) {
cat("Anda sedang melakukan tes satu ekor.","\n")
cat("Jika tes Anda berekor kiri, batas bawah","\n")
cat("adalah negatif tak terhingga. Jika tes Anda berekor
kanan","\n") cat("batas atas adalah positif tak
terhingga.","\n")
cat("Tambahkan margin",margin, "ke atau kurangi dari","\n") cat("rata-
rata sampel yang sesuai.","\n")
cat("Untuk tes berekor kiri, batas atas adalah",LL,".","\n")
cat("Untuk tes berekor kanan, batas bawah
adalah",UL,".","\n")
}
cat("batas atas:",LL,"\n")
cat("batas bawah:",UL,"\n")
}
Dengan menggunakan bobot 40 pria dewasa yang berolahraga, mari kita hitung t.test dan confint.mean
interval kepercayaan untuk kepentingan perbandingan. Seperti yang ditunjukkan oleh output R berikut ini, keduanya
menghasilkan hasil yang identik.
> confint.mean(bobot)
Interval Keyakinan untuk Nilai Rata-
Rata: 172.55
Kesalahan standar dari rata-rata:
4,16269 batas atas: 164,1302
batas bawah: 180.9698
> t.test (bobot)
Data uji-t Satu Sampel:
bobot
t = 41.4516, df = 39, p-value <2.2e-16
hipotesis alternatif: rata-rata sebenarnya tidak sama dengan 0
Interval kepercayaan 95 persen:
164.1302 180.9698
estimasi sampel:
rata-rata dari x
172.55
Ingatlah bahwa ketika kita melakukan uji satu sisi, interval kepercayaan tidak simetris terhadap rata-rata ,
tetapi sebaliknya, batas atas uji sisi kanan adalah +∞ dan batas bawah uji sisi kiri adalah -∞. Fungsi interval
kepercayaan kami mencakup kedua kemungkinan dengan menggabungkannya ketika kami menentukan
two.tailed = FALSE:
117
> confint.mean(bobot, two.tailed = FALSE)
Interval Keyakinan untuk Rata-rata
Rata-rata: 172.55
118
Kesalahan standar dari rata-rata:

4.16269 Anda melakukan uji satu
ekor.
Jika tes Anda berekor kiri, batas bawah
adalah negatif tak terhingga. Jika tes Anda
berekor kanan, batas atas adalah positif tak
terhingga.
Tambahkan margin 7.013613 ke atau kurangi dari rata-
rata sampel sebagaimana m e s t i n y a .
Untuk uji ekor kiri, batas atas adalah 165,5364.
Untuk uji ekor kanan, batas bawahnya adalah
179.5636. batas atas: 165.5364
batas bawah: 179.5636
Perhatikan bahwa fungsi t.test akan memberikan kita batasan yang sama dengan tes satu sisi.
> t.test(bobot, alternatif = "kurang")
bobot
t = 41.4516, df = 39, p-value = 1
hipotesis alternatif: rata-rata sebenarnya kurang dari 0
-Inf 179.5636
estimasi sampel:
rata-rata
dari x
172.55
> t.test(bobot, alternatif = "lebih besar")
bobot
t = 41.4516, df = 39, p-value <2.2e-16
hipotesis alternatif: rata-rata sebenarnya lebih besar dari 0
165.5364 Inf
estimasi sampel:
rata-rata dari x
172.55
Interval Keyakinan untuk Proporsi

Kebanyakan orang dengan mudah mengenali "margin of error" untuk jajak pendapat, dan margin of
error hanyalah setengah dari lebar interval kepercayaan. Seperti halnya dengan mean, kami
menggunakan distribusi normal standar untuk interval kepercayaan untuk proporsi. Secara statistik,
alasan kami menggunakan distribusi normal dengan proporsi adalah karena kami menggunakan
pendekatan normal untuk distribusi binomial, yang telah kami b a h a s di Bab 6.
Untuk membuat interval kepercayaan untuk suatu proporsi, kami menggunakan rumus berikut:
(pˆ - E) < p < (pˆ + E)
di mana E adalah margin of error, pˆ adalah proporsi sampel, dan p adalah proporsi populasi. Kami
119
menghitung margin of error sebagai berikut:
120
pˆqˆ
E = zα/2
n
Sebagai contoh, bayangkan kita tertarik untuk membuat interval kepercayaan 95% untuk proporsi populasi.
Sebuah perusahaan riset pasar menemukan bahwa dari 1500 responden, 70% atau 0,70 mendukung agar
pengguna ponsel dapat membeli produk apa pun dan mengaktifkannya melalui operator pilihan mereka (ini
adalah data fiktif). Nilai kami adalah z = 1,96, n = 1500, pˆ = .70, dan qˆ = .30. Berikut adalah interval kepercayaan
kami:
.21 .21
.00014
(.70)(.30)
E = 1.96 = 1.96 1500 = 1.96 1500 = 1.96 = .0232
1500
(.70 -.0232) < p < (.70 + .0232)
95%CI [.6768, .7232]
Dengan keterampilan pemrograman R yang telah Anda pelajari sejauh ini, akan sangat mudah untuk
menulis sebuah fungsi untuk menghitung interval kepercayaan dari suatu proporsi. Mari kita hitung margin
kesalahan dan batas kepercayaan. Fungsi kita akan secara default menggunakan tingkat alfa sebesar 0,05 untuk
interval kepercayaan 95%, seperti yang telah kita lakukan pada interval kepercayaan untuk mean. Berikut ini
adalah contoh fungsi untuk menghitung interval kepercayaan:
confi.prop <- function(phat, n, alpha = .05) {

zcrit <- qnorm(1 - alpha/2)
margin <- zcrit*sqrt((phat*(1 - phat)/n))
upper <- phat + margin
lebih rendah <- phat - margin
cat("Proporsi sampel:",phat,"\n")
cat(100*(1 - alpha), "interval kepercayaan:","\n")
cat("batas bawah:",lower,"\n")
cat("batas atas:",upper,"\n")
}
Seperti yang diharapkan, fungsi kami menghasilkan batas yang sama dengan perhitungan tangan di atas.
> confi.prop(.70, 1500)

Interval Keyakinan untuk suatu Proporsi
proporsi sampel: 0.7

batas bawah: 0,6768094
batas atas: 0,7231906
Memahami Distribusi Chi-square

Kita akan menggunakan distribusi chi-square untuk mengembangkan interval kepercayaan untuk
varians populasi. Distribusi chi-kuadrat tidak simetris seperti distribusi normal dan t, sehingga
intervalnya tidak akan
simetris juga. Fungsi distribusi chi-square dalam R mirip dengan distribusi normal dan distribusi t. Fungsi-
fungsi tersebut adalah dchisq, pchisq, qchisq, dan rchisq.
Distribusi chi-kuadrat adalah sebuah keluarga distribusi, masing-masing berdasarkan parameter yang
121
dikenal sebagai derajat kebebasan. Mari kita lihat dua distribusi chi-kuadrat, satu dengan 9 derajat kebebasan
dan satu lagi dengan 19 derajat kebebasan. Kita akan menggunakan perangkat yang sama dengan yang kita
gunakan padaINTERVAL
BAB 8 ■ MEMBUAT distribusi normal di Bab 7 dengan memplot
KEPERCAYAAN
122
dua distribusi pada grafik yang sama. Sebagai pengingat, kita akan menggunakan fungsi plot dan kemudian
fungsi titik. Mari kita buat sumbu x dari 0 sampai 50, dan kemudian gunakan fungsi dchisq untuk membuat
dua distribusi. Berikut adalah kode R untuk menghasilkan grafik yang ditunjukkan pada Gambar 8-2.
> xaxis <- seq(0,50)

> y1 <- dchisq(xaxis, 9)
> y2 <- dchisq(xaxis, 19)
> plot(y1, type="l", main="Distribusi Chi-Square",xlab = "Chi-Square")
> points(xaxis, y2, type = "l", col = "red")
Distribusi Chi-Square
0.10
df = 9
0.08
0.06
df =
19
0.04
0.02
0.00
0 10 20 30 40 50
Chi-Square
Gambar 8-2. Membandingkan dua distribusi chi-kuadrat
Interval Keyakinan untuk Varians dan Standar Deviasi

Asumsikan kita memiliki populasi yang terdistribusi secara normal dengan varians σ2, dan kita telah mengambil
sampel acak dengan ukuran
n dari populasi. Fungsi varians sampel s2 mengikuti distribusi chi-square:
χ2 (n - 1)s2
= σ2
Karena distribusi chi-square tidak simetris, kita harus menemukan nilai kritis ekor kiri dan ekor kanan
dengan menggunakan fungsi qchisq. Anggaplah kita tertarik untuk menghitung interval kepercayaan 95%.
Derajat kebebasannya adalah n - 1. Kita akan menemukan nilai yang memisahkan .025 kiri dari distribusi chi-
square dan .025 kanan dari .95 tengah. Mari kita kembali ke contoh berat badan pria dewasa yang berolahraga
123
secara teratur. Kita memiliki 40 bobot, sehingga derajat kebebasannya adalah 40 - 1 = 39. Berikut adalah dua
nilai kritis kita, seperti yang dilaporkan oleh fungsi qchisq di R:
> qchisq(.025, 39)

[1] 23.65432
> qchisq(.975, 39)
[1] 58.12006
Kita sebut saja ini sebagai nilai kiri dan kanan dari chi-square. Untuk menghitung interval kepercayaan,
kami menggunakan rumus ini:
(n -1)s2 (n -1)s2
χ2
< σ2 < χ2
R L
Untuk interval kepercayaan untuk deviasi standar, cukup ekstrak akar kuadratnya:
(n - 1)s2 (n - 1)s2
<σ <
χR2
χL2
Baik varians maupun chi-square didasarkan pada deviasi kuadrat, seperti yang telah kita bahas
sebelumnya. Dengan demikian, masuk akal jika distribusi varians sampel akan mengikuti distribusi chi-
kuadrat. Mari kita hitung interval kepercayaan kita dan kemudian menulis fungsi untuk mencapai tujuan yang
sama. Varians dari bobot adalah 693,1195. Kita akan menghitung interval kepercayaan untuk varians dan
deviasi standar. Perhatikan bahwa varians dalam satuan "pound kuadrat", yang tidak terlalu masuk akal,
sedangkan standar deviasi dalam satuan pound yang lebih berarti, yang sesuai dengan data asli.
(40 - 1)693.1195 σ2 (40 - 1)693.1195

< <
58.12006 23.65432
(39)693.1195 σ2 (39)693.1195
< <
58.12006 23.65432
27031.661 σ2 27031.661
< <
58.12006 23.65432
465,1 < σ2 < 1142,779
Sekarang, kita cukup mencari batas kepercayaan untuk deviasi standar dengan mengambil akar kuadrat,
seperti yang dijelaskan di atas.
465.1 < σ2 < 1142.779

21.566 <σ < 33.805
Berikut ini adalah fungsi R untuk menghitung interval kepercayaan untuk varians dan deviasi standar.
Seperti sebelumnya, kami akan menetapkan tingkat alpha ke .05 untuk interval kepercayaan 95%.
confi.var <- function(x, n, alpha = .05) {

chisqL <- qchisq(alpha/2, n-1)
chisqR <- qchisq(1 - alpha/2, n-1)
sampvar <- var(x)
lower <- ((n - 1) * sampvar)/chisqR
124
upper <- ((n - 1) * sampvar)/chisqL

cat(1 - alpha,"% interval kepercayaan untuk
varians:","\n") cat("varians sampel:",sampvar,"\n")
cat("batas bawah",lower,"\n")
cat("b a t a s atas",upper,"\n")
cat("interval kepercayaan untuk deviasi standar:","\n")
cat("deviasi standar sampel",sd(x),"\n")
cat("batas bawah",sqrt(lower),"\n")
cat("b a t a s atas",sqrt(upper),"\n")
}
Sekali lagi, fungsi kita memberikan hasil yang sama dengan perhitungan manual. Kita akan menggunakan
sedikit trik untuk memberitahu R a g a r menemukan panjang vektor bobot, yang berarti semua yang kita
berikan kepada fungsi ini adalah data mentahnya, seperti yang ditunjukkan pada contoh ini:
> confi.var(bobot, panjang(bobot))

Interval kepercayaan 0,95% untuk varians:
varians sampel: 693.1195
batas bawah 465.1003
batas atas 1142.779
interval kepercayaan untuk standar deviasi:
deviasi standar sampel 26.32716 batas
bawah 21.56619
batas atas 33.80501
Interval Keyakinan untuk Perbedaan antara Rata-rata

Jika data asli berasal dari dua populasi yang berdistribusi normal, maka dua rata-rata sampel independen (satu
dari setiap populasi) berdistribusi normal. Dengan demikian, perbedaan antara rata-rata sampel terdistribusi
secara normal, sehingga kita dapat mengembangkan interval kepercayaan untuk perbedaan antara rata-rata
populasi dengan menggunakan distribusi normal atau distribusi t, tergantung pada apakah kita mengetahui
deviasi standar populasi atau tidak (lihat Gambar 8-1). Seperti yang telah kita bahas, sebagian besar perangkat
lunak statistik menyediakan interval kepercayaan berbasis t baik untuk rata-rata maupun untuk perbedaan
antara rata-rata, karena distribusi t lebih sesuai untuk sampel kecil dan menjadi lebih mirip dengan distribusi
normal standar ketika ukuran sampel meningkat.
Seperti halnya uji t satu sampel yang menghasilkan interval kepercayaan, demikian pula dengan uji t dua
sampel. Mari kita kembali ke contoh kumpulan data dari Bab 1 yang berisi nilai ujian dari 20 siswa. Kita akan
melakukan uji t dua sampel yang membandingkan usia laki-laki dan perempuan.
Untuk menyegarkan ingatan Anda, datanya adalah sebagai berikut.
Jenis Kelamin Usia Kuis1 Kuis2 Kuis3 Kuis4 Kuis5

10 18 83 87 81 80 69
20 19 76 89 61 85 75
30 17 85 86 65 64 81
40 20 92 73 76 88 64
51 23 82 75 96 87 78
61 18 88 73 76 91 81
70 21 89 71 61 70 75
81 20 89 70 87 76 88
91 23 92 85 95 89 62
101 21 86 83 77 64 63
111 23 90 71 91 86 87
125
120 18 84 71 67 62 70
130 21 83 80 89 60 60
140 17 79 77 82 63 74
150 19 89 80 64 94 78
161 20 76 85 65 92 82
171 19 92 76 76 74 91
181 22 75 90 78 70 76
191 22 87 87 63 73 64
200 20 75 74 63 91 87
Pada kode R di bawah ini, perhatikan penggunaan karakter tilde (~) untuk menunjukkan bahwa kita telah
menggunakan jenis kelamin sebagai faktor. Perhatikan juga bahwa R secara default menggunakan uji t Welch
konservatif yang tidak mengasumsikan varian yang sama. Kita akan membahas uji t secara lebih rinci pada Bab
9, tetapi untuk saat ini, fokus pada interval kepercayaan untuk perbedaan rata-rata. Output yang agak r i n g k a s
dari fungsi t.test() membutuhkan sedikit pengetahuan tentang statistik untuk menginterpretasikannya.
Perhatikan bahwa penggunaan interval kepercayaan memungkinkan kita untuk menentukan bahwa nol atau
tidak ada perbedaan di luar interval kepercayaan, yang merupakan indikasi bahwa kita akan menyimpulkan
bahwa perbedaan rata-rata secara signifikan berbeda dari nol.
> melampirkan (dataset)

> t.test(Usia ~ Jenis Kelamin)
Data uji-t Dua Sampel
Welch: Usia berdasarkan Jenis
Kelamin
t = -2,849, df = 17,423, p-value = 0,0109
hipotesis alternatif: perbedaan rata-rata yang sebenarnya tidak sama dengan 0
-3.652299 -0.547701
estimasi sampel:
rata-rata dalam kelompok 0 rata-rata dalam kelompok 1
19.0 21.1
Interval Keyakinan Menggunakan Paket Statistik

Paket stats menyediakan banyak fungsi yang berguna, salah satunya adalah confint(). Kita dapat menggunakan
fungsi ini setelah mengunduh dan menginstal paket stats. Kita akan menggunakan fungsi lm() untuk membuat
model linier Usia berdasarkan Jenis Kelamin, dengan jenis kelamin sebagai "faktor". Kita kemudian memanggil
fungsi confint() untuk membuat interval kepercayaan sebagai berikut. Perhatikan bahwa fungsi confint()
membutuhkan sebuah "model" untuk membuat interval kepercayaan:
> require(stats)
> melampirkan (dataset)
> faktor (Jenis Kelamin)
[1] 0 0 0 0 1 1 0 1 1 1 1 0 0 0 0 1 1 1 1 0
Tingkat: 0 1
> model <- lm(Usia ~ Jenis Kelamin)
> confint(model)
2.5 %97 .5 %
(Intercept) 17.9049647 20.095035
126
Jenis Kelamin 0.5513862 3 . 648614
127
Kesimpulan
Interval kepercayaan sangat berguna, seperti yang telah Anda lihat, dan, dalam banyak kasus, dapat digunakan
untuk menghindari beberapa jebakan logis dalam pengujian hipotesis. Kita akan membahas lebih lanjut
mengenai hal ini di Bab 19, setelah melihat daftar prosedur statistik yang paling sering diajarkan (dan paling
banyak digunakan).
Pada Bab 8, Anda telah mempelajari cara membuat interval kepercayaan untuk rata-rata sampel,
proporsi, dan varians serta simpangan baku, serta perbedaan antara rata-rata. Pada Bab 9, kita akan
membahas penggunaan distribusi t untuk menguji hipotesis mengenai rata-rata dan perbedaan antar rata-
rata.
128
BAB 9
Melakukan Uji t
Kami menggunakan uji t untuk membandingkan rata-rata. Anda telah melihat bahwa fungsi t.test dapat
digunakan untuk menampilkan interval kepercayaan untuk rata-rata dan perbedaan antar rata-rata. Fungsi
t.test dalam R digunakan untuk ketiga jenis uji t: uji t satu sampel, uji t sampel berpasangan, dan uji t dua
sampel.
Secara umum, kami menghitung perbedaan rata-rata dan membaginya dengan kesalahan standar dari
perbedaan rata-rata.
Meskipun kita dapat melakukan uji satu sampel, sampel berpasangan, dan uji z dua sampel, dan hal ini
diajarkan di beberapa kelas dan teks statistik, untuk alasan yang telah kita bahas berulang kali, uji t bekerja lebih
baik daripada uji z untuk sampel kecil dan juga untuk sampel besar.
Pada bab ini, Anda akan mempelajari cara melakukan ketiga jenis uji t tersebut. Anda juga akan
mempelajari perbedaan antara uji t dua sampel dengan asumsi varians yang sama dan dengan asumsi
varians yang tidak sama. Anda akan mempelajari bagaimana menginterpretasikan hasil dari uji hipotesis.
Pengantar Singkat tentang Pengujian Hipotesis

Meskipun ini bukan buku statistik, saya perlu memperkenalkan beberapa terminologi statistik dasar untuk
membantu Anda memahami logika pengujian hipotesis dan untuk membantu Anda menginterpretasikan output
R untuk berbagai pengujian hipotesis.
Pengujian signifikansi hipotesis nol (NHST) adalah ciptaan R. A. Fisher, yang juga mengembangkan analisis
varians (lihat diskusi di bawah ini mengenai distribusi t). Dalam NHST, ada dua hipotesis y a n g bersaing:
hipotesis nol dan hipotesis alternatif. Hipotesis nol diduga benar. Hipotesis adalah pernyataan tentang
parameter populasi. Hipotesis nol selalu merupakan pernyataan tidak ada perbedaan, tidak ada efek, tidak ada
perubahan, atau tidak ada hubungan.
Dalam kasus uji t, hipotesis nolnya adalah tidak ada perbedaan antara dua rata-rata. Sebagai contoh,
sebuah perusahaan mengubah praktik layanan pelanggannya dan ingin membandingkan kepuasan
pelanggan setelah perubahan tersebut dengan kepuasan pelanggan sebelum perubahan. Hipotesis nolnya
adalah tidak ada perbedaan dalam kepuasan pelanggan sebelum dan sesudah perubahan. Hipotesis alternatif
selalu berupa pernyataan bahwa ada perbedaan, pengaruh, perubahan, atau hubungan.
Dalam contoh kita saat ini, hipotesis alternatifnya adalah satu-ekor (peringkat kepuasan pelanggan lebih
tinggi setelah perubahan) atau dua-ekor (kepuasan pelanggan berbeda setelah perubahan-bisa saja turun).
Hipotesis nol dan hipotesis alternatif bersifat mutually exclusive (hanya satu yang bisa benar) dan exhaustive
(salah satunya harus benar).
Masalahnya adalah kita jarang mengetahui populasinya, jadi kita membuat kesimpulan dari sampel. Satu-
satunya keputusan kita adalah menolak atau tidak menolak hipotesis nol. Berdasarkan bukti sampel kita, kita
menyimpulkan hipotesis nol harus ditolak atau tidak boleh ditolak. Tentu saja, keputusan kita bisa saja salah,
jadi kita sedikit melakukan lindung nilai atas taruhan kita. Kita dapat membuat kesalahan Tipe I (menolak
hipotesis nol yang benar) atau kesalahan Tipe II (gagal menolak hipotesis nol yang salah). Kita menyebut
125
probabilitas kesalahan Tipe I sebagai alpha dan probabilitas kesalahan Tipe II sebagai beta.
Perhatikan gambar berikut ini untuk memahami hubungan antara kesalahan, keyakinan, dan kekuatan
statistik (Gambar
BAB 8 ■ MEMBUAT 9-1).KEPERCAYAAN
INTERVAL
126
BAB 9 ■ MELAKUKAN UJI T
Kondisi Kependudukan
H0 adalah Benar H0 adalah Salah
Kesalahan Tipe I Kekuatan

Tolak H0 Kesalahan Keputusan
Keputusan yang Salah yang Benar
α (1 - β)
Jangan Keputusan Kesalahan Keputusan

Tolak H0 yang Benar Tipe II Kesalahan
Keyakinan (1 - α) Tipe II
β
Gambar 9-1. Hubungan kesalahan Tipe I dan Tipe II dengan daya dan keyakinan
Perhatikan bahwa kita hanya dapat membuat kesalahan Tipe I jika hipotesis nolnya benar dan kita hanya
dapat membuat kesalahan Tipe II jika hipotesis nolnya salah. Kita mengontrol probabilitas kesalahan Tipe I
dengan memilih tingkat alpha (biasanya 0,05) sebelum melakukan uji hipotesis. Tingkat kekuatan statistik yang
diterima secara umum adalah 0,80. Ini berarti kami bersedia membuat kesalahan Tipe II hingga 20% dari waktu.
Kita tidak dapat mengontrol kesalahan Tipe II secara langsung seperti halnya kesalahan Tipe I, tetapi semua hal
lain dianggap sama, semakin besar ukuran sampel dan semakin besar ukuran efek dalam populasi, semakin
kuat pengujian kita.
Nilai p yang dilaporkan untuk hipotesis kita adalah probabilitas bersyarat. Ini adalah probabilitas untuk
mendapatkan hasil sampel yang sama ekstrimnya (atau lebih ekstrim dari) yang kita dapatkan, jika hipotesis
nolnya benar. Seperti yang tersirat dalam diskusi di atas, kita bisa saja membuat kesalahan karena kita
memiliki sampel yang menyimpang, atau kita bisa saja membuat keputusan yang tepat. Ketergantungan
yang berlebihan pada signifikansi statistik adalah salah satu kekurangan dari pendekatan NHST, karena efek
sebesar apa pun pada akhirnya akan terbukti signifikan secara statistik dengan ukuran sampel yang cukup
besar. Oleh karena itu, para ahli statistik merekomendasikan agar kita melaporkan tidak hanya nilai
probabilitas, tetapi juga beberapa
ukuran ukuran efek. Untuk uji t yang akan kita bahas dalam bab ini, ukuran effect size yang paling sering
dilaporkan adalah Cohen's d.
Memahami Distribusi t
Distribusi t menarik dari perspektif sejarah. Distribusi ini dikembangkan dari karya William S. Gosset, seorang
ahli kimia dan matematikawan yang bekerja untuk Guinness Brewery. Gosset mempelajari statistik dengan Karl
Pearson
di laboratorium Pearson di London, dan kembali ke Guinness untuk mengembangkan peningkatan kualitas
untuk tempat pembuatan bir tersebut. Pekerjaan Gosset dalam memeriksa distribusi sampling untuk sampel
kecil telah mendorongnya untuk mengembangkan distribusi t. Ironisnya, ahli statistik terkemuka lainnya pada
masa itu, R. A. Fisher, yang mengakui nilai karya Gosset. Fisher melihat hubungan dengan karyanya sendiri
pada derajat kebebasan, dan memperkenalkan bentuk t. Fisher, tentu saja, pada akhirnya memperluas
distribusi t ke distribusi F untuk perbandingan simultan dari tiga atau lebih rata-rata, yang akan kita bahas di
Bab 10. Guinness tidak mengizinkan Gosset untuk mempublikasikan dengan nama aslinya karena takut
membocorkan rahasia dagang bahwa ia memiliki ahli statistik yang bekerja untuknya untuk meningkatkan
h a s i l dan efisiensi pembuatan bir. Jadi Gosset menerbitkan dengan nama samaran "Student," dan dengan
demikian hari ini kita memiliki "Student's t test" dan "Studentized range statistic" di antara banyak kontribusi
lain dari pria yang ramah ini.
Fungsi R untuk distribusi t adalah dt, pt, qt, dan rt, yang merepresentasikan fungsi densitas, probabilitas
127
kumulatif, kuantil, dan sampel acak. Tentu saja, fungsi-fungsi ini sesuai dengan fungsi-fungsi untuk distribusi
statistik kontinu lainnya.
Distribusi t lebih datar di bagian tengah dan "lebih gemuk" di bagian ekor daripada distribusi normal
standar. Namun, seperti yang telah dinyatakan sebelumnya, distribusi t akan menyatu dengan distribusi
normal seiring dengan bertambahnya ukuran sampel.
128
Pertimbangkan sebuah contoh (Gambar 9-2) distribusi t dengan 4, 9, dan 19 derajat kebebasan dengan distribusi
normal standar sebagai titik acuan. Kode R untuk menghasilkan grafik ditunjukkan di bawah ini. Saya
menggunakan warna untuk menunjukkan distribusi yang berbeda. Kurva normal berwarna hitam, distribusi t
dengan 19 df berwarna ungu, distribusi t dengan 9 df berwarna biru, dan distribusi t dengan 4 df berwarna
merah. Seperti sebelumnya, kita menggunakan fungsi points() untuk menempatkan beberapa garis pada grafik
yang sama.
> xaxis <- seq(-3.5, 3.5, .1)

> y1 <- dnorm(xaxis)
> y2 <- dt (sumbu x, 4)
> y3 <- dt(sumbu x, 9)
> y4 <- dt(sumbu x, 19)
> plot(xaxis, y1, type = "l", main = "Membandingkan Distribusi z dan t")
> points(xaxis, y3, type = "l", col = "blue")
> points(xaxis, y4, type = "l", col = "ungu")
Membandingkan Distribusi z dan t

0.4
0.3
0.2
z Distribusi
t Distribusi 9
df t Distribusi
19 df
t Distribusi 4
0.1
df
0.0
-3 -2 -1 0 1 2 3
Sum
bu
Gambar 9-2. Membandingkan distribusi t dan z
Grafik tersebut memperjelas bahwa distribusi t dengan cepat menjadi lebih "normal" seiring
dengan bertambahnya ukuran sampel.
127
Uji t Satu Sampel

Dalam uji t satu sampel, kita membandingkan rata-rata sampel dengan rata-rata populasi yang diketahui
atau dihipotesiskan. Kita telah membahas uji ini secara singkat bersama dengan topik interval kepercayaan
untuk mean. Seperti yang akan segera Anda pelajari, uji t sampel berpasangan juga dapat dilihat sebagai
kasus khusus dari uji t satu sampel.
Rumus untuk t, seperti yang akan Anda ingat dari diskusi kita sebelumnya, adalah
x-μ
t=
s
n
Hipotesis nolnya adalah bahwa perbedaan rata-rata yang diharapkan antara rata-rata sampel dan rata-
rata populasi adalah nol, atau dengan kata lain, nilai yang diharapkan dari rata-rata sampel sama dengan rata-
rata populasi. Kita membandingkan nilai ini dengan distribusi t dengan derajat kebebasan n - 1 untuk
menentukan probabilitas ekor kanan, ekor kiri, atau dua ekor. Seperti yang akan Anda ingat, fungsi t.test juga
melaporkan interval kepercayaan untuk perbedaan rata-rata.
Sebagai contoh, mari kita buat sampel acak sederhana dari 50 pengamatan dari distribusi normal dengan
rata-rata 500 dan deviasi standar 100. Kode R untuk menghasilkan hal yang sama ditunjukkan di bawah ini.
> rnorm1 <- rnorm(50, 500, 100)

> rnorm1
[1] 513.5179 665.8870 611.5570 482.0871 461.4059 531.1799 398.8917 439.1047
[9] 340.9291 502.2371 381.2369 551.1444 688.7814 661.5333 480.9378 706.3552
[17] 569.0833 487.7343 358.2330 615.8942 541.8217 741.3809 502.5116 554.4742
[25] 581.7286 453.0035 484.0431 462.2997 541.9050 549.1194 560.5631 541.6482
[33] 562.5287 568.8292 438.3408 307.5047 715.6810 649.1896 317.3438 389.4510
[41] 496.0802 595.7409 580.9330 496.8563 499.5228 574.5999 479.6650 323.9812
[49] 518.2375 389.7700
Sekarang, mari kita periksa sampel melalui fungsi summary().
> summary(rnorm1)
Min. Kuadrat ke-1 MedianMean Kuartal ke-3 Max.
307.5 461.6 515.9 517.3 573.2 741.4
Rata-rata 517,3 lebih tinggi dari 500, tetapi apakah secara signifikan lebih tinggi? Itulah yang akan kita
gunakan untuk satu sampel
uji t untuk menguji. Berikut ini adalah cara menguji hipotesis bahwa sampel berasal dari populasi dengan μ =
500. Tentu saja, contoh yang kita buat ini tidak realistis, karena situasi di mana kita benar-benar mengetahui
populasinya adalah situasi yang s e p e l e atau situasi buatan. Seperti yang telah kita bahas di atas, pada
sebagian besar situasi terapan, kita tidak mengetahui populasinya, sehingga kita membuat kesimpulan tentang
parameter populasi dari estimasi sampel.
128
t.test(rnorm1, mu = 500)
rnorm1
t = 1.1682, df = 49, p-value = 0.2484
hipotesis alternatif: rata-rata sebenarnya tidak sama dengan 500
487.5180 547.1414
estimasi sampel:
rata-rata
dari x
517.3297
Lihat bahwa 500, nilai uji kita, berada "di dalam" interval kepercayaan. Kita gagal menolak hipotesis nol dan
menyimpulkan bahwa masuk akal (dengan keyakinan 95%) untuk menyatakan bahwa rata-rata populasi yang
sebenarnya adalah antara 478,52 dan 547,14.
Uji t Sampel Berpasangan

Fungsi t.test dalam R akan melakukan uji t sampel berpasangan sebagai tambahan dari uji satu sampel dan dua
sampel.
Uji ini dikenal sebagai uji t berkorelasi, uji t pengukuran berulang, atau uji t dependen, karena ada
ketergantungan antara dua ukuran untuk setiap subjek. Sebagai suatu hal yang menarik secara statistik, uji t
berpasangan
Uji t sampel berpasangan dapat dengan mudah disusun ulang sebagai uji t satu sampel, seperti yang akan saya
tunjukkan. Untuk uji t sampel berpasangan, dua titik data untuk satu subjek harus dipasangkan atau dicocokkan
sedemikian rupa sehingga mewakili dua pengamatan pada individu yang sama atau pasangan yang cocok
seperti ibu dan anak perempuan atau anak kembar. Variabel yang sebenarnya menarik secara statistik bukanlah
kedua ukuran tersebut, tetapi perbedaan antara kedua ukuran tersebut.
Untuk menghitung nilai t, kita dapat menggunakan metode "perbedaan langsung", sebagai berikut:
d -μ d
t= sd
n
di mana d adalah perbedaan rata-rata antara pasangan nilai data, μd adalah perbedaan rata-rata yang
dihipotesiskan (biasanya nol), sd adalah deviasi standar dari perbedaan tersebut, dan n dalam hal ini adalah
jumlah pasangan pengamatan, bukan jumlah total pengamatan.
Mari kita ilustrasikan uji t sampel berpasangan dengan beberapa data yang mewakili sebelum dan sesudah
pengukuran. Data tersebut (yang saya kumpulkan) mewakili nilai siswa pada tes statistika di awal kelas statistika
pengantar dan nilai siswa yang sama pada tes statistika paralel di akhir mata kuliah selama satu semester.
Berikut ini adalah datanya (Tabel 9-1):
129
Tabel 9-1. Nilai Tes Pra-Kursus dan Pasca-Kursus dan Tes Akhir untuk Kelas Statistika
Pretest Posttest
25.0 41.7
41.7 66.7
41.7 91.7
54.2 70.8
29.2 70.8
50.0 54.2
54.2 87.5
45.8 54.2
54.2 70.8
33.3 50.0
33.3 58.3
54.2 79.2
37.5 87.5
12.5 45.8
29.2 66.7
41.7 45.8
Mari kita mengimpor data dari file teks yang dibatasi tab. (Anda juga dapat menggunakan Editor Data R
untuk membuat bingkai data.) Untuk mempermudah mengakses variabel-variabel yang terpisah, kita lampirkan
bingkai data tersebut.
> prepost <- read.table("prepost.txt", header = TRUE)

> lampirkan (prepost)
Untuk melakukan uji t sampel berpasangan, gunakan perintah berikut di R.
> t.test(Pretest, Posttest, paired = TRUE)
Uji-t berpasangan
data: Pretest dan Posttest

t = -6.8695, df = 15, p-value = 5.328e-06
-33.08447 -17.41553
estimasi sampel:
rata-rata dari perbedaan
-25.25
130
Lihat bahwa skor rata-rata posttest adalah 25,25 poin lebih tinggi dari skor rata-rata pretest. Untuk
menunjukkan hubungan antara uji t sampel berpasangan dan uji t satu sampel, mari kita ulangi pengujian sebagai
uji t satu sampel dengan kolom nilai perbedaan sebagai variabel dependen dan nilai uji nol. Pertama, mari kita
hitung vektor skor perbedaan, lalu jalankan uji t satu sampel. Untuk membuat perbedaan menjadi positif, kita
kurangi skor pretest dengan skor posttest.
> Perbedaan <- Posttest - Pretest

> Perbedaan
[1] 16.7 25.0 50.0 16.6 41.6 4 . 2 33.3 8 . 4 16.6 16.7 25.0 25.0 50.0 33.3 37.5
[16] 4 . 1
> t.test (Perbedaan)
Perbedaan
t = 6.8695, df = 15, p-value = 5.328e-06 hipotesis
alternatif: rata-rata sebenarnya tidak sama dengan 0
17.41553 33.08447
estimasi sampel:
rata-rata dari x
25.25
Kita menghitung nilai t sebagai nilai positif sekarang, tetapi selain membalikkan tandanya, kita mendapatkan
nilai yang sama seperti p a d a uji t sampel berpasangan, derajat kebebasan, dan interval kepercayaan untuk uji t
satu sampel sama dengan nilai untuk uji t sampel berpasangan.
■ Tips Kita juga dapat menggunakan fungsi t.test untuk mendapatkan nilai positif dari t hanya dengan membalik
urutan pasangan
entri sebagai berikut: t.test(Posttest, Pretest, paired =TRUE). Lihat hasilnya di bawah ini.
> t.test(Posttest, Pretest, paired = TRUE)
Uji-t berpasangan
data: Posttest dan Pretest

t = 6.8695, df = 15, p-value = 5.328e-06
17,41553 33,08447
estimasi sampel:
rata-rata dari perbedaan
25.25
131
Uji t dua sampel

R secara default menggunakan uji t "Welch", yang mengasumsikan varians dalam populasi tidak sama. Banyak
ahli statistik lebih memilih uji ini daripada uji t versi "klasik", yang mengasumsikan kesamaan varians
(homoskedastisitas).
Ketika dua sampel memiliki jumlah pengamatan yang sama, kedua tes menghasilkan hasil yang setara. Ketika
dua sampel memiliki ukuran sampel yang berbeda dan varians sampel sangat berbeda (dengan faktor dua
atau
lebih), kedua uji tersebut menghasilkan hasil yang berbeda. Uji Welch menggunakan koreksi Welch-
Satterthwaite untuk mengestimasi derajat kebebasan, dan derajat kebebasannya dapat berupa pecahan.
Estimasi derajat kebebasan untuk uji t Welch akan selalu tidak lebih besar daripada uji "klasik" yang
menggunakan estimasi varians gabungan.
Selain menjalankan kedua uji tersebut, kami akan membahas alternatif yang lebih bijaksana, yaitu
menguji kesetaraan varians sebelum melakukan uji t, dan memilih uji yang sesuai berdasarkan apakah kita
menolak atau gagal menolak hipotesis nol bahwa variansnya sama. Ini adalah pendekatan yang dilakukan
oleh paket perangkat lunak statistik SPSS, seperti yang diilustrasikan di bawah ini.
Uji t Welch
Uji ini lebih konservatif daripada uji klasik, dan saya pribadi lebih memilihnya dan menggunakan uji Welch
standar dalam penelitian saya. Menariknya, meskipun uji Welch diilustrasikan di banyak buku teks statistik bisnis
dan umum di perpustakaan saya, uji ini jarang dibahas dalam teks statistik perilaku, dan banyak peneliti perilaku
yang tampaknya tidak menyadari keberadaannya atau pembenaran penggunaannya.
Uji Welch tidak menyatukan varian sampel. Nilai t dihitung sebagai berikut:
(x1 - x2 ) -(μ1 - μ2 )
t=
s2 s2
1
+ 2
n1 n2
Perhatikan bahwa perbedaan (μ1 - μ2) biasanya diasumsikan nol - yaitu, kita mengasumsikan kedua rata-rata sama
dalam populasi. Derajat kebebasan untuk pengujian ini dihitung dengan cara ini:
df = (s21 / n1+2 s22 / n1 ) 2

2 2 2
(s / n ) (s / n )
11
+2 2
n1 -1 n2 -1
Melanjutkan contoh statistik nilai pretest dan posttest, lihat data berikut ini, yang mewakili nilai pretest dan
posttest untuk dua semester berturut-turut dari kelas yang sama (Tabel 9-2). Kami menggunakan data semester
musim semi untuk mengilustrasikan uji t sampel berpasangan. Untuk ilustrasi ini, kita akan membandingkan
nilai pretest dan nilai posttest untuk dua semester dengan menggunakan uji t sampel independen.
132
Tabel 9-2. Nilai Pretest dan Posttest untuk Dua Semester

Jatuh Musim
semi
Pretest Posttest Pretest Posttest
54.2 62.5 25.0 41.7
50.0 54.2 41.7 66.7
41.7 41.7 41.7 91.7
37.5 50.0 54.2 70.8
37.5 41.7 29.2 70.8
37.5 50.0 50.0 54.2
37.5 41.7 54.2 87.5
33.3 33.3 45.8 54.2
33.3 33.3 54.2 70.8
33.3 29.2 33.3 50.0
33.3 37.5 33.3 58.3
33.3 41.7 54.2 79.2
33.3 37.5 37.5 87.5
29.2 41.7 12.5 45.8
29.2 33.3 29.2 66.7
29.2 25.0 41.7 45.8
25.0 33.3
25.0 37.5
20.8 41.7
20.8 33.3
12.5 33.3
Saya menggunakan daftar untuk membuat struktur data dan menggunakan fungsi sapply() untuk
memeriksa rata-rata untuk tes ini karena kedua kelas memiliki jumlah siswa yang tidak sama. Teknik ini
diilustrasikan pada Bab 2 ketika kita membandingkan nilai tes untuk tiga kelas dengan ukuran yang berbeda.
Perhatikan bahwa kedua nilai pretest cukup dekat, tetapi kedua nilai posttest sangat berbeda.
> PrePost < - list(Pretest1, Pretest2, Posttest1, Posttest2)

> PraPasc
a [[1]]
[1] 54.16667 50.00000 41.66667 37.50000 37.50000 3 7 . 50000 37.50000 33.33333
[9] 33.33333 3 3 . 33333 3 3 . 3 3 3 3 3 3 3 . 33333 33.33333 29.16667 2 9 . 16667 29.16667
[17] 25.00000 25.00000 20.83333 20.83333 12.50000
[[2]]
[1] 25.00000 41.66667 41.66667 54.16667 29.16667 50.00000 54.16667 45.83333
133
[9] 54.16667 33.33333 33.33333 54.16667 37.50000 12.50000 29.16667 41.66667
[[3]]
[1] 62.50000 54.16667 41.66667 50.00000 41.66667 50.00000 41.66667 33.33333
[9] 33.33333 29.16667 37.50000 41.66667 37.50000 41.66667 33.33333 25.00000
[17] 33.33333 37.50000 41.66667 33.33333 33.33333
[[4]]
[1] 41.66667 66.66667 91.66667 70.83333 70.83333 54.16667 87.50000 54.16667
[9] 70.83333 50.00000 58.33333 79.16667 87.50000 45.83333 66.66667 45.83333
> sapply(PrePost, mean)

[1] 32.73810 39.84375 39.68254 65.10417
Sekarang, kita akan melakukan uji t dua sampel dengan nilai pretest dari kedua kelas. Lihat perintah R di
bawah ini. Perhatikan bahwa kita dapat menggunakan data "bertumpuk" dengan pengkodean indikator atau data
berdampingan seperti pada contoh saat ini.
Saya akan mengilustrasikan keduanya.
Uji t Welch untuk Data "Berdampingan"

Jika data berada dalam vektor terpisah atau sebagai kolom dalam bingkai data, Anda dapat menjalankan uji t dua
sampel Welch sebagai berikut.
> t.test(Pretest1, Pretest2)
Data uji-t Dua Sampel
Welch: Pretest1 dan Pretest2

t = -1.924, df = 27.403, p-value = 0.0648
-14.6781507 0.4668411
estimasi sampel:
rata-rata dari x rata-
rata dari y 32.73810
39.84375
Lihatlah bahwa kedua set skor pretest tidak berbeda secara signifikan, dan konfirmasi dari hal ini adalah fakta
bahwa nol atau tidak ada perbedaan yang terkandung dalam interval kepercayaan. Selain itu, perhatikan
dengan seksama derajat kebebasan pecahan, seperti yang telah kita bahas di atas.
Sekarang mari kita bandingkan nilai posttest dari kedua kelas tersebut.
> t.test(Posttest1, Posttest2)
Data uji-t Dua Sampel Welch:
Posttest1 dan Posttest2

t = -5,7444, df = 21,885, p-value = 9,052e-06
-34.60233 -16.24092
estimasi sampel: rata-
rata x rata-rata y
134
39.68254 65.10417
135
Dalam hal ini, nilai posttest untuk semester musim semi secara signifikan lebih tinggi daripada nilai
posttest untuk semester musim gugur sebelumnya. Sebelum Anda menyimpulkan sesuatu yang penting tentang
perbedaan yang signifikan ini, Anda harus tahu bahwa posttest untuk semester musim gugur tidak termasuk
dalam nilai mata kuliah, tetapi termasuk dalam nilai mata kuliah untuk semester musim semi. Dengan
demikian, kedua kelas tersebut memiliki motivasi yang sangat berbeda untuk mengerjakan posttest dengan
baik.
Melakukan uji t Welch dengan Data "Bertumpuk" dan Pengkodean Indikator

Sangat umum untuk menumpuk data dalam satu kolom dan menggunakan pengkodean indikator untuk
menunjukkan keanggotaan kelompok. Dalam R, pengkodean indikator disebut "faktor". Faktor dapat berupa
label verbal atau angka. Mari kita konfigurasikan ulang skor posttest untuk dua kelas sebagai data bertumpuk.
Beberapa program statistik seperti SPSS mengharuskan uji t sampel independen untuk diatur dengan cara ini,
sementara yang lain seperti Minitab dan R lebih fleksibel dan memungkinkan data bertumpuk atau
berdampingan. Berikut adalah data yang telah dikonfigurasi ulang. Saya menggunakan Excel untuk melakukan
"operasi" pada data dan kemudian membaca kerangka data ke dalam R melalui fungsi read.table.
> StackedData <- read.table("StackedData.txt", header = TRUE)

> TumpukanData
PostTest Kelas
1 62.50000 1
2 54.16667 1
3 41.66667 1
4 50.00000 1
5 41.66667 1
6 50.00000 1
7 41.66667 1
8 33.33333 1
9 33.33333 1
10 29.16667 1
11 37.50000 1
12 41.66667 1
13 37.50000 1
14 41.66667 1
15 33.33333 1
16 25.00000 1
17 33.33333 1
18 37.50000 1
19 41.66667 1
20 33.33333 1
21 33.33333 1
22 41.66667 2
23 66.66667 2
24 91.66667 2
25 70.83333 2
26 70.83333 2
27 54.16667 2
28 87.50000 2
29 54.16667 2
30 70.83333 2
31 50.00000 2
32 58.33333 2
33 79.16667 2
136
34 87.50000 2
35 45.83333 2
137
36 66.66667 2
37 45.83333 2
Perhatikan penggunaan karakter tilde (~) untuk mengindikasikan bahwa vektor Kelas berisi faktor untuk data
yang ditumpuk. Lihat bahwa data yang ditumpuk menghasilkan hasil uji t yang identik dengan data yang
berdampingan.
> melampirkan (StackedData)

> t.test(PostTest ~ Kelas)
Data Uji-t Dua Sampel
Welch: PostTest berdasarkan Kelas

t = -5,7444, df = 21,885, p-value = 9,052e-06
-34.60233 -16.24092
estimasi sampel:
rata-rata pada kelompok 1 rata-rata
pada kelompok 2 39.68254
65.10417
Uji t dengan Asumsi Kesetaraan Varians

Seperti yang telah kita bahas di atas, versi "klasik" dari uji t mengasumsikan kesetaraan varians dan
menyatukan varians dari dua sampel untuk membuat uji ini lebih kuat. Banyak teks statistik dalam ilmu
perilaku dan sosial hanya menyertakan uji ini dan tidak menyebutkan uji Welch.
Untuk pengujian ini, kami menghitung estimasi varians gabungan sebagai berikut:
1 -1)s1 + (n
(n 2 2
2 -1)s 2
s2p =
n1 + n2 - 2
Kami kemudian menghitung

nilai t:
(x1 - x2 ) -(μ1 - μ2 )
t= s2 s2
p
+
n1 n2
p
Derajat kebebasan untuk uji t adalah n1 + n2 - 2. Berikut ini adalah cara memberitahu R untuk melakukan
uji t dengan asumsi k e s a m a a n varians. Kita akan menggunakan data bertumpuk yang sama dengan yang
baru saja kita gunakan untuk uji t Welch.
> t.test(PostTest ~ Class, var.equal = TRUE)
Data Uji-t Dua
Sampel: PostTest
berdasarkan Kelas
t = -6.1879, df = 35, p-value = 4.37e-07
138
-33.76182 -17.08144
estimasi sampel:
rata-rata pada kelompok 1 rata-rata BAB 9 ■ MELAKUKAN UJI T
pada kelompok 2 39.68254
65.10417
139
Seperti yang telah kita bahas, uji ini lebih kuat daripada uji Welch, dan dengan demikian menghasilkan
nilai p yang lebih rendah. Untuk meningkatkan akurasi statistik dari uji hipotesis kita, pertama-tama kita dapat
melakukan uji kesamaan varians dan kemudian memilih uji t yang sesuai, seperti yang telah disebutkan di
atas. Untuk melakukan hal tersebut, kita akan menggunakan fungsi tapply untuk menguji dua varians dan
kemudian membandingkannya menggunakan fungsi var.test.
> tapply(PostTest, Class, var)

1 2
77.46362 254.34028
Kami mencatat perbedaan yang lebar dalam dua varians, dan dengan demikian menduga bahwa kedua
varians tersebut tidak sama dalam populasi. Fungsi var.test mengonfirmasi kecurigaan kami. Lihat bahwa uji F
yang signifikan mengindikasikan bahwa kita harus menolak hipotesis nol bahwa kedua varians adalah sama.
Dengan demikian, kita tidak dibenarkan untuk melakukan uji t "klasik" dengan varian yang sama. Karena
pengkodean indikator yang digunakan, R membagi varians yang lebih kecil dengan yang lebih besar untuk
menghasilkan rasio F ekor kiri yang aneh kurang dari 1. Untuk menghindari hal ini, Anda dapat dengan mudah
membagi varians yang lebih besar dengan yang lebih kecil untuk mendapatkan rasio F yang lebih tradisional,
meskipun hasil statistiknya akan sama pada kedua kasus tersebut.
> var.test(PostTest ~ Class)
Uji F untuk membandingkan dua
varian data: PostTest berdasarkan Kelas

F = 0.3046, num df = 20, denom df = 15, p-value = 0.01435 hipotesis
alternatif: rasio varian yang sebenarnya tidak sama dengan 1
0.1105144 0.7836799
estimasi sampel:
rasio varians
0.3045669
Paket SPSS hanya melakukan uji kesamaan varians dan melaporkan uji klasik dan uji Welch, meskipun
keluarannya rumit dan sulit untuk diuraikan. Berikut ini adalah output SPSS untuk contoh kita saat ini (Gambar 9-
3). Lihat bahwa hasil yang signifikan dari uji kesamaan varians mengindikasikan bahwa pengguna harus
melaporkan
uji t yang tidak mengasumsikan adanya kesamaan varians. Perhatikan lebih lanjut bahwa R dan SPSS
menghasilkan hasil yang identik untuk keduanya
uji t dan interval kepercayaan.
140
Gambar 9-3. Output SPSS untuk uji t sampel independen
141
Catatan tentang Ukuran Efek untuk Uji t

Seperti yang telah disebutkan di awal bab ini, ukuran effect size yang paling sering dilaporkan untuk uji t adalah
Cohen's d. Indeks ini menunjukkan seberapa jauh jarak antara dua rata-rata dalam satuan standar deviasi. Untuk
setiap bentuk
t test, kita dapat mengidentifikasi rumus untuk Cohen's d berdasarkan definisi umum berikut ini:
μ1 - μ 2
d=
σ
Perhatikan bahwa perbedaan rata-rata dibagi dengan deviasi standar dan bukan kesalahan standar dari
rata-rata. Karena kita menggunakan data sampel, kita akan menggunakan statistik sampel untuk
mengestimasi parameter populasi. Untuk uji t sampel independen, Cohen's d dihitung sebagai
-x2
d = x1
sp
di mana sp adalah deviasi standar gabungan, yang merupakan akar kuadrat dari estimasi varians gabungan yang dibahas di
atas.
Untuk uji t satu sampel, Cohen's d dapat dihitung sebagai
-μ
d = x1
sx
Untuk uji t sampel berpasangan, kita dapat menghitung Cohen's d sebagai
d
d=
sd
Perhatikan bahwa kita menggunakan d untuk menandakan perbedaan rata-rata, dan statistik Cohen juga disebut
d. Istilah sd adalah deviasi standar (bukan kesalahan standar) dari perbedaan rata-rata. Jelas akan lebih mudah
untuk menulis
Fungsi R untuk melakukan uji t dan menghitung Cohen's d. Latihan tersebut diserahkan kepada pembaca.
Cohen menyarankan bahwa nilai d sebesar 0,2 menunjukkan efek yang kecil, nilai 0,5 menunjukkan efek
yang sedang, dan nilai 0,8 atau lebih tinggi menunjukkan efek yang besar. Interpretasi ini tidak tergantung pada
signifikansi statistik atau ukuran sampel.
Pelaporan indeks ukuran efek tidak dibangun ke dalam versi dasar R, tetapi diimplementasikan dalam
paket kontribusi R pwr (untuk daya) yang ditulis oleh Stéphane Champely. Kita akan membahas paket ini secara
lebih rinci nanti, tetapi untuk saat ini, cukuplah dikatakan bahwa paket ini mengimplementasikan analisis daya
seperti yang dikembangkan oleh Cohen. Setiap fungsi dalam paket pwr mengharuskan Anda untuk
memasukkan tiga dari empat kuantitas (ukuran efek, ukuran sampel, tingkat signifikansi, atau daya), dan
kemudian menghitung nilai kuantitas keempat. Seperti yang telah kita lakukan di seluruh teks ini, paket pwr
secara default menggunakan tingkat alpha 0,05. Semua analisis kekuatan memerlukan beberapa tingkat asumsi.
Sama seperti kita mengasumsikan tingkat alfa default sebesar
.05, kami mengasumsikan tingkat beta default sebesar 0,80. Kami juga mengasumsikan ukuran efek dalam populasi
adalah "berukuran sedang."
Kesimpulan
142
Pada bab ini, Anda telah mempelajari dasar-dasar pengujian hipotesis, fungsi-fungsi R untuk distribusi t, dan
bagaimana menggunakan R untuk tiga jenis uji t. Anda juga telah mempelajari perbedaan antara data
bertumpuk dan data berdampingan serta perbedaan antara uji t Welch dan uji t klasik dengan asumsi varian
yang sama.
Pada bab berikutnya, Anda akan mempelajari bagaimana menggunakan R untuk analisis varians, yang
merupakan perluasan langsung dari
Uji t untuk perbandingan simultan dari tiga atau lebih rata-rata.
143
BAB 10
Analisis Varians Satu Arah
Analisis varians (ANOVA) membandingkan tiga atau lebih rata-rata secara bersamaan. Kami menentukan
apakah r a t a - r a t a berbeda secara signifikan dalam populasi dengan menganalisis variasi dalam variabel
dependen ke dalam sumber-sumber yang terpisah. ANOVA memanfaatkan sifat aditifitas varians, dan kami
mempartisi variasi k e d a l a m efek perlakuan (perbedaan nyata) dan kesalahan (perbedaan karena
kesalahan pengambilan sampel atau perbedaan individu). Rasio dari dua varians mengikuti distribusi F
(dinamai sesuai nama R.A. Fisher). Beberapa pembaca mungkin mengalami kesulitan untuk memahami
mengapa analisis komponen varians dapat digunakan untuk menguji hipotesis tentang rata-rata, tetapi jika
d i r e n u n g k a n k e m b a l i , k i t a harus menyadari bahwa varians itu sendiri didasarkan pada
penyimpangan kuadrat dari rata-rata.
Pada bab ini, Anda akan mempelajari cara melakukan ANOVA satu arah dan melakukan perbandingan
post hoc jika d i p e r l u k a n d e n g a n menggunakan kriteria Tukey honestly significant difference (HSD)
dan koreksi Bonferroni. Pada Bab 11, Anda akan belajar bagaimana melakukan dan menginterpretasikan
ANOVA dua arah dan model campuran, serta ANOVA pengukuran berulang.
Sebelum kita membahas ANOVA, mari kita periksa sifat-sifat distribusi F dan fungsi R untuk menanganinya.
Seperti yang akan Anda lihat, distribusi F tidak dapat mengasumsikan nilai negatif karena didasarkan pada
varians, yang berasal dari deviasi kuadrat.
Memahami Distribusi F
Fungsi R untuk distribusi F adalah df, pf, qf, dan rf, masing-masing untuk densitas, probabilitas kumulatif,
kuantil, dan fungsi generator acak. Seperti distribusi t, distribusi F didasarkan pada derajat kebebasan, dan
dengan demikian merupakan keluarga distribusi. Tidak seperti distribusi t, distribusi F memiliki derajat
kebebasan untuk suku pembilang dan suku penyebut. Juga tidak seperti distribusi t, distribusi F tidak simetris.
Sebaliknya, distribusi F memiliki kemiringan positif, dan puncaknya berada di sekitar nilai 1 (yang akan
mengindikasikan bahwa kedua estimasi varians dalam rasio adalah sama). Kita akan memplot beberapa
distribusi F yang representatif seperti yang kita lakukan pada distribusi t untuk melihat apa yang terjadi ketika
derajat kebebasan berubah.
Mari kita buat distribusi F untuk kombinasi derajat kebebasan berikut ini: (3, 10), (4, 15), dan (10, 29).
Perhatikan bahwa dengan meningkatnya derajat kebebasan, distribusi F menjadi lebih simetris. Berikut ini
adalah
untuk menghasilkan distribusi F dan plot yang ditunjukkan pada Gambar 10-1. Kami mengatur sumbu x untuk
berkisar dari 0 hingga 6 dengan kenaikan 0,1.
> xaxis <- seq(0,6,.1) > xaxis

[1] 0.0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 . 9 1.0 1 . 1 1 . 2 1 . 3 1 . 4 1.5 1 . 6 1.7 1 . 8
[20] 1.9 2.0 2.1 2 . 2 2 . 3 2 . 4 2 . 5 2 . 6 2 . 7 2 . 8 2 . 9 3.0 3 . 1 3 . 2 3 . 3 3 . 4 3 . 5 3 . 6 3 . 7
[39] 3.8 3.9 4.0 4 . 1 4 . 2 4 . 3 4 . 4 4 . 5 4 . 6 4 . 7 4.8 4.9 5.0 5 . 1 5.2 5 . 3 5 . 4 5 . 5 5 . 6
[58] 5.7 5 . 8 5.9 6.0
139
> y1 <- df(sumbu x, 3, 10)
> y2 <- df(sumbu x, 4, 15)
9 ■<-
>BABy3 df(sumbu
MELAKUKAN UJI T x, 10, 29)
140
BAB 10 ■ ANALISIS VARIANS SATU ARAH
> plot(xaxis, y3, type = "l", main = "Membandingkan Distribusi F")

> points(xaxis, y1, type = "l", col = "blue")
Membandingkan Distribusi F
0.8
df = (10,29)
0.6
df = (4,15)
df = (3,10)
0.4
0.2
0.0
0 1 2 3 4 5 6
Nilai F
Gambar 10-1. Membandingkan distribusi F dengan derajat kebebasan yang berbeda
Menggunakan Distribusi F untuk Menguji Varians

Karena dibentuk dari rasio dua varians, distribusi F dapat digunakan untuk menguji hipotesis tentang varians.
Dalam buku-buku statistik teoretis, siswa belajar bahwa distribusi F dan chi-square memiliki hubungan
matematis, sehingga masuk akal jika kita mengembangkan interval kepercayaan untuk varians dengan
menggunakan distribusi chi-square dan uji hipotesis tentang varians dengan menggunakan distribusi F.
Dalam Bab 9, Anda telah melihat
penggunaan fungsi var.test untuk membandingkan dua varian. Ingatlah bahwa keluaran dari fungsi var.test
adalah sebuah
Rasio F.
Berikut adalah hasil dari fungsi var.test yang digunakan untuk menilai kesetaraan varians dari Bab 9.
> var.test(PostTest ~ Class)
Uji F untuk membandingkan dua
varian data: PostTest berdasarkan Kelas

F = 0.3046, num df = 20, denom df = 15, p-value = 0.01435 hipotesis
alternatif: rasio varian yang sebenarnya tidak sama dengan 1
0,1105144 0,7836799
estimasi sampel:
141
rasio
BAB 10 ■varians
ANALISIS VARIANS SATU ARAH
0.3045669
142
Perhatikan bahwa rasio F kurang dari 1 karena varians yang lebih kecil dibagi dengan varians yang lebih
besar. Rasio F seperti itu sah-sah saja, tetapi banyak siswa dan peneliti yang bingung dengan nilai probabilitas
"ekor kiri" dalam distribusi F. Cara mudah untuk menghindari hal ini adalah dengan membagi varians yang
lebih besar dengan varians yang lebih kecil untuk membuat F setidaknya 1 dan nilai p menjadi "ekor kanan".
Ingatlah bahwa varians untuk kedua kelas adalah 77,46 dan 254,34:
> tapply(PostTest, Groups, var)

1 2
77.46362 254.34028
Mari kita bagi varians yang lebih besar dengan varians yang lebih kecil untuk mendapatkan rasio F yang
lebih besar dari satu: 254.34028 / 77.46362 = 3.283351. Kita juga dapat dengan mudah menemukan
kebalikan dari rasio F yang dilaporkan oleh fungsi var.test:
> 1/.3045669
[1] 3.283351
Nilai p akan sama, baik jika kita membagi varians yang lebih besar atau lebih kecil dengan varians lainnya.
Perhatikan bahwa ini adalah probabilitas dua sisi karena hipotesis alternatifnya adalah variansnya tidak sama.
Dengan demikian, kita akan menggandakan nilai p satu sisi yang dilaporkan oleh R ketika kita menggunakan
fungsi pf() untuk menentukan nilai p. Lihat kode R berikut ini:
> TwoTailedP <- 2*(1 - pf(3.283351, 15, 20))

> TwoTailedP
[1] 0.01435193
Perhatikan bahwa kita harus membalik derajat kebebasan pembilang dan penyebut, karena kita sekarang
membagi varians yang lebih besar dengan varians yang lebih kecil. Nilai p dua sisi memang sama dengan
yang dilaporkan oleh fungsi var.test R.
Untuk analisis varians, kita menempatkan 1 - α di sebelah kiri nilai kritis F dan α di sebelah kanan nilai kritis.
Hal ini membuat beberapa guru secara keliru menyimpulkan bahwa uji F memiliki satu ekor. Uji hipotesis
didasarkan pada rasio dua varians, dan varians didasarkan pada deviasi kuadrat, seperti yang telah kita bahas di
atas. Oleh k a r e n a itu, perbedaan negatif antara dua rata-rata dan perbedaan positif antara dua rata-rata akan
menghasilkan deviasi kuadrat yang positif. Oleh karena itu, rasio F meningkat ketika perbedaan (baik positif
maupun negatif) antara rata-rata meningkat relatif terhadap variabilitas dalam kelompok, dan peningkatan
y a n g dihasilkan dalam rasio F mencerminkan perbedaan rata-rata positif dan negatif, sehingga
menjadikannya sebagai uji dua sisi. SPSS dan paket perangkat lunak statistik lainnya melaporkan nilai p (yang
oleh SPSS disebut "Sig.") sebagai dua sisi, dan sekarang Anda tahu alasannya!
Perbandingan Alpha dan Post Hoc yang Dipadukan

Ketika kita melakukan uji hipotesis berulang kali, probabilitas kesalahan Tipe I meningkat. Hal ini terutama
terjadi ketika kita membandingkan pasangan rata-rata. Jika kita melakukan c perbandingan yang berbeda
antara pasangan rata-rata, masing-masing pada tingkat alfa nominal 0,05, tingkat kesalahan Tipe I secara
keseluruhan tidak akan menjadi 0,05, tetapi akan menjadi 1 - (1-.05)c., jika perbandingannya independen,
yang mana tidak. Sebagai ilustrasi, asumsikan kita memiliki enam kelompok dan mengambil semua pasangan
yang mungkin. Gunakan rumus berikut untuk menghitung jumlah perbandingan berpasangan:
6!
6 C2 = = 15
4!2!
141
Oleh karena itu, kesalahan Tipe I, jika kita mengasumsikan independensi, dan jika kita melakukan setiap
pengujian pada alpha = .05, akan menjadi
142
1 - (1 - .05)15 = 1 - .9515 = 1 - .4633 = .5367
Ini jelas merupakan tingkat kesalahan yang terlalu tinggi untuk pengujian hipotesis. ANOVA
mengizinkan perbandingan simultan dari semua 15 rata-rata sekaligus, dan mengontrol tingkat kesalahan ke
nominal 0,05. Jika dan hanya jika rasio F secara keseluruhan signifikan, kita harus melanjutkan dengan
perbandingan post hoc untuk menentukan pasangan rata-rata mana yang berbeda secara signifikan. Seperti
halnya dengan uji F secara keseluruhan, kita harus memastikan untuk tidak menambah tingkat kesalahan
dengan melakukan setiap perbandingan pada tingkat alfa nominal. Ada beberapa pendekatan untuk
mengontrol tingkat kesalahan perbandingan post hoc setelah uji F keseluruhan yang signifikan, tetapi dalam
bab ini, kami hanya mengilustrasikan kriteria Tukey HSD dan koreksi Bonferroni.
ANOVA Satu Arah

Dalam ANOVA satu arah, kami membandingkan rata-rata untuk tiga kelompok atau lebih. Setiap kelompok
ditentukan oleh tingkat faktor y a n g berbeda (variabel independen). Jika uji F secara keseluruhan signifikan,
kami dibenarkan untuk melakukan uji post hoc untuk menentukan pasangan rata-rata mana yang berbeda
secara signifikan. Salah satu bagian dari variasi total adalah variasi "perlakuan", yang didasarkan pada
perbedaan di antara ketiga rata-rata. Kami membandingkan setiap rata-rata kelompok dengan rata-rata
keseluruhan yang memperlakukan semua pengamatan sebagai satu kelompok. Partisi lainnya adalah variasi
"kesalahan", yang didasarkan pada perbedaan di antara skor dalam setiap kelompok. Variasi perlakuan
biasanya disebut variasi "antara" karena variasi ini terjadi di antara (atau di antara) kelompok-kelompok. Kami
biasa menyebut variasi kesalahan sebagai variasi "dalam" karena variasi ini terjadi di dalam masing-masing
kelompok dan tidak terpengaruh oleh perbedaan antara rata-rata kelompok.
Partisi Varians dalam ANOVA Satu Arah

Variasi total dalam keseluruhan rangkaian skor dikenal dalam istilah ANOVA sebagai jumlah kuadrat total.
Secara teknis, ini seharusnya disebut jumlah deviasi kuadrat. Kami memperlakukan seluruh kumpulan data
sebagai satu sampel, menghitung rata-rata keseluruhan, yang akan kami sebut x, mengurangi rata-rata
keseluruhan dari setiap pengamatan, mengkuadratkan deviasi, dan menjumlahkannya. Berikut adalah rumus
konseptual untuk jumlah kuadrat total. Kita tidak akan benar-benar menghitungnya dengan cara ini karena
rumus komputasi yang setara secara aljabar menghasilkan hasil yang sama tanpa alat untuk menghitung dan
mengkuadratkan penyimpangan.
¤(x - x )
2
SStot=
Kami mempartisi variasi total ke dalam jumlah kuadrat antara dan dalam.
SStot = SSb + SSw
Kami mendefinisikan jumlah kuadrat antar kelompok sebagai
SSb = ¤nj (x j j=1 - x )2
143
Variasi antar kelompok (secara teknis jumlah kuadrat antar kelompok) dibagi dengan derajat kebebasan
antar kelompok untuk menghitung kuadrat rata-rata antar kelompok. Derajat kebebasan antar kelompok
adalah k - 1 di mana k adalah jumlah kelompok. Jumlah kuadrat tengah antar kelompok adalah varians yang
disebabkan oleh efek perlakuan atau perbedaan "nyata" antara rata-rata kelompok.
Kami mendefinisikan jumlah kuadrat dalam kelompok sebagai berikut. Penjumlahan ganda berarti
menambahkan deviasi kuadrat dari setiap pengamatan dalam setiap kelompok dari rata-rata kelompok, dan
menjumlahkannya di seluruh kelompok.
k nj 2
SSw = ¤¤(
j = 1 i=1
xij - x j)
Variasi dalam (secara teknis jumlah kuadrat dalam kelompok) dibagi dengan d e r a j a t kebebasan dalam
kelompok untuk menghitung kuadrat rata-rata dalam kelompok. Derajat kebebasan dalam kelompok dihitung
sebagai
N - k di mana N adalah ukuran sampel keseluruhan yang memperlakukan semua kelompok sebagai sampel
tunggal. Kuadrat rata-rata dalam kelompok adalah varians yang disebabkan oleh "kesalahan" di dalam
kelompok.
Hipotesis nol dalam ANOVA satu arah adalah bahwa semua rata-rata sama dalam populasi. Hipotesis
alternatifnya adalah bahwa setidaknya salah satu mean berbeda dari yang lain.
Contoh ANOVA Satu Arah

Rasio F adalah kuadrat rata-rata antar kelompok dibagi dengan kuadrat rata-rata dalam kelompok. Kita
bandingkan nilai ini dengan distribusi F teoretis dengan derajat kebebasan k dan N-k. Kita akan mendapatkan
nilai p, yang merupakan probabilitas dua sisi untuk menemukan rasio F sebesar atau lebih besar dari yang kita
lakukan jika hipotesis nol yang menyatakan bahwa rata-rata populasi sama adalah benar.
Mari kita ilustrasikan ANOVA satu arah dengan data berikut ini, yang mewakili jarak tempuh mobil dari 15
kendaraan subkompak identik yang secara acak ditugaskan ke tiga merek bensin tanpa timbal yang berbeda.
Berikut ini a d a l a h kode R untuk memasukkan data dan membuat kerangka data:
> mpg = c ( 34,35,34.3,35.5,35.8,35.3,36.5,36.4,37,37.6,33.3,34,34.7,33,34.9)

> brand = c ( " A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "C", "C", "C", "C", "C")
> jarak tempuh = data.frame(mpg = mpg,merek = merek)
> lampirkan (jarak tempuh)
> faktor (merek)
> jarak tempuh
merek mpg
1 34.0 A
2 35.0 A
3 34.3 A
4 35.5 A
5 35.8 A
6 35.3 B
7 36.5 B
8 36.4 B
9 37.0 B
10 37.6 B
11 33.3 C
12 34.0 C
13 34.7 C
14 33.0 C
144
15 34.9 C
145
Perhatikan bahwa saya memformat data dalam format "bertumpuk" dengan merek sebagai nilai karakter
yang mewakili faktor (variabel independen). Pertama-tama, mari kita periksa boxplot berdampingan. Berikut
ini adalah perintah R untuk menghasilkan boxplot yang ditunjukkan pada Gambar 10-2. Ingatlah untuk
melampirkan bingkai data untuk mengakses masing-masing variabel.
37
36
35
34
33
A B C
Gambar 10-2. Plot kotak berdampingan
> boxplot(mpg ~ merek)
Tampaknya merek B menghasilkan jarak tempuh bensin yang lebih baik daripada A dan C, tetapi kita
harus melakukan analisis varians untuk menentukan apakah perbedaannya signifikan. Mari kita buat sebuah
faktor dari kolom merek dan
menyebutnya sebagai grup. Kita kemudian akan menggunakan fungsi aov() untuk melakukan ANOVA, tetapi
menyimpan hasilnya dan kemudian menggunakan fungsi summary() untuk menampilkan tabel ringkasan
ANOVA biasa. Perhatikan bahwa hasilnya cukup untuk menentukan kuadrat rata-rata dan rasio F. Fungsi
ringkasan melakukan hal ini untuk Anda dan memformat
hasilnya dengan baik.
grup <- faktor (merek)

> kelompok
[1] A A A A A B B B B B B B C C C C
Tingkat: A B C
Sekarang, kita dapat menyimpan hasil ANOVA untuk penggunaan tambahan.
> hasil <- aov(mpg ~ grup)

> hasil
Panggila
n:
aov(formula = mpg ~ grup)
146
Ketentuan:
kelompok Sisa
Jumlah Kuadrat 17.04933 8.02800
Derajat Kebebasan 2 12
147
Kesalahan standar residual: 0.8179242

Estimasi efek mungkin tidak seimbang
> ringkasan (hasil)
Df Sum Sq Mean Sq Nilai F nilai Pr(>F)
kelompok 2 17.049 8.525 12.74 0.00108 **
Residual 12 8 . 028 0.669
---
Kode Signifikan: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ingatlah bahwa Anda dapat memanggil sebuah fungsi dari fungsi lainnya, sehingga Anda bisa mendapatkan
tabel ringkasan ANOVA dengan satu pernyataan jika Anda mau:
> summary(aov(mpg ~ group))

Df Sum Sq Mean Sq Nilai F nilai Pr(>F)
kelompok 2 17.049 8.525 12.74 0.00108 **
Residual 12 8 . 028 0.669
---
Kode Signifikan: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Rasio F secara keseluruhan adalah signifikan, sehingga kita dapat melakukan perbandingan post hoc
untuk menentukan pasangan mean mana yang berbeda secara signifikan. Pertama, mari kita periksa nilai
rata-rata untuk setiap tingkat faktor pengelompokan (merek bensin). Untuk mencapai tujuan ini, kita akan
menggunakan fungsi model.tables. Kita akan mengatur jenisnya menjadi "means" dan menggunakan hasil
analisis varians sebagai argumen:
> model.tables(hasil, type = "means")

Tabel dari means
Rata-rata
keseluruhan
35.15333
kelompo
k
kelompok
A B C
34.92 36.56 33.98
Uji Tukey HSD

Satu-satunya prosedur post hoc yang disediakan dalam versi dasar R adalah kriteria Tukey HSD, tetapi ini
adalah salah satu pendekatan perbandingan post hoc yang paling populer, dan secara umum memiliki sifat
yang diinginkan. Ini lebih konservatif daripada kriteria Fisher LSD (perbedaan paling tidak signifikan) yang
asli, yang menurut banyak ahli statistik terlalu liberal. Kriteria Tukey HSD kurang konservatif daripada
prosedur Scheffé, yang dianggap terlalu konservatif oleh banyak ahli statistik. Teks statistik atau desain
eksperimental yang baik akan membantu para pembaca yang ingin mengeksplorasi alternatif untuk HSD.
Untuk melakukan uji HSD, kami menggunakan fungsi TukeyHSD. Seperti halnya dengan sebagian besar
statistik
fungsi, implementasi R dari uji Tukey HSD secara default menggunakan tingkat alfa (keseluruhan) sebesar 0,05.
Perhatikan kode ini:
148
> TukeyHSD (hasil)
Tukey perbandingan berganda rerata
tingkat kepercayaan 95% tingkat
kepercayaan keluarga
Fit: aov(formula = mpg ~ grup)
149
$group
berbeda lwr upr p adj
B-A 1 , 64 0.2599123 3.0200877 0.0204273
C-A -0,94 -2.3200877 0.4400877 0.2056606
C-B -2,58 -3.9600877 -1.1999123 0.0008518
Perhatikan bahwa perbedaan antara merek A dan B adalah signifikan, begitu juga antara merek B dan C.
Merek C dan A tidak berbeda secara signifikan. Merek B menghasilkan jarak tempuh bensin yang jauh lebih
tinggi daripada dua merek lainnya.
■ Catatan Kriteria Tukey HSD menggunakan kuantitas yang dikenal sebagai "Studentized Range Statistic," yaitu
sering disingkat sebagai q. R memiliki distribusi kontinu dari statistik rentang Studentized yang dibangun di
dalamnya, bersama dengan berbagai fungsi distribusi kontinu yang telah kita bahas sebelumnya. Meskipun
Tukey's HSD adalah satu-satunya prosedur perbandingan post hoc yang dibangun ke dalam basis R, paket statistik
memiliki sejumlah prosedur lain untuk perbandingan post hoc. Untuk tujuan perbandingan, kita akan menggunakan
fungsi pairwise.t.test dari paket stats seperti yang akan dibahas di bawah ini.
Perbandingan Post Hoc yang Dikoreksi Bonferroni

Kita dapat membandingkan rata-rata setelah uji F yang signifikan dengan beberapa cara yang berbeda, dan
sebagai tambahan dari uji Tukey HSD, cara lain yang baik untuk melakukannya adalah dengan
menggunakan fungsi pairwise.t.test yang ada di dalam paket statistik. Ingatlah bahwa Anda harus
mengunduh dan menginstal paket stats. (Lihat Bab 1 untuk penyegaran jika Anda membutuhkannya.)
Anda kemudian harus m e m a s u k k a n paket tersebut ke dalam ruang kerja Anda. Jika Anda membutuhkan
bantuan, dokumentasi R menjelaskan prosedur ini. Sebagai pengingat singkat, lihat yang berikut ini:
> require(stats)
Fungsi pairwise.t.test memberikan beberapa pilihan kepada pengguna untuk menyesuaikan nilai p
untuk mengontrol tingkat kesalahan Tipe I secara keseluruhan. Kami akan membandingkan rata-rata dari
ANOVA satu arah kami menggunakan koreksi Bonferroni dan kemudian melihat bagaimana hasil tersebut
dibandingkan dengan uji Tukey HSD. Berikut adalah kode R untuk menghasilkan perbandingan berpasangan.
Koreksi Bonferroni hanyalah pembagian tingkat alpha keseluruhan dengan jumlah perbandingan, sehingga
tingkat alpha nominal untuk signifikansi dalam kasus ini adalah .05 / 3 = .0167 untuk setiap uji t berpasangan.
Prosedur Bonferroni bersifat konservatif, tetapi tidak terlalu konservatif, dan bersama dengan uji Tukey HSD,
merupakan prosedur post hoc yang sangat umum dilaporkan. Berikut adalah output R.
> require(stats)
> pairwise.t.test(mpg, group, p.adjust.method = "bonferroni")
Perbandingan berpasangan menggunakan uji t dengan
data SD gabungan: mpg dan kelompok
A B
B 0.02420 -
C 0.28272 0.00095
Metode penyesuaian nilai P: bonferroni
150
Meskipun nilai p yang dinyatakan sedikit berbeda, perbandingan yang dikoreksi Bonferroni membawa kita
pada kesimpulan yang sama dengan uji Tukey HSD, yaitu bahwa merek A dan B berbeda, merek B dan C berbeda,
dan merek A dan C tidak berbeda.
Menggunakan Fungsi anova

Sebagai poin terakhir tentang ANOVA satu arah, lihat di bawah ini bahwa Anda juga dapat menggunakan fungsi
anova untuk melakukan ANOVA satu arah dengan memberikan argumen lm (untuk model linier) ke fungsi anova.
Selain melaporkan satu desimal lebih banyak daripada fungsi aov, fungsi anova menghasilkan hasil yang setara
dan menghasilkan tabel ringkasan dengan segera. Berikut adalah kode R-nya:
> anova(lm(mpg ~ grup))

Tabel Analisis Varians
Tanggapan: mpg
Df Jumlah Sq Rata-rata Sq Nilai F Pr (> F)
kelompok 2 17.049 8.5247 12.742 0.001076 **
Residual 12 8 , 028 0 , 6690
---
Kode Signifikan: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kesimpulan
Pada bab ini, Anda telah mempelajari tentang distribusi F teoretis, fungsi R untuk bekerja dengan distribusi F,
dan bagaimana melakukan ANOVA satu arah dengan perbandingan post hoc menggunakan uji Tukey HSD
dan perbandingan yang dikoreksi Bonferroni. Pada bab selanjutnya, Anda akan mempelajari desain ANOVA
yang lebih kompleks dan bagaimana melakukan dan menginterpretasikannya.
151
BAB 11
Analisis Varians Lanjutan
Pada Bab 11, kita akan mempelajari lebih dalam tentang prosedur ANOVA, termasuk ANOVA dua arah, ANOVA
pengukuran berulang, dan ANOVA faktorial campuran. Secara umum, bentuk-bentuk ANOVA ini
memungkinkan kita untuk mengevaluasi efek gabungan dari dua faktor atau lebih atau untuk memeriksa
beberapa pengukuran pada variabel dependen. Pada Bab 13, di mana kita membahas regresi berganda, kita
akan mengilustrasikan bagaimana model linier yang sama mendasari model regresi dan ANOVA dan bagaimana
kita dapat menggunakan model regresi, jika diinginkan, untuk melakukan ANOVA juga.
Perhatikan peringatan berikut ini! Desain ANOVA dengan cepat menjadi sangat kompleks, dan
interpretasinya pun menjadi sama rumitnya.
■ Perhatian Semakin rumit desain ANOVA, semakin sulit untuk mengetahui berbagai
Semakin banyak efek dan interaksi, semakin besar kemungkinan akan ada kesulitan dalam
menginterpretasikan hasilnya. Sebagai bagian dari revolusi yang cukup tenang dan lembut dalam statistik selama
sekitar 20 tahun terakhir, para pendidik statistik telah menyimpulkan
bahwa desain yang sederhana, yang mudah ditafsirkan, lebih disukai daripada desain yang rumit, yang mungkin
sulit atau tidak mungkin ditafsirkan. Hal ini, tentu saja, merupakan kabar baik bagi para mahasiswa yang sedang
mempelajari statistik untuk menyelesaikan proyek penelitian, tesis, dan disertasi mereka.
ANOVA Dua Arah

Dalam ANOVA dua arah, ada dua faktor. Kami hanya akan mengilustrasikan versi paling dasar dari ANOVA efek
tetap dua arah, yaitu desain faktorial yang seimbang. Sebut saja faktor A dan B. Jika ada c level B dan r level A,
maka akan ada r × c total kelompok, yang masing-masing memiliki jumlah nilai data yang sama.
Partisi varians dalam ANOVA dua arah seperti yang ditunjukkan pada Gambar 11-1.
Total
Variasi
Variasi Antar Variasi

Kelompok Dalam
Kelompok
Variasi Karena Variasi Karena Variasi Karena

Faktor A Faktor B Interaksi A x B
149
Gambar 11-1. Partisi varians dalam ANOVA dua arah
150
BAB 11 ■ ANALISIS VARIANS LANJUTAN
Akan sangat membantu untuk memvisualisasikan ANOVA dua arah dengan mempertimbangkan tabel
seperti yang ditunjukkan pada Gambar 11-2. Dalam desain faktorial yang seimbang, setiap sel akan memiliki
jumlah pengamatan yang sama.
B1 B2
A1 A1B1 A1B2
A2 A2B1 A2B2
Gambar 11-2. Memvisualisasikan ANOVA dua arah
Pada Gambar 11-2, terdapat 2 baris dan 2 kolom untuk r × c = 4 kelompok. Dengan demikian, untuk desain
faktorial seimbang yang paling sederhana, akan ada empat sel yang dibandingkan.
Jumlah Kuadrat dalam ANOVA Dua Arah

Dalam ANOVA dua arah, kita memiliki enam jumlah kuadrat untuk dihitung, meskipun salah satunya (SS
untuk sel) tidak muncul di tabel ringkasan ANOVA.
Kita dapat menghitung jumlah kuadrat dalam ANOVA dua arah sebagai berikut.
1. Kami menghitung jumlah kuadrat total. Jumlah ini akan selalu sama, apa pun
model ANOVA-nya. Ini adalah jumlah kuadrat deviasi dari grand mean dengan
mempertimbangkan setiap titik data sebagai pengamatan dalam satu sampel.
¤ (x - x )
2
SStot =
Derajat kebebasannya adalah N - 1, di mana N adalah ukuran sampel secara

keseluruhan. Perhatikan bahwa jika kita membagi jumlah kuadrat dengan derajat
kebebasan, kita mendapatkan varians sampel yang benar-benar jelas. Dalam ANOVA,
varians aktual yang sedang "dianalisis" disebut kuadrat rata-rata.
2. Jumlah kuadrat untuk sel diturunkan dari rata-rata sel. Kita akan membagi j u m l a h
k u a d r a t untuk sel menjadi jumlah kuadrat untuk A, B, dan interaksi A × B.
Sel SS = SSA + SSB + SSAB
Kami menghitung jumlah kuadrat untuk sel dengan cara yang sama seperti jumlah
kuadrat lainnya, dan Anda dapat menganggapnya sebagai jumlah kuadrat untuk
ANOVA satu arah dengan menganggap semua kelompok sebagai independen. Jumlah
kuadrat untuk sel berguna untuk menemukan jumlah kuadrat interaksi, yang dapat
kita temukan dengan pengurangan.
3. Jumlah kuadrat untuk A ditemukan dengan menghitung jumlah kuadrat antar
kelompok dengan mempertimbangkan A sebagai satu-satunya faktor (lihat Bab 10).
D e r a j a t kebebasan untuk jumlah kuadrat untuk A adalah jumlah level A
dikurangi 1.
4. Jumlah kuadrat untuk B juga ditemukan dengan menghitung jumlah kuadrat antar
151
kelompok dengan hanya mempertimbangkan faktor B. Derajat kebebasan untuk
jumlah kuadrat untuk B adalah jumlah level B dikurangi 1.
152
5. Jumlah kuadrat interaksi dapat ditemukan dengan mudah melalui pengurangan:
SSAB = Sel SS - SSA - SSB
Derajat kebebasan untuk istilah interaksi adalah hasil kali dari derajat kebebasan
untuk A dan derajat kebebasan untuk B.
6. Terakhir, kami juga menghitung jumlah kuadrat galat dengan pengurangan:
SSerr = SStot - SScells
Derajat kebebasan untuk kesalahan adalah derajat kebebasan total dikurangi derajat
kebebasan A, B, dan AB.
Contoh ANOVA Dua Arah

ANOVA dua arah adalah desain yang efisien karena memungkinkan kita untuk melakukan tiga uji hipotesis.
Ketiga hipotesis nol tersebut adalah:
• Tidak ada efek utama A yang dipertimbangkan secara terpisah.
• Tidak ada efek utama B yang dipertimbangkan secara terpisah.
• Tidak ada interaksi antara A dan B yang dipertimbangkan secara bersamaan.
Data hipotetis berikut ini mewakili kepuasan mahasiswa yang diukur pada skala 10 poin (dengan 0 berarti
sama sekali tidak puas dan 10 berarti sangat puas). Para mahasiswa secara acak ditugaskan ke dalam tiga format
penyampaian mata kuliah dan setiap mahasiswa mengambil salah satu dari tiga mata kuliah di kelas. Berikut ini
adalah kumpulan data yang saya baca dari file CSV:
> twowayexample <- read.csv("twowayexampledata.csv", header = TRUE)

> contoh dua arah
Format Subjek Kepuasan
1 Online Statistik 10
4 Online Bahasa 7
Inggris
5 Online Bahasa 6
Inggris
6 Online Bahasa 5
Inggris
7 Online Sains 4
8 Online Sains 3
9 Online Sains 2
10 Hibrida Statistik 9
13 Hibrida Bahasa 6
Inggris
14 Hibrida Bahasa 5
Inggris
15 Hibrida Bahasa 4
Inggris
16 Hibrida Sains 3
17 Hibrida Sains 2
151
18 Hibrida Sains 1
19 Ruang Statistik 8
Kelas
Kelas
Kelas
22 Ruang Bahasa 5
Kelas Inggris
152
23 Ruang Kelas Bahasa 4

Inggris
24 Ruang Kelas Bahasa 3
Inggris
25 Ruang Kelas Ilmu 2
Pengetahuan
26 Ruang Kelas Sains 1
27 Ruang Kelas Sains 0
Seperti sebelumnya, kita akan membuat faktor dari format pengiriman kursus dan variabel subjek kelas,
seperti yang ditunjukkan pada kode R berikut.
> melampirkan (contoh dua arah)

> Format <- faktor (Format)
> Subyek <- faktor(Subyek)
> Format
[1] Online Online Online Online Online Online Online
[8] Online Online Hibrida Hibrida Hibrida Hibrida Hibrida
[15] Hibrida Hibrida Hibrida Hibrida Ruang Kelas Ruang Kelas Ruang Kelas
[22] Tingkat Kelas Ruang Kelas Ruang Kelas Ruang Kelas Ruang Kelas:
Kelas Hibrida Online
> Subjek
[1] Statistik Statistik Statistik Bahasa Inggris Bahasa Inggris Bahasa Inggris
[7] Sains Sains Sains Statistik Statistik Statistik Statistik
[13] Bahasa Inggris Bahasa Inggris Bahasa Inggris Sains Sains Sains
[19] Statistik Statistik Statistik Bahasa Inggris Bahasa Inggris Bahasa Inggris
[25] Sains Sains
Tingkat Ilmu
Pengetahuan Bahasa Inggris
Statistik Sains
Kita dapat menggunakan fungsi aov() untuk melakukan ANOVA dua arah. Kita harus menentukan
kedua faktor tersebut ketika kita memberikan rumus untuk model. Seperti sebelumnya, kita akan
menyimpan hasil kita dan kemudian menggunakan fungsi summary() untuk menghasilkan tabel
ringkasan. Pertama, mari kita cari rata-rata marginal untuk metode penyampaian dan mata pelajaran.
Tentunya, seorang profesor statistik yang mengajar kelas online mengarang data ini. Kita akan
menggunakan fungsi tapply() untuk mendapatkan nilai tersebut.
> tapply (Kepuasan, Format, rata-rata)

Kelas Hibrida Online
4 5 6
> tapply(Kepuasan, Subjek, rata-rata)
Bahasa Inggris Statistik Sains
5 2 8
Sekarang, kami melakukan ANOVA dua arah sebagai berikut:
> ringkasan (hasil)

Df Sum Sq Mean Sq Nilai F Pr(>F)
Format 2 18 9 9 0.00195 **
Subjek 2 162 81 81 1e-09 ***
Format:Subjek 4 0 0 0 1.00000
Sisa 18 18 1
153
---
Kode Signifikan: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
154
Lihat bahwa efek utama Format dan Subjek keduanya signifikan, tetapi interaksi Format × Subjek tidak
signifikan. Mari kita gunakan kriteria Tukey HSD untuk perbandingan post hoc untuk menentukan pasangan
mana
rata-rata untuk Format dan Subject berbeda secara signifikan. Perhatikan bahwa kita menggunakan hasil
ringkasan ANOVA, dan kita harus memberi tahu fungsi TukeyHSD() untuk setiap variabel yang ingin kita
bandingkan.
> TukeyHSD(hasil, "Format")

Tukey perbandingan berganda rata-
rata tingkat kepercayaan 95% tingkat
kepercayaan keluarga
Fit: aov(formula = Kepuasan ~ Format * Subjek)
$Format
diff lwr upr p adj

Ruang Kelas Hibrida 1-0.2031012 2.203101 0.1135025
Ruang Kelas Online 2 0 . 7968988 3.203101 0.0013531
Online-Hibrida 1-0.2031012 2.203101 0.1135025
> TukeyHSD(hasil, "Subjek")

Perbandingan berganda Tukey dengan
rerata tingkat kepercayaan 95%
untuk setiap keluarga
Fit: aov(formula = Kepuasan ~ Format * Subjek)
$Subject
diff lwr upr p adj

Sains-Bahasa Inggris -3 -4.203101 -1.796899 1.54e-05
Statistik-Bahasa Inggris 3 1 . 796899 4 . 203101 1.54e-05
Ilmu Statistik 6 4.796899 7 . 203101 0.00e + 00
Perbandingan post hoc menunjukkan bahwa format online dan kelas berbeda secara signifikan, dan
bahwa semua pasangan sarana berbeda ketika kita membandingkan mata pelajaran di kelas.
Memeriksa Interaksi
Meskipun interaksi dalam contoh kita kali ini tidak signifikan, namun apabila terdapat interaksi yang
signifikan, maka interaksi t e r s e b u t "mengalahkan" efek utama. Kita harus memeriksa interaksi
tersebut untuk menentukan sifatnya sebelum membuat kesimpulan tentang efek utama. Salah satu cara
untuk melakukannya adalah dengan melihat sarana, seperti yang telah kita lakukan di atas, tetapi lebih
Cara yang efektif adalah dengan memeriksa plot interaksi. Berikut ini adalah cara membuat plot seperti itu di R.
Kita memasukkan faktor sumbu x, "faktor jejak" yang akan digambar garisnya, dan variabel respons. Fungsi
defaultnya adalah mean, jadi kita tidak perlu menentukannya.
> interaction.plot(Format, Subjek, Kepuasan)
Gambar 11-3 menunjukkan plot interaksi yang ditampilkan dalam Perangkat Grafik R. Plot tersebut
menunjukkan bahwa kursus online menghasilkan tingkat kepuasan yang lebih tinggi untuk semua mata
pelajaran, dan bahwa statistik adalah mata pelajaran yang paling populer (ini jelas merupakan contoh yang
dibuat-buat).
155
Subjek
8 Ilmu
Bahasa
Inggris
Statistik
6
rata-rata Kepuasan
Ruang Hibrida Online

kelas Format
Gambar 11-3. Plot yang menunjukkan garis paralel yang mengindikasikan kurangnya interaksi
Kadang-kadang sangat membantu untuk membalik plot interaksi dengan menjadikan variabel jejak dari
plot pertama sebagai sumbu x pada plot yang baru. Berikut ini adalah plot interaksi dengan format mata kuliah
sebagai variabel jejak dan subjek kelas sebagai sumbu x (Gambar 11-4).
Format
8 Kelas
Hibrida
Online
6
rata-rata Kepuasan
Bahasa Ilmu Pengetahuan Mata

Inggris
Pelajaran Statistik
Gambar 11-4. Plot interaksi baru dengan Subjek sebagai sumbu x
156
Merencanakan Interaksi yang Signifikan

Pertimbangkan contoh berikut ini, di mana kedua faktor dan interaksinya signifikan. Asumsikan kita memiliki
ANOVA faktorial 3 × 2. Kita memiliki dua obat dan tiga kondisi pengobatan yang berbeda (tanpa pengobatan,
pengobatan konvensional, dan pengobatan eksperimental). Kami akan membandingkan obat dan perawatan, dan
menguji kemungkinan interaksinya. Data aktual tidak disajikan karena kami hanya ingin menggambarkan jenis
grafik yang akan muncul jika ada interaksi.
> hasil <- aov(Respon ~ mengobati * obat)

> ringkasan (hasil)
Df Jumlah Sq Rata-rata Sq Nilai F Pr (> F)
mengobati 2 72.47 36.23 6.858 0 . 00441 **
obat 1 149.63 149.63 28.322 1.84e-05 ***
mengobati: 2 38.07 19.03 3.603 0 . 04284 *
obat
Sisa 24 126.80 5.28
---
Kode Signifikan: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> interaction.plot(treat, obat, Respon)
Gambar 11-5 menunjukkan plot interaksi. Tampaknya obat 1 lebih efektif daripada obat 2, terutama dengan
pengobatan 3.
12
obat
1
10 2
rata-rata Respon
1 2 3
mengobati
Gambar 11-5. Plot yang menunjukkan interaksi yang signifikan
Ukuran Efek dalam ANOVA Dua Arah

Dalam ANOVA dua arah, kita dapat menggunakan "partial eta squared," yangp dilambangkan dengan η2 , sebagai
indeks ukuran efek. Meskipun
R tidak secara rutin menghasilkannya, tidak sulit untuk menghitungnya. Kita cukup membagi jumlah kuadrat
157
untuk setiap faktor dan interaksinya dengan jumlah kuadrat total. Berikut adalah rumus sederhananya:
158
η2
Efek S
=
p
S
SStot
Sebagai ilustrasi, jumlah total kuadrat dalam contoh sebelumnya adalah

72.467 + 149.663 + 38.067 + 126.800 = 386.967. Membagi jumlah kuadrat perlakuan dengan 386.967 = 72.467 /
386.967 = 0,19, sehingga kita dapat menyimpulkan 19% dari total variasi disebabkan oleh perbedaan perlakuan.
Kita dapat menghitung dan menginterpretasikan koefisien eta kuadrat parsial untuk obat dan efek interaksi
dengan cara yang sama.
Repeated-Measures ANOVA
ANOVA tindakan berulang adalah perluasan langsung dari uji t sampel berpasangan untuk memeriksa tiga
atau lebih tindakan untuk subjek yang sama. Ini adalah desain dalam subjek di mana setiap subjek (atau
peserta) berfungsi sebagai kontrolnya sendiri. Keuntungan dari desain pengukuran berulang adalah bahwa
perbedaan individu sekarang dianggap sebagai bagian dari variasi yang "baik", dan kita dapat menguji
signifikansinya. Dengan demikian, error term menjadi sangat berkurang, sehingga ANOVA pengukuran
berulang secara umum lebih kuat daripada ANOVA antar kelompok (satu dan dua arah). Namun, peningkatan
kekuatan ini ada harganya, karena pengukuran berulang dapat
menyebabkan efek kelelahan, pembelajaran, atau ketertiban. Terkadang kita dapat mengontrol efek ini melalui
penyeimbangan, dan terkadang efek seperti pembelajaran atau kelelahan adalah hal yang ingin kita pelajari.
Kita dapat menganggap ANOVA pengukuran berulang sebagai kasus khusus ANOVA dua arah, di
mana setiap sel mewakili satu pengukuran untuk satu subjek penelitian atau peserta. Kolom-kolomnya
adalah pengukuran yang diulang, dan baris-barisnya adalah masing-masing peserta atau subjek.
Visualisasi ANOVA pengukuran berulang muncul pada Gambar 11-6.
Tindakan Berulang
Kolom 1 Kolom 2 ... Kolom k
Baris 1 ...
Baris 2 ...
Baris 3 ...
... ... ... ... ...
Baris n ...
Gambar 11-6. Memvisualisasikan ANOVA pengukuran berulang
Partisi Varians dalam ANOVA Tindakan Berulang

Perhatikan Gambar 11-7, yang menunjukkan partisi varians untuk ANOVA pengukuran berulang. Dalam
analisis ini, perbedaan individu bukan merupakan bagian dari error term seperti pada analisis antar
kelompok, seperti yang telah kita bahas di atas. Sebaliknya, perbedaan individu sekarang menjadi bagian dari
variasi sistematis (sebenarnya). Meskipun dimungkinkan untuk menguji signifikansi perbedaan individu
dengan rasio F yang terpisah, hal ini jarang menjadi perhatian kami, karena kami biasanya yakin akan adanya
perbedaan individu. Lebih penting bagi kita untuk menghilangkan sumber variasi ini dari error term daripada
mengujinya. Output R dari fungsi aov() bahkan tidak memberikan rasio F untuk efek dalam subjek, meskipun
program lain seperti Microsoft Excel melakukannya. Untuk melakukan ANOVA pengukuran berulang di
Excel, pengguna harus menentukan analisis data sebagai ANOVA dua arah tanpa replikasi (yang berarti
setiap sel memiliki satu pengamatan, seperti yang ditunjukkan pada Gambar 11-8 pada bagian berikutnya).
159
Total
Variasi
Sistematis
Variasi
Variasi Variasi
Variasi
Antar Dalam Mata
Kesalahan
Kelomp Pelajaran
ok
Gambar 11-7. Partisi varians dalam ANOVA pengukuran berulang
Contoh ANOVA Tindakan Berulang

Untuk melakukan ANOVA pengukuran berulang di R, kita harus menumpuk data sedemikian rupa sehingga
kita dapat menggunakan nomor identifikasi subjek sebagai faktor. Kami akan menggunakan perangkat yang
sama dengan ANOVA faktorial campuran, yang menggabungkan faktor antar-kelompok dan dalam subjek.
Mari kita gunakan data hipotetis berikut ini, di mana peringkat kebugaran fisik pada skala 0 (sama sekali
tidak bugar) hingga 10 (benar-benar bugar) diukur pada enam subjek penelitian yang terlibat dalam program
kebugaran dan penurunan berat badan di tempat tinggal yang diawasi (bayangkan "Pecundang Terbesar").
Peringkat kebugaran diberikan oleh tim ahli fisiologi olahraga yang menggabungkan berbagai pengukuran
termasuk denyut nadi, tekanan darah, indeks massa tubuh, persentase lemak tubuh, dan kapasitas vital.
Peringkat diambil pada waktu yang sama dan dalam kondisi yang sama setiap minggunya. Data empat minggu
pertama seperti yang ditunjukkan di bawah ini:
> berulang <- read.csv("repeated.csv", header = TRUE)

> lampirkan (diulang)
> diulang
id wakt kebug
u aran
1 1 1 0
2 2 1 1
3 3 1 2
4 4 1 3
5 5 1 2
6 6 1 2
7 1 2 1
8 2 2 2
9 3 2 3
10 4 2 4
11 5 2 3
12 6 2 3
13 1 3 3
14 2 3 4
15 3 3 3
16 4 3 4
17 5 3 3
18 6 3 3
160
19 1 4 4
20 2 4 5
161
21 3 4 5
22 4 4 5
23 5 4 4
24 6 4 5
Untuk memahami analisis ini secara lebih lengkap, lihatlah output dari Analysis ToolPak Microsoft Excel,
y a n g memperlakukan kumpulan data yang sama sebagai kasus khusus ANOVA dua arah dengan satu
pengamatan per sel (Gambar 11-8). Lihat bahwa kuadrat rata-rata baris dan kolom memiliki error term yang
sama dengan variasi dalam subjek (baris) yang dikeluarkan dari error term dan diperlakukan sebagai sumber
variasi sistematis yang terpisah.
ANOVA
Sumber Variasi SS df MS F P-value F kritis
Baris 8.333333333 5 1.666666667 5 0.006807263 2.901294536
Kolom 28.5 3 9.5 28.5 1.92548E-06 3.287382105
Kesalahan 5 15 0.333333333
Total 41.83333333 23
Gambar 11-8. Microsoft Excel melakukan ANOVA pengukuran berulang sebagai kasus khusus ANOVA dua arah.
Kolom adalah faktor antar kelompok, dan baris adalah subjek atau peserta individu
SPSS juga melakukan uji F untuk signifikansi perbedaan individu dalam ANOVA pengukuran berulang
(lihat Gambar 11-9).
Pengujian Efek Dalam Subjek
Mengukur: UKURAN_1
Tipe III
Sumber Jumlah df Mean Persegi F Sig.
Kuadrat
faktor1 Asumsi Kebulatan 28.500 3 9.500 28.500 .000
(Sphericity)
Rumah Kaca-Geisser 28.500 1.271 22.420 28.500 .001
Huynh-Feldt 28.500 1.509 18.886 28.500 .000
Batas bawah 28.500 1.000 28.500 28.500 .003
Kesalahan (faktor1) Asumsi 5.000 15 .333
Kebulatan (Sphericity)
Rumah Kaca-Geisser 5.000 6.356 .787
Huynh-Feldt 5.000 7.545 .663
Batas bawah 5.000 5.000 1.000
Gambar 11-9. Output SPSS untuk ANOVA pengukuran berulang
162
■ Catatan Melakukan ANOVA pengukuran berulang di SPSS memerlukan modul tambahan Repeated Measures SPSS.
Dengan versi dasar SPSS, masih memungkinkan untuk melakukan ANOVA pengukuran berulang dengan
memperlakukannya sebagai ANOVA dua arah dengan id subjek sebagai faktor acak dan waktu sebagai faktor tetap
(kolom). Terlepas dari pelabelan, hasil dari ANOVA dua arah dalam versi dasar SPSS akan identik dengan yang
dihasilkan oleh Excel dan modul tambahan SPSS (lihat output pada Gambar 11-10).
Tergantung Variabel:
kebugaran Uji Efek Antar Subjek
Tipe III
Sumber Jumlah df Rata-rata F Sig.
Kuadrat
Kuadrat
Mencega Hipotesis 228.167 1 228.167 136.900 .000
t
Kesalahan 8.333 5 1.667a
waktu Hipotesis 28.500 3 9.500 28.500 .000
Kesalahan 5.000 15 .333b
id Hipotesis 8.333 5 1.667 5.000 .000
Kesalahan 5.000 15 .333b
waktu * id Hipotesis 5.000 15 .333 . .
Kesa .000 0 .c
laha
a. MS (id)n
b. MS (waktu *
id)
c. MS
(Kesalahan)
Gambar 11-10. Melakukan ANOVA pengukuran berulang dalam versi dasar SPSS dengan memperlakukan id
subjek sebagai faktor acak
Untuk melakukan analisis yang sama dalam R, kami mengidentifikasi id subjek sebagai variabel dalam
subjek dan memperlakukannya sebagai faktor acak. Ingatlah untuk menjadikan id dan waktu sebagai faktor
untuk melakukan ANOVA pengukuran berulang. Tidak mengherankan, kita akan mendapatkan hasil yang
sama dengan R seperti yang kita dapatkan dengan SPSS dan Excel.
> id <- factor(id)

> waktu <- faktor(waktu)
> hasil <- aov(fitness ~ waktu + Error(id/waktu))
> ringkasan (hasil)
Kesalahan: id
Df Sum Sq Mean Sq Nilai F Pr(>F)
Residual 5 8 , 333 1.667
Kesalahan: id:waktu
DfSum Sq Mean Sq Nilai F Pr (> F)
waktu 3 28.5 9.500 28.5 1.93e-06 ***
Sisa 15 5.0 .333
--- 163
Kode Signifikan: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Mari kita lihat grafik garis dengan tingkat kebugaran rata-rata yang diplot dari waktu ke waktu untuk melihat
apakah trennya positif (Gambar 11-11). Berikut ini adalah kode R untuk meringkas rata-rata untuk setiap level
dan memplot grafik. Kita menggunakan fungsi tapply() untuk mendapatkan nilai rata-rata, dan
menggunakan fungsi plot(), seperti yang ditunjukkan pada Bab 5, untuk menghasilkan grafik garis:
> hasil <- tapply(respon, waktu, mean)

> plot(result, type = "o", xlab = "Waktu", ylab = "Tingkat Kebugaran")
grafik garis kebugaran dari waktu ke waktu
4.5
4.0
3.5
Kebugaran
Tingkat
3.0
2.5
2.0
1.0 1.5 2.0 2.5 3.0 3.5 4.0

Waktu
Gambar 11-11. Tingkat kebugaran rata-rata dari waktu ke waktu
Ukuran Efek untuk ANOVA Tindakan Berulang

Kita juga dapat menggunakan eta kuadrat parsial sebagai indeks ukuran efek untuk ANOVA pengukuran
berulang. Satu-satunya penyesuaian kecil dari rumus untuk eta kuadrat dalam ANOVA dua arah adalah
jumlah kuadrat untuk efek yang dipertanyakan (biasanya efek kolom atau perlakuan, tetapi kadang-kadang
perbedaan individu dalam subjek) dibagi dengan jumlah jumlah kuadrat residu (kesalahan) ditambah jumlah
kuadrat efek tertentu. Berikut adalah rumusnya:
η2
Efek SS
=
pSS + SS
efek kesalahan
ANOVA Faktorial Campuran

Dimungkinkan untuk memiliki ANOVA di mana terdapat setidaknya satu faktor antar-kelompok dan
setidaknya satu faktor dalam subjek. Kami akan mengilustrasikan dengan contoh sederhana di mana kami
memiliki dua tingkat faktor antar-kelompok dan tiga tingkat faktor dalam subjek (pengukuran berulang).
Desain seperti ini umumnya dikenal sebagai desain ANOVA faktorial campuran, dan desain ini memberi kita
manfaat dari desain antar-kelompok dan dalam subjek.
164
Contoh ANOVA Faktorial Campuran

Gil Einstein dari Universitas Furman, seorang psikolog kognitif. Kami memiliki desain faktorial campuran di
mana orang dewasa yang lebih muda dan lebih tua menghafal kata-kata
dalam tiga kondisi gangguan yang berbeda (mata tertutup, gangguan sederhana, dan gangguan kompleks). Usia
adalah faktor antar-kelompok, dan kondisi gangguan adalah faktor dalam subjek. Perhatikan bahwa u n t u k
mengontrol efek urutan, Anda dapat mengimbangi atau mengacak kondisi gangguan sehingga setiap subjek
m e n e r i m a n y a dalam urutan yang berbeda. Ada 8 subjek, 4 di antaranya adalah orang dewasa muda (usia
= 1), dan 4 lainnya adalah orang dewasa yang lebih tua (usia = 2). Setiap orang mempelajari daftar kata yang
terdiri dari 10 item yang berbeda, yang disesuaikan dengan frekuensi penggunaan kata, d i bawah tiga kondisi
gangguan (1 = belajar sambil mendengarkan kata-kata dengan mata tertutup, 2 = belajar sambil mendengarkan
kata-kata sambil melihat foto lanskap yang menarik, dan 3 = belajar sambil mendengarkan kata-kata sambil
melihat ilusi optik yang menunjukkan gerakan yang terlihat karena fenomena yang dikenal sebagai pergeseran
periferal. Gambar diambil dari http://www.ritsumei.ac.jp/~akitaoka/rotate-e.html.
Berikut adalah kumpulan data yang diformat untuk ANOVA faktorial campuran di R:
> mixed <- read.table("mixed.txt", header = TRUE)

> campuran
id usia distr skor
1 A muda l 8
2 A muda m 5
3 A muda h 3
4 B muda l 7
5 B muda m 6
6 B muda h 6
7 C muda l 8
8 C muda m 7
9 C muda h 6
10 D muda l 7
11 D muda m 5
12 D muda h 4
13 E tua l 6
14 E tua m 5
15 E tua h 2
16 F tua l 5
17 F tua m 5
18 F tua h 4
19 G tua l 5
20 G tua m 4
21 G tua h 3
22 H tua l 6
23 H tua m 3
24 H tua h 2
Sekarang, ingatlah untuk membuat faktor dari id, usia, dan distr. Ini adalah kode yang ditampilkan di jendela
R Editor:
dalam (campuran, {
id <- factor(id)
umur <-
factor(umur)
distr <- factor(distr)
}
165
)
166
distr
7
1
2
3
6
rata-rata skor
1 2
usia
Gambar 11-12. Tidak ada interaksi yang jelas antara usia dan gangguan
Pertama, mari kita periksa plot rata-rata kelompok (lihat Gambar 11-12).
> lampirkan (campuran)

> interaction.plot(age, distr, score)
Paket ez memudahkan Anda untuk melakukan analisis varians. Seperti yang Anda ketahui sekarang, Anda
harus mencari, mengunduh, dan menginstal paket tersebut. Gambar 11-13 menunjukkan bagian dari
dokumentasi R untuk paket ez. Kita akan menggunakan fungsi ezANOVA untuk desain faktorial campuran.
167
Gambar 11-13. Bagian dari dokumentasi R untuk paket ez
Perhatikan bahwa fungsi ezANOVA menghasilkan tabel ringkasan ANOVA dan bahwa usia dan gangguan
keduanya signifikan, tetapi seperti yang kami prediksi dari plot interaksi kami, interaksi tersebut tidak signifikan.
Perhatikan bahwa fungsi ezANOVA juga menjalankan uji sphericity, seperti yang dilakukan SPSS dengan desain
pengukuran berulang (dalam subjek). Asumsi sphericity adalah bahwa matriks kovarians dari pengukuran
berulang adalah sama. Pelanggaran terhadap asumsi ini akan membuat Anda perlu melakukan uji yang dikoreksi.
Kita harus memberi tahu fungsi ezANOVA di mana data kita disimpan, apa variabel dependennya, apa id
subjeknya, apa faktor dalam subjek (tindakan berulang), dan apa faktor antar kelompoknya. Jika Anda
memiliki lebih dari satu faktor dalam, atau lebih dari satu faktor antar kelompok, Anda harus membuat daftar
nama variabel.
> ezANOVA(mixed, score, id, distr, between = age)

$ANOVA
Efek DFn DFd F p p < .05 ges
2 usia 1 6 15.7826087 0.007343975 * 0.54260090
3 distr 2 12 19.5000000 0.000169694 * 0.64084507
4 usia: 2 12 0 . 2142857 0.810140233 0.01923077
distr
168
Efek $'Uji Mauchly untuk Sphericity'

W p p < .05
3 distr 0.5395408 0.2138261
4 usia:distr 0.5395408 0 . 2138261
$'Koreksi Kebulatan'
Efek GGe p [GG] p [GG] < .05 HFe p [HF] p [HF] <.05
3 distr 0.6847162 0.001321516 * 0.8191249 0.0005484227 *
4 age:distr 0.6847162 0.729793578 0.8191249 0.7686615724
Ukuran Efek untuk ANOVA Faktorial Campuran
Seperti halnya SPSS, ezANOVA menjalankan uji Mauchly untuk sphericity, dan mengusulkan koreksi. Dalam
kasus kami, asumsi sphericity dapat diasumsikan telah terpenuhi karena nilai p lebih besar dari .05.
Untuk ANOVA faktorial campuran, kita dapat menggunakan eta kuadrat parsial sebagai indeks ukuran
efek, seperti yang telah kita bahas di atas untuk ANOVA dua arah dan pengukuran berulang. Jumlah kuadrat
untuk efek yang sedang dipertimbangkan dibagi dengan jumlah efek tersebut ditambah dengan istilah
kesalahan yang relevan.
Untuk mengetahui lebih lanjut tentang ANOVA faktorial campuran dan desain faktorial yang lebih
kompleks, dengan dan tanpa faktor dalam subjek, Anda dapat membaca tutorial R dan ANOVA yang
diposting di proyek kepribadian R. Cuplikan kode dan file data juga tersedia di sana. Ini adalah URL-nya:
http://personality-project.org/r/r.anova.html
Kesimpulan
Kita telah membahas banyak hal dalam bab ini. Anda telah mempelajari cara melakukan dan
menginterpretasikan ANOVA dua arah, pengukuran berulang, dan faktorial campuran. Pada Bab 12, Anda akan
mempelajari korelasi dan regresi sederhana (bivariat). Pada Bab 13, Anda akan mempelajari regresi dan korelasi
berganda, dan sebagai bonus, saya akan menunjukkan kepada Anda model umum yang mendasari yang
membuat ANOVA dan uji t menjadi kasus khusus dari regresi, dan bagaimana Anda dapat
gunakan regresi berganda alih-alih ANOVA untuk mencapai hasil yang sama dengan informasi yang lebih
banyak daripada yang Anda dapatkan dari ANOVA.
169
BAB 12
Korelasi dan Regresi
Pada Bab 12 Anda akan mempelajari korelasi dan regresi sederhana (bivariat). Anda akan menemukan cara
menggunakan fungsi R untuk korelasi dan regresi serta cara menghitung dan menginterpretasikan koefisien
korelasi dan persamaan regresi. Anda juga akan mempelajari tentang fitting model lengkung dan interval
kepercayaan dan prediksi untuk model regresi. Pada Bab 13, kita akan mengembangkan apa yang telah Anda
pelajari di sini, dengan korelasi dan regresi berganda. Dalam
Pada Bab 13, Anda juga akan mempelajari bahwa ANOVA dan uji t adalah kasus khusus dari regresi. Semua
teknik ini didasarkan pada model linear umum yang sama.
Korelasi dan regresi adalah teknik serbaguna yang digunakan dalam berbagai aplikasi praktis, mulai
dari peramalan produksi, penerimaan mahasiswa, hingga pemilihan sumber daya manusia. Penting untuk
dicatat bahwa kita berurusan (setidaknya pada awalnya) dengan penentuan tingkat (jika ada) hubungan
linier antara dua
variabel yang diukur pada tingkat interval atau rasio. Jika hubungan linier tidak cocok, Anda dapat mencoba
jenis kecocokan lainnya, seperti yang akan Anda pelajari.
Kovarians dan Korelasi

Untuk membantu kita memahami korelasi, pertama-tama mari kita pahami istilah kovarians. Kita memiliki
pasangan pengamatan (x, y), di mana x adalah variabel prediktor (atau independen) dan y adalah variabel
kriteria (atau dependen). Kita mendefinisikan kovarians dari x dan y sebagai berikut:
σxy=
¤(x -μ x )(y - μy )
N
Seperti yang ditunjukkan oleh rumus di atas, kovarians dalam populasi adalah jumlah dari hasil kali silang
skor deviasi untuk x dan y dibagi dengan jumlah pasangan pengamatan. Jadi, kovarians menurut definisi
a d a l a h rata-rata dari hasil kali silang deviasi. Dengan tidak adanya data populasi, kami menggunakan
estimator sampel dari parameter populasi, bersama dengan koreksi n - 1 yang sudah dikenal untuk derajat
kebebasan. Oleh karena itu, kovarians sampel didefinisikan sebagai
sxy
= ¤(x - x )(y - y )
n -1
Kita akan menemukan bahwa x dan y dapat memiliki kovarians positif, kovarians negatif, atau kovarians nol.
Ketika dua variabel memiliki kovarian positif, kenaikan x berhubungan dengan kenaikan y. Ketika dua variabel
memiliki kovarian negatif, kenaikan x berhubungan dengan penurunan y. Kita mungkin mengharapkan dua
variabel
berkorelasi karena keduanya memiliki hubungan yang jelas, atau karena keduanya dipengaruhi oleh variabel
165
ketiga. Sebagai contoh, jumlah kelahiran di wilayah Stockholm berkorelasi positif dengan jumlah bangau. Hal
ini bukan karena bangau membawa bayi, tetapi karena jumlah bangau dan jumlah manusia yang lahir
(karena
166

Membuat Interval Keyakinan

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Membuat Interval Keyakinan

Diunggah oleh

Hak Cipta:

Format Tersedia

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

Membuat Interval Keyakinan

Interval Keyakinan untuk Sarana

Apakah Ya. Apak Tid Apakah Tid

Gunakan metode Gunakan metode

Interval Keyakinan untuk Rata-rata Menggunakan Distribusi Normal

(x - zα/2σx ) < μ < (x + zα/2σx )

Kita dapat memanipulasi rumus ini secara aljabar untuk menyelesaikan n:

E = zα/2 (s / n) = 1,96 (26,3272 / 40) = 8,1589

sampsize.est <- function(E, sigma, alpha = .05){ #

Fungsi kami menghasilkan hasil yang sama dengan perhitungan manual:

> sampsize.est(5, sd(bobot))

Interval Keyakinan untuk Rata-rata Menggunakan Distribusi t

(x - tα/2 sx ) < μ < (x + tα/2 sx )

cat("Standar error dari rata-rata:",stderr,"\n")

> t.test (bobot)

Data uji-t Satu Sampel:

Kesalahan standar dari rata-rata:

Interval Keyakinan untuk Proporsi

(pˆ - E) < p < (pˆ + E)

(.70 -.0232) < p < (.70 + .0232)

95%CI [.6768, .7232]

confi.prop <- function(phat, n, alpha = .05) {

> confi.prop(.70, 1500)

proporsi sampel: 0.7

Memahami Distribusi Chi-square

> xaxis <- seq(0,50)

Gambar 8-2. Membandingkan dua distribusi chi-kuadrat

Interval Keyakinan untuk Varians dan Standar Deviasi

> qchisq(.025, 39)

(40 - 1)693.1195 σ2 (40 - 1)693.1195

465.1 < σ2 < 1142.779

confi.var <- function(x, n, alpha = .05) {

upper <- ((n - 1) * sampvar)/chisqL

> confi.var(bobot, panjang(bobot))

Interval Keyakinan untuk Perbedaan antara Rata-rata

Jenis Kelamin Usia Kuis1 Kuis2 Kuis3 Kuis4 Kuis5

> melampirkan (dataset)

Data uji-t Dua Sampel

Welch: Usia berdasarkan Jenis

Interval Keyakinan Menggunakan Paket Statistik

Pengantar Singkat tentang Pengujian Hipotesis

H0 adalah Benar H0 adalah Salah

Kesalahan Tipe I Kekuatan

Jangan Keputusan Kesalahan Keputusan

> xaxis <- seq(-3.5, 3.5, .1)

Membandingkan Distribusi z dan t

Gambar 9-2. Membandingkan distribusi t dan z

Uji t Satu Sampel

> rnorm1 <- rnorm(50, 500, 100)

Sekarang, mari kita periksa sampel melalui fungsi summary().

Data uji-t Satu Sampel:

Uji t Sampel Berpasangan

> prepost <- read.table("prepost.txt", header = TRUE)

Untuk melakukan uji t sampel berpasangan, gunakan perintah berikut di R.

> t.test(Pretest, Posttest, paired = TRUE)

data: Pretest dan Posttest

> Perbedaan <- Posttest - Pretest

Data uji-t Satu Sampel:

> t.test(Posttest, Pretest, paired = TRUE)

data: Posttest dan Pretest

Uji t dua sampel