BAB 8 Regresi Terjemah

BAB 8
Regresi dan Prediksi
8.1 Korelasi Versus Prediksi
Nilai siswa sekolah menengah pada tes bakat akademik, seperti SAT, terkait
dengan IPK siswa di perguruan tinggi. Maka, sebagai aturan umum, siswa
yang berhasil dalam SAT lebih baik bertaruh untuk berhasil di perguruan
tinggi daripada siswa yang tidak berhasil dalam SAT. Sebagai petugas
penerimaan universitas, berapa IPK yang akan Anda prediksi untuk seorang
siswa yang memperoleh, katakanlah, skor 650 pada skala membaca kritis
SAT (SAT-CR)? Dan margin kesalahan apa yang harus Anda lampirkan pada
prediksi itu? Karena hubungan antara SAT-CR dan IPK perguruan tinggi jauh
dari sempurna, prediksi apa pun dari skor tertentu hanyalah “taruhan
bagus”—bukan “hal yang pasti.” Seperti yang pernah dikatakan oleh humoris
Will Rogers, "Membuat prediksi selalu berisiko, terutama tentang masa
depan."
Skenario ini menggambarkan masalah dalam prediksi: memperkirakan
kinerja masa depan (misalnya, IPK perguruan tinggi) dari pengetahuan
tentang posisi saat ini pada beberapa ukuran (misalnya, skor SAT-CR). Anda
mungkin bertanya-tanya bagaimana hal ini berkaitan dengan subjek bab
terakhir, korelasi. Korelasi dan prediksi memang berkaitan erat: Tanpa
korelasi antara dua variabel, tidak akan ada prediksi yang berarti dari satu
variabel ke variabel lainnya. Namun, meskipun ukuran r menunjukkan potensi
prediksi, koefisien itu sendiri tidak memberi tahu Anda cara membuat
prediksi.
Lalu, bagaimana cara seseorang melakukan ramalan? Mari kita ambil
contoh prediksi nilai perguruan tinggi dari nilai bakat akademik. Perhatikan
diagram pencar pada Gambar 8.1. Variabel X adalah nilai SAT-CR dari tahun
terakhir sekolah menengah atas, dan variabel Y adalah IPK tahun pertama di
Universitas Fumone.1 Perhatikan bahwa garis lurus telah dipasang pada data
dan digunakan untuk mendapatkan prediksi IPK 2,78 untuk skor SAT-CR 650.
Garis ini dapat digunakan dengan cara yang sama untuk mendapatkan
prediksi IPK untuk skor SAT-CR lainnya . Ketika tren bivariat cukup
linier, garis "paling cocok" dengan mudah dapat ditemukan dan
digunakan untuk tujuan memprediksi nilai Y dari X. Garis seperti itu
disebut garis regresi. Seperti yang ditunjukkan pada Gambar 8.1,
prediksi dibuat dengan mencatat nilai Y (misalnya, 2,78) untuk titik pada
garis yang sesuai dengan nilai tertentu dari X (misalnya, 650).
Untuk r ±100, setiap kasus akan jatuh tepat pada garis regresi, dan
prediksi akan tanpa kesalahan. Tetapi ketika korelasinya tidak sempurna,
seperti dalam contoh sekarang, pasti akan ada kesalahan prediksi. Ini bukan
kesalahan seperti dalam "Ups—saya membuat kesalahan dalam perhitungan
saya!" Sebaliknya, hanya ada perbedaan antara nilai aktual dan prediksi Y.
Misalnya, IPK aktual Katy dan Jane turun jauh di atas dan di bawah 2,78 yang
akan diprediksi dari skor SAT-CR mereka sebesar 650. Semakin rendah
korelasinya, semakin besar kesalahan prediksi.
Sampel yang sangat kecil (n 12) mencerminkan keinginan kami untuk menjaga hal-hal
1
sederhana. Tidak berarti 12 harus dianggap sebagai ukuran sampel yang tepat untuk jenis
analisis ini.
134
3.4
Katy 3.2
Prediksi
8.2 Menentukan Garis yang Paling Sesuai 135
AP
G
r
F

:
3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
IPK 2.78 Nilai
SAT
650
Jane
400 500 600 700 800

X: Nilai SAT-CR
Gambar 8.1 Prediksi IPK (Y) tahun pertama dari nilai SAT-CR (X).
Maka, ada dua tugas sekarang di hadapan Anda: memprediksi nilai pada
satu variabel dari nilai pada variabel lain, dan menentukan margin kesalahan
prediksi. Kami mengambil kedua tugas di bagian berikut.
8.2 Menentukan Garis yang Paling Sesuai
Sangatlah baik untuk berbicara tentang menemukan garis lurus yang paling
cocok, tetapi bagaimana Anda tahu kapan "kecocokan terbaik" telah dicapai?
Memang, "paling cocok" dapat didefinisikan dalam beberapa cara. Di sini,
kami menunjukkan kepada Anda pendekatan umum ketika Pearson r
digunakan sebagai ukuran asosiasi dan ketika tujuan seseorang adalah
prediksi.
Pertama, mari kita tinjau simbol yang relevan. Dua akrab bagi Anda, dan
satu baru. Seperti yang Anda lihat di atas, X mewakili nilai skor dari variabel
yang melakukan prediksi. Lebih formal, variabel ini disebut variabel
independen, dan konvensi menentukan bahwa Anda menempatkannya pada
sumbu horizontal. Kami menggunakan Y untuk mewakili nilai skor aktual dari
variabel yang akan diprediksi, variabel dependen, dan ditempatkan pada
sumbu vertikal. (Pikirkan variabel dependen sebagai "tergantung pada"
variabel independen: IPK perguruan tinggi "tergantung pada" bakat akademik,
antara lain.) Akhirnya, nilai prediksi nilai Y diwakili oleh simbol Y( “Y-hat ”).
Kriteria Kuadrat Terkecil

Seperti disebutkan sebelumnya, kesalahan prediksi adalah perbedaan antara
nilai aktual dan nilai prediksi Y. Istilah yang setara adalah residual, yang kami
sukai (karena tidak memiliki konotasi yang terkait dengan kesalahan
perhitungan tertentu):
residual Y Y
136 Bab 8 Regresi dan Prediksi
Hal ini ditunjukkan pada Gambar 8.2 untuk Katy dan Jane. Kedua mahasiswa
tersebut memiliki prediksi IPK yang sama (Y2 78) karena memiliki nilai SAT-CR yang
sama (X 650), tetapi IPK sebenarnya (Y) masing-masing adalah 3,40 dan
2,40. Jadi, residualnya adalah:
Katy: residual Y Y3 40− 2 78 62

Jane: residual Y Y2 40− 2 78 38
Perhatikan bahwa residual positif untuk kasus di atas garis dan negatif untuk
kasus yang jatuh di bawah. Garis regresi ditempatkan sedemikian rupa untuk
meminimalkan residu— nilai (Y Y)—untuk scatterplot secara keseluruhan.
Dengan garis yang paling cocok, jumlah sisa kuadrat untuk semua kasus sekecil mungkin. Artinya, (Y Y ˆ )2
minimal.
ˆ )2 sebagai jumlah kuadrat, seperti ekspresi yang lebih

Anda mungkin mengenali (Y Y
dikenal (X X) dan (Y Y)2. Dalam kasus ini, itu adalah jumlah sisa kuadrat. Jadi,
2
ketika garis regresi dipasang dengan benar, jumlah sisa kuadrat lebih kecil
daripada yang akan diperoleh dengan garis lurus lainnya. Ini dikenal sebagai
kriteria kuadrat terkecil (jumlah terkecil dari jumlah sisa kuadrat).
Garis Regresi sebagai “Running Mean”

Jika linearitas regresi berlaku, garis regresi dapat dianggap sebagai “running
mean”.
Katy
AP
G
r
F

:
3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
(Y = 2.78
Y)Y = +.62 Jane
(Y = 3.40
Y)Y = .38 (Y = 2.40)
400 500 600 700 800

X: Skor SAT-CR
Gambar 8.2 Residu untuk dua kasus.

8.2 Menentukan Garis yang Paling Sesuai 137
adalah
Dalam arti tertentu, setiap Y perkiraan rata-rata nilai Y yang sesuai dengan nilai tertentu dari X.
Hal ini diilustrasikan pada Gambar 8.3. Y dari 2,57 adalah IPK rata-rata
untuk seluruh sampel dari 12 kasus, yang skor X-nya berkisar antara 350 hingga 750. Sebaliknya, Y dari 2,78
memperkirakan rata-rata Y hanya untuk kasus-kasus di mana X 650. Tapi,
Anda mungkin tunjukkan, hanya dua kasus dalam sampel kami yang memiliki
skor SAT-CR 650 (Katy dan Jane), dan skor Y mereka (3,40 dan 2,40) tidak
rata-rata menjadi 2,78. Cukup benar;dari Y2,78 hanya merupakan perkiraan
rata-rata. Ini adalah apa yang diharapkan dari rata-rata Y untuk distribusi
banyak, banyak kasus semua memiliki skor SAT-CR 650 daripada hanya dua dalam
sampel kami. Demikian pula, Y
dari
2,31 adalah perkiraan rata-rata skor Y di mana X sama
dengan 425. Meskipun sampel khusus kami tidak mengandung kasus sama
sekali dengan skor SAT-CR 425, garis regresi memberikan perkiraan IPK
rata-rata yang diharapkan jika ada siswa dengan skor SAT-CR tersebut.
Dengan ukuran sampel yang lebih realistis, tentu saja, ada representasi nilai
X yang lebih besar, dan oleh karena itu Anda memiliki keyakinan yang lebih
besar dalam perkiraan terkait Y.
Memprediksi X dari Y
Ada garis lurus kedua yang paling sesuai untuk data Gambar 8.1 . Misalkan
Anda ingin memprediksi skor SAT-CR dari IPK tahun pertama daripada
sebaliknya. Kriteria kuadrat terkecil kemudian akan diterapkan untuk
meminimalkan kesalahan prediksi
AP
G
r
F

:
3 .2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
40 0
X = 42 5
Y = 2,78
Y = 2.31
80 0
70 0
X = 650
600
X: SAT-CR skore
500
Y = 2.57
Gambar 8.3 Garis regresi sebagai “running mean”.

di SAT-CR daripada di IPK. (Untuk memvisualisasikannya, cukup alihkan

sumbu Gambar 8.1.) Kecuali SX SY , kedua garis regresi akan berbeda. Dalam
praktiknya, minat biasanya adalah memprediksi dalam satu arah, bukan
keduanya. Misalnya, tidak masuk akal untuk memprediksi skor SAT-CR dari
IPK tahun pertama sejauh SAT-CR mendahului IPK tepat waktu. Sebaliknya,
prediksi logis adalah dari variabel "sebelumnya" ke variabel "nanti".
8.3 Persamaan Regresi dalam Hal Skor Mentah
Setiap garis lurus memiliki persamaan. Lokasi garis regresi dalam scat terplot
ditentukan, cukup masuk akal, dengan persamaan regresi.
Anda mungkin ingat dari hari-hari sekolah Anda sebelumnya bahwa garis
lurus didefinisikan oleh dua istilah: kemiringan dan intersep. Kemiringan,
dilambangkan dengan b, mencerminkan sudut (datar, dangkal, atau curam)
dan arah (positif atau negatif) dari garis regresi. Intersep, dilambangkan
dengan a, adalah nilai prediksi Y di mana X 0.
Nilai prediksi untuk Y dapat diperoleh untuk setiap nilai X dengan
menggunakan Rumus (8.1):
Persamaan regresi:
rumus skor mentah
a
Y bX 8 1
dimana
Kemiringan
brSY
SX8 2
dan
Intercept
a Y bX 8 3
Menyusun Ulang Rumus (8.1) dalam hal Rumus (8.2) dan (8.3), kita dapat
memperluas persamaan regresi sebagai:
Persamaan regresi:
rumus skor mentah diperluas
intersep
kemiringan
Y
Y r SY
r SY
SXX
X84
SX
Mari kita lihat bagaimana Formula (8.4) bekerja. Kami akan menggunakannya
untuk menentukan prediksi IPK untuk siswa yang mencetak 650 pada SAT-
CR, prediksi yang diilustrasikan pada Gambar 8.1.
8.3 Persamaan Regresi dalam Hal Skor Mentah 139
Tabel 8.1 Ringkasan Statistik

untuk Gambar 8.1
SAT-CR IPK
X 545 80 Y 2 57
SX 123 20 SY 52
r 50
Langkah 1 Mulailah dengan ringkasan statistik yang sesuai pada Tabel 8.1, yang
Anda masukkan dalam Rumus (8.2) dan (8.3) sebagai berikut:
b rSY
SX50 52
123 2 50 0042 0021
a Y bX 2 57 0021 545 8 2 57 1 15 1 42

Langkah 2 Dalam Rumus (8.1), masukkan nilai kemiringan dan intersep dari Langkah
1 untuk mendapatkan persamaan regresi untuk ini data:
a
Y bX
1 42 0021X
Langkah 3 Skor SAT-CR dari 650 sekarang diganti dengan X dalam persamaan pada
Langkah 2 untuk menemukan prediksi IPK untuk skor ini:
Y42 0021 650
1
2 78
Jika Anda ingin membuat prediksi lain, Anda hanya perlu mengganti
nilai X yang sesuai dalam persamaan regresi. Mari kita verifikasi
prediksi yang melibatkan X 425 yang ditunjukkan pada Gambar 8.3:
Y42 0021X
1
1 42 0021 425
2 31
Untuk menemukan nilai Y yang diprediksi, biasanya menggunakan

persamaan regresi seperti yang telah kita lakukan di sini. Nilai Y yang
diprediksi juga dapat diperoleh dari grafik. Merencanakan garis regresi
dengan tangan cukup mudah (dan melakukannya dengan perangkat lunak
komputer masih lebih mudah):
untuk
Langkah 1 Temukan Y dua nilai X (pilih nilai rendah dan nilai X tinggi). Anda sekarang
memiliki dua poin: X1, Y1 dan X2, Y2.
Langkah 2 Plot kedua titik ini pada kertas grafik, menggunakan sumbu X dan Y dari
scatterplot asli.
Langkah 3 Gambar garis lurus melalui dua titik. Sebagai pemeriksaan, garis
regresi juga harus melalui titik perpotongan X dan Y.
dari
grafik, Anda mungkin ingin
Bahkan jika Anda tidak bermaksud untuk menurunkan nilai Y
menempatkan garis regresi pada sebar untuk tujuan ilustrasi. Gambar 8.4
menunjukkan garis regresi untuk hubungan antara penalaran spasial dan
kemampuan matematika dari Bab 7 (lihat Gambar 7.1). Untuk memplot garis
ini, kita mulai dengan statistik ringkasan berikut:
Spasial
Penalaran
Kemampuan Matematika
X 70 Y 100
SX 9 97 SY 14 83
r 63
Untuk data ini, kemiringannya adalah
b rSY
SX63 14 83
9 97 63 1 49 94
dan intersepnya adalah
Y bX 100 94 70 100 65 8 34 2
2 94X, yang digunakan untuk memplot Yuntuk X1 55
Oleh karena itu, persamaan regresinya adalah Y
34
(Y 1 85 9) dan X2 85 (Y 2 114 1) pada Gambar 8.4. Kedua Y pada gilirannya,

,
dihubungkan oleh garis lurus. Sebagaimana mestinya, garis ini melewati titik
potong antara X dan Y. (Pertanyaan: Bagaimana menurut Anda outlier di
sudut kanan bawah mempengaruhi penempatan garis ini?)
140
X
y
ili
a

it
a
ht
a

:
130 120 110 100 90
80
70
Y2 = 114,1 Y1 = 85,9
Y = 34,2 + ,94(X) Y
50 55 60 65 70 75 80 85
90
X: Penalaran spasial
X1
X2
Nilai
Gambar 8.4 Memplot garis regresi Y-on-X (dari Gambar 7.1): Y diplot untuk X1 55 dan X2 85.
8.5 Persamaan Regresi dalam Hal Skor z 141
8.4 Menafsirkan Kemiringan Skor Mentah
Mari kita kembali ke Formula (8.2) sejenak. Dari rumus ini, Anda dapat
melihat bahwa seiring r berjalan, begitu pula b. Jika r positif, b akan positif;
jika r negatif, demikian juga b. Anda juga dapat melihat bahwa jika r 0, b juga
harus nol. Di samping kesamaan ini, r dan b biasanya akan memiliki nilai yang
berbeda—seringkali sangat mencolok. Pengecualian, sekali lagi seperti yang
Anda dapat alasan dari Formula (8.2), adalah di mana S X SY (yang sangat tidak
mungkin dengan data skor mentah).
Kemiringan selalu ditafsirkan menurut satuan X dan Y: Untuk setiap kenaikan satuan X, Y
mengubah b satuan.
Dalam kasus Gambar 8.4, untuk setiap kenaikan satu poin pada tes
penalaran spasial, ada perubahan yang sesuai sebesar 0,94 poin pada tes
kemampuan matematika. Kemiringan skor mentah dapat, dan seringkali, lebih
besar dari ±1,00. Sekali lagi, itu tergantung pada skala yang mendasari kedua
variabel. Jika dalam contoh ini kita secara sewenang-wenang menggandakan
setiap skor Y, maka SY 2 14 83 29 66 (SX dan r tetap sama). Kemiringan baru
akan menjadi:
b 63 29 66
9 97 63 2 97 1 87
Artinya, untuk setiap kenaikan satu poin pada tes penalaran spasial, sekarang
ada peningkatan 1,87 poin pada tes kemampuan matematika — dua kali lipat
dari nilai aslinya dari b.
Nilai b dapat terlihat kecil bahkan ketika ada derajat hubungan yang
cukup besar antara X dan Y. Dalam contoh Universitas Fumone, Anda melihat
bahwa b 0021. Ini mungkin awalnya mengejutkan Anda sebagai nilai yang
sangat kecil untuk suatu kemiringan, tetapi ingatlah bahwa kemiringan
dinyatakan dalam skala yang mendasari X dan Y. Artinya, untuk setiap
kenaikan titik SAT-CR (misalnya, dari 500 menjadi 501), ada perubahan .0021
titik kadar (dari 2,47 menjadi 2,4721). Setelah Anda mengetahui bahwa skor
SAT-CR dalam sampel ini berkisar antara 350 hingga 750 dan IPK perguruan
tinggi dari 1,6 hingga 3,4, nilai kemiringan ini tampaknya tidak terlalu kecil.
Misalnya, peningkatan 10 poin dalam skor SAT-CR (misalnya, dari 500
menjadi 510) akan sesuai dengan peningkatan poin nilai 10 0021 021 (dari
2,47 menjadi 2,49), dan peningkatan 100 poin dalam skor SAT-CR (misalnya,
dari 500 menjadi 600) akan sesuai dengan peningkatan
100 0021 21 poin (dari 2,47 menjadi 2,68, atau dari C ke B−). Derajat
kovariasi ini lebih sesuai dengan apa yang Anda harapkan antara dua
variabel di mana r 50.
8.5 Persamaan Regresi dalam Hal Skor z
Persamaan regresi dapat dinyatakan dalam bentuk skor-z, dan ketika ini
dilakukan, akan menghasilkan nilai yang sangat ekspresi sederhana—dan
informatif—. Jika Anda mengubah nilai asli X dan Y menjadi skor z,
persamaan regresi disederhanakan menjadi:
Persamaan regresi:
bentuk skor-
z zYˆ rzX 8 5
di mana: zYˆ adalah nilai prediksi dari Y yang dinyatakan karena skor az
r adalah korelasi antara X dan Y
zX adalah skor z dari X
Perhatikan baik-baik Rumus (8.5): Ini memberitahu Anda bahwa nilai

prediksi zY adalah proporsi zX dan proporsinya sama dengan r. Data pada Tabel
8.1 memungkinkan penghitungan zX untuk siswa dengan SAT-CR 650:
zX 650− 545 8 123 2 85
Jadi, skor SAT-CR orang ini turun 0,85 standar deviasi di atas rata-rata SAT-
CR, X. Dengan r 50, Anda akan memprediksi IPK-nya menjadi 0,42 standar
deviasi di atas rata-rata IPK, Y:
zYˆ rzX 50 85 42
Sangat mudah untuk menunjukkan bahwa rumus ini memberikan hasil
yang sama seperti Rumus (8.4). Nilai z Yyang baru saja kita hitung dapat diubah
menjadi prediksi IPK 2,78, jawaban yang diperoleh sebelumnya:
Y
Y zYˆ SY
2 57 42 52
2 78
8.6 Beberapa Wawasan Mengenai Korelasi dan Prediksi
Pendekatan z-score biasanya tidak nyaman untuk pekerjaan praktis dalam

prediksi; Formula (8.4) jauh lebih langsung. Namun, Rumus (8.5) layak untuk
diperiksa dengan cermat karena wawasan berharga yang diberikannya
mengenai sifat korelasi dan prediksi.
Mari kita mulai dengan memperhatikan posisi menonjol dari r dalam
Rumus (8.5). Pearson r sama dengan kemiringan garis regresi jika dinyatakan
dalam z-score. Untuk melihat bahwa demikian, perhatikan lebih dekat rumus
kemiringan, br SY SX . Ketika data ditransformasikan ke skor z, simpangan baku
yang dihasilkan keduanya sama dengan 1, dan oleh karena itu br. Semakin
besar korelasinya, semakin curam garis miring ke atas (atau ke bawah, jika r
negatif). Interpretasi kemiringan skor standar adalah sama seperti untuk
kemiringan skor mentah, kecuali bahwa "satuan" sekarang merupakan
standar deviasi:
Untuk setiap peningkatan standar deviasi di X, Y berubah sebesar r standar deviasi.
Pada Gambar 8.5 kami menyajikan empat garis regresi, sesuai dengan r
100, .50, .25, dan 0, masing-masing. Angka ini mengilustrasikan apa yang
terjadi saat Anda berpindah dari korelasi sempurna ke korelasi nol.
8.6 Beberapa Wawasan Mengenai Korelasi dan Prediksi 143
r = +1.00
−3 12 =z r +.25
zY zY +1.00 X= +3
+2
+1
+1 +2 +3 zX
_1
_2
_3
(a)
zY
+3
+2
r =.50
_3 _2 10 r = z
Y+
+3
+2
+1
(b)
zY
+3
+2
zY = +.50 zX
+1 +2 +3 zX -1
–2
–3
+1
–3 –2 -1
zY = +,25 zX
+1
zY = 0 zX
+1 +2 +3 zX (c)
_3 _2 +1 +1 _2 +3 zX
11
(2
d2
Gambar3
)3
untukempat
r8.5.
nilai
Ketika r 1,00
±
Pertimbangkan kasus di mana r 1 00 (Gambar 8.5a). Di sini, skor z yang

diprediksi pada Y identik dengan skor z pada X dari mana prediksi itu dibuat.
Yaitu, zY1 00 zX zX . Posisi relatif seseorang di X identik dengan relatif orang itu
meningkat satu standar deviasi. Dan

berdiri di Y. Untuk setiap peningkatan standar deviasi di X, Y
juga
bagaimana jika r sempurna tetapi negatif? Mudah: zYˆ 1 00 zX zX . Artinya, nilai

prediksi zY memiliki nilai absolut yang sama, tetapi berlawanan tanda aljabar,
seperti zX.
Ketika r 1,00
±
Dimana r selain sempurna ± 1,00, skor Y yang diprediksi mengelompok lebih

dekat di sekitar rata-rata Y. Misalkan r 50 (Gambar 8.5b). Ketika memprediksi
dari nilai X yang dua standar deviasi di atas mean (yaitu, z X 2 00), nilai prediksi
Y hanya satu standar deviasi di atas mean: zY50
2 00 1 00. Demikian pula, jika zX 1 50, maka zYˆ 50 1 50 75. Jadi, ketika r 50,
nilai prediksi Y adalah setengah dari nilai z X. Saat r 25 (Gambar 8.5c), nilai
prediksi Y adalah seperempat nilai z X. Misalnya, ketika memprediksi dari nilai
X yaitu 1,6 standar deviasi di bawah rata-rata (yaitu, z X 1 60), zYˆ 25 1 60 40.
Prinsip yang sama berlaku untuk nilai negatif r, satu-satunya perbedaan
adalah bahwa tanda aljabar zYberlawanan dengan tanda zX. Jika r 50 dan zX 1 50,
misalnya, maka zYˆ 50 1 50 75.
Kecenderungan untuk bergerak lebih dekat ke rata-rata ketika seseorang
berpindah dari skor X ke skor Y yang diprediksi dikenal sebagai regresi
menuju rata-rata. Sir Francis Galton umumnya diberikan penghargaan untuk
membawa fenomena ini ke cahaya. Studinya yang paling terkenal tentang
"efek regresi" (seperti yang disebut sekarang) berkaitan dengan perawakan
manusia, di mana ia mengamati bahwa orang tua yang tinggi, rata-rata,
memiliki keturunan yang lebih pendek dari mereka (tapi masih tinggi, ingatlah)
dan orang tua yang pendek cenderung memiliki keturunan yang agak lebih
tinggi dari mereka (walaupun masih agak pendek). Ketinggian keturunan,
Galton mendemonstrasikan, "berbalik" atau "mundur" menuju ketinggian rata-
rata populasi. (Omong-omong, dia mengamati kecenderungan yang sama
sehubungan dengan berat kacang manis.)
Efek regresi adalah karakteristik dari setiap hubungan di mana
korelasinya kurang dari sempurna. Regresi terhadap mean khususnya terlihat
dalam intervensi pendidikan dan psikologis di mana (a) peserta awalnya
dipilih karena mereka mendapat skor rendah pada pretest, (b) intervensi dari
beberapa jenis terjadi, dan (c) posttest diberikan untuk menentukan efek dari
intervensi. Peserta—rata-rata—akan tampak memperoleh keuntungan pada
posttest meskipun tidak ada intervensi sama sekali. 2 Hal ini karena korelasi
antara pretest dan posttest kurang dari 1,00 (sangat mungkin demikian);
akibatnya, peserta umumnya akan kurang ekstrim pada posttest daripada
pada pretest. Dinyatakan secara lebih formal, ketika r 1,00, nilai Y akan lebih
dekat ke Y daripada nilai X yang sesuai dengan X. Seberapa dekat
tergantung pada besarnya r, seperti yang Anda lihat dari Rumus (8.5). Frasa
kunci di atas adalah “rata-rata”. Ingatlah bahwa nilai prediksi adalah perkiraan
nilai rata-rata Y untuk nilai X tertentu, bukan satu-satunya nilai Y. Masih
sangat mungkin bagi orang tua yang tinggi untuk memiliki anak yang bahkan
lebih tinggi dari mereka, atau untuk siswa rendah pada pretest menjadi lebih
rendah, relatif berbicara, pada posttest.
Pernyataan kami mengasumsikan bahwa tidak ada keuntungan karena latihan atau pematangan.
2
8.7 Regresi dan Jumlah Kuadrat 145
Ketika r 0
Tanpa adanya hubungan antara dua variabel (Gambar 8.5d), nilai prediksi Y
akan selalu menjadi mean dari Y:
zYˆ rzX
0 zX
0
(Ingat, az dari nol sesuai dengan mean.) Ini mengatakan bahwa ketika X dan
Y tidak berkorelasi, Anda akan memprediksi mean Y untuk setiap kasus,
terlepas dari nilai X. Ini masuk akal: Jika r 0, maka mengetahui posisi
seseorang di X (misalnya, jumlah bintik) sama sekali tidak relevan untuk
memprediksi posisi orang itu di Y (misalnya, pendapatan tahunan). Rata-rata
dari Y adalah "prediksi" yang masuk akal secara intuitif dalam kasus ini.
Memang, apa lagi yang bisa dikatakan dalam situasi seperti itu?
Ini juga menjelaskan mengapa garis regresi horizontal ketika r 0. (Bila
scatterplot didasarkan pada skor z, seperti pada Gambar 8.5d, garis regresi
terletak langsung di atas sumbu X.) Tidak peduli berapa nilai X yang Anda
pilih , ketika r 0 nilai prediksi Y akan selalu menjadi mean dari Y:
a Y bX
Y 0 X
Y
Y
kapan pun X X. Jika Anda rata-
Pada catatan terakhir, amati pada Gambar 8.5 bahwa terlepas dari r, Y
rata pada X, maka prediksi terbaik adalah bahwa Anda akan menjadi rata-rata
pada Y—terlepas dari korelasi antara X dan Y. Artinya, jika z X 0 (yaitu, rata-
rata dari X), maka zYˆ rzX r 0 0 Inilah sebabnya mengapa garis regresi selalu
melewati titik di mana X dan Y berpotongan.
8.7 Regresi dan Jumlah Kuadrat
Konsep jumlah kuadrat, seperti yang Anda lihat di Bagian 8.2, adalah pusat
kriteria kuadrat terkecil untuk menentukan garis regresi: Garis yang paling pas
meminimalkan jumlah sisa kuadrat, (Y Y ) . Sebenarnya ada tiga jumlah kuadrat yang terlibat
2
dalam analisis regresi. Dengan memahami jumlah kuadrat ini dan

keterkaitannya, Anda akan memiliki pemahaman regresi dan prediksi yang
lebih dekat dan lebih tahan lama.
Kita mulai dengan (Y Y)2, jumlah kuadrat Y yang sudah dikenal. Karena
berpusat pada deviasi setiap skor Y dari rata-rata Y, (Y Y) 2 mencerminkan
variasi total dalam Y dan karena alasan ini disebut jumlah kuadrat total. (Y Y)
diilustrasikan pada Gambar 8.6a untuk prediksi IPK perguruan tinggi dari nilai
SAT-CR.
Dalam konteks regresi bivariat, hanya ada dua alasan untuk variasi Y.
Alasan pertama adalah X. Dalam kasus ini, variasi total dalam IPK (Y)
perguruan tinggi tahun pertama dijelaskan, sebagian, oleh variasi dalam SAT
-CR skor (X).ini ditangkap oleh jumlah kuadrat, (YY )2, yang juga disebut jumlah kuadrat
regresi. Jumlah kuadrat regresi mewakili variasi yang dijelaskan dalam Y. Inti dari istilah ini adalah (YY
), yang merupakan jarak antara
3.4
3.2
3.0
A
G
r
saya
F

:
AP
G
r
F

:
Y
AP
G
r
F

:
2.8 2.6 2.4 2.2 2.0 1.8 1.6
3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
Y
400 500 600 700 800 X: Skor SAT-CR
(a)
Y
400 500 600 700 800 X: Nilai SAT-CR
(b)
Y
400 500 600 700 800 X: Nilai SAT-CR
(c)
totalriasidv
(Y – Y)
JelaskaneVariasia(Y – Y)
Variasi terjelaskan(Y – Y)
Gambar 8.6 Variasi total, variasi terjelaskan, dan variasi tak terjelaskan.
Y
)2 besar atau kecil dengan
garis regresi dan Y untuk nilai X yang diberikan (Gambar 8.6b). Apakah (Y
demikian mencerminkan kekuatan hubungan antara X dan Y (itulah sebabnya
istilah ini disebut jumlah kuadrat regresi). Ketika r besar
8.8 Residuals and Unexplained Variation 147
menyimpang
(lereng curam), banyak nilai Y secara nyata dari Y, yang, ketika dikuadratkan dan
−
dijumlahkan, menghasilkan (Y Y) . Tetapi ketika r 0, garis regresinya datar dan YY untuk semua
2
Y 2 0.
nilai X. Akibatnya, Y
Alasan kedua mengapa Y bervariasi adalah karena variabel yang relevan,

meskipun tidak teridentifikasi, selain X. Ini variasi diwakili oleh jumlah
kesalahan kuadrat yang sudah dikenal, (Y Y ˆ )2, yang mencerminkan variasi yang tidak
dapat dijelaskan dalam Y (Gambar 8.6c). Dimana r ±1 00, prediksi sempurna: Y Y0 ,
sebagaimana mestinya (Y Y ) . Artinya, ketika r ±1 00, tidak ada variasi yang tidak dapat
2
dijelaskan dalam Y. X menjelaskan semuanya! Namun, ketika r 0, ada

perbedaan yang cukup besar antara nilai Y yang sebenarnya dan yang
diprediksi, yang menghasilkan Y Y 2.
Variasi total dalam Y, kemudian, mencerminkan variasi yang dijelaskan
dan yang tidak dapat dijelaskan. Dinyatakan secara matematis:
Variasi total pada Y
Y Y 2Y ˆ Y 2Y Y 28 6
Dari sini, kita dapat menentukan proporsi variasi total pada Y yang dijelaskan
variasi, yang ternyata sama dengan r2, koefisien determinasi (Bagian 7.8):
menjelaskan variasi variasi total

YY
2
Y Y 2 r2
Oleh karena itu, akar kuadrat dari suku ini sama dengan r:
Y Y 2
Y Y 2 r
Seperti yang kami nyatakan di awal bab ini, korelasi dan prediksi memang
terkait erat!
8.8 Residual dan Variasi

, mewakili variasi dalam Y yang tidak dapat
Anda sekarang tahu bahwa jumlah sisa kuadrat, Y Y
ˆ 2
dijelaskan oleh variasi dalam X. Tetapi kita akan melakukan residual yang
sangat tidak adil jika kita membiarkannya di situ , untuk residu yang
berpotensi mengandung terlalu banyak makna hanya untuk dimasukkan ke
kotak hitam "variasi yang tidak dapat dijelaskan".
Pertimbangkan kembali prediksi IPK kuliah tahun pertama dari nilai SAT-
CR. Variasi residual menandakan perbedaan di antara siswa dalam IPK yang
melampaui fakta bahwa siswa ini juga berbeda dalam SAT-CR. Jelas, ada
faktor selain bakat akademik (yang diukur dengan tes khusus ini) yang
mempengaruhi seberapa baik seseorang di tahun pertama kuliah. Meskipun
kami hanya menggunakan SAT-CR untuk memprediksi IPK perguruan tinggi
tahun pertama, faktor-faktor tak dikenal ini tetap berperan dan karena itu
berkontribusi pada variasi total IPK—yaitu, ke Y Y 2.sejauh
anonim kehadirannya
2
, Anda harus melihat variasi residual ini sebagai
hanya diwakili oleh jumlah kuadrat sisa, Y Y
undangan untuk berspekulasi mengenai kemungkinan sumbernya.
Misalnya, meskipun Katy dan Jane memiliki skor SAT-CR yang identik
(Gambar 8.2), mungkin Katy lebih termotivasi secara akademis daripada Jane.
Jika demikian, dan karena motivasi akademik bisa dibilang terkait dengan IPK,
ini akan menjelaskan (sebagian) residual positif Katy dan residual negatif
Jane. Artinya, IPK perguruan tinggi tahun pertama yang sebenarnya untuk
Katy lebih tinggi, dan untuk Jane lebih rendah, dari apa yang Anda harapkan
dari prediksi berdasarkan SAT-CR saja, dan perbedaan antara Katy dan Jane
dalam motivasi akademik bisa menjadi salah satu alasan mengapa .
Ini adalah spekulasi murni dari pihak kami, untuk memastikannya.
Bagaimanapun, persamaan regresi kami hanya memiliki satu variabel
independen, SAT-CR. Tetapi jika masa depan Anda melibatkan kursus
kedua dalam statistik, Anda dapat belajar tentang metode regresi yang
lebih maju yang memungkinkan dua atau lebih variabel independen.
Daripada hanya berspekulasi tentang kemungkinan sumber variasi
residual, seseorang dapat memasukkan variabel tambahan dalam
persamaan regresi (mungkin sebagai penyelidikan selanjutnya) dan
menentukan apakah ada variasi residual yang lebih sedikit dalam variabel
dependen. Jika ada, sekarang lebih banyak diketahui tentang kemungkinan
pengaruh pada variabel dependen.
8.9 Mengukur Margin of Prediction Error:

Standard Error of Estimate
Kami sekarang kembali ke pertanyaan yang kami ajukan di Bagian 8.1:

Bagaimana cara menentukan margin of error untuk prediksi tertentu? Tidak
mengherankan, jumlah sisa kuadrat, (Y Y ˆ )2, merupakan inti dari tugas ini.
Anda belajar di Bab 5 bahwa varians sama dengan jumlah kuadrat dibagi
n dan bahwa akar kuadrat dari varians memberi Anda standar deviasi.
Pengetahuan ini dapat diterapkan pada jumlah sisa kuadrat. Secara khusus,
varians dari residual adalah (Y Y ˆ ) /n. Akar kuadrat dari ekspresi ini adalah deviasi standar
2
dari residual, yang disebut kesalahan standar pendugaan dan dilambangkan

dengan SYX :
Kesalahan standar pendugaan
Y Y 2
SYXY Y 2

Y Y 2 r 8 7
n8 7
SYX dapat dianggap sebagai “persebaran rata-rata” dari titik-titik data tentang
garis regresi. Dinyatakan lebih formal, S YX adalah standar deviasi skor Y aktual
tentang Y nilai prediksi.
,
SYX memainkan peran penting dalam mengukur margin kesalahan prediksi.

Misalkan sampel Universitas Fumone benar-benar terdiri dari beberapa ratus
siswa, bukan hanya 12 yang ditunjukkan pada Gambar 8.1, tetapi sebaliknya
hasilnya sama seperti yang disajikan pada Tabel 8.1. Data pada Tabel 8.1
memberikan dasar untuk
8.9 Mengukur Margin of Prediction Error: Persamaan regresi Standar Error of Estimate 149
yang memungkinkan Anda untuk memprediksi, atau memperkirakan, IPK

perguruan tinggi tahun pertama pelamar ke Fumone.
Ambil pelamar yang mencetak 650 pada SAT-CR. Meskipun persamaan
regresi memprediksi IPK tahun pertama 2,78,3 Anda tidak akan mengharapkan
pelamar ini mendapatkan IPK persis seperti itu. Seperti yang Anda lihat
sebelumnya, nilai prediksi hanyalah "perkiraan terbaik" dari rata-rata distribusi
IPK untuk siswa dengan SAT-CR 650 (Gambar 8.3); beberapa dari siswa
tersebut akan memperoleh IPK lebih tinggi dari yang diperkirakan, dan
beberapa lebih rendah. Jika Anda tahu seberapa tinggi atau lebih rendah,
Anda akan memiliki dasar untuk melampirkan “margin of error” pada prediksi
Anda untuk pelamar khusus ini. Singkatnya, S YX menyediakan dasar ini.
Meskipun Rumus (8.7) memberikan wawasan penting tentang sifat
kesalahan standar pendugaan, hal ini canggung untuk digunakan dalam
praktik. Anda akan menemukan rumus ekivalen ini jelas lebih mudah:
Kesalahan standar pendugaan
(rumus alternatif)
SYX SY 1 r2 8 8
Anda dapat melihat dari Rumus (8.8) bahwa semakin tinggi korelasi antara X
dan Y, semakin kecil kesalahan standar pendugaan. Ini masuk akal,
mengingat diskusi kita di Bagian 8.6: Ketika r rendah, akan ada variasi yang
cukup besar dalam nilai Y aktual tentang nilai yang diprediksi; tetapi ketika r
tinggi, nilai aktual mengelompok lebih dekat dengan nilai prediksi. Dimana r
±100, tidak akan ada variasi sama sekali tentang nilai prediksi Y, dan S YX akan
menjadi nol.
Menyiapkan Margin of Error

Mari kita lihat bagaimana menerapkan S YX dalam mengatur margin of error di
sekitar nilai prediksi 2,78 untuk pemohon yang skor SAT-CR adalah 650.
Rumus (8,8) dapat digunakan dengan data yang diberikan sebelumnya untuk
dapatkan kesalahan standar estimasi:
Anda sekarang memiliki estimasi rata-rata Y 2 78 dan standar deviasi S YX 45

dari distribusi IPK untuk siswa yang memiliki skor SAT-CR 650. Distribusi ini
diasumsikan normal. Anda tahu dari Bab 6 bahwa dalam distribusi normal,
95% kasus di tengah berada dalam ± 1,96 standar deviasi dari mean. 4
Mengingat bahwa SYX adalah standar deviasi (dari residual), maka Anda akan
mengharapkan bahwa 95% tengah individu yang memiliki skor X tertentu
akan
3
Y
ˆ1
42 0021 650 2 78.
4
Jika diperlukan penyegaran cepat6.
150 dan Prediksi Batas 3.66tkembali
Gr
AP
.8
r
atas
3.6
3 3.4 3.2 3.0 22.8 8. 8Regresi BabBab6 _2.4
Y = 2 7. 8
1 96. SY . X1 _.96 SY . X
95 Y nilai 1,90
F
:
2 .2 2.0 1.8
Batas bawah600
70 0
X dari
% = 65 0
80 0
1 .6
40 0
: -
X SAT CR skor 8.7 500
95% batas IPK aktual di mana X 650.

±
dapatkan skor Y antara batas Y 1 96 SYX . Untuk contoh sekarang batas-batas ini adalah:
Batas Bawah Batas Atas
Y SYX Y1,96 SYX
1,96
2 78− 1 96 45 1 90 2 78 1 96 45 3 66
Batas-batasnya ditunjukkan pada Gambar 8.7. Untuk 95% siswa yang

memiliki skor SAT-CR seperti pelamar ini (yaitu, 650), Anda akan
mengharapkan IPK tahun pertama mereka di Universitas Fumone turun
antara 1,90 dan 3,66. Dalam pengertian ini, seseorang dapat 95% "yakin"
bahwa IPK pelamar akan berada di antara batas-batas ini. Dalam prediksi
praktis, selalu diinginkan untuk memasukkan informasi tentang margin
kesalahan prediksi. Kurangnya informasi ini, orang sering cenderung berpikir
bahwa kinerja "ditunjuk" oleh nilai yang diprediksi. Seperti yang ditunjukkan
oleh contoh kita, pandangan itu salah.
Dengan menggunakan apa yang diketahui tentang kurva normal, Anda
juga dapat menentukan batas yang sesuai dengan derajat kepercayaan selain
95%. Untuk 68%, mereka akan menjadi Y± (1.00)SYX, dan untuk 99%, Y± (2.58)SYX. (Dapatkah
Anda melihat dari Tabel A pada Lampiran C bagaimana kita mendapatkan
“1.00” dan “2.58”?)
Hubungan Antara r dan Kesalahan

Prediksi Kesalahan prediksi maksimum ketika r 0, dalam hal ini kita memiliki
SYX SY 1− 02 SY . Artinya, ketika X sama sekali tidak berhubungan dengan Y, ada
banyak variabilitas di antara residual (SYX) seperti halnya di antara skor Y itu
sendiri (SY). Dalam
8.9 Mengukur Margin Kesalahan Prediksi: Kesalahan Standar Estimasi 151
Tabel 8.2 Pengurangan Kesalahan Prediksi untuk

Berbagai Nilai r
r Pengurangan Kesalahan Prediksi (%)
1.00 100
.75 34
.50 13
.25 3
.00 0
kontras, kesalahan prediksi minimum terjadi ketika r ±1 00, dalam hal ini S YX SY
1− 12 0. Dalam situasi ini, tentu saja, tidak ada kesalahan dalam prediksi
karena semua titik data jatuh pada garis regresi.
Apa yang terjadi pada kesalahan prediksi ketika, katakanlah, r 50?
Kesalahan standar pendugaan adalah S YX SY 1 502 87SY . Anda mungkin telah
menebak bahwa koefisien .50 akan berarti bahwa kesalahan prediksi akan
berkurang setengahnya, tetapi kenyataannya adalah .87S Y, bukan .50SY. Jika
87% kesalahan prediksi tetap ada, maka pengurangan hanya 13% telah
terjadi pada perpindahan dari r 0 ke r 50. Tabel 8.2 menyajikan beberapa nilai
r, bersama dengan konsekuensi masing-masing untuk mengurangi kesalahan
prediksi. Tabel ini menawarkan cara lain, selain yang dijelaskan dalam Bagian
7.8, untuk mengevaluasi koefisien korelasi dengan berbagai ukuran. Jika
tujuan Anda adalah prediksi, ingatlah bahwa tidak ada pengurangan
substansial dalam kesalahan prediksi yang akan dicapai kecuali r cukup
tinggi. Tabel 8.2 juga menunjukkan bahwa peningkatan korelasi dengan
jumlah tertentu memiliki efek yang lebih besar untuk nilai r yang lebih tinggi
daripada nilai yang lebih rendah.
Asumsi
Beberapa kondisi harus dipenuhi agar interpretasi prediktif dari jenis yang
dijelaskan di atas berfungsi dengan baik:
1. Hubungan antara variabel independen, X, dan variabel dependen, Y, pada
dasarnya harus linier. Salah satunya adalah memprediksi dari garis lurus
yang paling cocok, dan prediksi tersebut akan hilang jika hubungannya sangat
lengkung.
2. Menentukan margin of error mensyaratkan bahwa penyebaran nilai Y yang
diperoleh terhadap Yserupa untuk semua nilai Y. Persyaratan ini dikenal sebagai asumsi
homoskedastisitas. Karena SYX adalah nilai tunggal, ditentukan dari data
secara keseluruhan, tidak memungkinkan kemungkinan bahwa variasi
mungkin berbeda pada titik yang berbeda dalam distribusi. Gambar 8.8
menunjukkan dua distribusi bivariat; satu dicirikan oleh homoskedastisitas,
dan yang lainnya tidak. (Tidak mengherankan, istilah heteroskedastisitas
digunakan mengacu pada kondisi terakhir.)
3. Batas kesalahan yang dijelaskan di atas (68%, 95%, 99%) didasarkan pada
asumsi bahwa nilai-nilai Y terdistribusi secara normal di sekitar Y .
dan
Untungnya, asumsi ini sering cukup dekat SYX cukup akurat.
untuk dipenuhi sehingga Y
Penyimpangan yang signifikan dari salah satu dari kondisi ini biasanya dapat
dideteksi dengan memeriksa scatterplot. Ini adalah alasan lain untuk
merencanakan data Anda!
Y
Y
Homoskedastis
X
X
Bukan homoskedastis (heteroskedastis)
XL XM (a)
XH
XL XM (b)
XH
Gambar 8.8 Variabilitas dalam Y sebagai fungsi dari nilai X: subskrip L, M, dan
H masing-masing mewakili rendah, sedang, dan tinggi.
Kami menyebutkan satu hal terakhir sebelum melanjutkan: variasi

sampling. Garis regresi ditentukan oleh nilai berpasangan dalam sampel
tertentu. Pemilihan peserta yang berbeda akan menghasilkan hasil yang
serupa, tetapi tidak identik. Garis regresi yang ditentukan dari sampel kecil
(seperti n dari 12 kami) mungkin karena itu agak berbeda dari garis regresi
"benar". Ada prosedur yang lebih kompleks untuk menghitung batas
kesalahan yang memperhitungkan variasi pengambilan sampel. Anda
sebaiknya mengandalkan prosedur yang telah kami jelaskan di sini hanya jika
ukuran sampel paling sedikit 100.
8.10 Korelasi dan Kausalitas (Ditinjau Kembali)
Diktum bahwa korelasi tidak menyiratkan sebab-akibat, yang kami

perkenalkan di bab terakhir (Bagian 7.6), adalah sama relevannya dengan
topik regresi dan prediksi. Bisa dibilang lebih. Bahkan peneliti kawakan
terkadang melupakan prinsip penting ini ketika dikelilingi oleh bahasa regresi,
yang kaya akan referensi sebab akibat: variabel “tergantung”, yang
“diprediksi” dari variabel lain, yang “menjelaskan” variasi pada variabel
sebelumnya.
Jangan pernah lupa bahwa di balik setiap persamaan regresi terdapat ukuran asosiasi (r).
Meskipun Y dapat mengikuti X dalam waktu (seperti dalam contoh kami

tentang nilai IPK dan SAT-CR perguruan tinggi), adalah kekeliruan logis untuk
menyimpulkan bahwa Y karena itu disebabkan oleh X ketika hubungan antara
keduanya ditemukan. Ahli logika sering mengutip ungkapan Latin dari
kekeliruan ini: post hoc, ergo propter hoc, atau, "setelah ini, oleh karena itu
karena ini."
Pertimbangkan korelasi negatif antara seberapa banyak orang tua
membantu anak-anak mereka dengan pekerjaan rumah (X) dan prestasi
siswa (Y), yang kami sajikan sebagai masalah latihan di akhir Bab 7. Anda
akan melakukan kesalahan post hoc, karena lebih mudah diketahui, jika Anda
beralasan sebagai berikut:
Membaca Penelitian: Regresi 153
• Orang tua memberikan sejumlah bantuan pekerjaan rumah kepada anak-anak mereka.
• Anak-anak ini kemudian mengikuti tes prestasi.
• Bantuan pekerjaan rumah dan skor prestasi berkorelasi negatif.
• Oleh karena itu, bantuan pekerjaan rumah pasti merugikan prestasi.
Sama konsistennya dengan korelasi negatif ini adalah kesimpulan bahwa

orang tua memberikan bantuan pekerjaan rumah hanya ketika anak-anak
mereka berprestasi buruk di sekolah. Meskipun tes prestasi diberikan setelah
orang tua memberikan (atau tidak memberikan) bantuan pekerjaan rumah,
anak-anak yang nilai ujiannya buruk mungkin selama ini berprestasi buruk di
sekolah. Dan ketika anak-anak melakukannya dengan buruk, orang tua lebih
cenderung membantu pekerjaan rumah. Kami tidak tahu apakah interpretasi
kami tentang korelasi negatif ini benar, ingatlah, karena hanya eksperimen
terkontrol yang dapat menguraikan sebab dan akibat. Namun demikian,
berhati-hatilah saat menarik kesimpulan dari data korelasional, dan kritisi
kesimpulan yang ditarik oleh orang lain.
8.11 Ringkasan
a
bX, digunakan untuk memprediksi Y dari pengetahuan X ketika dapat diasumsikan
Persamaan garis lurus yang paling cocok, Y
bahwa hubungan residual adalah hubungan linier. Kriteria "paling cocok" adalah bahwa jumlah sisa kuadrat, (Y Y ˆ )2,
diminimalkan. Antara lain, "kriteria kuadrat terkecil" ini berarti bahwa garis regresi yang dihasilkan dapat
dianggap sebagai "rata-rata berjalan", sebuah garis yang memperkirakan rata-rata Y untuk nilai-nilai tertentu
dari X.
Rumus z-score untuk persamaan regresi mengungkapkan beberapa karakteristik regresi, termasuk
fenomena regresi menuju mean. Dalam pekerjaan prediksi praktis, rumus skor mentah lebih mudah
digunakan.
Nilai prediksi Y, Y hanyalah perkiraan nilai rata-rata dan oleh karena itu dapat mengalami kesalahan. Pada
,
asumsi linieritas regresi dan dastisitas homosce, kesalahan standar estimasi SYX—
Reading the Research: Regresi

standar deviasi residual — memberikan ukuran kesalahan prediksi yang baik. Jika juga memungkinkan untuk
mengasumsikan bahwa skor aktual terdistribusi normal di sekitar Y, maka dimungkinkan untuk menetapkan batas
kesalahan prediksi yang diketahui tentang garis regresi. Metode yang dijelaskan dalam bab ini akan cukup
akurat untuk sampel besar (n 100).
Anda belajar di Bab 7 bahwa kekuatan asosiasi biasanya tidak dapat diinterpretasikan dalam proporsi
langsung dengan besarnya koefisien korelasi. Hal ini berlaku untuk hubungan antara ukuran koefisien (r) dan
besarnya kesalahan prediksi (SYX). Ketika r naik dari nol menuju satu, kesalahan standar pendugaan menurun
sangat lambat sampai r jauh di atas 0,50.
Akhirnya, regresi dan prediksi tidak mengizinkan kesimpulan mengenai sebab dan akibat. Hanya karena Y
dapat diprediksi dari X tidak berarti bahwa Y disebabkan oleh X.
Bolon (2001) melakukan analisis regresi untuk menunjukkan hubungan
prediktif antara pendapatan masyarakat dan nilai tes matematika di sekolah-
sekolah di wilayah Boston. Dalam analisis yang kami ilustrasikan di sini, ada
dua bagian data untuk setiap sekolah: (a) pendapatan per kapita di komunitas
sekolah dan (b) nilai rata-rata sekolah pada komponen matematika kelas 10
dari Sistem Penilaian Komprehensif Massachusetts ( ujian negara).
Hubungan prediktif antara dua variabel ini diilustrasikan pada Gambar 8.9
(Bolon, 2001, Gambar 2-6). Garis regresi ditumpangkan dan didefinisikan oleh persamaan Y197 4 1 45
X , di mana Y adalah
245
e
s

240
s
235
e
m

230
A
M

225
d
g

220
n
t

215

12 14 16 18 20 22 24 26 28 30 32 Pendapatan per kapita, 1999 ($1000s)

Gambar 8.9 Memprediksi nilai matematika tingkat sekolah dari pendapatan masyarakat.
prediksi skor tes matematika sekolah dan X adalah pendapatan per kapita
komunitas sekolah.
Setiap titik data pada Gambar 8.9 mewakili sekolah yang berbeda. Seperti
yang Anda lihat, sebagian besar sekolah mendekati garis regresi, yang
menunjukkan bahwa ada sedikit variasi yang tidak dapat dijelaskan dalam
variabel dependen (skor tes). Faktanya, Bolon melaporkan bahwa r 2 84.
Artinya, 84% varians nilai matematika tingkat sekolah sepenuhnya dijelaskan
oleh variasi pendapatan masyarakat. (Dari sini, kita juga dapat menentukan
bahwa r 92.) Kemiringan skor mentah, b 1 45, berarti bahwa skor tes
meningkat kira-kira 1½ poin dengan setiap $1000 pendapatan per kapita.
Sumber: Bolon, C. (16 Oktober 2001). Signifikansi penilaian berbasis tes untuk sekolah
metropolitan Boston. Arsip Analisis Kebijakan Pendidikan, 9(42). Diperoleh dari
http://epaa.asu.edu/ojs/article/view/371.
Studi Kasus: Regresi—It's on the Money
Ingat studi kasus Bab 7, di mana kami menemukan korelasi negatif antara
persentase kecakapan di distrik sekolah—yaitu, persentase siswa di distrik
yang mendapat nilai pada atau di atas tingkat kemahiran—dan persentase
siswa di distrik yang memenuhi syarat untuk makan siang gratis atau dengan
harga lebih murah: r 61 untuk MATEMATIKA dan r 66 untuk BACA. Dengan
demikian, orang akan mengharapkan distrik yang lebih kaya umumnya
memiliki persentase kecakapan yang lebih tinggi daripada rekan-rekan
mereka yang kurang beruntung, sebagian karena alasan di luar kendali
langsung distrik tersebut (misalnya, orang tua yang berpendidikan lebih tinggi,
lebih banyak siswa yang terikat perguruan tinggi, basis pajak yang lebih
besar. ). Akibatnya, suatu negara bagian terkadang akan melaporkan
persentase kecakapan distrik (atau skor rata-rata) dalam konteks “band
perbandingan” yang melibatkan distrik-distrik yang secara sosial ekonomi
serupa. Dalam hal ini, pencapaian suatu kabupaten dievaluasi tidak hanya
secara absolut, tetapi juga dalam
D
AE
R
100
80
60
40
20
200 40 60
LUNCH
Studi Kasus: Regresi—It's on the Money 15580
Gambar 8.10 Garis regresi menutupi scatterplot READ dan makan siang.
kaitannya dengan kisaran skor yang diharapkan antar kabupaten dengan

status sosial ekonomi (SES) yang sama.
Mari kita gunakan membaca kelas empat sebagai contoh. Berapa
persentase kemahiran yang “diharapkan” di distrik sekolah dengan,
katakanlah, 70% siswanya memenuhi syarat untuk makan siang gratis atau
dengan harga lebih murah? Untuk menjawab pertanyaan ini, kami mulai
dengan menentukan hubungan prediktif antara persentase siswa di distrik
yang memenuhi syarat untuk makan siang gratis atau dengan harga lebih
murah (LUNCH) dan persentase siswa di distrik yang mendapat nilai pada
atau di atas tingkat mahir pada ujian membaca negara (BACA). 5
Menggunakan perangkat lunak komputer, kami melakukan regresi READ on
LUNCH untuk 253 distrik dalam kumpulan data kami. Setelah memeriksa
scatterplot yang sesuai (Gambar 8.10) untuk memeriksa bukti nonlinier dan
heteroskedastisitas, kami kemudian beralih ke persamaan regresi itu sendiri.
Anda telah mempelajari di Bagian 8.3 bahwa persamaan regresi skor mentah
berbentuk Y bX. Dalam kasus ini, Y adalah READ (variabel dependen) dan X
a
adalah LUNCH (variabel independen). Kami memperoleh 81 58 untuk intersep

dan b 49 untuk kemiringan. Jadi, persamaan regresi kami adalah READ 81
58− 49 LUNCH . Kami telah menempatkan "garis yang paling sesuai" ini pada
Gambar 8.10.
Ingat dari Bagian 8.4 bahwa "untuk setiap kenaikan unit di X, Y
mengubah b unit." Oleh karena itu, kemiringan mentah kami (b 49) memberi
tahu kami bahwa untuk setiap tambahan 1% siswa yang memenuhi syarat
untuk makan siang gratis atau dengan harga lebih murah (peningkatan unit
dalam LUNCH), persentase siswa yang mahir berkurang sekitar setengah
poin persentase (perubahan .49 unit di READ).
Lebih ke titik kami sekarang, bagaimanapun, persamaan regresi ini digunakan
untuk menentukan nilai prediksi READ untuk nilai LUNCH yang diberikan.
Misalnya, sebuah distrik dengan 70% siswanya memenuhi syarat untuk
makan siang gratis atau dengan harga lebih murah LUNCH 70 akan memiliki
prediksi READ dari bX 81 58 49 70 81 58− 34 30 47 28. Artinya, kami
mengharapkan, rata-rata , bahwa sebuah kabupaten dengan tingkat SES ini
akan memiliki sekitar 47% siswanya yang mendapat nilai mahir (atau lebih
tinggi) dalam membaca.
5
Untuk tujuan studi kasus ini, kami akan menggunakan LUNCH sebagai indikator SES. Jika lebih
banyak data tersedia, kami akan memasukkan variabel tambahan dalam indikator kami, seperti
tingkat pendidikan umum dan pendapatan masyarakat kabupaten.
100
80
D
AE
R
60
40
20
200 40 60
LUNCH
Y + 22,03
Y – 22,03
80
Gambar 8.11 95% margin error untuk memprediksi READ from LUNCH
dengan band perbandingan berbayang yang ditunjukkan untuk LUNCH 70.
Untuk mendapatkan yang diinginkan band perbandingan, kami menggunakan

standar kesalahan estimasi (SYX) untuk menetapkan margin kesalahan 95%
untuk setiap nilai LUNCH. Dari output komputer kami, kami diberitahu bahwa
SYX 11 24. Untuk LUNCH 70, margin error 95% adalah Y± 1 96 SYX 47 28 ± 1 96 11 24
47 28 ± 22 03 25 25 hingga 69 31. Ini adalah kisaran nilai READ yang, secara
teoritis, akan mencakup 95% dari semua distrik yang memiliki nilai LUNCH
70. Dengan demikian, sebuah distrik dengan 70% siswanya yang memenuhi
syarat untuk makan siang gratis atau dengan harga lebih murah diharapkan
memiliki antara 25 % dan 69% siswanya mendapat nilai mahir atau lebih
tinggi pada ujian membaca negara.
Kisaran seperti itu dapat ditetapkan untuk nilai LUNCH apa pun, seperti
yang diilustrasikan Gambar 8.11. Distrik sekolah yang berada di luar batas
kesalahan ini dianggap berkinerja lebih buruk atau jauh lebih baik dari yang
diharapkan, mengingat komposisi SES mereka. Sekali lagi, pencapaian suatu
kabupaten diperiksa secara relatif terhadap kabupaten dengan SES yang
sebanding.
Pertimbangkan Distrik A dan B, yang keduanya memiliki nilai LUNCH
sekitar 70%. Seperti yang ditunjukkan Gambar 8.12, persentase kecakapan
untuk Distrik A (45%) cukup banyak seperti yang diharapkan di antara
kabupaten-kabupaten yang memiliki tingkat SES ini, sedangkan persentase
kecakapan untuk Distrik B (11%) berada di bawah kisaran yang diharapkan.
Meskipun rendah secara absolut, pencapaian Distrik B—tidak seperti Distrik A
—juga relatif rendah dibandingkan sekolah-sekolah miskin yang serupa.
Sekarang pertimbangkan kasus Distrik C, di mana hanya seperempat
siswa yang memenuhi syarat untuk makan siang gratis atau dengan harga
lebih murah. Persentase kecakapan untuk distrik ini hampir identik dengan
Distrik A (47% vs. 45%), tetapi persentase kecakapan Distrik C berada di
bawah kelompok pembandingnya. Meskipun Distrik A dan Distrik C dapat
dibandingkan secara absolut (persentase kecakapan mereka serupa), kinerja
Distrik A lebih mengesankan dibandingkan dengan harapan. Karena
keuntungan-keuntungan yang umumnya dinikmati oleh kabupaten-kabupaten
dengan SES yang lebih tinggi, diharapkan dari Distrik C kemampuan
membaca yang lebih tinggi daripada yang dicapai oleh kabupaten ini.
Terakhir, pertimbangkan Distrik D, di mana 40% siswa memenuhi syarat
untuk makan siang gratis atau dengan harga lebih murah. Yang pasti,
persentase kecakapan untuk distrik ini (89%) tinggi secara absolut. Terlebih
lagi, kinerja kabupaten ini relatif tinggi dibandingkan dengan kabupaten-
kabupaten yang secara sosial ekonomi sama. Memang, persentase
kecakapan Distrik D berada di atas pita pembandingnya.
Distrik A (MAKAN SIANG = 70):
0 25 50 75 BACA
Distrik B (Makan Siang = 70):
0 25 50 75 BACA
Distrik C (Makan Siang = 25):
0 25 50 75 BACA
Distrik D (Makan Siang = 40):

Latihan 157
100
100
100
0 25 50 75
READ
Latihan
100
Gambar 8.12 Nilai READ disajikan untuk empat kabupaten, dengan pita perbandingan SES.
Identifikasi, Definisikan, atau Jelaskan

Istilah dan Konsep
prediksi
korelasi dan prediksi
garis regresi
prediksi garis kesalahan
paling cocok
variabel independen variabel
dependen
skor prediksi
residual
jumlah kuadrat kuadrat
terkecil kriteria
persamaan regresi
kemiringan
intersep
regresi menuju rata-rata variasi
total jumlah kuadrat
regresi jumlah kuadrat yang dijelaskan variasi variasi yang
tidak dapat dijelaskan variasi
residual
kesalahan standar estimasi asumsi homoskedastisitas post hoc fallacy
158 Bab 8
Simbol
Y bazX zY zY SYX
Soal dan Soal

Catatan: Jawaban untuk item yang berbintang (*) disajikan pada Lampiran B.
* Garis regresi scatterplot dan kuadrat terkecil untuk memprediksi 1. Y dari X diberikan
pada gambar di bawah untuk pasangan skor berikut dari pretest dan posttest:
Keith Bill Charlie Brian Mick
Pretest (X) 89 4 2 2
Posttest (Y) 10 6 8 5 1
11
10
9
8
7
z
6
i
Q

5
:
4
3
2
1
1 2 3 4 5 6 7 8 9 10 11 X: Kuis
(a) Gunakan penggaris lurus dengan garis regresi untuk memperkirakan (sampai satu
tempat desimal) prediksi skor Y (Y) setiap siswa .
(b) Gunakan jawaban dari Soal 1a untuk menentukan kesalahan dalam prediksi untuk
setiap siswa.
(c) Gunakan jawaban dari Soal 1b untuk menghitung jumlah kesalahan kuadrat.
(d) Jika ada garis lain yang digunakan untuk prediksi, bagaimana jumlah kuadrat
kesalahan dibandingkan dengan jawaban Anda untuk Soal 1c?
2. Hubungan antara kinerja siswa pada tes mandat negara bagian yang diberikan di kelas
empat dan lagi di kelas delapan telah dianalisis untuk sekelompok besar siswa di
negara bagian. Ellen memperoleh skor 540 pada tes kelas empat. Dari sini,
kinerjanya pada tes kelas delapan diprediksi (menggunakan garis regresi) menjadi
550.
(a) Dalam arti apa nilai 550 dapat dianggap sebagai perkiraan rata-
rata? (b) Mengapa ini merupakan perkiraan daripada rata-rata
sebenarnya?
Latihan 159
* Seorang guru pendidikan jasmani, sebagai bagian dari tesis master 3., memperoleh data
tentang sampel laki-laki yang cukup besar yang tingginya diketahui pada usia 10 dan
sebagai orang dewasa. Berikut adalah ringkasan statistik untuk sampel ini:
Tinggi pada Usia 10 Dewasa Tinggi
X 48 3 Y 67 3
SX 3 1 SY 4 1
r 71
(a) Gunakan nilai di atas untuk menghitung intersep dan kemiringan untuk
memprediksi tinggi dewasa dari tinggi badan pada usia 10 (pembulatan ke tempat
desimal kedua); nyatakan persamaan regresi, dengan menggunakan bentuk
Rumus (8.1).
(b) Dengan persamaan regresi ini, perkirakan tinggi badan orang dewasa untuk anak
berusia 10 tahun berikut: Jean P. (42,5 inci), Albert B. (55,3 inci), dan Burrhus S.
(50,1 inci).
(c) Pertimbangkan perkiraan tinggi badan orang dewasa Jean. Dalam arti apa
nilai itu berarti? * Berikut adalah ringkasan statistik untuk skor yang diberikan
dalam Soal 1: 4. X 5 00 SX 2 97 Y 6 00 SY 3 03 r 62
(a) Dari nilai-nilai ini, hitung intersep dan kemiringan untuk persamaan regresi;
nyatakan persamaan regresinya.
(b) Dapatkan skor prediksi untuk Keith, Bill, Charlie, Brian, dan Mick. Bandingkan
jawaban Anda dengan jawaban yang diperoleh pada Soal 1a; menjelaskan setiap
perbedaan. (c) Hitung rata-rata skor prediksi dan bandingkan dengan ringkasan
statistik di atas. Generalisasi penting apa (dalam batas kesalahan pembulatan)
yang muncul dari perbandingan ini?
(d) Hitung jumlah residu untuk lima individu ini, dan nyatakan generalisasi yang
diilustrasikan oleh jumlah ini (dalam batas kesalahan pembulatan).
* Menafsirkan kemiringan dari Soal 3 dan 4. 5.
6. Berikut ini adalah nilai ujian sertifikasi guru yang diberikan sebelum pengangkatan (X)
dan penilaian kepala sekolah atas keefektifan guru setelah tiga bulan bekerja (Y)
untuk sekelompok enam guru tahun pertama (A–F):
ABCDEF
Skor tes (X): 14 24 21 38 34 49

Peringkat kepala sekolah (Y): 7 4 10 8 13 11
(a) Hitung statistik ringkasan yang diperlukan untuk menentukan persamaan

regresi untuk memprediksi peringkat kepala sekolah dari nilai ujian sertifikasi
guru.
(b) Dengan menggunakan nilai dari Soal 6a, hitunglah intersep dan kemiringan;
nyatakan persamaan regresinya.
(c) Misalkan tiga guru melamar posisi di sekolah ini, memperoleh nilai masing-masing
18, 32, dan 42, pada ujian sertifikasi guru. Hitung peringkat prediksi efektivitas
guru mereka.
(d) Jika faktanya data ini nyata, keberatan apa yang Anda miliki untuk menggunakan
persamaan dari Soal 6b untuk prediksi dalam situasi kehidupan nyata?
* Misalkan 7. X pada Soal 6 diubah sehingga sama sekali tidak ada hubungan antara nilai
ujian dan nilai utama (r 0).
(a) Berapa peringkat yang diprediksi untuk masing-masing dari tiga pelamar?
(Jelaskan.) (b) Berapakah intersep dan kemiringan persamaan regresi untuk
memprediksi peringkat utama dari nilai tes (sekali lagi, jika r 0)?
8. (a) Pada selembar kertas grafik berukuran 8½ × 11, buatlah sebar untuk data Soal 6.
Tandai pembagian pada kedua sumbu sehingga plot akan sebesar
mungkin dan sedekat mungkin dengan bujur sangkar. mungkin. Plot titik-titik data yang sesuai, dan
gambarlah
garis regresi seperti yang dijelaskan dalam Bagian 8.3.
(b) Dengan menggunakan penggaris lurus dengan garis regresi, perkirakan (akurat
sampai satu tempat desimal) perkiraan peringkat utama untuk tiga pelamar dalam
Soal 6c. Bandingkan
yang
nilai ini dengan nilai Y Anda hitung sebelumnya dari persamaan regresi.
* Gayle turun satu standar deviasi di atas rata-rata 9. X. Apa korelasi antara X dan Y jika
skor prediksinya pada Y turun:
(a) satu standar deviasi di atas?
(b) sepertiga simpangan baku di bawah ini?
(c) tiga perempat simpangan baku di atas?
(d) seperlima dari standar deviasi di bawah ini?
10. Untuk setiap kondisi pada Soal 9, nyatakan persamaan regresi dalam bentuk z-score.
* Pertimbangkan situasi yang dijelaskan dalam Soal 3. 11.
(a) Ubah ke z skor tinggi 10 tahun Jean, Albert, dan Burrhus.
(b) Gunakan bentuk skor standar dari persamaan regresi untuk mendapatkan skor z
yang diprediksi untuk tinggi badan sebagai orang dewasa.
(c) Ubah skor z yang diprediksi dari Soal 11b kembali ke ketinggian yang diprediksi
dalam inci dan bandingkan dengan hasil Soal 3b.
12. (Tidak ada perhitungan yang diperlukan untuk masalah ini.) Misalkan ringkasan statistik
berikut diperoleh dari sekelompok besar individu: X 52 0, SX 8 7, Y 147 3, SY 16 9.
Dorothy menerima skor X dari 52. Berapa skor Y prediksinya jika:
(a) r 0?
(b) r .55?
(c) r 0,38?
(d) r 1,00?
(e) Nyatakan prinsip yang muncul dari jawaban Anda atas Soal 12a sampai 12d.
(f) Tunjukkan bagaimana Rumus (8.5) menggambarkan prinsip ini.
* Data berikut adalah untuk 13. siswa tahun pertama di Ecalpon Tech:
Skor Bakat IPK tahun pertama
X 560 00 Y 2 65
SX 75 00 SY 35
r 50
(a) Hitung intersep nilai mentah dan kemiringan; nyatakan persamaan regresinya.
(b) Val dan Mike masing-masing mendapat skor 485 dan 710, pada tes bakat. Prediksi
IPK tahun pertama mereka.
(c) Hitung kesalahan standar pendugaan.
(d) Tetapkan batas kepercayaan 95% di sekitar IPK yang diprediksi Val dan Mike.
(e) Untuk siswa dengan skor bakat yang sama dengan Val, berapa proporsi yang
Anda harapkan untuk memperoleh IPK lebih baik daripada rata-rata tahun
pertama?
Latihan 161
(f) Untuk siswa dengan nilai bakat yang sama dengan Val, berapa proporsi yang
diharapkan untuk memperoleh IPK 2.0 atau di bawah?
(g) Untuk siswa dengan skor bakat yang sama dengan Mike, berapa proporsi yang
diharapkan untuk memperoleh IPK 2,5 atau lebih baik?
14. (a) Asumsi apa yang mendasari prosedur yang digunakan untuk menjawab Soal 13b?
(b) Jelaskan peran setiap asumsi yang mendasari prosedur yang digunakan untuk
menjawab Soal 13d–13g.
(c) Apa cara terbaik untuk memeriksa dan melihat apakah asumsi-asumsi tersebut
dilanggar?
15. Pertimbangkan situasi yang dijelaskan dalam Soal 13. Dengan memulai program
pengujian baru tetapi sangat mahal, Ecalpon Tech dapat meningkatkan korelasi antara
skor bakat dan IPK menjadi r 55. Misalkan perhatian utama adalah akurasi IPK
individu yang mana dapat diprediksi. Apakah program pengujian baru akan sepadan?
Lakukan perhitungan yang diperlukan untuk mendukung jawaban Anda.
16. Di akhir Bagian 8.3, kami meminta Anda untuk mempertimbangkan bagaimana lokasi
Siswa 26 akan mempengaruhi penempatan garis regresi pada Gambar 8.4.
(a) Bayangkan Anda menghapus kasus ini, menghitung ulang intersep dan
kemiringan, dan menggambar garis regresi baru. Menurut Anda di mana garis
baru akan terletak relatif terhadap garis regresi asli? Mengapa? (Lihat kriteria
kuadrat terkecil.)
(b) Bagaimana seharusnya pemindahan Siswa 26 mempengaruhi besarnya intersep?
lereng?
(c) Dengan Siswa 26 dihapus, statistik ringkasan yang relevan adalah X 69 45, SX
9 68, Y 100 83, SY 14 38, r 79. Hitung intersep dan kemiringan baru. (d) Secermat
mungkin, gambarlah garis regresi baru dengan menggunakan gambar di bawah
ini (dari mana Siswa 26 telah dihapus). Bagaimana hasilnya dibandingkan
dengan tanggapan Anda terhadap Soal 16a dan 16b?
140
130
120
y
110
i
a

100
c
90
e
80
70
50 55 60 65 70 75 8580 90 Penalaran spasial
17. Di akhir bagian “mengatur margin kesalahan”, kami menanyakan apakah Anda dapat
melihat dari Tabel A di Lampiran C bagaimana kita mendapatkan “1.00” dan “2.58”
untuk kepercayaan 68% dan 99%, masing-masing. Bisakah kamu?

BAB 8 Regresi Terjemah

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

BAB 8 Regresi Terjemah

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 8

Regresi dan Prediksi

8.1 Korelasi Versus Prediksi

3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6

IPK 2.78 Nilai

400 500 600 700 800

8.2 Menentukan Garis yang Paling Sesuai

Kriteria Kuadrat Terkecil

Katy: residual Y Y3 40− 2 78 62

ˆ )2 sebagai jumlah kuadrat, seperti ekspresi yang lebih

Garis Regresi sebagai “Running Mean”

Y)Y = +.62 Jane

Y)Y = .38 (Y = 2.40)

400 500 600 700 800

Gambar 8.2 Residu untuk dua kasus.

3 .2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6

Gambar 8.3 Garis regresi sebagai “running mean”.

di SAT-CR daripada di IPK. (Untuk memvisualisasikannya, cukup alihkan

8.3 Persamaan Regresi dalam Hal Skor Mentah

Tabel 8.1 Ringkasan Statistik

a Y bX 2 57 0021 545 8 2 57 1 15 1 42

Untuk menemukan nilai Y yang diprediksi, biasanya menggunakan

Untuk data ini, kemiringannya adalah

(Y 1 85 9) dan X2 85 (Y 2 114 1) pada Gambar 8.4. Kedua Y pada gilirannya,

130 120 110 100 90

8.4 Menafsirkan Kemiringan Skor Mentah

8.5 Persamaan Regresi dalam Hal Skor z

Perhatikan baik-baik Rumus (8.5): Ini memberitahu Anda bahwa nilai

zX 650− 545 8 123 2 85

8.6 Beberapa Wawasan Mengenai Korelasi dan Prediksi

Pendekatan z-score biasanya tidak nyaman untuk pekerjaan praktis dalam

Pertimbangkan kasus di mana r 1 00 (Gambar 8.5a). Di sini, skor z yang

meningkat satu standar deviasi. Dan

bagaimana jika r sempurna tetapi negatif? Mudah: zYˆ 1 00 zX zX . Artinya, nilai

Dimana r selain sempurna ± 1,00, skor Y yang diprediksi mengelompok lebih

8.7 Regresi dan Jumlah Kuadrat 145

dalam analisis regresi. Dengan memahami jumlah kuadrat ini dan

2.8 2.6 2.4 2.2 2.0 1.8 1.6

400 500 600 700 800 X: Skor SAT-CR

Alasan kedua mengapa Y bervariasi adalah karena variabel yang relevan,

dijelaskan dalam Y. X menjelaskan semuanya! Namun, ketika r 0, ada

menjelaskan variasi variasi total

8.8 Residual dan Variasi

8.9 Mengukur Margin of Prediction Error:

Kami sekarang kembali ke pertanyaan yang kami ajukan di Bagian 8.1:

dari residual, yang disebut kesalahan standar pendugaan dan dilambangkan

SYX memainkan peran penting dalam mengukur margin kesalahan prediksi.

yang memungkinkan Anda untuk memprediksi, atau memperkirakan, IPK

Menyiapkan Margin of Error

Anda sekarang memiliki estimasi rata-rata Y 2 78 dan standar deviasi S YX 45

150 dan Prediksi Batas 3.66tkembali

3 3.4 3.2 3.0 22.8 8. 8Regresi BabBab6 _2.4

95% batas IPK aktual di mana X 650.

Batas-batasnya ditunjukkan pada Gambar 8.7. Untuk 95% siswa yang

Hubungan Antara r dan Kesalahan

Tabel 8.2 Pengurangan Kesalahan Prediksi untuk

r Pengurangan Kesalahan Prediksi (%)

Kami menyebutkan satu hal terakhir sebelum melanjutkan: variasi

8.10 Korelasi dan Kausalitas (Ditinjau Kembali)

Diktum bahwa korelasi tidak menyiratkan sebab-akibat, yang kami

Meskipun Y dapat mengikuti X dalam waktu (seperti dalam contoh kami

Sama konsistennya dengan korelasi negatif ini adalah kesimpulan bahwa

Reading the Research: Regresi

154 Bab 8 Regresi dan Prediksi