Nilai siswa sekolah menengah pada tes bakat akademik, seperti SAT, terkait
dengan IPK siswa di perguruan tinggi. Maka, sebagai aturan umum, siswa
yang berhasil dalam SAT lebih baik bertaruh untuk berhasil di perguruan
tinggi daripada siswa yang tidak berhasil dalam SAT. Sebagai petugas
penerimaan universitas, berapa IPK yang akan Anda prediksi untuk seorang
siswa yang memperoleh, katakanlah, skor 650 pada skala membaca kritis
SAT (SAT-CR)? Dan margin kesalahan apa yang harus Anda lampirkan pada
prediksi itu? Karena hubungan antara SAT-CR dan IPK perguruan tinggi jauh
dari sempurna, prediksi apa pun dari skor tertentu hanyalah “taruhan
bagus”—bukan “hal yang pasti.” Seperti yang pernah dikatakan oleh humoris
Will Rogers, "Membuat prediksi selalu berisiko, terutama tentang masa
depan."
Skenario ini menggambarkan masalah dalam prediksi: memperkirakan
kinerja masa depan (misalnya, IPK perguruan tinggi) dari pengetahuan
tentang posisi saat ini pada beberapa ukuran (misalnya, skor SAT-CR). Anda
mungkin bertanya-tanya bagaimana hal ini berkaitan dengan subjek bab
terakhir, korelasi. Korelasi dan prediksi memang berkaitan erat: Tanpa
korelasi antara dua variabel, tidak akan ada prediksi yang berarti dari satu
variabel ke variabel lainnya. Namun, meskipun ukuran r menunjukkan potensi
prediksi, koefisien itu sendiri tidak memberi tahu Anda cara membuat
prediksi.
Lalu, bagaimana cara seseorang melakukan ramalan? Mari kita ambil
contoh prediksi nilai perguruan tinggi dari nilai bakat akademik. Perhatikan
diagram pencar pada Gambar 8.1. Variabel X adalah nilai SAT-CR dari tahun
terakhir sekolah menengah atas, dan variabel Y adalah IPK tahun pertama di
Universitas Fumone.1 Perhatikan bahwa garis lurus telah dipasang pada data
dan digunakan untuk mendapatkan prediksi IPK 2,78 untuk skor SAT-CR 650.
Garis ini dapat digunakan dengan cara yang sama untuk mendapatkan
prediksi IPK untuk skor SAT-CR lainnya . Ketika tren bivariat cukup
linier, garis "paling cocok" dengan mudah dapat ditemukan dan
digunakan untuk tujuan memprediksi nilai Y dari X. Garis seperti itu
disebut garis regresi. Seperti yang ditunjukkan pada Gambar 8.1,
prediksi dibuat dengan mencatat nilai Y (misalnya, 2,78) untuk titik pada
garis yang sesuai dengan nilai tertentu dari X (misalnya, 650).
Untuk r ±100, setiap kasus akan jatuh tepat pada garis regresi, dan
prediksi akan tanpa kesalahan. Tetapi ketika korelasinya tidak sempurna,
seperti dalam contoh sekarang, pasti akan ada kesalahan prediksi. Ini bukan
kesalahan seperti dalam "Ups—saya membuat kesalahan dalam perhitungan
saya!" Sebaliknya, hanya ada perbedaan antara nilai aktual dan prediksi Y.
Misalnya, IPK aktual Katy dan Jane turun jauh di atas dan di bawah 2,78 yang
akan diprediksi dari skor SAT-CR mereka sebesar 650. Semakin rendah
korelasinya, semakin besar kesalahan prediksi.
Sampel yang sangat kecil (n 12) mencerminkan keinginan kami untuk menjaga hal-hal
1
sederhana. Tidak berarti 12 harus dianggap sebagai ukuran sampel yang tepat untuk jenis
analisis ini.
134
3.4
Katy 3.2
Prediksi
8.2 Menentukan Garis yang Paling Sesuai 135
AP
G
r
F
:
SAT
650
Jane
Gambar 8.1 Prediksi IPK (Y) tahun pertama dari nilai SAT-CR (X).
Maka, ada dua tugas sekarang di hadapan Anda: memprediksi nilai pada
satu variabel dari nilai pada variabel lain, dan menentukan margin kesalahan
prediksi. Kami mengambil kedua tugas di bagian berikut.
Sangatlah baik untuk berbicara tentang menemukan garis lurus yang paling
cocok, tetapi bagaimana Anda tahu kapan "kecocokan terbaik" telah dicapai?
Memang, "paling cocok" dapat didefinisikan dalam beberapa cara. Di sini,
kami menunjukkan kepada Anda pendekatan umum ketika Pearson r
digunakan sebagai ukuran asosiasi dan ketika tujuan seseorang adalah
prediksi.
Pertama, mari kita tinjau simbol yang relevan. Dua akrab bagi Anda, dan
satu baru. Seperti yang Anda lihat di atas, X mewakili nilai skor dari variabel
yang melakukan prediksi. Lebih formal, variabel ini disebut variabel
independen, dan konvensi menentukan bahwa Anda menempatkannya pada
sumbu horizontal. Kami menggunakan Y untuk mewakili nilai skor aktual dari
variabel yang akan diprediksi, variabel dependen, dan ditempatkan pada
sumbu vertikal. (Pikirkan variabel dependen sebagai "tergantung pada"
variabel independen: IPK perguruan tinggi "tergantung pada" bakat akademik,
antara lain.) Akhirnya, nilai prediksi nilai Y diwakili oleh simbol Y( “Y-hat ”).
Hal ini ditunjukkan pada Gambar 8.2 untuk Katy dan Jane. Kedua mahasiswa
tersebut memiliki prediksi IPK yang sama (Y2 78) karena memiliki nilai SAT-CR yang
sama (X 650), tetapi IPK sebenarnya (Y) masing-masing adalah 3,40 dan
2,40. Jadi, residualnya adalah:
Perhatikan bahwa residual positif untuk kasus di atas garis dan negatif untuk
kasus yang jatuh di bawah. Garis regresi ditempatkan sedemikian rupa untuk
meminimalkan residu— nilai (Y Y)—untuk scatterplot secara keseluruhan.
Dengan garis yang paling cocok, jumlah sisa kuadrat untuk semua kasus sekecil mungkin. Artinya, (Y Y ˆ )2
minimal.
ketika garis regresi dipasang dengan benar, jumlah sisa kuadrat lebih kecil
daripada yang akan diperoleh dengan garis lurus lainnya. Ini dikenal sebagai
kriteria kuadrat terkecil (jumlah terkecil dari jumlah sisa kuadrat).
AP
G
r
F
:
3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
(Y = 2.78
(Y = 3.40
Hal ini diilustrasikan pada Gambar 8.3. Y dari 2,57 adalah IPK rata-rata
untuk seluruh sampel dari 12 kasus, yang skor X-nya berkisar antara 350 hingga 750. Sebaliknya, Y dari 2,78
memperkirakan rata-rata Y hanya untuk kasus-kasus di mana X 650. Tapi,
Anda mungkin tunjukkan, hanya dua kasus dalam sampel kami yang memiliki
skor SAT-CR 650 (Katy dan Jane), dan skor Y mereka (3,40 dan 2,40) tidak
rata-rata menjadi 2,78. Cukup benar;dari Y2,78 hanya merupakan perkiraan
rata-rata. Ini adalah apa yang diharapkan dari rata-rata Y untuk distribusi
banyak, banyak kasus semua memiliki skor SAT-CR 650 daripada hanya dua dalam
sampel kami. Demikian pula, Y
dari
2,31 adalah perkiraan rata-rata skor Y di mana X sama
dengan 425. Meskipun sampel khusus kami tidak mengandung kasus sama
sekali dengan skor SAT-CR 425, garis regresi memberikan perkiraan IPK
rata-rata yang diharapkan jika ada siswa dengan skor SAT-CR tersebut.
Dengan ukuran sampel yang lebih realistis, tentu saja, ada representasi nilai
X yang lebih besar, dan oleh karena itu Anda memiliki keyakinan yang lebih
besar dalam perkiraan terkait Y.
Memprediksi X dari Y
Ada garis lurus kedua yang paling sesuai untuk data Gambar 8.1 . Misalkan
Anda ingin memprediksi skor SAT-CR dari IPK tahun pertama daripada
sebaliknya. Kriteria kuadrat terkecil kemudian akan diterapkan untuk
meminimalkan kesalahan prediksi
AP
G
r
F
:
40 0
X = 42 5
Y = 2,78
Y = 2.31
80 0
70 0
X = 650
600
X: SAT-CR skore
500
Y = 2.57
Setiap garis lurus memiliki persamaan. Lokasi garis regresi dalam scat terplot
ditentukan, cukup masuk akal, dengan persamaan regresi.
Anda mungkin ingat dari hari-hari sekolah Anda sebelumnya bahwa garis
lurus didefinisikan oleh dua istilah: kemiringan dan intersep. Kemiringan,
dilambangkan dengan b, mencerminkan sudut (datar, dangkal, atau curam)
dan arah (positif atau negatif) dari garis regresi. Intersep, dilambangkan
dengan a, adalah nilai prediksi Y di mana X 0.
Nilai prediksi untuk Y dapat diperoleh untuk setiap nilai X dengan
menggunakan Rumus (8.1):
Persamaan regresi:
rumus skor mentah
a
Y bX 8 1
dimana
Kemiringan
brSY
SX8 2
dan
Intercept
a Y bX 8 3
Menyusun Ulang Rumus (8.1) dalam hal Rumus (8.2) dan (8.3), kita dapat
memperluas persamaan regresi sebagai:
Persamaan regresi:
rumus skor mentah diperluas
intersep
kemiringan
Y
Y r SY
r SY
SXX
X84
SX
Mari kita lihat bagaimana Formula (8.4) bekerja. Kami akan menggunakannya
untuk menentukan prediksi IPK untuk siswa yang mencetak 650 pada SAT-
CR, prediksi yang diilustrasikan pada Gambar 8.1.
8.3 Persamaan Regresi dalam Hal Skor Mentah 139
SAT-CR IPK
X 545 80 Y 2 57
SX 123 20 SY 52
r 50
Langkah 1 Mulailah dengan ringkasan statistik yang sesuai pada Tabel 8.1, yang
Anda masukkan dalam Rumus (8.2) dan (8.3) sebagai berikut:
b rSY
SX50 52
123 2 50 0042 0021
Langkah 3 Skor SAT-CR dari 650 sekarang diganti dengan X dalam persamaan pada
Langkah 2 untuk menemukan prediksi IPK untuk skor ini:
Y42 0021 650
1
2 78
Jika Anda ingin membuat prediksi lain, Anda hanya perlu mengganti
nilai X yang sesuai dalam persamaan regresi. Mari kita verifikasi
prediksi yang melibatkan X 425 yang ditunjukkan pada Gambar 8.3:
Y42 0021X
1
1 42 0021 425
2 31
Spasial
Penalaran
Kemampuan Matematika
X 70 Y 100
SX 9 97 SY 14 83
r 63
b rSY
SX63 14 83
9 97 63 1 49 94
dan intersepnya adalah
Y bX 100 94 70 100 65 8 34 2
2 94X, yang digunakan untuk memplot Yuntuk X1 55
Oleh karena itu, persamaan regresinya adalah Y
34
dihubungkan oleh garis lurus. Sebagaimana mestinya, garis ini melewati titik
potong antara X dan Y. (Pertanyaan: Bagaimana menurut Anda outlier di
sudut kanan bawah mempengaruhi penempatan garis ini?)
140
X
y
ili
a
it
a
ht
a
:
80
70
Y2 = 114,1 Y1 = 85,9
Y = 34,2 + ,94(X) Y
50 55 60 65 70 75 80 85
90
X: Penalaran spasial
X1
X2
Nilai
Gambar 8.4 Memplot garis regresi Y-on-X (dari Gambar 7.1): Y diplot untuk X1 55 dan X2 85.
8.5 Persamaan Regresi dalam Hal Skor z 141
Mari kita kembali ke Formula (8.2) sejenak. Dari rumus ini, Anda dapat
melihat bahwa seiring r berjalan, begitu pula b. Jika r positif, b akan positif;
jika r negatif, demikian juga b. Anda juga dapat melihat bahwa jika r 0, b juga
harus nol. Di samping kesamaan ini, r dan b biasanya akan memiliki nilai yang
berbeda—seringkali sangat mencolok. Pengecualian, sekali lagi seperti yang
Anda dapat alasan dari Formula (8.2), adalah di mana S X SY (yang sangat tidak
mungkin dengan data skor mentah).
Kemiringan selalu ditafsirkan menurut satuan X dan Y: Untuk setiap kenaikan satuan X, Y
mengubah b satuan.
Dalam kasus Gambar 8.4, untuk setiap kenaikan satu poin pada tes
penalaran spasial, ada perubahan yang sesuai sebesar 0,94 poin pada tes
kemampuan matematika. Kemiringan skor mentah dapat, dan seringkali, lebih
besar dari ±1,00. Sekali lagi, itu tergantung pada skala yang mendasari kedua
variabel. Jika dalam contoh ini kita secara sewenang-wenang menggandakan
setiap skor Y, maka SY 2 14 83 29 66 (SX dan r tetap sama). Kemiringan baru
akan menjadi:
b 63 29 66
9 97 63 2 97 1 87
Artinya, untuk setiap kenaikan satu poin pada tes penalaran spasial, sekarang
ada peningkatan 1,87 poin pada tes kemampuan matematika — dua kali lipat
dari nilai aslinya dari b.
Nilai b dapat terlihat kecil bahkan ketika ada derajat hubungan yang
cukup besar antara X dan Y. Dalam contoh Universitas Fumone, Anda melihat
bahwa b 0021. Ini mungkin awalnya mengejutkan Anda sebagai nilai yang
sangat kecil untuk suatu kemiringan, tetapi ingatlah bahwa kemiringan
dinyatakan dalam skala yang mendasari X dan Y. Artinya, untuk setiap
kenaikan titik SAT-CR (misalnya, dari 500 menjadi 501), ada perubahan .0021
titik kadar (dari 2,47 menjadi 2,4721). Setelah Anda mengetahui bahwa skor
SAT-CR dalam sampel ini berkisar antara 350 hingga 750 dan IPK perguruan
tinggi dari 1,6 hingga 3,4, nilai kemiringan ini tampaknya tidak terlalu kecil.
Misalnya, peningkatan 10 poin dalam skor SAT-CR (misalnya, dari 500
menjadi 510) akan sesuai dengan peningkatan poin nilai 10 0021 021 (dari
2,47 menjadi 2,49), dan peningkatan 100 poin dalam skor SAT-CR (misalnya,
dari 500 menjadi 600) akan sesuai dengan peningkatan
100 0021 21 poin (dari 2,47 menjadi 2,68, atau dari C ke B−). Derajat
kovariasi ini lebih sesuai dengan apa yang Anda harapkan antara dua
variabel di mana r 50.
Persamaan regresi dapat dinyatakan dalam bentuk skor-z, dan ketika ini
dilakukan, akan menghasilkan nilai yang sangat ekspresi sederhana—dan
informatif—. Jika Anda mengubah nilai asli X dan Y menjadi skor z,
persamaan regresi disederhanakan menjadi:
142 Bab 8 Regresi dan Prediksi
Persamaan regresi:
bentuk skor-
z zYˆ rzX 8 5
di mana: zYˆ adalah nilai prediksi dari Y yang dinyatakan karena skor az
r adalah korelasi antara X dan Y
zX adalah skor z dari X
Jadi, skor SAT-CR orang ini turun 0,85 standar deviasi di atas rata-rata SAT-
CR, X. Dengan r 50, Anda akan memprediksi IPK-nya menjadi 0,42 standar
deviasi di atas rata-rata IPK, Y:
zYˆ rzX 50 85 42
Sangat mudah untuk menunjukkan bahwa rumus ini memberikan hasil
yang sama seperti Rumus (8.4). Nilai z Yyang baru saja kita hitung dapat diubah
menjadi prediksi IPK 2,78, jawaban yang diperoleh sebelumnya:
Y
Y zYˆ SY
2 57 42 52
2 78
Pada Gambar 8.5 kami menyajikan empat garis regresi, sesuai dengan r
100, .50, .25, dan 0, masing-masing. Angka ini mengilustrasikan apa yang
terjadi saat Anda berpindah dari korelasi sempurna ke korelasi nol.
8.6 Beberapa Wawasan Mengenai Korelasi dan Prediksi 143
r = +1.00
−3 12 =z r +.25
zY zY +1.00 X= +3
+2
+1
+1 +2 +3 zX
_1
_2
_3
(a)
zY
+3
+2
r =.50
_3 _2 10 r = z
Y+
+3
+2
+1
(b)
zY
+3
+2
zY = +.50 zX
+1 +2 +3 zX -1
–2
–3
+1
–3 –2 -1
zY = +,25 zX
+1
zY = 0 zX
+1 +2 +3 zX (c)
_3 _2 +1 +1 _2 +3 zX
11
(2
d2
Gambar3
)3
untukempat
r8.5.
nilai
Ketika r 1,00
±
Ketika r 1,00
±
Pernyataan kami mengasumsikan bahwa tidak ada keuntungan karena latihan atau pematangan.
2
Ketika r 0
Tanpa adanya hubungan antara dua variabel (Gambar 8.5d), nilai prediksi Y
akan selalu menjadi mean dari Y:
zYˆ rzX
0 zX
0
(Ingat, az dari nol sesuai dengan mean.) Ini mengatakan bahwa ketika X dan
Y tidak berkorelasi, Anda akan memprediksi mean Y untuk setiap kasus,
terlepas dari nilai X. Ini masuk akal: Jika r 0, maka mengetahui posisi
seseorang di X (misalnya, jumlah bintik) sama sekali tidak relevan untuk
memprediksi posisi orang itu di Y (misalnya, pendapatan tahunan). Rata-rata
dari Y adalah "prediksi" yang masuk akal secara intuitif dalam kasus ini.
Memang, apa lagi yang bisa dikatakan dalam situasi seperti itu?
Ini juga menjelaskan mengapa garis regresi horizontal ketika r 0. (Bila
scatterplot didasarkan pada skor z, seperti pada Gambar 8.5d, garis regresi
terletak langsung di atas sumbu X.) Tidak peduli berapa nilai X yang Anda
pilih , ketika r 0 nilai prediksi Y akan selalu menjadi mean dari Y:
a Y bX
Y 0 X
Y
Y
kapan pun X X. Jika Anda rata-
Pada catatan terakhir, amati pada Gambar 8.5 bahwa terlepas dari r, Y
rata pada X, maka prediksi terbaik adalah bahwa Anda akan menjadi rata-rata
pada Y—terlepas dari korelasi antara X dan Y. Artinya, jika z X 0 (yaitu, rata-
rata dari X), maka zYˆ rzX r 0 0 Inilah sebabnya mengapa garis regresi selalu
melewati titik di mana X dan Y berpotongan.
8.7 Regresi dan Jumlah Kuadrat
Konsep jumlah kuadrat, seperti yang Anda lihat di Bagian 8.2, adalah pusat
kriteria kuadrat terkecil untuk menentukan garis regresi: Garis yang paling pas
meminimalkan jumlah sisa kuadrat, (Y Y ) . Sebenarnya ada tiga jumlah kuadrat yang terlibat
2
3.4
3.2
3.0
A
G
r
saya
F
:
AP
G
r
F
:
Y
AP
G
r
F
:
3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6
Y
(a)
Y
400 500 600 700 800 X: Nilai SAT-CR
(b)
Y
400 500 600 700 800 X: Nilai SAT-CR
(c)
totalriasidv
(Y – Y)
JelaskaneVariasia(Y – Y)
Variasi terjelaskan(Y – Y)
Gambar 8.6 Variasi total, variasi terjelaskan, dan variasi tak terjelaskan.
Y
)2 besar atau kecil dengan
garis regresi dan Y untuk nilai X yang diberikan (Gambar 8.6b). Apakah (Y
demikian mencerminkan kekuatan hubungan antara X dan Y (itulah sebabnya
istilah ini disebut jumlah kuadrat regresi). Ketika r besar
8.8 Residuals and Unexplained Variation 147
menyimpang
(lereng curam), banyak nilai Y secara nyata dari Y, yang, ketika dikuadratkan dan
−
dijumlahkan, menghasilkan (Y Y) . Tetapi ketika r 0, garis regresinya datar dan YY untuk semua
2
Y 2 0.
nilai X. Akibatnya, Y
Dari sini, kita dapat menentukan proporsi variasi total pada Y yang dijelaskan
variasi, yang ternyata sama dengan r2, koefisien determinasi (Bagian 7.8):
Y Y 2 r2
Oleh karena itu, akar kuadrat dari suku ini sama dengan r:
Y Y 2
Y Y 2 r
Seperti yang kami nyatakan di awal bab ini, korelasi dan prediksi memang
terkait erat!
dijelaskan oleh variasi dalam X. Tetapi kita akan melakukan residual yang
sangat tidak adil jika kita membiarkannya di situ , untuk residu yang
berpotensi mengandung terlalu banyak makna hanya untuk dimasukkan ke
kotak hitam "variasi yang tidak dapat dijelaskan".
Pertimbangkan kembali prediksi IPK kuliah tahun pertama dari nilai SAT-
CR. Variasi residual menandakan perbedaan di antara siswa dalam IPK yang
melampaui fakta bahwa siswa ini juga berbeda dalam SAT-CR. Jelas, ada
faktor selain bakat akademik (yang diukur dengan tes khusus ini) yang
mempengaruhi seberapa baik seseorang di tahun pertama kuliah. Meskipun
kami hanya menggunakan SAT-CR untuk memprediksi IPK perguruan tinggi
tahun pertama, faktor-faktor tak dikenal ini tetap berperan dan karena itu
berkontribusi pada variasi total IPK—yaitu, ke Y Y 2.sejauh
anonim kehadirannya
2
, Anda harus melihat variasi residual ini sebagai
hanya diwakili oleh jumlah kuadrat sisa, Y Y
undangan untuk berspekulasi mengenai kemungkinan sumbernya.
Misalnya, meskipun Katy dan Jane memiliki skor SAT-CR yang identik
(Gambar 8.2), mungkin Katy lebih termotivasi secara akademis daripada Jane.
Jika demikian, dan karena motivasi akademik bisa dibilang terkait dengan IPK,
ini akan menjelaskan (sebagian) residual positif Katy dan residual negatif
Jane. Artinya, IPK perguruan tinggi tahun pertama yang sebenarnya untuk
Katy lebih tinggi, dan untuk Jane lebih rendah, dari apa yang Anda harapkan
dari prediksi berdasarkan SAT-CR saja, dan perbedaan antara Katy dan Jane
dalam motivasi akademik bisa menjadi salah satu alasan mengapa .
Ini adalah spekulasi murni dari pihak kami, untuk memastikannya.
Bagaimanapun, persamaan regresi kami hanya memiliki satu variabel
independen, SAT-CR. Tetapi jika masa depan Anda melibatkan kursus
kedua dalam statistik, Anda dapat belajar tentang metode regresi yang
lebih maju yang memungkinkan dua atau lebih variabel independen.
Daripada hanya berspekulasi tentang kemungkinan sumber variasi
residual, seseorang dapat memasukkan variabel tambahan dalam
persamaan regresi (mungkin sebagai penyelidikan selanjutnya) dan
menentukan apakah ada variasi residual yang lebih sedikit dalam variabel
dependen. Jika ada, sekarang lebih banyak diketahui tentang kemungkinan
pengaruh pada variabel dependen.
Y Y 2
SYXY Y 2
Y Y 2 r 8 7
n8 7
SYX dapat dianggap sebagai “persebaran rata-rata” dari titik-titik data tentang
garis regresi. Dinyatakan lebih formal, S YX adalah standar deviasi skor Y aktual
tentang Y nilai prediksi.
,
SYX SY 1 r2 8 8
Anda dapat melihat dari Rumus (8.8) bahwa semakin tinggi korelasi antara X
dan Y, semakin kecil kesalahan standar pendugaan. Ini masuk akal,
mengingat diskusi kita di Bagian 8.6: Ketika r rendah, akan ada variasi yang
cukup besar dalam nilai Y aktual tentang nilai yang diprediksi; tetapi ketika r
tinggi, nilai aktual mengelompok lebih dekat dengan nilai prediksi. Dimana r
±100, tidak akan ada variasi sama sekali tentang nilai prediksi Y, dan S YX akan
menjadi nol.
Gr
AP
.8
r
atas
3.6
Y = 2 7. 8
1 96. SY . X1 _.96 SY . X
95 Y nilai 1,90
F
:
2 .2 2.0 1.8
Batas bawah600
70 0
X dari
% = 65 0
80 0
1 .6
40 0
: -
X SAT CR skor 8.7 500
2 78− 1 96 45 1 90 2 78 1 96 45 3 66
1.00 100
.75 34
.50 13
.25 3
.00 0
kontras, kesalahan prediksi minimum terjadi ketika r ±1 00, dalam hal ini S YX SY
1− 12 0. Dalam situasi ini, tentu saja, tidak ada kesalahan dalam prediksi
karena semua titik data jatuh pada garis regresi.
Apa yang terjadi pada kesalahan prediksi ketika, katakanlah, r 50?
Kesalahan standar pendugaan adalah S YX SY 1 502 87SY . Anda mungkin telah
menebak bahwa koefisien .50 akan berarti bahwa kesalahan prediksi akan
berkurang setengahnya, tetapi kenyataannya adalah .87S Y, bukan .50SY. Jika
87% kesalahan prediksi tetap ada, maka pengurangan hanya 13% telah
terjadi pada perpindahan dari r 0 ke r 50. Tabel 8.2 menyajikan beberapa nilai
r, bersama dengan konsekuensi masing-masing untuk mengurangi kesalahan
prediksi. Tabel ini menawarkan cara lain, selain yang dijelaskan dalam Bagian
7.8, untuk mengevaluasi koefisien korelasi dengan berbagai ukuran. Jika
tujuan Anda adalah prediksi, ingatlah bahwa tidak ada pengurangan
substansial dalam kesalahan prediksi yang akan dicapai kecuali r cukup
tinggi. Tabel 8.2 juga menunjukkan bahwa peningkatan korelasi dengan
jumlah tertentu memiliki efek yang lebih besar untuk nilai r yang lebih tinggi
daripada nilai yang lebih rendah.
Asumsi
Beberapa kondisi harus dipenuhi agar interpretasi prediktif dari jenis yang
dijelaskan di atas berfungsi dengan baik:
1. Hubungan antara variabel independen, X, dan variabel dependen, Y, pada
dasarnya harus linier. Salah satunya adalah memprediksi dari garis lurus
yang paling cocok, dan prediksi tersebut akan hilang jika hubungannya sangat
lengkung.
2. Menentukan margin of error mensyaratkan bahwa penyebaran nilai Y yang
diperoleh terhadap Yserupa untuk semua nilai Y. Persyaratan ini dikenal sebagai asumsi
homoskedastisitas. Karena SYX adalah nilai tunggal, ditentukan dari data
secara keseluruhan, tidak memungkinkan kemungkinan bahwa variasi
mungkin berbeda pada titik yang berbeda dalam distribusi. Gambar 8.8
menunjukkan dua distribusi bivariat; satu dicirikan oleh homoskedastisitas,
dan yang lainnya tidak. (Tidak mengherankan, istilah heteroskedastisitas
digunakan mengacu pada kondisi terakhir.)
3. Batas kesalahan yang dijelaskan di atas (68%, 95%, 99%) didasarkan pada
asumsi bahwa nilai-nilai Y terdistribusi secara normal di sekitar Y .
dan
Untungnya, asumsi ini sering cukup dekat SYX cukup akurat.
untuk dipenuhi sehingga Y
Penyimpangan yang signifikan dari salah satu dari kondisi ini biasanya dapat
dideteksi dengan memeriksa scatterplot. Ini adalah alasan lain untuk
merencanakan data Anda!
152 Bab 8 Regresi dan Prediksi
Y
Y
Homoskedastis
X
X
Bukan homoskedastis (heteroskedastis)
XL XM (a)
XH
XL XM (b)
XH
Gambar 8.8 Variabilitas dalam Y sebagai fungsi dari nilai X: subskrip L, M, dan
H masing-masing mewakili rendah, sedang, dan tinggi.
• Orang tua memberikan sejumlah bantuan pekerjaan rumah kepada anak-anak mereka.
• Anak-anak ini kemudian mengikuti tes prestasi.
• Bantuan pekerjaan rumah dan skor prestasi berkorelasi negatif.
• Oleh karena itu, bantuan pekerjaan rumah pasti merugikan prestasi.
8.11 Ringkasan
a
bX, digunakan untuk memprediksi Y dari pengetahuan X ketika dapat diasumsikan
Persamaan garis lurus yang paling cocok, Y
bahwa hubungan residual adalah hubungan linier. Kriteria "paling cocok" adalah bahwa jumlah sisa kuadrat, (Y Y ˆ )2,
diminimalkan. Antara lain, "kriteria kuadrat terkecil" ini berarti bahwa garis regresi yang dihasilkan dapat
dianggap sebagai "rata-rata berjalan", sebuah garis yang memperkirakan rata-rata Y untuk nilai-nilai tertentu
dari X.
Rumus z-score untuk persamaan regresi mengungkapkan beberapa karakteristik regresi, termasuk
fenomena regresi menuju mean. Dalam pekerjaan prediksi praktis, rumus skor mentah lebih mudah
digunakan.
Nilai prediksi Y, Y hanyalah perkiraan nilai rata-rata dan oleh karena itu dapat mengalami kesalahan. Pada
,
asumsi linieritas regresi dan dastisitas homosce, kesalahan standar estimasi SYX—
245
e
s
240
s
235
e
m
230
A
M
225
d
g
220
n
t
215
prediksi skor tes matematika sekolah dan X adalah pendapatan per kapita
komunitas sekolah.
Setiap titik data pada Gambar 8.9 mewakili sekolah yang berbeda. Seperti
yang Anda lihat, sebagian besar sekolah mendekati garis regresi, yang
menunjukkan bahwa ada sedikit variasi yang tidak dapat dijelaskan dalam
variabel dependen (skor tes). Faktanya, Bolon melaporkan bahwa r 2 84.
Artinya, 84% varians nilai matematika tingkat sekolah sepenuhnya dijelaskan
oleh variasi pendapatan masyarakat. (Dari sini, kita juga dapat menentukan
bahwa r 92.) Kemiringan skor mentah, b 1 45, berarti bahwa skor tes
meningkat kira-kira 1½ poin dengan setiap $1000 pendapatan per kapita.
Sumber: Bolon, C. (16 Oktober 2001). Signifikansi penilaian berbasis tes untuk sekolah
metropolitan Boston. Arsip Analisis Kebijakan Pendidikan, 9(42). Diperoleh dari
http://epaa.asu.edu/ojs/article/view/371.
Ingat studi kasus Bab 7, di mana kami menemukan korelasi negatif antara
persentase kecakapan di distrik sekolah—yaitu, persentase siswa di distrik
yang mendapat nilai pada atau di atas tingkat kemahiran—dan persentase
siswa di distrik yang memenuhi syarat untuk makan siang gratis atau dengan
harga lebih murah: r 61 untuk MATEMATIKA dan r 66 untuk BACA. Dengan
demikian, orang akan mengharapkan distrik yang lebih kaya umumnya
memiliki persentase kecakapan yang lebih tinggi daripada rekan-rekan
mereka yang kurang beruntung, sebagian karena alasan di luar kendali
langsung distrik tersebut (misalnya, orang tua yang berpendidikan lebih tinggi,
lebih banyak siswa yang terikat perguruan tinggi, basis pajak yang lebih
besar. ). Akibatnya, suatu negara bagian terkadang akan melaporkan
persentase kecakapan distrik (atau skor rata-rata) dalam konteks “band
perbandingan” yang melibatkan distrik-distrik yang secara sosial ekonomi
serupa. Dalam hal ini, pencapaian suatu kabupaten dievaluasi tidak hanya
secara absolut, tetapi juga dalam
D
AE
R
100
80
60
40
20
200 40 60
LUNCH
Studi Kasus: Regresi—It's on the Money 15580
Gambar 8.10 Garis regresi menutupi scatterplot READ dan makan siang.
100
80
D
AE
R
60
40
20
200 40 60
LUNCH
Y + 22,03
Y – 22,03
80
Gambar 8.11 95% margin error untuk memprediksi READ from LUNCH
dengan band perbandingan berbayang yang ditunjukkan untuk LUNCH 70.
0 25 50 75 BACA
0 25 50 75 BACA
0 25 50 75 BACA
100
100
0 25 50 75
READ
Latihan
100
Gambar 8.12 Nilai READ disajikan untuk empat kabupaten, dengan pita perbandingan SES.
prediksi
korelasi dan prediksi
garis regresi
prediksi garis kesalahan
paling cocok
variabel independen variabel
dependen
skor prediksi
residual
jumlah kuadrat kuadrat
terkecil kriteria
persamaan regresi
kemiringan
intersep
regresi menuju rata-rata variasi
total jumlah kuadrat
regresi jumlah kuadrat yang dijelaskan variasi variasi yang
tidak dapat dijelaskan variasi
residual
kesalahan standar estimasi asumsi homoskedastisitas post hoc fallacy
158 Bab 8
Simbol
Y bazX zY zY SYX
* Garis regresi scatterplot dan kuadrat terkecil untuk memprediksi 1. Y dari X diberikan
pada gambar di bawah untuk pasangan skor berikut dari pretest dan posttest:
Pretest (X) 89 4 2 2
Posttest (Y) 10 6 8 5 1
11
10
9
8
7
z
6
i
Q
5
:
4
3
2
1
1 2 3 4 5 6 7 8 9 10 11 X: Kuis
(a) Gunakan penggaris lurus dengan garis regresi untuk memperkirakan (sampai satu
tempat desimal) prediksi skor Y (Y) setiap siswa .
(b) Gunakan jawaban dari Soal 1a untuk menentukan kesalahan dalam prediksi untuk
setiap siswa.
(c) Gunakan jawaban dari Soal 1b untuk menghitung jumlah kesalahan kuadrat.
(d) Jika ada garis lain yang digunakan untuk prediksi, bagaimana jumlah kuadrat
kesalahan dibandingkan dengan jawaban Anda untuk Soal 1c?
2. Hubungan antara kinerja siswa pada tes mandat negara bagian yang diberikan di kelas
empat dan lagi di kelas delapan telah dianalisis untuk sekelompok besar siswa di
negara bagian. Ellen memperoleh skor 540 pada tes kelas empat. Dari sini,
kinerjanya pada tes kelas delapan diprediksi (menggunakan garis regresi) menjadi
550.
(a) Dalam arti apa nilai 550 dapat dianggap sebagai perkiraan rata-
rata? (b) Mengapa ini merupakan perkiraan daripada rata-rata
sebenarnya?
Latihan 159
* Seorang guru pendidikan jasmani, sebagai bagian dari tesis master 3., memperoleh data
tentang sampel laki-laki yang cukup besar yang tingginya diketahui pada usia 10 dan
sebagai orang dewasa. Berikut adalah ringkasan statistik untuk sampel ini:
Tinggi pada Usia 10 Dewasa Tinggi
X 48 3 Y 67 3
SX 3 1 SY 4 1
r 71
(a) Gunakan nilai di atas untuk menghitung intersep dan kemiringan untuk
memprediksi tinggi dewasa dari tinggi badan pada usia 10 (pembulatan ke tempat
desimal kedua); nyatakan persamaan regresi, dengan menggunakan bentuk
Rumus (8.1).
(b) Dengan persamaan regresi ini, perkirakan tinggi badan orang dewasa untuk anak
berusia 10 tahun berikut: Jean P. (42,5 inci), Albert B. (55,3 inci), dan Burrhus S.
(50,1 inci).
(c) Pertimbangkan perkiraan tinggi badan orang dewasa Jean. Dalam arti apa
nilai itu berarti? * Berikut adalah ringkasan statistik untuk skor yang diberikan
dalam Soal 1: 4. X 5 00 SX 2 97 Y 6 00 SY 3 03 r 62
(a) Dari nilai-nilai ini, hitung intersep dan kemiringan untuk persamaan regresi;
nyatakan persamaan regresinya.
(b) Dapatkan skor prediksi untuk Keith, Bill, Charlie, Brian, dan Mick. Bandingkan
jawaban Anda dengan jawaban yang diperoleh pada Soal 1a; menjelaskan setiap
perbedaan. (c) Hitung rata-rata skor prediksi dan bandingkan dengan ringkasan
statistik di atas. Generalisasi penting apa (dalam batas kesalahan pembulatan)
yang muncul dari perbandingan ini?
(d) Hitung jumlah residu untuk lima individu ini, dan nyatakan generalisasi yang
diilustrasikan oleh jumlah ini (dalam batas kesalahan pembulatan).
* Menafsirkan kemiringan dari Soal 3 dan 4. 5.
6. Berikut ini adalah nilai ujian sertifikasi guru yang diberikan sebelum pengangkatan (X)
dan penilaian kepala sekolah atas keefektifan guru setelah tiga bulan bekerja (Y)
untuk sekelompok enam guru tahun pertama (A–F):
ABCDEF
X 560 00 Y 2 65
SX 75 00 SY 35
r 50
(a) Hitung intersep nilai mentah dan kemiringan; nyatakan persamaan regresinya.
(b) Val dan Mike masing-masing mendapat skor 485 dan 710, pada tes bakat. Prediksi
IPK tahun pertama mereka.
(c) Hitung kesalahan standar pendugaan.
(d) Tetapkan batas kepercayaan 95% di sekitar IPK yang diprediksi Val dan Mike.
(e) Untuk siswa dengan skor bakat yang sama dengan Val, berapa proporsi yang
Anda harapkan untuk memperoleh IPK lebih baik daripada rata-rata tahun
pertama?
Latihan 161
(f) Untuk siswa dengan nilai bakat yang sama dengan Val, berapa proporsi yang
diharapkan untuk memperoleh IPK 2.0 atau di bawah?
(g) Untuk siswa dengan skor bakat yang sama dengan Mike, berapa proporsi yang
diharapkan untuk memperoleh IPK 2,5 atau lebih baik?
14. (a) Asumsi apa yang mendasari prosedur yang digunakan untuk menjawab Soal 13b?
(b) Jelaskan peran setiap asumsi yang mendasari prosedur yang digunakan untuk
menjawab Soal 13d–13g.
(c) Apa cara terbaik untuk memeriksa dan melihat apakah asumsi-asumsi tersebut
dilanggar?
15. Pertimbangkan situasi yang dijelaskan dalam Soal 13. Dengan memulai program
pengujian baru tetapi sangat mahal, Ecalpon Tech dapat meningkatkan korelasi antara
skor bakat dan IPK menjadi r 55. Misalkan perhatian utama adalah akurasi IPK
individu yang mana dapat diprediksi. Apakah program pengujian baru akan sepadan?
Lakukan perhitungan yang diperlukan untuk mendukung jawaban Anda.
16. Di akhir Bagian 8.3, kami meminta Anda untuk mempertimbangkan bagaimana lokasi
Siswa 26 akan mempengaruhi penempatan garis regresi pada Gambar 8.4.
(a) Bayangkan Anda menghapus kasus ini, menghitung ulang intersep dan
kemiringan, dan menggambar garis regresi baru. Menurut Anda di mana garis
baru akan terletak relatif terhadap garis regresi asli? Mengapa? (Lihat kriteria
kuadrat terkecil.)
(b) Bagaimana seharusnya pemindahan Siswa 26 mempengaruhi besarnya intersep?
lereng?
(c) Dengan Siswa 26 dihapus, statistik ringkasan yang relevan adalah X 69 45, SX
9 68, Y 100 83, SY 14 38, r 79. Hitung intersep dan kemiringan baru. (d) Secermat
mungkin, gambarlah garis regresi baru dengan menggunakan gambar di bawah
ini (dari mana Siswa 26 telah dihapus). Bagaimana hasilnya dibandingkan
dengan tanggapan Anda terhadap Soal 16a dan 16b?
140
130
120
y
110
i
a
100
c
90
e
80
70
17. Di akhir bagian “mengatur margin kesalahan”, kami menanyakan apakah Anda dapat
melihat dari Tabel A di Lampiran C bagaimana kita mendapatkan “1.00” dan “2.58”
untuk kepercayaan 68% dan 99%, masing-masing. Bisakah kamu?