Dimana :
Var = varians
Se = standart error
σ2 = konstanta
Semua jumlah yang masuk ke dalam persamaan sebelumnya kecuali σ2 dapat diperkirakan dari
data.σ2 sendiri diperkirakan dengan rumus berikut:
dimana adalah estimasi yang sebenarnya tetapi tidak diketahui σ2 dan dimana n-2 diketahui
sebagai nilai Degrees of Freedom (df). Menjadi jumlah dari residual square atau Residual
Sum of Square (RSS).
Ketika diketahui, σ2 bisa lebih mudah dihitung. Itu sendiri bisa dihitung dari rumus
pada 3.1.2 atau dari persamaan dibawah ini :
Membandingkan dengan persamaan 3.1.2, persamaan 3.3.6 mudah digunakan, untuk itu tidak
memerlukan ûi untuk masing-masing observasi meskipun beberapa perhitungan akan berguna
pada observasinya.
dikenal sebagai standar kesalahan estimasi atau standar kesalahan regresi (se). Ini hanyalah deviasi
standar dari nilai-nilai Y tentang garis regresi yang diperkirakan dan sering digunakan sebagai
ukuran ringkasan dari "goodness of fit" dari garis regresi yang diperkirakan.
Impor penuh teorema Gauss-Markov akan menjadi lebih jelas saat kita bergerak bersama. Cukup
untuk dicatat di sini bahwa teorema memiliki kepentingan teoretis dan praktis. Semua ini dapat
dijelaskan dengan bantuan Gambar 3.7.
Pada Gambar 3.7 (a) kami telah menunjukkan distribusi sampling dari estimator OLS ˆ β2, yaitu
distribusi nilai yang diambil oleh ˆ β2 dalam eksperimen pengambilan sampel berulang (ingat
Tabel 3.1).
Untuk kenyamanan kita mengasumsikan ˆ β2 untuk didistribusikan secara simetris (tetapi lebih
pada ini dalam Bab 4). Seperti yang ditunjukkan oleh gambar, rata-rata nilai ˆ β2, E (ˆ β2), sama
dengan β2 yang sebenarnya. Dalam situasi ini kita mengatakan bahwa ˆ β2 adalah penduga yang
tidak bias dari β2. Pada Gambar 3.7 (b) kami telah menunjukkan distribusi sampling β ∗ 2, penaksir
alternatif β2 yang diperoleh dengan menggunakan metode yang lain.
Dalam gambar ini lingkaran Y mewakili variasi dalam variabel dependen Y dan lingkaran X
mewakili variasi dalam variabel penjelas X.21 Tumpang tindih dari dua lingkaran (area yang
diarsir) menunjukkan sejauh mana variasi dalam Y dijelaskan oleh variasi dalam X (katakanlah,
melalui regresi OLS). Semakin besar tingkat tumpang tindih, semakin besar variasi dalam Y
dijelaskan oleh X. R2 hanya merupakan ukuran numerik dari tumpang tindih ini. Pada gambar,
ketika kita bergerak dari kiri ke kanan, area tumpang tindih meningkat, yaitu, berturut-turut
proporsi variasi Y yang lebih besar dijelaskan oleh X. Singkatnya, R2 meningkat.
Secara geometris, garis estimasi regresi adalah seperti yang ditunjukkan pada gambar diatas. Seperti yang
kita ketahui, setiap titik pada garis regresi memberikan perkiraan nilai rata-rata Y yang sesuai dengan nilai
X yang dipilih, yaitu, Yˆ i adalah perkiraan E (Y | Xi). Nilai β ˆ2 = 0,7240, yang mengukur kemiringan
garis, menunjukkan bahwa, dalam rentang sampel X antara 6 dan 18 tahun pendidikan, saat X meningkat
sebesar 1, perkiraan kenaikan upah rata-rata per jam adalah sekitar 72 sen . Artinya, setiap tahun tambahan
sekolah, rata-rata, meningkatkan upah per jam sekitar 72 sen. Nilai β ˆ 1 = −0.0144, yang merupakan
intersep garis, menunjukkan tingkat upah rata-rata ketika tingkat pendidikan nol. Penafsiran harfiah seperti
intersep dalam kasus ini tidak masuk akal. Bagaimana mungkin ada upah negatif? Seperti yang akan kita
lihat di seluruh buku ini, sangat sering istilah intersep tidak memiliki makna praktis yang layak. Selain itu,
tingkat pendidikan nol tidak dalam tingkat pendidikan yang diamati dalam sampel kami. Seperti yang akan
kita lihat di Bab 5, nilai intersep yang diamati tidak berbeda secara statistik dari nol. Nilai r2 sekitar 0,90
menunjukkan bahwa pendidikan menjelaskan sekitar 90 persen variasi dalam upah per jam.
Mempertimbangkan bahwa r 2 bisa paling banyak 1, garis regresi kami sangat cocok dengan data. Koefisien
korelasi, r = 0,9521, menunjukkan bahwa upah dan pendidikan berkorelasi sangat positif. Sebelum kita
meninggalkan contoh kita, perhatikan bahwa model kita sangat sederhana. Teori ekonomi tenaga kerja
memberi tahu kita bahwa, selain pendidikan, variabel seperti jenis kelamin, ras, lokasi, serikat pekerja, dan
bahasa juga merupakan faktor penting dalam penentuan upah per jam. Setelah kami mempelajari regresi
berganda pada Bab 7 dan 8, kami akan mempertimbangkan model penentuan upah yang lebih luas.