Anda di halaman 1dari 34

11.

BabXVRegresiLinierSederhana

KAT A KUNCI
r2mengukurseberapabaikvariabelindependenpadaregresi liniersederhanadapatmenjelaskan
perubahan variabel dependen; nilainya antara 0 (buruk) dan 1 (baik).
garis regresi garis hitung pada nalaisa regresi yang digunakan untuk menguji hubungan
antara dua kuantitas (variabel independen dan variabel dependen).
Regresi linier sederhana suatu metodee untuk menganalisa hubungan antara satu variabel
independen dan satu variabel dependen.

Pada statistik seringkali kita ingin menyelidiki pertanyaan seperti: Apakah ada hubungan
antara dua kuantitas? Apakah perubahan pada satu kuantitas menyebabkan perubahan pada
kuantitas lain? Sebagai contoh, apakah perubahan pada suku bunga mempengaruhi permintaan
perumahan? Di waktu lain kita akan mengetahui jika kita dapat menggunakan satu variabel
untuk memprediksi nilai variabellain. Misalnya Anda akan memprediksi nilai konsumsi yang
dibelanjakan tahun depan. Konsumsi yang dibelanjakan mungkin sulit untuk diprediksi
secara langsung; akan lebih mudah memprediksi nilai pendapatan disposable tahun depan.
Anda dapat menggunakan hubungan tersebut dan pengetahuan tentang pendapatan untuk
memprediksi nilai konsumsi.

GARIS REGRESI
Menurut ilmu ekonomi tingkat pendapatan mempengaruhi kuantitas barang tertentu
yang diminta. Pada kebanyakan barang, pendapatan yang lebih tinggi akan menambah
permintaan.Tetapi ada juga beberapa barang (barang inferior) yang sedikit dibeli orang
walaupun pendapatan mereka bertambah. (Kemungkinan mereka membeli sesuatu yang
lebih baik bila mereka mampu, misalnya hamburger merupakan barang inferior jika
mereka lebih suka membeli steeks saat pendapatan mereka bertambah). Satu-satunya cara
mengatakan apakah barang tertentu merupakan barang inferior adalah mengumpulkan
beberapa data.
Misalnya kita mempunyai pengamatan tentang pendapatan rata-rata dan penjualan pizza
total selama 1 bulan di delapan buah kota:

209

----- --- -- - -
Pendapatan Penjualan pizza
Kota ($. 000) (000 buah)

1 5 27
2 10 46
3 20 73
4 8 40
5 4 30
6 6 28
7 12 46
8 15 59

Bila dihadapkan pada persoalan yang sebenamya maka akan lebih baik mempunyai
pengamatanyang lebih banyak, tetapi delapansampelpengamatanini akanmenggambarkan
perhitungan dengan baik.
Satu cara yang baik dalam menentukan apakah ada hubungan antara pendapatan dan
penjualan pizza adalah dengan menggambar. Kita akan menggambar sebuah diagram dengan
sumbu horisontal adalah pendapatan dan sumbu vertikal adalah penjualan pizza, dan juga
sebuah titik menandai tiap pengamatan.Tipe gambar ini dinamakan diagram penyebaran
(scatter diagram, lihat gambar 15-1).
Dari diagram dapat kita lihat secara bahwa ada hubungan antara pendapatan dan
penjualan pizza, dan dapat kita lihat juga pendapatan yang bertambah menyebabkan
penjualan pizza bertambah pula. Dengan demikian, pizza bukan barang inferior.
Alat yang kita gunakan untuk mengetahui dan menjelaskan hubungan tersebut adalah
analisa regresi. Pada bab ini kita akan mempelajari regresi linier sederhana yang diterapkan
jika hanya ada satu variabel independen yang mempengaruhi nilai variabel dependen. Pada
bab selanjutnya akan kita lihat keadaan dengan lebih dari satu variabel independen, untuk itu
digunakan regresi linier berganda.
Tujuan analisa regresi sederhana adalah memperkirakan pola titik-titik oleh garis lurus.
Pada kasus pizza kita tidak dapat menggambar garis melewati semua titik, tetapi kita dapat
menemukan garis yang mendekati (lihat gambar 15-2). Tipe garis ini disebut garis regresi.

Pendapatan (x)

x y x y

5 27 4 30
10 46 6 28
20 73 12 46
8 40 15 59

210
-

Gambar 15-1

80 L .
70
I .
E
60
50l- ..
a .
OJ
::s
c!:
.C'
401-

30 r
20
...
10
I , , , , . , . . , ,
0 4 8 12 16 20
Pendapatan (X)

Gambar 15-2

80 L .
70 .
I
60
E 50l- . /.
a 401-
OJ
::s
.
.C'
c!: 30 r ;-;.
20
10
I , , , , , , , , , ,
0 4 8 12 16 20
Pendapatan (X)

Contoh, model ekonomi kadang-kadangmengasumsikan bahwa konsumsiperseorangan


ditentukan oleh pendapatan disposable. Di bawah ini adalah daftar pengamatan konsumsi
nasional total yang dibelanjakan dan pendapatan disposable beberapa waktu lalu:

211

- - - -- -
Pendapatan disposable Konsumsi
Tahun (milyar dollar) (milyar dollar)
1970 695,3 621,7
1971 751,8 672,2
1972 810,3 737,1
1973 914,5 812,0
1974 998,3 888.1
1975 1.096,1 976,4
1976 1.194,4 1.084,3
1977 1.314,0 1.204,4
1978 1.474,0 1.346,5
1979 1.650,2 1.507,2
1980 1.828,9 1.668,1
1981 2.047,6 1.857,2
1982 2.176,5 1.991,9
1983 2.335,6 2.158,6

Kita dapat gambarakan diagram penyebaran (gambar 15-3) dan pada diagram tersebut
dapat kita gambarkan garis yang tepat dengan pola titik-titik tersebut (gambar 15-4).
Pada kasus lain pol a titik-titik tersebut tidak akan terlihat semua pada garis. Di bawah
ini adalah data tahunan hujan tUTUndi beberapa kota di USA pada tahun 1979 dan tingkat
pengangguran di tiap kota tersebut.

Hujan tahunan Pengangguran


Kota Negara (inchi) (persen)
Mobile Alabama 66,98 7,1
Phoenix Arizona 7,05 5,1
San Francisco California 19,53 6,2
Denver Colorado 15,51 4,8
Hartford Connecticut 43,37 5,1
Miami Florida 43,37 5,1
Atlanta Georgia 48,34 5,1
Chicago Illinois 34,44 5,5
Wichita Kansas 30,58 3,4
Boston Massachusetts 42,52 5,5
New York New York 33,36 7,1
Bismarck North Dakota 16,16 3,7
Hoston Texas 48,19 4,2
Seattle Washington 38,79 6,8

212
Gambar 15-3

2,500
..
2,000
..
.
1,500

. .
E 1,000
.. .
0c
:.::
500
..

0 500 1,000 1,500 2,000 2,500


Pendapatan

Gambar 15-4

2,500

500

o 500 1,000 1,500 2,000 2,500


Pendapatan

Diagram penyebaran ditunjukkan pada gambar 15-5.Kita dapat mencoba menggambar


garis yang tepat dengan titik-titik ini, tetapi dapat kita lihat garis tersebut tidak mengikutipola
titkk-titik dengan tepat (gambar 15-6).
Tidak cukup baik hanya menemukan garis terbaik, kita juga harns menemukan cara
mengukur seberapa baik garis tepat dengan titik-titik tersebut.

213

-- -
Gambar 15-5

. .. . . . . .
8

&
bI)
bI)
1. .
d:
:
2
. .

010203040 506070
Hujan tahunan (inchi)

Gambar 15-6

"
C'
8

7 r .. .
6
&
5
gg .
d: :
2
. .

010203040 506070
Hujan tahunan (inehi)

MENGHITUNG GARIS REGRESI


Gambar 15-7 menggambarkan keadaan umum. Kita akan menggunakan x untuk
mewakili variabel independen yang akan diukur sepanjang sumbu horisontal. Kita akan
gunakan y untuk mewakili variabel dependen yang dependen terhadap x. Pada contoh pizza,
pendapatan merupakan variabel independen dan penjualan pizzamerupakan variabel dependen.
Kita akan mengukur variabel dependen sepanjang sumbu vertikal. Misalnya kita mempunyili
empat pengamatan, maka diagram penyebaran mempunyai empat titik yang akan disebut
(xl,yl), (x2,y2), (x3,y3), dan (x4,y4).

214
Gambar 15-7

Beberapa garis dapat dijelaskan dengan menetapkan dua angka: slope dan intercept
vertikal. Kita gunakan gunakan m untuk mewakili slope dan b untuk mewakili intercept.
Persamaan garis dapat ditulis sebagai berikut

y =rnx + b

Misalnya kita menebak garis regresi terbaik adalah garis sepertipada gambar 15-8.Garis
ini kelihatannya merupakan pilihan yang baik, tetapi tidak tepat dengan titik-titik secara
sempuma. Untuk tiap titik ada jumlah vertikal jarak antara titik dan garis yang pasti. Kita
sebut jarak tersebut, error atau residual garis dibandingkan titik tersebut. Nilai error yang
lebih besar menunjukkan bahwa garis tersebut buruk dalam mewakili titik-titik. Tiap titik
mempunyai error sendiri (Kita sebut error 1,error2, error3, error4). Sebaiknya kita pilih garis
sehingga error total sekecil mungkin. prosedur normal pada statistik adalah meminimisasi
penjumlahan kuadrat semua error. Kuadrat dari error untuk titik (xl, yl) adalah

(errorY
1 = [yo- (rnx. + b)]2
1 1

Kita sebut jumlah kudrat semua error, SE gari. (kependekatan dari "error kuadrat garis").

SEgaris= [y( - (rnx( + b)]2 + [Y2- (rnx2 + b)]2 + [Y3- (rnx3 + b)F + [Y4- (rnx4 + b)]2

Kita dihadapkan pada pertanyaan, apakah ada hubungan antara x dan y? Berikut adalah
cara lain melihat pertanyaan ini: Apakah nilai x yang diketahui membantu Anda dalam
memprediksi nilai y? Misalnya Anda menemukan ada hubungan yang sangat jelas antara x
dan y yang ditunjukkan garis berikut:

215

--- - -
- -

y =2x + 15

Gambar 15-8

Kemudian,jika Anda mengetahui nilai x tahun depan adalah 10,Andadapat memprediksi


nilai y tahun depan adalah 2 x 10 + 15 = 35. Jika tahun depan nilai x adalah 30, Anda dapat
memprediksi nilai Y tahun depan adalah 75.
Pada umumnya, jika variabel x mempunyai nilai Xi'kita akan gunakan simbol yxi untuk
melambangkan nilai yang diprediksi untuk nilai Xtertentu. Pada umumnya:

Yxi= m Xi+ b

Catat bahwa akan ada nilai yxiyang berbeda untuk tiap nilai Xiyang berbeda (nilai
prediksi y juga disebut nilai yang tepat).
Kita dapat menuliskan untuk error pertama seperti berikut:

Pada umumnya kita akan menggunakan n untuk melambangkan jumlah data, sehingga
kita dapat menuliskan untuk SEgaris
dengan notasi penjumlahan:

SE gans
. = L[ y.-(mx.+b)]2
1 I

= L (Yi - Y xY

Untuk selanjutnya pada bab ini, kita tentukan penjumlahan dari i = 1 sampai n. Untuk
memudabkan, kita abaikan lambang keeil di atas dan di bawah sigma. Jika Anda lihat sigma
(L) pada bab ini, ingat bahwa itu berarti Li=1.

216
_ _ .. ___ ___h

Kita mempunyai n pengamatan untuk x dan y, sehingga yang hanya tidak diketahui untuk
SEgarisadalah m dan b. Bagaimanapun juga kita ingin mendapatkan nilai m dan b yang akan
menghasilkan pada SEgarissekecil mungkin. Ingat bahwa kita dapat memilih nilai m dan b,
tetapi kita tidak dapat mengubah nilai x dan y karena telah kita dapatkan nilai-nilai ini saat
kita melakukan pengamatan. hal ini membutuhkan kalkulus untuk mendapatkan nilai m dan
b optimum. Hasilnya adalah m dan b harus memenuhi dua persamaan ini;
...-
mx + b - y
" - =0
... "
m X""2 + bx - xy =0
dimana x merupakan nilai rata-rata x, x2merupakan nilai rata-rata x2, y adalah nilai rata-rata
y, dan xy adalah nilai rata-rata x kali y. Persamaan pertama menyatakan kenyataan yang
membuat banyak hal: garis terbaik melewati titik (x,y) yang berarti, titik beada pada nilai rata-
rata x dan y.
Kini kita dapat menggunakan dua persamaan yang telah ada di atas untuk mendapatkan
formula untuk slope:
- --
xy - x y
...
m=

Sekali kita mengetahui m, kita dapat menghitung b:


" - ...-
b = y - mx
Kini kita dapat menghitung slope dan itercept untuk contoh pizza. Kita asumsikan bahwa
penjualan pizza tergantung pada pendapatan, sehingga kita sebut pendapatan adalah variabel
independen (x) dan penjualan pizzza adalah variabel dependen (y). Kita perlu menghitung x,
y, x2 dan xy.

x Y x2 xy y2
5 27 25 135 729
10 46 100 460 2116
20 73 400 1460 5329
8 40 64 320 1600
4 30 16 120 900
5 28 36 168 784
12 46 144 552 2116
15 49 225 885 3481

total 80 349 1010 4100 17055


rata-rata 10000 43,625 126,250 512,500 2131,875

217

---- - - -
x = 10, Y=43,625, x2= 126,25dan xy = 512,5. Ingat bahwakitajuga menghitung y2 =
2131,88 karena nantinya akan berguna.
Kita juga menggunakan formula untuk m dan b:

512,5 - (10 x 43,625)


...
m= = 2.905
12,25- 102
. ...-
b = Y - mx = 43,625 - 2,905 x 10 = 14,577

YANG HARUS DIINGA T


1. Jika Anda mempunyai diagram penyebaran dengan nilai x sepanjang sumbu horisontal
dan nilai y sepanjang sumbu vertikal, maka slope dan intercept vertikal garis yang tepat
dengan titik-titik ini dapat dieari dengan formula ini:
- --
xy - x y
slope m =

intercept
.
= b = Y - mx
...-

Tanda "bar" diatas huruf melambangkan nilai rata-rata.


2. Garis ini memperkecil penjumlahan kuadrat dari error (jarak vertikal dari tiap titik ke
garis).
KETEPATAN GARIS REGRESI
Seperti telah ditunjukkan di muka, slope dan intercept garis regresi tidak menjelaskan
seberapa baik garis tepat dengan data. Oleh karena itu kita perlu membuat pengukuran lain
untuk menyatakan seberapa baik garis tersebut tepat. Kita cendernng hanya menggunakan
SEgaris,karena formula tersebut mengukur berapa banyak selisih antara titik-titik pada garis
dan data sesungguhnya:

SEgans. = L. (yI. _-y Xl.)2

Jika SEgaris adalah nol, maka garis tersebut tepat dengan data secara sempuma. Jika
nilai SEgaris lebih besar daripada nol, maka kita perlu sesuatu untuk membandingkan angka
ini dengan yang kita katakan apakah tepat dengan garis.
Kita dapat membandingkan prediksi garis regresi dengan rencana prediksi garis regresi
dengan rencana prediksi sederhana: Kita dapat selalu memprediksi nilai y menjadi y. Contoh,
anggap Anda ingin memprediksi turnn hujan secara total di kota Anda tabun depan. Jika Anda

218
- .111
tidak mengetabui tentang keadaan euaea tabun depan, tetapi Anda mengetabui rata-rata turun
hujan di kota Anda selarna beberapa tabun lalu, maka prediksi terbaik yaitu menebak turun
hujan tabun depan akan sarna seperti rata-rata.
Marilab kita bandingkan pendapat kita (menggunakan garis regresi) dengan pendapat
sederhana seseorang yang selalu memprediksi nilai y akan sarna dengan y. Kita dapat
menghitung error kuadrat total dari metode pendapat sederhana (sebut SErt'karena merupakan
rata-rata error kuadrat total y):

[ Kita juga dapat menulis: SErt = n var (y)].


Jika y sungguh tergantung pada x, dan garis regresi menjelaskan hubungan seeara tepat,
maka perbandingan tidak akan mendekati. Kita akan melakukan yang lebih baik dalam
memprediksi nilai y menggunakan garis regresi daripada metode pendapat sederhana tanpa
garis. Pada kasus itu, error kuadrat (SEgar) akan lebih sedikit daripada error pendapat
sederhana (SErt)' Anggap y tidak benar-benar tergantung pada x. Pada kasus demikian garis
regresi tidak akan membantu kita.k Reneana pendapat sederhana akan bekerja harnpir baik
dan SEgans. harnpir sebesar SEn . Oleh karena itu kita akan menielaskan
~ Pengukuran kita
tentang ketepatan garis regresi sebagai berikut:

SE
r=I-~
SErt
Kuantitas r2 disebut koefisien determinasi (koefisiean penentu). Pengukuran ini
mempunyai dua eiri khas agar pengukuran kita eoeok atau tepat:
1. Jika SEgaris
= 0, maka r = 1, dan garis tersebut tepat dengan sempuma.
2. Jika SEgariS
= SErt'maka r = 0, dan garis tersebut sangat tidak tepat.
Nilai r akan selalu berada diantara 0 dan 1. Lebih tinggi r, makin tepat. Berikut ini
adalab interpretasi lain: nilai r2 merupakan fraksi variasi y yang dapat dijelaskan oleh variasi
x. Contoh, nilai r dari 0,75 berarti 75 persen variasi y dapat dijelaskan oleh variasi x. (Simbol
r2digunakan karena merupakan kuadrat koefisien korelasi sampel antara dua variabel.
Koefisien korelasi akan dibicarakan pada bagian selanjutnya).
Kita dapat menghitung nilai r untuk eontoh pizza dengan mendapatkan jumlab kuadrat
semua residual. Untuk tiap nilai x dapat kita hitung nilai prediksi y dari formula

.. .. II
Y .
Xl
= mx. I
+b = 2,905x. I
+ 14,577

Kemudian kita dapat menghitung residual dengan eara mengurangi nilai y sebenamya
dari nilai prediksi. Berikut ini adalab tabel hasil:

219

--
11II

Nilai Nilai Kuadrat


sebenarnya prediksi Resideual Residual
x y Y.=mxi+b
XI Yi- Yxi (y.-
I YXI
Y
5 27 29,102 -2,102 4,418
10 46 43,627 2.373 5.631
20 73 72,677 0,323 0,104
8 40 37,817 2,183 4,765
4 30 26,197 3,803 14,463
6 28 32,007 -4,007 16,056
12 46 49,437 -3,437 11,813
15 59 58,152 0,848 0,719
total 80 349 349 0 57,970

Tabel ini menggarnbarkan dua sifat yang menarik dari garis regresi:
1. Jumlah residual selalu nol.
2. Jumlah nilai yang diprediksi selalu sarna dengan jumlah nilai y sebenarnya.
Kita dapat menghitung variance nilai y dari formula

var(y(\) = Y'- - y2 = 2131,875 - 43,6252 = 228,734

Karena Var(y) = SEjn, dapat kita hitung:

SEn= n var(y) = 8 x 228,734 = 1829,875

maka:

57,970
r = 1- = 0,968
1829,875
Garis regresi tepat dengan data 96,8 persen dari variasi penjualan pizza dapat dijelaskan
oleh variasi pendapatan.
Nilai r dapat juga dihitung dari formula lain ini:

220
atau

(nT xy - T xT y)2

(nT x - T xHnT y - T y)

dimana T = ~x T = ~ y T = LX Y T = Lx2 dan T = L y 2.


x ~, y £.." xy , x ' y

Berikut ini adalah hasil dari contoh lain:


Hubungan pendapatan disposable/konsumsi

slope = 0,930
intercept = -29,262
r2 = 1000

Hubungan tUfUnhujan/pengangguran
slope = 0,025
intercept = 4,486
r2 = 0,141

Ingatbahwa kita tidak dapat menghitung r2jika semua nilai y sarna, karena SErt = O. Jika
y selalu konstan, kita tidak memerlukan garis regresi untuk memprediksi nilainya.

YANG HARUS DIINGA T


1. Nilai r2 adalah antara 0 dan 1 yang menunjukkan apakah pengertian nilai x dapat
membantu Anda atau tidak dalarn mengestimasi nilai y.
2. Nilai r2mendekati 1 menunjukkan garis regresi sangat tepat dengan titik-titik.
3. Nilai r2 dapat dihitung dari salah satu formula berikut:

atau

r2 = 1 - SE .
gans

SErt
dimana SE gans. = L (y.1 - ..y XlY dan SErt = (y .I _ -y )2.
KORELASI
Korelasi (atau koefisien korelasi) juga mengukur tingkat hubungan linier antara dua
variabel. Korelasi (dilarnbangkan oleh r) selalu di antara -1 dan 1. Nilai r2 untuk regresi

221
adalah sama dengan kuadrat korelasi antara dua variabel regresi. Jika slope garis regresi
positif, maka r adalah positif,jika slope negatif, maka r juga negatif. Korelasi adalah nol jika
garis regresi mempunyai slope nol. Korelasi mendekati nol berarti tidak banyak hubungan
tinier antara dua variabel (Hal itu mungkin dapat menjadi hubungan non linier antara dua
variabel meskipun jika korelasi mendekati nol. Akan kita bicarakan kemungkinan tersebut
kemudian). Nilai korelasi mendekati I dan -1 menunjukkan bahwa ada hubungan tinier
antara dua variabel yang sangat kuat.
Berikut ini adalah contoh koefisien korelasi. Kita mempunyai pengamatan tinggi, berat,
pengalaman dan umur dari 49 pemain sepakbola. Gambar 15-9 sampai 15-11 menunjukkan
diagram penyebaran yang membandingkan tinggi terhadap berat, pengalaman terhadap
umur, dan berat terhadap pengalaman.

Gambar 15-9

290
. ..
280
270 .. .. ..
t
260
... . .. .
250
240 . ..
.
230
. .. .
..
£1:1
220
. ..
210
200 l-
I .
. . .. ..
.. .. .
190

. . . ..
180
l
170 .
160
150
5-105-11 6-0 6-1 6-2 6-3 6-4 6-5 6-6 6-7 6-8
Tmggi

Seperti yang telah kita prediksi, ada hubungan tinier yang hampir sempurna antara
pengalaman dan umur, koefisien korelasi antara dua variabel tersebut adalah 0.970. Juga ada
hubungan linier yang kuat antara tinggi dan berat (korelasi 0,715). Disamping itu, ada tidak
ada hubungan antara berat pengalaman (korelasi 0,043) karena tidak ada alasan mengapa
pemain yang lebih berpengalaman lebih berat daripada pemain yang kurang pengalaman.

222
Gambar 15-10

341-
33 l-
. . ..
32
31 ... ....
30
29
...
.
. 28 ..
..
. ..
27
.
:t
241-
...
... ......
.. .. ..
23::
22 ...
, , , , , , , , , , , , ,
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Tinggi

Gambar 15-11

290
. .
280
270 ... .
260 l . . . . . . ..
250
240 t . .. . .. . ..
230
. .
G
CQ
220
f: . . ...
. .. . . .
210
200
190
l-. ... ..
180
170
: .
160
150
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Pengalaman
223

- -
Koefisien korelasi dapat dihitung dari formula berikut:
- -- - --
xy - x y xy - x y
r= =
I Var(x) Var(y)
Kita dapat menghitung korelasi untuk contoh pizza:
- -- - --
xy - x y xy - x y
r= =
I Var(x) Var(y)
512,2 - (10 x 43,625)
r=
(126,25 - 1()2)(2131,88 - 43,6252)
= 0,984
ANAL/SA REGRESI SECARA STATISTIK
Kini kita perlu membuat tes secara statistik pada hasil regresi. Untuk melakukan hal ini
kita perlu membuat beberapa asumsi tentang kaidah yang berhubungan dengan x dan y. Pada
model regresi standar kita asumsikan bahwa sifat hubungan yang sebenamya antara x dan y
dapat dijelaskan oleh persamaan:

YI. = mx.1 + b + e.1

dimana \ adalah pengamatan ke-i untuk variabel x, yj adalah pengamatan ke-i untuk
variabel y, dan ej dikenal sebagai error random. Kita asumsikan bahwa x adalah pengaruh
dominan y, dan hubungannya dapat dijelaskan oleh garis lurus dengan slope many-intercept
b. Sayangnya nilai m dan b tidak diketahui, tetapi seperti yang telah Anda kira, kita akan
menggunakan prosedur secara statistik untuk mengestimasi nilai-nilai tersebut.
Jika persamaan yang benar adalah y = mx + b, maka x hanya merupakan faktor yang
mempengaruhi y. Setiap satu kenaikan atau penurunan y dapat dijelaskan oleh kenaikan atau
penurunan x. Bagaimanapun juga, hampir selalu ada beberapa faktor yang mempengaruhi
nilai variabel dependen. Jika garis regresi menunjukkan hubungan yang baik, faktor-faktor
lain ini misterius dan tidak diketahui, yang kita sebut error random. Pada persamaan di atas
e merupakan variabel random yang menunjukkan semua faktor-faktor lain ini. (Bila kita
membicarakan regresi berganda, kita akan melihat bagaimana mungkin hal itu terdiri dari
beberapa faktor lain ini pada model regresi; tetapi bahkan akan selalu ada beberapa residual
faltor yang tidak dijelaskan yang menyusun error random).
Jika kita mempunyai n pengamatan, maka akan ada n error random yang berbeda. Kita
biarkan ejmenunjukkan pengaruh error random pada pengamatan pertama. Pada umumnya

224
--
ej adalah variabel random yang menunjukkan pengaruh error random pada observasi ke-i.
Kita mengetahui bahwa nilai yang diharapkan tiap error random adalah nol [E(e) =0] karena
kenyataannya kita telah memasukkan intercept b pada persamaan. Kita biarkan Varee) sarna
dengan cr2, tetapi sayangnya kita tidak mengetahui nilai cr2 sebenarnya. Jika x merupakan
prediktor y yang sangat baik, maka cr2 cendening kecil. Jika cr2 besar, maka ada faktor penting
lainnya yang mempengaruhi y dan kita hendaknya mencoba memasukannya pada model.
Kita juga akan mengasumsikan tiap error random mempunyai distribusi normal, yang
variance cr2 adalahsama untuktiap errorrandom,dan tiap errorrandomindependendari
semua error random lain.
Untuk meringkas keadaan:

y=mx+b+e

Di sini x diketahui dan tidak random. Kita mempunyai daftar n pengamatan untuk x.Juga
y, diketahui dan random. Kita juga mempunyai n pengamatan y, dengan tiap pengamatan
menjadi berpasangan dengan satu dari pengamatan x. Adanya e mempunyai arti bahwa y
adalah variabel random dengan distribusi normal.

E(yI.) =mx.I + b dan Var(y) = cr2


Disini m dan b tidak random, tetapi nilai sebenarnya tidak diketahui; e adalah random
dan tidak diketahui. Kita mengetahui bahwa E (e) =0, tetapi Varge) =a2 tidak diketahui. Kita
asumsikan e mempunyai distribusi normal.
Meskipun nilai sebenarnya m dan b tidak diketahui, kita daapt menghitung slope dan
intercept garis regresi:
- --
xy - x y
...
m=

A _ A-
b=y-mx
Kini Anda lihat mengapa kita memasukkan topi ( ). Pada kesimpulan statistik kita
sering meletakkan topi di atas statistik yang dihitung yang digunakan untuk mengestimasi
nilai parameter yang tidak diketahui. Garis regresi disebut garis least-squares (kuadrat
terkecil), sehingga m d~ b dapat disebut estimator least-squares parameter m dan b.
m dan b adalahestimator kemungkinan maximumdari m danb. Hal itu dapat ditunjukkan
bahwa m berdistribusi normal denan E(m) = m dah

Var (ill) =

225

---
-- -

Kita dapat menuliskan ekspresi untuki m seperti berikut:

m=A

yang juga dapat ditulis


1
A
m= I (Xi- X) Yi

Ingat bahwa Xadalah kosntan dan y adalah variabel random dengan distribusi normal.
Drai ekspresi di atas dapat kita lihat bahwa m didapatkan dengan menarnbah semua variabel
random dikalikan dengan konstan yang berbeda, maka kita mengetahui dari properti
distribusi normal bahwa m juga akan berdistribusi normal.
KenyatannyabahwaE(m)=m adalah penting. Ini berarti I1ladalah estimator slope tak
bias. Ini juga dapat ditunjukkan bahwa m adalah estimator terbaik (karena mempunyai
variance yang paling kecil) antara kelas umum yang pasti dari semua estimator tak bias.
Ekspresi untuk variance m mengatakan bahwa variance m lebih besar jika (J2lebihbesar.
Kelihatannya beralasan, karena nilai (J2yang lebih besar berarti kita dapat mengharapkan
penyebaran yang lebih pada garis regresi sebenarnya, dan kenaikan penyebaran akan
membuatnya lebih sulit dalarn memaksakan nilai m yang sebenarnya. Ekspresi (xi - x)2
menunjukkan error kuadrat rata-rata x, atau dapat kita tulis.

(Xi - X)2 = n Var(x)

Dapat kita lihat, bila ada penyebaran yang lebih besar diantara nilai X,maka variance m
akan lebih sedikit dan akan lebih mud'ah memaksakan nilai m sebenarnya. Gambar 15-2
menggarnbarkan dua keadaan yang berbeda. Pada tiap kasus jumlah pengarnatan adalah
sarna. Pada contoh (a) tidak banyak penyebaran diantara nilai x. Pada kasus ini akan ada
ketidakpastian yang lebih banyak tentang nilai slope sebenarnya daripada contoh (b).
Karena m berdistribusinormaldengan rata-ratam dan variance(J2/I (Xi- x)2, kita
mengetahui bahwa variabel random ini:
A
m-m

226
mempunyai distribusi normal standar. Oleh karena itu kita dapat menentukan confidence
interval 95 persen untuk m:
1,96cr

mIJ
Gambar 15-12

y y

.....
...
..
..
..
..
. ...
(a) x (b)
x

(a) (b)

(lihat bab 11). Bagaimanapun juga ada satu problem nyata menghitung confidence interval
dalam soal: kita tidak mengetahui nilai cr.Kita perlu cara untuk mengestimasinya. Jika kita
mengetahui nilai m dan b yang sebenamya, maka akan mempunyai n pengamatan dari
variabel random e:

e.I =YI. - (rnx.I + b)

dan seterusnya. Karena E( e) = 0, dapat kita tulis

dan kita dapat mengestimasi a2 dengan rata-rata kuadrat e. Karena kita tidak menetahui m
dan b, kita dapat menggunakan residual dari perhitungan garis regresi:
A A A A
[y\ - (mx, + b)], [Y2- (mx2 + b), dst

Penjumalahan kuadrat seluruh residual dinamakan SEgarisKini kita menuju pertentangan


antara kriteria yang berbeda untuk estimator. Estimator kemungkinan maksimum dari a2 sama
dengan SEg...Jn. Agaris terdapat estimator cr2tak bias, kita harus menggunakan SE~(n - 2).
(n - 20 adalah degree of freedom error kuadrat garis, karena kita mulai dengan titik-titik n tetapi
kehilangan dua degree of freedom saat kita menggunakan pengamatan untuk mengestimasi
nilai slope dan intercept.) Kuantitas SEgari/(n - 2) disebut rata-rata error kuadrat (MSE):

227

- - -- -- -- -
--

I!III

A "
SEgans. I (y; - Y xl I [Yi- (mx) + b)F
MSE= = =
n-2 n-2 n-2

Nilai MSE yang diharapkan adalah cr2, yang membuat menjadi estimator cr2tak bias.
Kita telah menentukan bahwa variabel random ini:
A
m-m

berdistribusi normal standar. Pada keadaan yang harnpir sarna paa bab II, kita menggantikan
estimator untuk cr2di tempat nilai cr2yang tidak diketahui, dan kita tinggalkan dengan sesuatu
yang berdistribusi 1. Pada kasus ini, variabel random
A
m-m

mempunyai distribusi t dengan df n - 2. Dengan demikian confidence interval adalah

a adalah larnbant yang berasal dari Tabel A3-5 seperti

Pr( -a < t < a) = CL


dimana t adalah variabel random yang berdistribusi t dengan df n - 2 dan CL adalah
confidence level.
Pada contoh penjualan pizza MSE =57.97/6 =9,662 dan I (Xi - X)2 =210. Jika kita pilih
confidence interval 95 persen, kita dapat lihat dari Tabel A3-5, nilai a adalah 2,447. Telah kita
dapatkan m = 2,905, sehingga confidence interval adalah

9,662
2,905 :t 2,447
210

228
yaitu dari 2,38 sampai 3,43.
Kita juga dapat membuat tes hipotesa pada model. Ada satu hipotesa nol yang penting:
"Nilai x tidak mempunyai hubungan terhadap nilai y". Jelasnya, jika kita pikir regresi kita
baik,hendaknyakitamengumpulkanbuktisecarastatistikyangcukupagardapat membuktikan
hipotesa ini salah. Dari persamaan y =mx + b + e, dapat kita lihat tidak ada hubungan antara
x dan y jika nilai slope sebenarnya adalah nol. Karena

(ill - m)

mempunyai distribusi t dengan df n - 2, jika m = 0 maka


m

mempunyai distribusi t dengan df n - 2. Dapat kita hitung nilai statistiknya. Jika kelihatannya
masuk akal menghitung nilai dari distribusi =t, maka kita akan menerima hipotesa nol; selain
itu akan kita tolak. Pada contoh penjualan pizza statistik t adalah
210
2.905 = 13,542
9,662

Untuk pengujian dua sisi pada tingkat signiflkan 5 persen, nilai kritis untuk distribusi t
dengan df = 6 adalah 2,447. Karean 13,542 terletak pada daerah kritis, maka kita dapat
menolak hipotesa nol yang mengatakan nilai slope sebenarnya adalah nol.

YANG HARUS DIINGA T


1. Asumsikan hubungan yang benar antara x dan y ditentukan oleh formula ini:

y=mx+b+e

dimana e adalah variabel normal random dengan raa-rata 0 dan variance (12 tidak
diketahui.
2. Estimator kuadrat terkecil m dan b adalah estimator kemungkinan maksimum m dan b.
dan juga merupakan estimator tak bias.

229

- -- - -- -- - -
-
3. Rata-ratakuadraterror:

L [Yi - (m Xi + b) F
MSE=
n-2
adalab estimator tak bias dari nilai (J2yang tak diketabui.
4. Untuk menguji hipotesa babwa nilai slope yang sebenarnya adalab nol, menghitung
estatistiknya:
..
m

Jika nilai slope sebenarnya adalab nol, maka statistik ini akan mempunyai distribusi t
dengan df n - 2.

MEMPREDIKSI HILAI Y

EMP AT HAL PENTING TENT ANG PREDIKSI NILAI


Kini akan kita bicarakan bagaimana menggunakan model regresi ootuk memprediksi
nilai variabel dependen. Sebelum kita membuat prediksi dengan model regresi, kita harus
tnemperhatikan beberapa hal penting.
· Beberapa prediksi yang berdasarkan pada model regresi adaIab prediksi bersyarat,
karena prediksi untuk variabel bergantung padanilai variabel independen. Anggap Anda
telab mendapatkan hubungan regresi yang menjelaskan hubungan antara y dan Xsecara
sempuma. Pada kasus tersebut Anda dapat memprediksi nilai y berikutnyajika (tetapi
penjualan pizza tergantungpada pendapatan seperti yang telab diprediksi pada hubungan
regresi, maka kita dapat memprediksi penjualan pizza tabun depan jika kita tabu
pendapatan tabun depan. Jika kita tidak dapat memprediksi pendapatan taboo depan,
maka kita tidak dapat memprediksi pendapatan tabun depan, m~a kita tidak dapat
memprediksi nilai sebenarnya penjualan pizza tabun depan (meskipun mungkin masih
sangat berguna mempunyai model regresi yang mengatakan berapa banyak pendapatan
yang mempengaruhi pennintaan pizza).
· Garis regresi telab diestimasi menggunakan data lama. Garis ini tidak akan dapat
memprediksi berikutnya (tabun depan) jika hubungan antara x dan y berubab. Perubaban
yang tiba-tiba pada orang-orang yang lebihmenyukai pizzaakan menjatuhkankemampuan
garis regresi untuk memprediksi nilai penjualan pizza berikutnya.

230
Gambar 15-13

200 200

..
.C\
10 20 25
1:.~·,
10
.
20 25
\
(a) (b)

· Banyak prediksi regresi mencoba memprediksi nilai y pada situasi dimana nilai x berada
diluar daerah pengamatan x sebelumnya. Prediksi ini dikenal dengan ekstrapolasi, yang
kurang dapat dipercaya daripada prediksi yang berdasarkan nilai varibel independen
yang berada di dalam daerah nilai pengamatan sebelumnya.
· Contoh, gambar (a) pada gambar 15-13menunjukkan banyaknya pengamatan penjualan
pizza sebagai fungsi dari pendapatan pada susunan barn. Kelihatannya beralasan untuk
menoojukkandatadengangarislurns.Anggaptaboodepankitamengharapkanpendapatan
menjadi 25. Berdasarkan garis regresi, kelihatannya masuk akal memprediksi penjualan
pizza tabun depan menjadi 200. Bagaimanapun juga prediksi ini adalah ekstrapolasi.
Analisa regresi memberikan bukti yang baik bahwa hubungan antar pendapatan dan
penjualan dapat dengan baik ditunjukkan oleh garis lurns saat pendapatan di daerah 10
sampai 20, tetapi kita tidak mempunyai cara mengetahui untuk meyakinkan apakah
hubungan garis ini mempengarnhi tingkat pendapatan lain. Halini cukup memungkinkan
tidak diketahui hubungan antara pendapatan dan penjualan pizza yang ditunjukkan pada
gambar 15-13 (b). Kurva ini menyarankan penjualan pizza tidak terns bertambah seperti
perlambahan pendapatan. Sebagai gantinya orang-orang mulai pergi ke restoran yang
lebih lengkap dan membeli sedikit pizza. Kurva ini sesuai dengan nilai data asli seperti
garis regresi, tetapi memprediksi nilai yang jauh berbeda untuk penjualan pizza jika
pendapatan adalah 25. Sepanjang pengamatan hanya menyembunyikan pendapatan
didalam daerah sempit yang ditunjukkan, kita tidak punya cara untuk membedakan
antara dua situasi ini, dan ekstrapolasi berdasarkan garis regresi mungkin agak salah.
· Kenyataannya hubungan yang kuat antara dua variabel tidak menunjukkan aa sebab dan
akibat hubungan antara keduanya. Jika Anda mendapatkan garis regresi yang sesuai
dengan hubungan antara y dan x sangat baik, maka ada empat kemungkinan:
1. Nilai y mungkin benar-benar. tergantung pada nilai x, seperti yang telah kita
asumsikan.
2. Hubungan pengamatan mungkin terjadi secara lengkap oleh kemungkinan. Jika kita
mempunyai banyak pengamatan, ini tidak mungkin ekstrim, tetapi kita lihat pada
statistik kita tidak dapat mengubah kemungkinan kejadian yang signifIkanmungkin
terjadi secara random.

231
-- -

..

3. Mungkin ada tiga variabelyang mempengaruhi x dan y. Ini penjelasankemungkinan


yang paling banyak untuk situasi dimana dua variabel merupakan korelasi yang
cukup cekat tetapi tidak terlihat hubungan kausal antara mereka. Contoh, banyak
variabel yang tidak berhubungan cenderung bertambah karena waktu.
4. Sebenamya mungkin ada hubungan kausal antara x dan y, tetapi mungkin y
menyebabkan x. Kita boleh menentukan secara salah yang mana yang bariabel
dependen dan yang mana yang independen. Contoh, kita asumsikan pendapatan
yang lebih tinggi menyebabkan orang'-orang membeli pizza lebih banyak.
Bagaimanapun juga, hal itu mungkin terjadi seperti ini: saat orang-orang membeli
pizza lebih banyak, mereka menghasilkan pendapatan yang lebih banyak untuk
semua orang yang bekerja di tempat pizza, dan ini membawa efek ganda yang
menaikkan pendapatan di seluruh komunitas. Dapat juga penjualan pizza yang
lebih banyak menyebabkan pendapatan yang lebih tinggi. lni adalah contoh lain.
Anda mungkin telah mendapatkan hasil regresi yang kelihatannya menunjukkan
tingkat advertensi yang lebih banyak menyebabkan penjualan bertambah banyak.
Anggap perusahaan menempatkan biaya advertensinya pada dasar penjualan. Oleh
karena itu cukup mungkin penjualan yang lebih banyak menyebabkan biaya
advertensinya yang lebih banyak.
MEMPREDIKSI NILAI VARIABEL DEPENDEN
Telah kita perhatikan empat hal penting dalam memprediksi nilai y. Misalnya kita telah
tentukan x benar-benarmenyebabkan y, hubungan ini masih akan diterapkan selanjutnya dan
dapat secara tepat dijelaskan oleh garis regresi y =2,905x+ 14,577. Jika kita mengetahui nilai
pendapatan tahun depan sebesar 16, maka kita akan memprediksi nilai y tahun depan menjadi
2,905 x 16 + 14,577 = 61,06.
Pertanyaan selanjutnya adalah; Seberapa tepat prediksi ini? Kita hendaknya membuat
sebuah interval yang mempunyai kemungkinan 95 persen yang nilai y akan berada pada
interval (x = 16). Tipe sarna dengan confidence interval untuk parameter yang tidak diketahui.
Anggap untuk sementara kita mengetahui nilai m, cr,dan b sebenamya. Maka, jika x = xbaru,
kita mengetahui bahwa y akan berdistribusi nonnal dengan rata-rata yxbaru =mxbaru + b dan
variance cr2.Dengan demikian ada kemungkinan 95 persen nilai y akan diantara [(mxbaru+ b)
- 1,96 cr] dan [(mxbaru+ b) + 1,96 cr].
Sayangnya persoalan menjadi tambah buruk karena kita tidak mengetahui nilai m b dan
a yang sebenamya. Kini ada dua sumber ketidakpastian yang berkaitan dengan prediksi nilai
y: kita tidak mengetahui garis regresi sebenamya, dan prediksi nilai y akan menyimpang
secara random di sekitar garis. Fonnula untuk variance y yang diestimasi untuk nilai x yang
ditentukan adalah:

1
+-+
n
Var (y) ~ MSE C

232
Ingat bahwa variance bertambah besar bila nilai xbarulebih jauh dari x. Bila xbarulebih
mendekati x
, kita mempunyai keyakinan yang lebih besar bahwa estimasi garis regresi kita
mendekati garis regresi sebenarnya. Jika estimasi kita untuk slope garis sedikit berbeda dari
nilai sebenarnya, maka perbedaan ini akan menyebabkan estimasi garis regresi kita
menyimpang lebih jauh dari garis sebenarnya saat kita pindah lebih jauh dari x .

Bila x mempunyai nilai xbaru dan kita telah menghitung Ybaru= iiixbaru + b dan Var (y)
menggunakan di atas, maka prediksi interval untuk y adalah

dimana

Pr (-a < t < a) = CL


t adalah variabel random berdistribusi t dengan df n - 2
CL adalah confidence level (0,95)

Berikut ini adalah beberapa perhitungan sampel:

Nilai prediksi 95 persen prediksi


Nilai x y=mx+b interval untuk y

2 20,39 11,29 - 28,48


6 32,01 23,67 - 40,34
10 43,63 35,56 - 51,69
14 55,25 49,91 - 63,58
18 66,87 57,77 - 75,95
20 72,68 63,05 - 82,30

Gambar 15-14 menunjukkan prediksi interval dibandingkan gris regresi. Anda dapat
melihat bagaimana interval bertambah lebar seperti nilai x lebih juah dari x.

ANAL/SA RESIDUAL
Cara lain mendapatkan keterangan yang berharga tentang model regresi adalah membuat
gambar residual. Untuk tiap titik-titik data (Xi'y) kita dapat menghitung residual:

(residual ke-i) = yi - yxi = yi - (mxi + b)

233
-- - -

Marilah membuatdiagram penyebaran yang mengukurnilai x sepanjang sumbu horisontal


dan residual sepanjang sumbu vertikal. Beberapa program regresi komputer secara otomatis
akan menyiapkan diagram yang Anda harapkan. Pada contoh pizza kita mempunyai nil ai-
nilai berikut:

x Residual

5 -2,102
10 2,373
20 0,323
8 2,183
4 3,803
6 -4,007
12 -3,437
15 0,848

Gambar 15-15 menunjukkan diagram penyebaran.

Gambar 15-14

234
Gambar 15-15

Residual

3
2
..
.
.
I I I I I I I
4 8 12 16 20 24 x

-11
-2 .
.
: .
-y

Jika asumsi model regresi telah ditemukan, daerah residual kelihatan seperti susunan
titik-titik random. Seharusnya tidak ada sistem yang tampak jelas. Karena error pada model
diasumsikan berdistribusi normal, maka ada nilai yang lebih banyak mendekati nol daripada
jauh dari DOl.Secara khusus berikut ini adalah beberapa hal untuk melihat daerah residual:
· Di luar kedudukan. Di luar kedudukan adalah residual yang lebih besar (atau lebih
negatif) daripada yang lain. Padadiagram penyebaran yang sebenarnya, di luar kedudukan
akan ditunjukkan sebagai titik yang jauh dari estimasi garis regresi. Bila Anda telah
mengenali pengamatan yang mana yang berhubungan dengan titik di luar kedudukan,
maka Anda seharusnya memeriksa untuk meyakinkan bahwa pengamatan itu benar. Di
luar kedudukan mungkin dapat terjadikarenaAndamembuatkesaiahan yang berhubungan
dengan tipografi dalam memasukkan data untuk pengamtan itu, pada kasus mana Anda
dapat membenarkan kesalahan dan kembali pada regresi. Jika Anda yakin bahwa
pengamatan di luar kedudukan adalah benar, maka seharusnya Anda menyelidiki apakah
ada dasar khusus yang menyebabkan pengamatan yang menyimpangjauh dari yang lain.
Jika Anda yakin dasar yang menyebabkan di luar kedudukan tidak ada lagi, Anda boleh
mengakhiri pengamatan dan membuat regresi kembali dengan menyisakan titik-titik.
Jika, di sisi lain Anda dapat mengenali penyebab di luar kedudukan dengan variabel yang
seharusnya terdapat pada model, seharusnya Anda membuat model regresi berganda.
(lihat bab selanjutnya). Jika Anda tidak dapat mengenali beberapa penyebab di luar
kedudukan, maka Anda harus meninggalkan di luar kedudukan pada regresi dan
menganggapnya sebagai error random.
· Error yang tidak normal. Model regresi sebenarnyadiasumsikan bahwaerror berdistribusi
normal, tetapi daerah residual mungkin menunjukkan bahwa itu bukan persoalannya.
Estimator kuadrat terkecil m dan b adalah estimator tak bias dari nilai m dan b sebenarnya
baik error berdistribusi normal atau tidak, tetapi tes statistik yang telah kita buat semua
berdasarkan asumsi error normal.

235

-- --
· Variance yang tidak konstan. Kita sumsikan variance error yang berhubungan dengan
pengamatan adalah sama. Jika diagram residual menunjukkan bahwa residual lebih
besarpada satudaerahdiagram,bagaimanapunjugamungkinkeadaan initidakditemukan.
Daerah residual regresi pizza menunjukkan residual tersebut cendernng lebih besar
untuk nilai x yang lebih kedl, maka mungkin ada keadaan variance tidak konstan
(Pengamatan selanjutnya tidak membuat kesimpulan terbatas). Teknik untuk keadaan
dengan variance tak konstan di antara error adalah heteroskedastisitas. Pada keadaan
variance tak konstan, kadang-kadang dimungkinkanmengubah model ke dalam model
yang sama dengan variance konstan.
· Variabel-variabel yang terlupakan. Mungkin berharga untuk membuat daerah residual
dibandingkan dengan variabel independen lain yang kelihatannya signifIkantetapi tidak
tennasuk di dalam model. Jika ada hubungan antara residual dan variabel barn, Anda
seharnsnya membuat model regresi berganda yang memasukkan variabel tersebut.
· Nonlinieritas. Jika hubungan yang sebenarnya bukan garis lurns, daerah residual
biasanya akan menunjukkan keadaan ini dengan segera. Contoh, berikut ini adalah
pengamatan variabel x dan y:

x y Residual

I 10,000 0,786
2 10,800 0,386
3 11,664 0,050
4 12,597 - 0,217
5 13,605 - 0,409
6 14,693 - 0,521
7 15,869 - 0,546
8 17,138 - 0,476
9 18,509 - 0,305
10 19,990 - 0,024
11 21,589 0,375
12 23,316 0,902

Perhitungan regresi linier sederhana pada pengamatan ini memberikan slope 1,2 dan
intercept 8,014 dan r 0,986. Diagram penyebaran ditunjukkan pada gambar 15-16.
Daerah residual ditunjukkan pada gambar 15-17 secara jelas tidak random. Biola
residual mengikuti kurva terbatas seperti ini, maka ada bukti kuat bahwa model yang utama
bukan modellinier atau satu dari problem lain yang disebutkan di atas telah Ilampak. Pada
kasus ini kita dapat melihat nilai nilai x yang kecil atau besar, residual selalu positif, tetapi
untuk nilai x medium, residual selalu negatif. Pola ini menunjukkan hubungan antara x dan
y dapat lebih baik ditunjukkan dengan kurva daripada dengan garis.

236
Kini kita akan kembali ke perhatian perubahan model dengan kurva ke model yang sama
dengan garis lurns.

x y

1 10,000
2 10,800
3 11,664
4 12,597
5 13,605
6 14,693
7 15,869
8 17,138
9 18,509
10 19,990
11 21,589
12 23,316

Gambar 15-16

r
. .
..
.
22
24 t
. .
t . .
18
20

. .
14
.. .
12
10
I6r
6
...
4
2
I , , , , , , , , . , , ,
0 2 4 6 8 10 12 x

237

- --
---

Gambar 15-17

Residual

. .
. .
.
2 .4 6
. .
8 10 12

. ..
-1

YANG HARUS DIINGAT


1. Ada empat hal penting yang perlu diingat bila menggunakan persamaan regresi untuk
memprediksi nilai variabel dependen:
a. Sebelum variabel dependen dapat diprediksi, diperlukan membuat prediksi variabel
independen.
b. Garis regresi yang berdasarkan pada pengamatn lalu tidak akan dipercaya
memprediksi masa depanjika hubungan antara variabel dependen dan independen
berubah.
c. Prediksi ekstrapolasi kemungkinan tidak dapat dipercaya.
d. Kemungkinantidak adahubungan kausal antaradua variabel bahkanjika persamaan
regresi menunjukkan ada hubungan yang kuat.
2. Jika persamaan regresi kelihatannya dapat dipercaya memprediksi masa depan, interval
prediksi mungkin dibuat menunjukkan daerah nilai kemungkinan terbanyak untuk
variabel dependen.
3. Analisa regresi residual cukup membantu dalam problem seperti di luar kedudukan,
error tak normal, variance tak konstan, variabel yang terlupakan, dan non linieritas.

TRANSFORMASIDENGANLOGARITMA
Misalnya hubungan sebenarnya antara x dan y dapat ditunjukkan oleh persamaan
berikut:

238
.. --- --- -----

dimana c dan a adalah dua konstanta yang tidak diketahui. Kita tidak menggunakan regresi
linier sederhana untuk mendapatkan nilai c dan a. Untuk mengatasinya, kita hams ingat sutu
konsep yang disebut logaritma.
Memperhatikan pertanyaan ini: Angka berapa yang akan didapatkanjika 2 kita pangkatkan
7? Berikut ini adalah tabel pangkat 2:

22=4, 23= 8, 24= 16,


27= 128, 28= 265, 29= 512

Dapat kita lihat bahwa 128 adalah hasil 2 pangkat 7. Kini kita hadapi pertanyaan yang
berlawanan: 2 pangkat berapa sarna dengan 128? Hasilnya adalah logaritma 2 dari 128.Pada
kasus ini kita mengetahui hasilnya adalah 7. Pada notasi logaritma ditulis log2128 =7. Kita
juga dapatmenulis
log21 = 0, log22= 1, log24= 2, log28= 3,
log216= 4 log232= 5, dan seterusnya.

Ada beberapa fungsi logaritma yang lain. Angka positifkecuali 1 dapat menjadi dasar fungsi
logaritma. Pada umumnya, jika a adalah dasar fungsi logaritma, maka

logax = n berarti an =x
Dua dasar logaritma yang biasa dipakai adalah 10 dan angka khusus yaitu e, yang kira-kira
sebesar 2,71828. Ekspresi logx, yang tanpa dasar khusus biasanya adalah logaritma berdasar
10, yang disebut logaritma biasa. Contoh, log 10 = 1,log 100= 2, log 1000= 3, dan seterusnya.
Logaritma natural sangat penting untuk kalkulus.
Logaritma sangat berguna untuk tujuan kita karena dapat memenuhi sifat-sifat ini:

log(ab) =log a + log b


log
( :) =log a - log b

log an = n log a
Sifat-sifat ini berlaku untuk dasar logaritma apapun.
Contoh, jika hubungan antara y dan x ditunjukkan pada formula ini:

kita dapat letakkan logaritma di kedua sisi:

log y =log (caX)

239

- -- - ---
Menggunakan ~ifatlogaritma, dapat kita tulis:

log Y = log c + log aX


= log c + x log a
Marilah membuat defmisi ini:

b = log c, m = log a
Maka,

log y = b + mx

Hal tersebut kelihatannya sangat dikenal: kita telah mengubah model kita menjadi
keadaan dimana model garis regresi sesuai. Kita telah menggunakan nilai log y sebagai
variabel dependen sebagai pengganti nilai y.

Y log Y Y log Y

10,000 1,000 15,869 1,201


10,800 1,033 17,138 1,234
11,664 1,067 18,509 1,267
12,597 1,100 19,900 1,301
13,605 1,134 21,589 1,334
14,693 1,167 23,316 1,368

Kini kita dapat membuat perhitungan regresi linier sederhana, menggunakan x sebagai
variabel independen dan log y sebagai variabel dependen. Hasilnya adalah

slope = m = 0,0334 intercept = b = 0,966

Karena model aslinya adalah y = cax dengan b = log c dan m = log a, dapat kita hitung

c = 10°,966 = 9,3 dan a = 10°,0334 = 1,08

Maka, estimasi kita untuk model yang benar adalah

y = 9,3 x (l,08)X
Ingat bahwa kita menggunakan logaritma biasanya untuk perhitungan kita, tetapi Anda
boleh menggunakan logaritma natural. Fungsi ini adalah contoh yang disebut pertambahan
eksponensial karena variabel independen x muncul sebagai eksponen.

240
~

Berikut ini adalah situasi lain dimana perubahan dengan logaritma berguna. Misalnya
kita tentukan kuantitas yang diminta dari suatu barang adalah sebagai berikut:

Q=~.a

dimana p adalah harga barang, ~ dan a adalah parameter yang tidak diketahui. (Pada formula
ini a adalah elastisitas permintaan barang. Billa formula dituliskan seperti demikian,
diasumsikan elastisitasnya konstan). Sekali lagi kita perlu meletakkan logaritma di kedua
sisi:

log Q =log (~.a)


= log ~ - a log p
misalnyab = log ~ dan m = -a, maka
log Q = b + m log p

Kini kita dapat mengestimasikan b dan m dengan membuat perhitungan regresi linier
sederhana menggunakan log p sebagai variabel independen dan log Q sebagai variabel
dependen.

YANG HARDS DIINGAT


1. Jika an = x, makalogax= n (n adalahlogaritmaberdasara dari x).
2. Logaritma khususnya berguna dengan model regresi karena dapat digunakan pada
perubahan hubungan kurva menjadi hubungan garis lurus.
3. Jika hubungan x dan y adalah y =eax, maka persamaan perubahan adalah

log y = loe e + x log a

4. Jika hubungan antara x dan y adalah y =exn, maka persamaan perubahan adalah

log y = log e + n log x

241

--
- - --- - -

BabXVI RegresiLinierBerganda

KATAKUNCI
statistik F adalah statistik yang digunakan untuk menguji hipotesa yang nilai sebenamya dari
tiap koefisien pada persamaan regresi adalah O.
regresi berganda adalah metode statistik untuk menganalisa hjubungan antara beberapa
variabel indepdnen dan satu variabel dependen.
statistik t adalah statistik yang digunakan untuk menguji hipotesa yang nilai sebenamya dari
satu koefisien khusus adalah O.

BEBERAPAVARIABELINDEPENDEN
Pada beberapa kenyataan akan ada lebih dari satu varibel independen yang
mempengaruhi variabel dependen yang Anda inginkan. Pada kasus ini kita perlu
menggunakan teknik yang disebut regresi berganda. Pada bab 15 telah kita bicarakan
keadaan dim ana pendapatan adalah varibel yang hanya mempengaruhi permintaan
pizza. Keadaan demikian kelihatannya sangat tidak realistik. Pada teori ekonomi
banyak variabel yang berbeda yang dapat mempengaruhi permintaan. Pada tambahan
pendapatan, satu dari variabel yang diharap penting adalah harga barang. Kita akan
menyelidiki pengaruh pendapatan dan harga pada kuantitas buku statistik yang
diminta.195

CONTOH PENGGUNAAN REGRESI BERGANDA


Misalnya kita mempunyai pengamatan tentang jumlah buku statistik yang
terjual, harga buku tersebut, dan pendapatan perkapita di 15 kota dalam beberapa
periode. Kita anggap y mewakili variabel independen dimana kuantitas buku
statistik terjual. Kita mempunyai dua variabel indepdnen: Ximewakili harga dan x2
mewakili pendapatan.

242