KAT A KUNCI
statistik F adalah statistik yang digunakan untuk menguji hipotesa yang nilai sebenarnya dari
tiap koefisien pada persamaan regresi adalah O.
regresi berganda adalah metode statistik untuk menganalisa hjubungan antara beberapa
variabel indepdnen dan satu variabel dependen.
statistik t adalah statistik yang digunakan untuk menguji hipotesa yang nilai sebenarnya dari
VARIABEL INDEPENDEN
Pada beberapa kenyataan akan ada lebih dari satu varibel independen yang
mempengaruhi variabel dependen yang Anda inginkan. Pada kasus ini kita perlu
menggunakan teknik yang disebut regresi berganda. Pad a bab 15 telah kita bicarakan
keadaan dimana pendapatan adalah varibel yang hanya mempengaruhi permintaan
pizza. Keadaan demikian kelihatannya sangat tidak realistik. Pad a teori ekonomi
banyak variabel yang berbeda yang dapat mempengaruhi permintaan. Pada tambahan
pendapatan, satu dari variabel yang diharap penting adalah harga barang. Kita akan
menyelidiki pengaruh pendapatan dan harga pada kuantitas buku statistik yang
diminta.195
242
Kota
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
x1(barga)
xz(Pendapatan)
10
9
10
14
8
15
6
10
7
10
11
20
21
.12
16
24
24
23
15
20
19
25
21
19
20
14
15
8
12
10
dimana Yimewakili nilai variabel dependen ke-i, dan Xijmewakili nilai variabel independen
kei-i. Kita memerlukan dua buah huruf yang ditulis agak ke bawah (il, i2, ...) karena kita harus
menggunakan satu huruf tersebut untuk nomer pengamatan dan huruf yang lain untuk angka
variabel. Untuk pengamatan di atas adalah XIIadalah 10, X21adalah 9, XI2adalah 20, X22adalah
21 dan seterusnya.
Nilai sebenarnya dari BI, B2, B3 tidak diketahui, tetapi kita akan mencoba untuk
mengestimasinya. BI mewakili pengaruh XIterhadap y, jika x2 konstan. Demikian juga B2
mewakili x2mewakili pengaruh x2terhadap y, jika XIkonstan. Jika XInaik sebesar 1 dan yang
lain konstan, maka y akan sebesar BI' Bila kita bentuk model seperti cara ini kita asumsukan
pengaruh XIdan x2terhadap y adalah merupakan tambahan. Hal ini berartijumlah Xlterhadap
y adalah merupakan tambahan. hal ini berarti jumlah XI yang mempengaruhi y tidak
tergantung pada tingkat x2' dan sebaliknya. Kita mengharapkan B2 akan positif, karena
banyak buku yang akan dibeli bila pendapatan lebih tinggi, tetapi Bl akan negatif, karena
sedikit buku yang akan diminta bila harga lebih tinggi. B3dikenal dengan istilah konstan pada
model. Hal ini analog dengan intercept y pada model regresi linier sederhana.
Sekali lagi, e adalah variabel random yang disebut istilah error yang mewakili pengaruh
dari semua faktor yang memungkinkan disamping harga dan pendapatan yang dapat
mempengaruhi permintaan buku statistik. Harapan nilai e adalah 0 adalah 0 dan variance e
243
--
adalah (J2,yang tidak diketahui. Kita akan mengasumsikan bahwa e berdistribusi normal.
DUAPERBEDAAN ANTARAREGRESISEDERHANADANREGRESIBERGANDA
Pada prinsipnya, kita akan melanjutkan secara tepat seperti yang telah kita lakukan
dengan regresi linier sederhana, dimana hanya ada satu variabel independen. Kita akan
menghitung nilai B1, B2, B3 yang meminimkan jumlah error kuadrat antara nilai yang
diprediksi oleh persamaan dan nilai sebenarnya. Ada dua pokok perbedaan antara regresi
linier sederhana dan regresi berganda:
Kita tidak dapat menggambarkan hubungan. Secara nyata, jika hanya ada dua variabel
independen, kita berusaha menggambar pandangan tiga dimensi dengan Xldan x2pada
sumbu horisontal, y pada sumbu vertikal dan satu titik yang menghubungan tiap
pengamatan. Tujuan kita adalah mengetahui bidang yang meminimkan jumlah error
kuadratdari deviasivertikalantaratiappengamatandanbidangtersebut.Menggambarkan
hal ini adalah sangat sulit. Jika ada lebih dari dmi variabel indepdnen, adalah tidak
mungkin menggambarkandiagram. (Ahlimatematikmasih memikirkantiap pengamatan
dan tujuan regresi berganda pada kasus ini untuk menemukan sesuatu yang disebut
hyperplane yagn sesuai dengan semua pengamatan).
Proses perhitungan regresi berganda lebih sulit daripada regresi linier sederhana. Tetapi
hal itu tidak mengkhawatirkan karena dapat dilakukan oleh komputer. Pada buku ini
tidak akan dijelaskan bagaimana bentuk perhitungan regresi berganda. Memahami
perhitungan itu membutuhkan pengetahuan tentang matriks perkalian dan matriks
inversi. Pada keadaan nyata dimana Anda perlu membuat perhitungan regresi berganda,
Anda akan bekerja dengan paket statistik komputer.
Pada sisa bab kita akan membicarakan bagaimana menginterpretai hasil analisa regresi.
Pada regresi berganda diasumsikan bahwa nilai sebenarnya hubungan antara variabel
dependen y dan m - 1 variabel independen Xl' X2,..., Xm_l
ditunjukkan oleh persamaan ini
2.
Bm+e
dimana e adalah variabel random normal dengan rata-rata 0 dan variance (J2yang tidak
diketahui.
.
Jika Anda mempunyai daftar pengamatan tiap variabel, maka program regresi komputer
akan menghitung nilai estimasi tiap koefisien B1, B2, ..., Bm'
penjualan
lebih
_.
rendah.
~,;,;:_:;:'-""";;:.~:_;;:;:::;:;:::.._:',:ooc.,.:.:_.:.:.,.:.:,
Koefisien
,,-_
X2 adalah
positif,
artinya
pendapatan yang lebih tinggi mengakibatkan penjualan yang lebih tinggi. Kita dapat
menggunakan koefisien nilai estimasi untuk memprediksi nilai y (mengenai pembicaraan
empat hal penting pada bab 15).Contoh, jika kita telah mengetahui kota dimana pendapatan
rata-ratanya 20 dan harga buku statistik adalah 6, maka kita akan memprediksi kuantitas buku
statistik yang diminta menjadi
(-7,738 x 6) + (12,286 x 20) - 2,765 = 196,5
Pada umumnya, kita gunakan bl mewakili estimasi komputer dari koefisien B\, b2untuk
mewakili estimasi komputer dari koefisien B2dan seterusnya. Kita akan memperhatikan
dimana ada m-l variabel independent. Pada kasus ini kita mempunyai koefisien m untuk
mengestimasi (menghitung istilah konstan). Hasil regresi komputer akan terlihat seperti
berikut:
= L (y;_
Y)2
Kembali kita menggunakan L untuk rata-rata Li = I' Ingat TSS adalah sarna seperti
kuantitas yang disebut SErt pada regresi linier sederhana. Kita akan menggunakan yi untuk
mewakili nilai y regresi yang diprediksi untuk pengamatan ke-i.
.. A
A
A
A
YI.=b \ x.11 +b 2x.12 +...+b m- I X.I,m- I +b m
Untuk tiap pengamatan kita dapat menghitung perbedaan antara nilai y yang diprediksi
oleh garis regresi dan nilai rata-rata y. Selanjutnya kita dapat menjumlahkan semua kuadrat
dari deviasi dan menyebutnya dengan jumlah kuadrat regresi (RGRSS) :
RGRSS = L (Yi - Y)2
Kemudian kita dapat menghitung residual tiap pengamatan, dimana perbedaan antara
nilai y sebenamya dan nilai yang sesuai dari garis regresi:
. - .. .
(residual.)
1 =YI y I
--
ERRS
= L (Yi- yY
Kuantitas ini analog dengankuantitas yang disebut SEgarispada regresi linier sederhana.
Dengan membentuk macarn perhitungan yang sarna yang terbentuk pada bab 14, dapat
kita lihat
TSS
=RGRSS
+ ERSS
Dapat kita pikirkan TSS mewakili variasi total nilai y. RGRSS adalah jumlah variasi ini
yang dapat dijelaskan oleh regresi, dan ERSS adalah jumlah variasi tersisa yang tidak dapat
dijelaskan oleh regresi. Jika regresi sesuai dengan data, maka nilai RGRSS akan lebih besar
daripada nilai ERSS. Dapat kita hitung R2 dari formula berikut:
ERSS
R2
= 1TSS
=RGRSS
TSS
Pada contoh buku statistik kita dapatkan:
Kota
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
total
246
Y1
XI
Xz
166
180
73
81
229
182
233
102
10
9
10
14
8
15
6
10
7
10
11
15
8
12
10
20
21
12
16
24
24
23
15
20
19
25
21
19
20
14
190
150
221
137
173
150
92
Y1
(Yj
- Y)
165,579
0,421
185,603 -5,6034
67,291
5,709
85,484 -4,484
230,199 -11,199
176,035
5,965
233,389 -0,389
104,149 -2,149
188,793
1,207
153,293 -3,293
219,272
1,728
139,177 . -2,177
4,231
168,769
150,104 -0,104
91,863
0,137
yi
(YI- yi)2
0,177
31,397
32,597
20,106
1,439
35,582
0,151
4,618
1,457
10,846
2,985
4,738
17,902
0,011
0,019
164,025
-Y
8,73
22,733
-84,2567
-76,267
.
(yi
- y)2
24,733
75,733
-55,267
76,265
516,789
7100,927
5816,655
5145,623
611,721
5735,487
3054,441
32,733
-7,267
63,733
-20,267
15,733
-7,267
-65,267
1071,449
52,809
4061,895
410,751
247,527
52,809
4259,781
71,733
38214,922
RGRSS
(Catat: Ada perbedaan yang sedikit pada beberapa perhitungan regresi ini karena beberapa
hasil tengah yang telah dipenuhi). Kemudian dapat kita hitung:
38050,909
=0,996
38214,933
Estimasi persamaan regresi sesuai dengan titik-titik ini. Ada yang perlu diperhatikan saat
R2)
=1_
(1 - R2) (n - 1)
n-m
Adjusted R2 tidak akan selalu meningkat jika Anda menambah variabellain
menaikkan nilai m.
ST A TISTIK
karena
Misalnya ada beberapa orang yang tidak percaya adanya hubungan antara variabel
dependen dan variabel independen pada regresi Anda. Orang tersebut membuat hipotesa nol
sebagai berikut:
Ho:
BI
= B2 = ...Bm_1= 0
Orang tersebut berpikir bahwa koefisien nilai sebenarnya untuk semua m-1 variabel
independen adalah no1.Untuk menguji hipotesa tersebut Anda dapat menghitung statistik
berikut:
RGRSS
m-1
F=
ERSS
n-m
247
---
Statistik ini disebut statistik F regresi. Jika hipotesa nol adalah benar, maka akan
mempunyai distribusi F dengan df m - 1 pada pembilang, dan df n - m pada penyebut. (Ingat
bahwa n adalah banyak pengamatan dan m - 1banyak variabel independen). Jika hipotesa nol
adalah salah, maka kita mengharapkan RGRSS lebihbesar daripada ERSS, sehingga statistik
F akan lebih besar daripada jika hipotesa nol benar. Pada kasus kita, nilai statistik F adalah
1392 yang lebih besar dari 3,9 (95 persen nilai kritis untuk distribusi F dengan df 2 dan 12).
Dengan demikian kita dapat menolak hipotesa nol dengan pasti.
Hasil ini dapat diringkas pada tabel analisa variance (NOVA) (lihat bab 14):
Variasi
Jumlah Kuadrat
Degree of
Freedom
Regresi
Error
38.050,909
164,025
2
12
total
38.214,922
14
Kuadrat
Rata-rata
Rasio F
19.025,455
13,669
1.391,98
Kita sebut ERSS/(n - m) error kuadrat rata-rata (MSE) dan akan kita gunakan sebagai
estimator dari variance (32yang tidak diketahui. Pada kasus ini MSE = 13,669.
KOEFISIEN UJIINDIVIDUAL
Kini kita akan mulai dengan analisa statistik koefisien individual. langkahnya hampir
sarna dengan langkah pada regresi sederhana. Pada bab 15 diketahui bahwa m (estimator
kuadrat terkecil slope pada garis regresi) berdistribusi normal yang rata-ratanya sama dengan
nilai slope sebenarnya dan variancenya sarna dengan (32dibagi dengan lambang yang sulit
yang tergantung pada x. Kita dapat menemukan hasil analog pada kasus regresi berganda.
248
Nilai standar error yang lebih kecil menunjukkan estimasi koefisien lebih dapat
dipercaya.
Seperti yang telah Anda harapkan, kuantitas (bi- B)fs(b) berdistribusi t dengan df n - m.
Dengan demikian, kita dapat menghitung confidence interval untuk Bj:
bi :t as(b)
dimana Pr (-a < t < a) = CL
CL adalah confidence level
t adalah variabel random yang mempunyai distribusi t dengan df n - m
Kitajuga dapat menguji tes hipotesa bahwa Bi =O. Jika Bi = 0, maka Xitidak mempunyai
pengaruh pada y. Jika hipotesa benar, maka kuantitas b/s(b) akan berdistribusi t dengan df
n - m. Kuantitas ini disebutstatistik t untukkoefisien ke-i. Nilai statistik t sering dihitung oleh
program regresi komputer. (Jika tidak, Anda dapat menghitungnya dengan mudah seklai
Anda mengetahui bi dan s(b). Untuk contoh buku statistik, kita mempunyai:
Variabel
Koefisien
Standar error
Statistik t
-7,738
12,286
-2,765
0,364
0,257
6,39
-21,3
47,8
-0,43
Harga
Pendapatan
Konstan
t untuk harga dan pendapatan berada di luar nilai tersebut, sehingga kita dapat menolak
hipotesa yang mengatakan koefisien harga atau pendapatan adalah nol. Bagaimanapun
juga, kita tidak daapt menolak hipotesa yang nilai sebenarnya dari konstan sama dengan
nol.
YANG HARUS DIINGA T
Komputer akan menghitung, pada tambahan untuk mengestimasi B!, B2, ..., Bm'berikut
fit:
Nilai R2 pada regresi (nilai yang mendekati1 berarti nilai estimasioleh persamaan
regresimendekatinilai y sebenarnya).
Statistik F pada regresi (digunakan untuk menguji hipotesa yang koefisien semua
variabel independen adalah nol).
Standar error pada tiap koefisien.
249
--
--
-.
ANAL/SA LANJUT MODEL REGRESI
Akan disebutkan beberapa topik yang berlaku pada analisa regresi. Beberapa topik
tersebut sama dengan regresi berganda dan regresi sederhana, tetapi ada beberapa hal khusus
yang timbul hanya dengan regresi berganda.
Residual. Sekali Anda telah menghitung residual regresi, Anda dapat membuat analisa
visual yang baru saja kita lakukan pada bab lalu. Anda boleh membuat beberapa diagram
penyebaran yang membandingkan residual dengan variabel independen. Pada tiap kasus
seharusnya tidak ada contoh nyata. Jika Anda mempunyai data time series, dapat juga
membantu membuat daerah residual dengan waktu. Ini dapat juga membantu menentukan
daerah resdual yang bertentangan variabel independen yang lain yang tidak termasuk
dalam model. Jika residual kelihatan berhubungan dengan variabel tersebut, maka Anda
seharusnya memasukkannya dalam model.
Transformasi. Model non linier dapat ditransformasikan menjadi linier dengan cara
menggunakan logaritma atau beberapa macam transformasi lainnya. Contoh, jika
250
dan Anda dapat mengestimasi nilai bo' bl' b2dan b3dengan regresi linier biasa.
Korelasi bersambung. Pada model regresi kita telah mengasumsikan bahwa semua error
adalah independen. Misalnya kita mempunyai pengamatan time series dimana nilai
positif untuk satu periode lebih mungkin diikuti dengan nilai positif untuk periode
selanjutnya. keadaan ini disebut dengan korelasi bersambung atau autokorelasi.
Estimator kuadrat terkecil kurang dapat dipercaya pada keadaan ini. Program regresi
komputer secara normalakan menghitung nilai statistik yang disebut statistik DurbinWatson. Nilai kecil dari statistik ini menunjukkan keberadaan satu tipe khusus korelasi
bersambung. (Seberapa kecil?Jikakomputer tidak memberitahukan kepada Anda, Anda
perlu melihat pada tabel Durbin-Watson). Pada kasus korelasi bersambung hasil regresi
dapat lebih dipercaya dengan mencoba menemukan varibel independen yang lain untuk
menambah pada model atau membentuk transformasi yang meliputi perbedaan antara
nilai-nilai variabel berturut-turut.
Multikolinearitas. Bila dua atau lebih variabel independen cukup dekat korelasinya,
maka timbulproblem multikolinearitas.Jika semua varibel independen tidakberkorelasi,
maka model regresi Anda masih dapat secara akurat mengestimasi koefisien variabel
pada model bahkanjika beberapa variabel independen telah hilang. Bagaimanapunjuga,
kofisien kurang dapat dipercaya dalam mengestimasijika beberapa variabel independen
berkorelasisangat tinggi.Pada kasusekstrimdimanadua variabelindependenberkorelasi
secara sempuma, adalah tidak mungkin untuk menghitung estimator kuadrat terkecil.
Juga statistikt untukkoefisien individualtidakdapat dipercayabila adamultikolinearitas.
-------.--.---.
- -.
-. - - -- ...-
Biladua variabelindependencukuptinggikorelasinya,adalahtidakmungkinmemisahkan
pengaruh independennya.Contoh,misalnyaAnda mencobamenyelidikipengaruhpendapatan
dan pendidikan terhadappermintaan produk Anda. Anda telah mengumpulkan informasi dari
sarnpel besar alat-alat rumah tangga. Anda mungkin ingin menemukan orang-orang dengan
pendapatan lebih cenderung mempunyai pendidikan tinggi, sehingga dua variabel cukup
tinggi korelasinya. peraturan menyatakan bahwa problem multikolinearitas timbul jika
koefisien korelasi antara dua variabellebih besar daripada 0,7. Jika Anda mengaarnti orangorang yang pendapatannya tinggi cenderung membeli produkAnda lebih banyak, Anda tidak
tahu apakah mereka begitu karena mereka mempunyai pendapatan yang lebih tinggi atau
pendidikan yang lebih tinggi.
Berikut ini adalah contoh yang harnpir sarna. Misalnya Anda mempunyai pengamatan
reaksi kimia khusus yang terjadi lebih cepat ditempat hangat atau terang daripada di tempat
dingin atau gelap. Bagaimanapun juga Anda tidak dapat mengatakan apakah hangat dan
terang mempercepat reaksi ataut idak, karena dua variabel independen (suhu dan jumlah
terang) berkorelasi pada pengarnatan Anda, cara yang paling baik untuk memecahkan
problem akan mencapai pengamatan reaksi -ditempatpanas gelap dan dingin terang.
Analog dengan hal ini, pemecahan yang paling baik pada pendapatan/pendidikan akan
mencapai pengarnatan orang-orang dengan pendapatan tinggi/pendidikan rendah dan
pendidikan tinggi/pendapatan rendah. Bagaimanapun juga mungkin sulit menemukan orang-orang tersebut. Anda mungkin tidakmempunyai pilihan terbaik daripada menghilangkan
pendidikan atau variabel pendapatan dari regresi dan mengingat bahwa koefisien variabel
lainnya menunjukkan kombinasi pengaruh dua variabel.
Variabeldummy (variabelboneka). Banyakfaktoryang mempengaruhivaribel dependen
bukan faktor kuantitatif yang dapat ditunjukkan oleh angka. Misalnya, anggap Anda
menyelidiki perilaku konsumsi antara tahun 1930 sampai 1950. Anda mengharapkan
perilaku konsumen akan berbeda secara signifikan selama Perang Dunia II dibanding
sebelum dan sesudah perang. Untuk mempertimbangkan pengaruhnya, Anda dapat
membuat variabel buatan yang akan bernilai 1 selama tiap tahun perang dan bernilai 0
selarna tiap tahun lainnya. Macarn variabel ini disebut varia bel dummy atau variabel
indikator. Koefisien variael dummy Perang Dunia II menunjukkan berapa banyak
pengaruhperang mempunyainilaikonstanpada regresi.Variabeldummydapat ditunakan
dalam beberapa keadaan berbeda dengan regresi.
Persamaan simulateous. Analisa regresi digunakan untuk membuat model ekonomi
yang mencoba memprediksi kegiatan ekonomi. Cabang ekonomi yang melibatkan
analisa tersebut disebut ekonometri. Model ekonometri memerlukan analisa regresi
diterapkan pada banyak persarnaan yang berbeda. Cara menerapkan regresi pada
keadaan ini disebut analisa persamaan simultaneous.
YANG HARUS DIINGAT
----
2.
3.
4.
Problem multikolinearitas timbul bila dua atau lebih variabel independen saling
berkorelasi.
Penggunaan variabel dummy yang selalu mempunyai nilai 0 atau 1 memungkinkan
memasukkan faktor nonkuantitatif pada persamaan regresi.
Pembuatan model ekonometri memerlukan aplikasi metode regresi untuk beberapa
persamaan yang hams benar secara simulton.
pengamatan.
5.
6.
252