Anda di halaman 1dari 41

Bab 2.

MODEL REGRESI LINEAR


SEDERHANA

Oleh
Bambang Juanda
Pengertian Model & Tujuan Pemodelan
Perumusan masalah  Model
Model: Abstraksi realitas  dlm pers matematika
Model ekonometrika: model statistik yg mencakup error

Y = f(X1, X2, ..., Xp) + error (2.1)


data aktual = dugaan + sisaan (simpangan)
data = komp. sistematik + komp. non-sistematik
dugaan Y = f(X1, X2, ..., Xp) (2.2)

diharapkan unsur-unsur ketidak-teraturan nilai Y dapat


dijelaskan oleh nilai-nilai dari peubah X1, X2, ..., dan Xp
berdasarkan model dugaan dalam persamaan (2.2). Oleh
karena itu, komponen sisaan diusahakan menjadi relatif kecil
dibandingkan komponen dugaannya.
Deskripsi komponen error :
1. Kesalahan pengukuran dan proxy dari peubah respons
Y maupun peubah penjelas X1 X1, X2
X2, ..., dan Xp
Xp.
2. Asumsi bentuk fungsi f yang salah. Mungkin
Mungkin ada
bentuk fungsi lainnya yang lebih cocok, linear maupun
non--linear.
non
3. Omitted variables.
variables. Peubah (variable
(variable)) yang seharusnya
dimasukkan ke dalam model, dikeluarkan karena
alasan--alasan tertentu (misalnya penyederhanaan,
alasan
atau data sulit diperoleh dan lain-
lain-lain).
4. Pengaruh faktor-
faktor-faktor lain yang belum terpikirkan atau
tidak dapat diramalkan (unpredictable
(unpredictable effects).
effects).
Model Regresi Linear Sederhana
• Hubungan antar Peubah dlm Fungsi Linear dlm Parameter
• Garis Lurus yg Paling Cocok dgn Data
Model Populasi:
Slope Error
intersep Y Acak

Peubah
Respons
Yi   0  1 X i   i Peubah
Penjelas
(dependent) (Independent)
penyebab; mudah
akibat; sulit atau mahal diukur
atau murah diukur

Model Regresi Contoh: Yi  b0  b1 X i  ei


Model Regresi Linear
Populasi
Y Yi  b 0  b1X i  e i Nilai Peng-
amatan

ei = Error Acak

m  b 0  b1 X i Dugaan
Y/X i

X
Nilai Pengamatan
Persamaan Regresi Linear Sederhana
(Teladan)

Annual
Store Square Sales
Feet ($000)
1 1,726 3,681
Ingin mengkaji hubungan
2 1,542 3,395
antara luas lantai toko (hasil
pertanian) dengan total 3 2,816 6,653
penjualan tahunannya. Data 4 5,555 9,543
contoh utk 7 toko telah 5 1,292 3,318
diperoleh. Tentukan 6 2,208 5,563
persamaan garis lurus yg
7 1,313 3,760
paling cocok dgn data tsb
Diagram Pencar (Scatter
(Scatter Diagram)
Diagram)
12000
Penjualan ($000) 10000
8000
6000
4000
2000
0
0 1000 2000 3000 4000 5000 6000

Luas Lantai (Square Feet )

Mana peubah X dan mana peubah Y? Mengapa?


Model Regresi Linear Contoh
Y i  b 0  b1 X i  e i

Y i  b 0  b1 X i

Yi = Nilai dugaan Y utk pengamatan ke-i

Xi = Nilai X utk pengamatan ke-i

b0= Dugaan bagi koef intersep populasi 0 ;


rata-rata Y jika X=0
Y
 b1 = Dugaan bagi koef slope populasi 1 ;
X rata-rata perbedaan Y jika X berbeda 1 unit
Metode (Jumlah
(Jumlah)) Kuadrat (Sisaan
(Sisaan)) Terkecil:
MKT atau Ordinary Least Squares

Mencari dugaan koefisien yg menghasilkan jumlah kuadrat


simpangan antara data aktual dgn data dugaan MINIMUM

ˆ 2
ei  ˆi  Yi  Yi , dan minimumkan q =  ei shg
i =1

n n n n
  X i  X Yi  Y  n  X iYi   X i  Yi
i 1 i 1 i 1 i 1
 b n
 2
2 n n
 X i  X  n X i 2 
  Xi 

i 1 i 1  i 1 
  a  Y  bX
Persamaan Garis Lurus “Terbaik”

Y i  b 0  b1 X i
 1636 . 415  1 . 487 X i
Predictor Coef SE Coef T P
Constant 1636.4 451.5 3.62 0.015
X 1.4866 0.1650 9.01 0.000

S = 611.752 R-Sq = 94.2% R-Sq(adj) = 93.0%

Analysis of Variance
Source DF SS MS F P
Regression 1 30380456 30380456 81.18 0.000
Residual Error 5 1871200 374240
Total 6 32251656
Grafik Garis Lurus
Terbaik
12000
Penjualan ($000)

10000
8000
6000
4000
2000
0
0 1000 2000 3000 4000 5000 6000

Luas Lantai (Square Feet )


Interpretasi Koefisien

Yi = 1636.415 +1.487Xi
Interpretasi Nilai slope 1.487 (‘umumnya’): utk kenaikan
1 unit dlm X, diduga Y akan meningkat 1.487unit.

Interpretasi ‘paling tepat’ dlm kasus ini:


• Rata2 perbedaan total penjualan antara toko yg
luasnya berbeda 1 square feet adalah $1487 per th
Implikasi dari dugaan slope (dgn asumsi tertentu):
• Jika ukuran lantai toko naik 1 square feet, model tsb
memprediksi bahwa total penjualan yg diharapkan
akan meningkat $1487 per th.
Asumsi Model Regresi Linear
Kenormalan & Kebebasan
– Nilai-nilai Y Menyebar Normal utk masing-
Nilai- masing-
masing nilai X; dgn E(Yi)=b0+b1 Xi dan
Var(Yi) =2 utk semua i.
– (i) Sebaran Peluang Error adalah Normal,
Bebas dan Identik dengan E(ei)=0 dan
var(ei)=2 untuk semua i.
– (ii) Peubah X dan ei bebas
Homoskedastisitas (Ragam Konstan)
Sisaan (Error
(Error)) bebas
Ragam Error
Sekitar Garis Regresi
Nilai-nilai y menyebar normal di
f(e) sekitar garis regresi.
Utk masing-masing nilai x,
“sebaran” atau ragam disekitar
garis regresi adalah sama.

Y
X2
X1
X Garis Regresi
Dugaan Galat baku (Standard
(Standard Error)
Error)
n
ˆ 2
JKS  (Yi  Yi ) Simpangan Baku
ˆ  S y / x   i 1 pengamatan-pengamatan
n2
n2 disekitar garis regresi

bi ~ N(i;2 )
Jika asumsi tentang peubah acak I bi
dipenuhi maka masing-masing dugaan
koefisien akan menyebar normal dgn
E(b0)=b0 dan E(b1)=b1 serta dugaan ragam: i bi
  SY / X
2
1 X 2  2 Sb  n
b   n  1
2
0

 n   X i  X 2  ( Xi  X )
 i 1  i 1
Teladan: Toko Hasil Pertanian
Model Regresi yg
diperoleh:
Data utk 7 Toko: 
Annual Yi = 1636.415 +1.487Xi
Toko Square Sales
Feet ($000) Slope model ini adalah
1.487.
1 1,726 3,681
2 1,542 3,395 •Apakah ada hubungan linear
3 2,816 6,653 antara ukuran luas toko dgn
total penjualan tahunannya?
4 5,555 9,543
5 1,292 3,318 •Apakah total penjualan dpt
diprediksi dari ukuran luas
6 2,208 5,563
lantai tokonya?
7 1,313 3,760
Inferensia mengenai Slope: Uji-
Uji-t
Yi   0  1 X i   i
• Uji-t utk Slope Populasi
Ada Hubungan Linear antara X dgn Y ?
• Hipotesis Nol dan Alternatif
H0: b1 = 0 (X tidak dpt menjelaskan Y)
H1: b1  0 (X dapat menjelaskan Y)

b1   1 SY / X
• Statistik Uji: t  dimana Sb 
S b1 1 n
2
(Xi  X )
i 1
dan db = n - 2
Inferensia ttg Slope: Contoh Uji-
Uji-t

H0: b1 = 0 Statistik Uji-t :


H1: b1  0
t S tat P-valu e
a  .05 In te rce p t 3.6244333 0.0151488
X V a ria b le 1 9.009944 0.0002812
db  7 - 2 = 5
Nilai--nilai kritis :
Nilai Keputusan:
Tolak H0 Tolak H0 Tolak H0

.025 .025
Kesimpulan:
Terbukti ada hubungan. Makin
t luas ukuran Toko, makin tinggi
-2.5706 0 2.5706 penjualannya
Selang Kepercayaan Slope
b1 ± tn-2 Sb1
Output Excel masalah Produce Stores
L o w er 95% Up p er 95%
In te rce p t 475.810926 2797.01853
X V a ria b le 11.06249037 1.91077694

95% yakin nilai slope antara 1.062 s/d 1.911.


(Selang Kepercayaan ini tdk mencakup nilai 0)

Kesimpulan: Ada hubungan linear yg nyata antara


penjualan tahunan dgn ukuran toko.
Taraf Nyata, a dan Daerah Penolakan
b1 ~ N(I;2 )
b1
1 b1
H0: 1 k a
H1: 1 < k
Daerah 0 t
Penolakan a
H0: 1  k (ttk kritis)
H1: 1 > k
0 t
a/2
H0: 1 k
H1: 1  k
0 t
Asumsi Model Regresi Linear: Peubah acak εi
(i) ei ~ N(0;2 ) menyebar Normal, bebas dan identik utk i=1,.. ,n.

0 ei  Bebas: Cov(εt, εs)= E(εtεs)=0 untuk t≠s.


(ii) X fixed variable
 Homoskedastisitas: Var(εi)= E(εi2)=2.

 Dugaan Koefisien i dengan OLS bersifat TAK BIAS dgn RAGAM


MINIMUM (Best Linear Unbiased Estimator), dan menyebar Normal.

^
 Dugaan Rata2 Y utk μ Y/X i ~ N(0+1Xi;2 )
Xi tertentu menyebar μ
Yi
Normal ^
μ Y/X i

 0 +  1X i
 Dugaan Individu Y utk Xi
ttt sama dgn dugaan
^
rata2nya, juga Y/Xi ~ N(0+1Xi;2 )
menyebar Normal, dgn Yi
^
ragam lebih besar Y/X1
Dugaan Selang Nilai-
Nilai-Nilai Ramalan

Selang kepercayaan bagi mYX,


Rataan Y utk Xi tertentu

Selang bervariasi sesuai jaraknya


Standard error terhadap rataan, X.
dugaan
2
1 ( Xi  X )
Ŷi  t n  2  Syx  n
n  ( X  X )2
nilai t dari tabel i
dgn db=n-2
i 1
Dugaan Selang Nilai-Nilai Ramalan

Selang Kepercayaan bagi Dugaan


Respons individu Yi utk Xi tertentu
Tambahan 1 ini membuat selangnya lebih lebar dari
SK bagi rataan Y, µ XY

2
1 ( Xi  X )
Ŷi  t n  2  Syx 1  n
n  ( X  X )2
i
i 1
Dugaan Selang utk Nilai-nilai X yang
Berbeda

Selang Kepercayaan Selang


utk individu Yi Kepercayaan
Y utk rataan Y

_ X
X Xi tertentu
Data for 7 Toko: Dugalah penjualan tahunan
Annual utk suatu toko berukuran
Toko Square Sales 2000 square feet.
Feet ($000)
1 1,726 3,681 Model Regresi yg diperoleh:
2 1,542 3,395 
Yi = 1636.415 +1.487Xi
3 2,816 6,653
4 5,555 9,543 
Yi = 1636.415 +1.487 (2000)
5 1,292 3,318
Dugaan Penjualan = 4610.45 ($000)
6 2,208 5,563
Seberapa besar kemungkinan
7 1,313 3,760
kesalahan dari dugaan ini??

Tk Keyakinan bhw nilai sebenarnya berada dlm selang dugaan


 Selang kepercayaan (1-)100% bagi nilai sebenarnya
Dugaan Selang Ramalan Rataan Y

Dugaan Selang Kepercayaan bagi mXY


Tentukan SK 95% bagi rata-rata penjualan tahunan utk toko
berukuran 2,000 square feet

Dugaan Sales Yi = 1636.415 +1.487Xi = 4610.45 ($000)
X = 2350.29 SYX = 611.75 tn-2 = t5 = 2.5706

1 ( X i  X )2
Ŷi  t n  2  Syx  n = 4610.45 ± 980.97
n  ( X  X )2
i
i 1 SK bagi rataan Y
Dugaan Selang Ramalan Individu Y

Selang kepercayaan utk dugaan Individu Y


Tentukan SK 95% bagi penjualan tahunan utk suatu toko
berukuran 2,000 square feet

Ramalan Sales Yi = 1636.415 +1.487Xi = 4610.45 ($000)

X = 2350.29 SYX = 611.75 tn-2 = t5 = 2.5706

1 ( X i  X )2
Ŷi  t n  2  Syx 1  n = 4610.45 ± 1853.45
n  ( X  X )2
i SK bagi individu Y
i 1
ANOVA: Analisis Ragam
Apakah Keragaman Y dapat dijelaskan oleh
(peubah X dlm) Model ?
Yi = b0 + b1 Xi + ei
Yi = (Y - b1 X) + b1 Xi + ei
(Yi – Y) = b1 (Xi – X) + ei
(Yi – Y)2 = { b1 (Xi – X) + ei }2
(Yi – Y)2 = { b1 (Xi – X) + ei }2
(Yi – Y)2 = b12 (Xi – X)2 + ei2
JKT = JKR + JKS
Ukuran Keragaman: Jumlah Kuadrat

Y 
JKS =(Yi - Yi )2
_
JKT = (Yi - Y)2

 _
JKR = (Yi - Y)2
_
Y

X
Xi
JKT = Jumlah Kuadrat Total
•mengukur keragaman nilai-nilai Yi sekitar rataan Y

JKR = Jumlah Kuadrat Regresi


•Menjelaskan keragaman yg dpt dianggap berasal
dari hubungan antara X dgn Y (model regresi)
JKS = Jumlah Kuadrat Sisa (error)
•Keragaman yg dpt dianggap berasal dari
faktor-faktor selain hubungan antara X dgn Y

Tabel db JK
ANOVA Regresi 1 30380456.12
Sisa 5 1871199.595
Total 6 32251655.71
JKR JKS JKT
 _
JKR = (Yi - Y)2
Tabel Analisis Ragam (ANOVA) 
JKS =(Yi - Yi )2
Untuk Regresi Linier Sederhana _
JKT = (Yi - Y)2

Sumber Derajat Jumlah Kuadrat F-hitung


Keragaman Bebas Kuadrat (JK) Tengah (KT)
Regresi 1 JKR= KTR=JKR/1 KTR/KTG
( n  1) b 2 S x2

Galat n-2 JKS= KTS=JKG/(n-2)

( n  1)( S y2  b 2 S x2 )

Total n-1 JKT=


( n  1) S y2
Koefisien
2
JKR Jumlah Kuadrat Regresi
Determinasi: r = =
JKT Jumlah Kuadrat Total

• Mengukur “proporsi keragaman” yg dijelaskan oleh (peubah


bebas X dlm) model regresi
• Sering secara “informal” sbg ukuran goodness-of-fit utk
membandingkan validitas bbrp spesifikasi model
• 94% keragaman total penjualan tahunan dpt dijelaskan oleh
keragaman ukuran toko yg diukur dgn square footage

Se = 611.752 R-Sq = 94.2% R-Sq(adj) = 93.0%

Analysis of Variance
Source DF SS MS F P
Regression 1 30380456 30380456 81.18 0.000
Residual Error 5 1871200 374240
Total 6 32251656
(r2)
Koefisien Determinasi (r
dan Korelasi (r
( r)

Y r2 = 1, r = +1 Y r2 = 1, r = -1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X

Yr2 = .8, r = +0.9 Y r2 = 0, r = 0

^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X
Inferensia mengenai Model: Uji- Uji-F
Apakah Model dpt men-
Yi   0   1 X i   i jelaskan keragaman Y?
• Hipotesis Statistik
H0: b1 = 0 (model tdk dpt menjelaskan keragaman Y)
H1: b1  0 (model dapat menjelaskan keragaman Y)
• Statistik Uji: a = 0.05
F = KTR/KTS ~ F(p, n-1-p)
p: Jumlah peubah bebas 0 6.61 F(1,5)
Analysis of Variance
Source DF SS MS F P
Regression 1 30380456 30380456 81.18 0.000
Residual Error 5 1871200 374240
Total 6 32251656
Analisis Sisaan (Residual
(Residual))

Tujuan
– Mengkaji Linearitas
– Evaluasi pelanggaran asumsi
Analisis Sisaan dgn Grafik 
– Plot sisaan Vs. nilai-
nilai-nilai Xi atau Yi
(ei,Xi) atau (ei2 ,Xi) atau (ei /se ,Xi)
– Studentized residuals:
residuals: = ei/se
Memungkinkan mempertimbangkan besaran
sisaan (sisaan-
(sisaan-baku spt Normal baku)
Analisis Sisaan utk Linearitas

Not Linear
 Linear
e e

X X
Analisis Sisaan utk
Homoskedastisitas

Heteroskedastisitas 
SR
Homoscedasticity
SR

X X

Menggunakan Standardized Residuals (SR)


Analisis Sisaan utk
Kebebasan e

Tidak Bebas
 Bebas
SR SR

X X
Analisis Sisaan: Output Komputer
Residual Plots for Y
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
99

Standardized Residual
1
90
Percent

0
50

-1
10

1 -2
-3.0 -1.5 0.0 1.5 3.0 4000 6000 8000 10000
Standardized Residual Fitted Value

Histogram of the Residuals Residuals Versus the Order of the Data


2.0

Standardized Residual
1
1.5
Frequency

0
1.0

0.5 -1

0.0 -2
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 1 2 3 4 5 6 7
Standardized Residual Observation Order
Statistik Durbin-
Durbin-Watson
•Digunakan utk data time series guna mendeteksi
autokorelasi (Sisaan dlm suatu periode
berhubungan dgn sisaan dlm periode lain)
•Mengukur Pelanggaran asumsi kebebasan e

n
2
 ( ei  ei  1 ) Seharusnya mendekati 2.
i 2
D n Jika tidak, kaji model utk
2
 ie autokorelasi.
i 1
Tipe Model Regresi
Hubungan Linear Positif Hubungan Tidak Linear

Hubungan Linear Negatif Tidak Ada Hubungan

Anda mungkin juga menyukai