Anda di halaman 1dari 25

Analisa Data Statistik

Chap 14: Regresi Linear Jamak


(Multiple Linear Regression)

Agoes Soehianie, Ph.D

LATAR BELAKANG
Sering kali ada lebih dari 1 variabel independen (Xk) yang
menentukan variabel dependen (Y). Sehingga model Regresi
Jamak (Multiple Regression Model) diperlukan. Jikalau hubungan
antara Y dan Xk linear maka model disebut Model Regresi Linear
Jamak (Multiple Linear Regression Model).
Untuk populasi model tsb, berarti nilai rata-rata Y akan diberikan oleh
Y = 0 + 1X1 + 2X2 + .+ kXk
Dan estimasi bagi Y yang diperoleh dari sampel adalah:

y b0 b1 x1 b2 x2 bk xk

MENGHITUNG KOEFISIEN
Misalkan dari sampel diperoleh data {Yi, X1i, X2i, , Xki} untuk i=1,n
maka model regresi linear jamaknya adalah:

y i b0 b1 x1i b2 x2i bk xki i


Dengan ei adalah random error.
Memakai cara yg sama dengan regresi linear, didefinisikan SSE:
n

SSE ( yi y i ) ( yi b0 b1 x1i b2 x2i bk xki ) 2


i 1

i 1

Dengan diferensiasi thd b0, b1, dst hasilnya = 0, maka diperoleh satu
set sistem persamaan linear bari b0,b1, .

Persamaan Bagi Koefisien


n

11
n

11

1i

xki
11

11
n
11

1i
2
1i

xki x1i
11

11
n

x
11
n

2i

1i 2 i

xki x2i
11

b0
b1
x1i xki

11
b2


n
...

ki
bk
11

11
n

ki

11
n

yi

....

11
n

1i

x
y
ki i

11

Sistem Persamaan Linear ini diselesaikan dengan metoda yg dikenal,


misalnya Eliminasi-Gauss atau Gauss-Jordan, Dekomposisi LU dll

Contoh
Sebuah studi tentang emisi NOx dari
sebuah truk dilakukan untuk melihat
pengaru dari kelembaban, suhu, dan
tekanan udara mempengaruhi emisi
NOx. Model yg ingin dites adalah:

Dengan Y adalah kadar (ppm) dari NOx


yg diemisi truk, X1 : kelembaban, X2 :
suhu dan X3 : tekanan udara saat
percobaan.

Y = 0 + 1X1 + 2X2 + 3X3

No

NOX(ppm)

Kelembaban(%)

Suhu(F)

Tekanan (Psi)

X1

X2

X3

0.9

72.4

76.3

29.18

0.96

34.3

77.1

29.24

10.7

79

29.78

1.1

12.9

67.4

29.39

1.15

8.3

66.8

29.69

1.03

20.1

76.9

29.48

1.1

31.5

76.9

29.63

0.78

96.6

78.7

29.29

0.82

107.4

86.8

29.03

10

0.95

54.9

70.9

29.37

9.79

449.1

756.8

294.08

0.979

44.91

75.68

29.408

Sum
Average

Matrix SPL bagi Koefisien

Y = 0 + 1X1 + 2X2 + 3X3


10

11
10

x1i

11
10

11

3i

10

x1i
11
10

2
x
1i

11
10

x
11

3i 1i

10

x2 i

11
10

x
11
10

x
11

1i 2 i

3i 2 i

11
3

x
11
10

b0
b
1
b2

b3

1i 3i

x
11

x3i
2
3i

10

10

11
10

x1i yi

11
10

x
11
10

2i

x
11

3i

yi

yi

Tabel Perhitungan Manual


X1*X2

X1*X3

X2*X3

X12

X22

X32

X1Y

X2Y

X3Y

5524.12

2112.632

2226.434

5241.76

5821.69

851.4724

65.16

68.67

26.262

2644.53

1002.932

2254.404

1176.49

5944.41

854.9776

32.928

74.016

28.0704

845.3

318.646

2352.62

114.49

6241

886.8484

10.7

79

29.78

869.46

379.131

1980.886

166.41

4542.76

863.7721

14.19

74.14

32.329

554.44

246.427

1983.292

68.89

4462.24

881.4961

9.545

76.82

34.1435

1545.69

592.548

2267.012

404.01

5913.61

869.0704

20.703

79.207

30.3644

2422.35

933.345

2278.547

992.25

5913.61

877.9369

34.65

84.59

32.593

7602.42

2829.414

2305.123

9331.56

6193.69

857.9041

75.348

61.386

22.8462

9322.32

3117.822

2519.804

11534.76

7534.24

842.7409

88.068

71.176

23.8046

3892.41

1612.413

2082.333

3014.01

5026.81

862.5969

52.155

67.355

27.9015

35223.04

13145.31

22250.455

32044.63

57594.06

8648.816

403.447

736.36

288.0946

Mean

3522.304

1314.531

2225.0455

3204.463

5759.406

864.8816

40.3447

73.636

28.80946

Matrix SPL dan SOlusi


10

449.1

756.8

294.08

b0

9.79

449.1

32044.63

35223.04

13145.31

b1

403.447

=
756.8

35223.04

57594.06

22250.46

b2

736.36

294.08

13145.31

22250.46

8648.816

b3

288.094
6

Mb =

Salah satu cara solusi : b =M-1 N


4668.8026
-0.8684
0.3836
-158.4172

-0.8684
0.0003
-0.0007
0.0308

0.3836 -158.4172
-0.0007
0.0308
0.0054
-0.0258
-0.0258
5.4061

M-1

b0
b1
b2
b3

0.545504
-0.002458
-0.004224
0.029364

Y = 0.5455 -0.0025X1 0.0042X2 + 0.0293X3

Perluasan : Regresi Polinomial

Model multiple regresi linear juga bisa langsung diterapkan untuk


model regresi polinomial:
Y = b0 + b1x + b2x2+b3x3 + .+ bnxn
Dengan analogi : x = x1

x2=x2

x3 = x3 . Xn = xn dengan

Substitusi ini semua rumus yang dipakai untuk menghitung koefisien b0, b1
dst bisa dipergunakan dengan penyesuaian seperlunya.

Soal.
Diberikan data berikut
X
Y

0
9.1

1
7.3

2
3.2

3
4.6

4
4.8

5
2.9

6
5.7

Buatlah kurva regresi Y thd X jika Y = b0+b1X + b2X2 + b3X3

7
7.1

8
8.8

ANOVA UNTUK REGRESI JAMAK LINEAR


Hipotesa yg ingin diperiksa adalah :
H0 : 1= 2= 3= 4= 0 berarti Y tidak bergantung semua Xk
H1 : Paling tidak ada 1 nilai k 0
Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan
nilai F:

MSR
MSE

SUmber
Variasi

Sum
Squares

Derajat
Kebebasan

Mean Square F

Regresi

SSR

MSR= SSR/k MSR/MSE

Error

SSE

n-(k+1)

MSE=SSE/
{n-(k+1)}

TOTAL

SST

n-1

Dengan v1=k dan v2=n-(k+1) dan test 1 ekor bagian atas. Jadi H0 ditolak
Jika F > Fkritis

ANOVA: Sumber-sumber Variansi


n

SSE ( y i y i ) 2
i
n

SSR ( y i y )

SSTot

SSE

SSTotal ( y i yi ) 2

SSR

X : mean (X,Y)

TESTING INVIDUAL KOEFISIEN


Untuk masing-masing koefisien, dapat dilakukan test hipotesa
H0 : k = 0
H1 : k 0
Dengan mempergunakan variabel test:

bk 0
S bk

Variabel t ini terdistribusi menurut student-t dengan derajat


kebebasan v=n-(k+1). Dengan Sbk adalah standard error dari
koefisien bk. Perhitungan Sbk secara manual rumit, melibatkan
elemen diagonal dari matrix variansi-kovariansi. (Lihat Text Book)

INTERVAL BAGI KOEFISIEN


Interval kepercayaan 100(1-)% bagi koefisien k adalah:

bk t / 2 Sbk bk t / 2 Sbk
Variabel t ini terdistribusi menurut student-t dengan derajat
kebebasan v=n-(k+1).

Contoh.
X1

X2

X3

Prediksi

Temp

Insul

Age

Cost

Y'

35

250

258.9

79.46

2002.56

2879.85

29

10

360

296.0

4098.12

23947.56

8232.56

36

165

176.7

137.01

1620.06

814.82

60

43

118.2

5648.75

26325.06

7584.99

65

92

91.8

0.05

12825.56

12877.12

30

200

246.1

2121.96

27.56

1665.85

10

355

335.1

396.44

22425.06

16858.22

10

10

290

307.8

317.44

7182.56

10519.96

21

11

230

264.6

1196.57

612.56

3521.41

10

55

120

176.0

3134.97

7267.56

856.10

11

54

12

73

26.2

2193.63

17490.06

32071.87

12

48

205

139.2

4333.23

0.06

4366.21

13

20

15

400

352.9

2218.25

37927.56

21801.03

14

39

320

231.9

7769.76

13167.56

707.76

15

60

72

70.2

3.26

17755.56

18240.30

16

20

272

310.2

1458.82

4455.56

11013.35

17

58

94

75.9

328.10

12376.56

16734.93

18

40

11

190

192.4

5.53

232.56

166.36

19

27

235

218.8

262.69

885.06

183.40

20

30

139

216.4

5991.23

4389.06

124.39

Sum

744

127

140

4105

4105

41695

212916

171220

Mean

37.2

6.35

205.25

205.25

41616

210913

168341

No

(Y-Y' ) 2

(Y-Ym)2

(Y' - Ym)2

Ym: Y
mean
Y: Y
Prediksi

Hipotesa Testing (Global)


Hipotesa yg ingin diperiksa adalah :
H0 : 1= 2= 3=0 berarti Y tidak bergantung semua Xk
H1 : Paling tidak ada 1 nilai k 0
Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test,
dengan nilai F:
SUmber
Variasi

Sum
Squares

Derajat
Kebebasan

Mean Square F

Regresi

SSR

MSR= SSR/k

Error

SSE

n-(k+1)

MSE=SSE/
{n-(k+1)}

TOTAL

SSTot

n-1

MSR/MSE

Dengan jumlah data n=20 dan jumlah variabel independen k=3

Contoh.
Dilakukan multiple regresi linear:
Y = b0 + b1X1+ b2X2+ b3X3
Hasilnya adalah:
b0
b1
b2
b3

Intercept
Temp
Insul
Age

427.194
-4.583
-14.831
6.101

Persamaan Regresinya:
Yprediksi= Y = 427.19 4.583X1 -14.831X2+ 6.101X3
Dari model ini kemudian bisa dihitung: SStot=SSE+SSR
n

SSTotal ( y i yi )
i

SSE ( y i y i )
i

SSR ( y i y ) 2
i

Contoh.
Dari tabel diperoleh:
SSE = 41 695 SSR = 171 200
SSTot = 212 916
Banyak data n=20, banyak variabel bebas k=3

SUmber
Variasi

Sum
Squares

Derajat
Kebebasan

Mean Square F

Regresi

SSR

MSR= SSR/k

Error

SSE

n-(k+1)

MSE=SSE/
{n-(k+1)}

TOTAL

SSTot

n-1

SUmber
Variasi

Sum
Squares

Derajat
Kebebasan

Mean Square F

Regresi

171 200

57 073.5

Error

41 695

20-(3+1)

2606.0

TOTAL

212 916

19

MSR/MSE

21.9

Contoh.
Dari tabel F untuk v1=3 danv2=16, dan tingkat signifikan =0.05
Diperoleh nilai kritis F adalah F(3,16) = 3.24. Hasil perhitungan
menunjukkan F=21.9. Karena 21.9 > 3.24 maka H0 ditolak,
sehingga tidak benar kalau dikatakan bahwa X1, X2 dan X3
seluruhnya tidak menentukan nilai Y.

Line Fit

Koefisien Korelasi Jamak dan


Determinasi Jamak

Koefisien Determinasi Jamak (Multiple Determination) R 2 adalah total


variasi data Y yang bisa dijelaskan oleh model regresi, yaitu:

SSR
R
SStotal
2

Yaitu variansi karena regresi dibagi variasi total.


Sedangkan
R : koefisien korelasi jamak =

Selain itu juga didefinisikan Adjusted R 2

SSR
SStotal

2
adj

SSE /( n k 1)
1
SST /( n 1)

R2 selalu bertambah dengan penambahan variabel independen. R 2adj


memperhitungkan pengaruh ini, sehingga akan menghukum
overfitted model.

Koefisien Korelasi Jamak dan


Determinasi Jamak
Dari tabel diperoleh:
SSE = 41 695 SSR = 171 200
SSTot = 212 916
Banyak data n=20, banyak variabel bebas k=3

SSR 171200
R

0.804
SStot 212916
2

R 0.804 0.897
Selain itu juga didefinisikan Adjusted R2

2
adj

SSE /( n k 1)
41695 /( 20 3 1)
1
1
0.767
SST2 /(n 1)
212916 /(20 1)

Koefisien adjusted R baru berarti bilamana dalam pembentukan model ingin


diketahui apakah penambahan variabel independen baru memang
memperbaiki model atau tidak.

Hasil Output Excell


SUMMARY OUTPUT
Regression Statistics
Multiple R
0.897
R Square
0.804
Adjusted R Square
0.767
Standard Error 51.049
Observations
20
ANOVA
df
SSR
SSE
Sstot

Regression
Residual
Total

Intercept
Temp
Insul
Age

3
16
19

SS
171220.5
41695.3
212915.8

Coefficient Standard
s
Error
427.194
59.601
-4.583
0.772
-14.831
4.754
6.101
4.012

MS
57073.5
2606.0

t Stat
7.168
-5.934
-3.119
1.521

Significance F
21.9
0.00001

P-value Lower 95% Upper 95%


0.000
300.844
553.543
0.000
-6.220
-2.945
0.007
-24.910
-4.752
0.148
-2.404
14.606

TESTING INVIDUAL KOEFISIEN


Untuk masing-masing koefisien, dapat dilakukan test hipotesa
H0 : 1 = 0

H0 : 2 = 0

H1 : 1 0 H1 : 2 0

H0 : 3 = 0
H1 : 3 0

bk 0
Sbk

Dari output Excell Sb1 = standard error b1 = 0.772, maka t1

t1

b1 0
Sb1

4.583
5.934
0.772

Hasil ini bisa dilihat juga di output Excell tsb (kolom t stat), demikian juga
untuk t2 =-3.119 dan t3 = 1.521.
Dari Output Excell hal itu bisa secara cepat dilihat pada nilai P-value
yang menyatakan luas daerah sebelah kanan nilai t-hitung

TESTING INVIDUAL KOEFISIEN


Test ini adalah test 2 ekor dengan derajat kebebasan v=n-(k+1) = 20(3+1)=16. Untuk tingkat signifikan = 0.05 maka t0.025 (v=16) =
2.120 (dari tabel).
Berarti H0 di tolak jika thitung < -2.12 atau thitung > 2.12.
Berarti dari
t1 = -5.93

t2 =-3.119 dan t3 = 1.521,

H0 ditolak untuk t1, t2 dan diterima untuk t3. Berarti variabel X1


(temp) dan X2(insulasi) memiliki pengaruh signifikan pada biaya Y
(cost), sedangkan X3 (age) tidak berkontribusi secara signifikan
thd Y(cost).

INTERVAL BAGI KOEFISIEN


Interval bagi koefisien k untuk tingkat kepercayaan 95% dapat juga
disusun. Nilai t0.025 =2.12 untuk v=20-(3+1)

bk t / 2 Sbk bk t / 2 Sbk
b
Sbk
Coefficie Standard
nts
Error
Temp
Insul
Age

b1
b2
b3

-4.583
-14.831
6.101

0.772
4.754
4.012

t0.025
2.120
2.120
2.120

Batas
Sbk*t0.025 Bawah
1.637
10.079
8.506

-6.220
-24.910
-2.405

Batas
Atas
-2.945
-4.752
14.607

Hasil tsb juga dapat dilihat pada output Excell. Pada kolom lower95%
dan Upper 95%. Terlihat memang interval 95% bagi koefisien Age
membentang dari -2.405 hingga 14.607!