Anda di halaman 1dari 20

MULTIPLE REGRESSION ANALYSIS

(ANALISIS REGRESI GANDA)

TUJUAN
MENJELASKAN PRINSIP, MANFAAT
ANALISIS REGRESI GANDA
DAN INTERPRETASI HASIL
MRA  ekstensi regresi garis lurus  situasi
lebih dari satu independen variabel dilibatkan
dalam model.
Beberapa hal yang harus diperhatikan:
1.Sering sulit menentukan ‘the best model’
karena ada bbrp kemungkinan model;
2.Sulit me-visualisasikan ‘the fitted model’ 
tidak bisa mem plot data dalam 1 grafik;
3.Sering sulit menginterpretasikan ‘arti’ ‘the
best-fitting model’ dalam kehidupan;
4.Penghitungan MRA harus menggunakan
komputer dengan program yg sudah diuji.
Model Regresi Ganda
Data tekanan darah sistolik (TDS), Konsumsi
garam sehari (KGS) dan Berat Badan (BB)
TDS dipengaruhi oleh KGS dan BB  modelnya
TDS = 0+1KGS+2BB+E atau
Y=0+1X1+2X2+E  bentuk umum model
regresi ganda dengan k-independen variabel
 Y=0+1X1+2X2+ ……… +kXk+E dimana
0, 1, 2, ……, k adalah ‘koefisien regresi’
yang harus di estimasi. Independen variabel
X1, X2, ……., Xk merupakan variabel dasar
namun dapat merupakan fungsi dari variabel
dasar
Andai kita ingin mempelajari variasi berat badan
(WGT) terhadap tinggi (HGT) dan umur (AGE) anak2.
Variabel dependent Y=WGT, dua independent adalah
X1=HGT dan X2=AGE. Datanya:

WGT HGT AGE WGT HGT AGE


64 57 8 71 59 10
53 49 6 67 62 11
55 51 8 58 50 7
77 55 10 57 48 9
56 42 10 51 42 6
76 61 12 68 57 9
WGT lbs, HGT inch, AGE yrs
Data digunakan mempelajari hubungan antara
WGT terhadap HGT dan AGE dan modelnya
Y=0+1X1+2X2+E  X1 = HGT dan X2 = AGE
dan nilai prediksi dari persamaan itu adalah
Yˆi  ˆ0  ˆ1 X 2  ˆ2 X 2 X1=HGT, X2=AGE

Nilai prediksi dari persamaan adalah

   
n 2 n 2

 Y
i 1
 Y
i
ˆ
i  Y  ˆ

i 1
i 0  ˆ X  ˆ X
1 1i 2 2i

Untuk mendapatkan ‘least square estimates’

ˆ0 dari 0 , ˆ1 dari1 danˆ 2 dari 2


Gambar2 berikut adalah scatter diagram data
Hubungan (+) HGT dan WGT (r1Y = 0.814) dan
AGE dan WGT (r2Y=0.77)
Bila kita analisa secara terpisah, kita memper-
oleh hubungan (+) antara WGT dan HGT, dan
WGT dan AGE
Pertanyaan: Apakah kedua model tsb memberi-
kan ‘the best fitting model?’ Bgmn kalau kedua
IV (HGT dan AGE) dimasukkan dlm 1 model?
Jawabannya cukup sulit utk dipastikan krn
scatter diagram HGT & AGE juga ber korelasi
(+) (r12=0.614). Hal-hal seperti ini harus
diperhatikan dalam membuat model multiple
regression
Asumsi Multiple regression
1. Existence, setiap kombinasi nilai independen
variabel X1, X2,……., Xk, nilai Y adl random dgn
distribusi probabilitas dgn nilai means dan variance
tertentu,
2. Independence, setiap nilai Y adl independen satu
sama lainnya;
3. Linearity, nilai rata2 Y utk setiap kombinasi spesifik
X1, X2, ……, Xk adl fungsi linear dr X1, X2, …., Xk
artinya
Y X1 , X 2 ,...., X k  0  1 X 1   2 X 2 ,......,   k X k
Atau
Y   0   1 X 1   2 X 2  .........,  k X k  E
Komponen E merupakan komponen error yang
merefleksikan perbedaan nilai2 Y dengan rata2 nilai
Y X , X 1 2 ,........, X k

4. Homoscedasticity, nilai varians Y adl sama untuk


setiap kombinasi nilai X1, X2, ….. Xk yaitu

 2
Y X 1 , X 2 ,....., X k
 Var Y X 1 , X 2 ,....., X k    2

5. Normality, untuk setiap kombinasi nilai2

 
X1,X2, ….., Xk, variabel Y terdistribusi secara normal

Y  N Y X 1 , X 2 ,....... X k
, 2
Menentukan ‘the best estimate’ dari ‘multiple
regression analysis’
Dua pendekatan:
a.‘Least Square’
b.‘The minimum variance’
 keduanya memberikan hasil yang sama
* Pendekatan ‘Least Square’ 
menggunakan ‘minimizes the sum of
squares’  jarak antara nilai2 observasi dan
nilai prediksi dari model regresi.
Yˆ  ˆ 0  ˆ1 X 1  ˆ 2 X 2  ........  ˆ k X k
Maka nilai ‘sum of squares of deviation’
nilai Y dari nilai prediksi adalah

   
n n 2

 
2
Y  Yˆ  Y  ˆ
  ˆ X  ˆ X  ..........  ˆ X

i i 0 1 1 2 2 k k
i 1 i 1
Pemecahan ‘Least Square’ melibatkan nilai2
ˆ 0 , ˆ1 ,......., ˆ k dan jumlahnya minimum

Minimum ‘sum of squares’ disebut ‘residual


sum of squares’ atau ‘error sum of squares’
atau ‘sum of squares about regression  SSE
Pendekatan ‘Minimum Variance’  meng-
estimasi persamaan regresi dgn mengguna-
kan ‘minimum variance’ dari estimasi
ˆ ˆ ˆ
 0 dari 0 , 1 dari1 dan 2 dari 2
Setiap nilai estimasi ˆ 0 , ˆ1 ,......., ˆ k
merupakan satu fungsi linear dari nilai2 Y.
Karena nilai2 Y diasumsikan berdistribusi
normal maka setiap nilai estimasi ˆ 0 , ˆ1 ,......., ˆ k
juga berdistribusi normal dengan Standard
Deviasi (SD) yang dapat dihitung
Hal-hal yang perlu diperhatikan dalam ‘Least
Squares’
ˆ , ˆ ,......., ˆ

1.Setiap estimasi 0 1 k merupakan

fungsi linear dari nilai2 Y. Karena nilai2 Y


tersebut distribusinya normal maka nilai2
ˆ 0 , ˆ1 ,......., ˆ k distribusinya normal

2. Persamaan regresi ‘least square’


Yˆ  ˆ 0  ˆ1 X 1  ˆ 2 X 2  ........  ˆ k X k
merupakan kombinasi linear yang unik dari
independen variabel X1, X2,….., Xk yg
mempunyai korelasi maksimum dengan
dependent variabel
Atau semua kemungkinan kombinasi linear
dari bentuk 0+1X1+2X2+………+kXk , dan
kombinasi linear Yˆ dengan korelasi

 
n
Y  Yˆ Yˆ
i  Yˆ  i
rY ,Yˆ  i 1

 Y
n

i 1
i Y 
2

n

Y
i 1
ˆ  Yˆ
i  2

adalah maksimum, dimana Yˆ adalah nilai


prediksi dari Y utk ith individu & Yˆ adl mean
dr Yˆi ' s karenanya, nilai Yˆ  Y adalah benar,
artinya nilai2 prediksi adalah sama dengan
nilai observasi
3. Seperti regresi garis lurus adalah terkait
dengan bivariat distribusi normal, MRA juga
terkait dengan multiple distribusi normal.
Sebagai contoh dari data yang kita punyai,
kita bisa membuat ‘least square algorithme’
dengan model:
WGT=0+1HGT+2AGE+3(AGE)2+E
Yang menghasilkan estimasi
ˆ
WGT  3.438  0.724HGT  2.777 AGE  0.042( AGE ) 2

Maka
ˆ0  3.438, ˆ1  0.724, ˆ 2  2.777, ˆ3  0.042
Tabel ANOVA Multiple Regression

Source df SS MS F R2

Regression K=3 SSY-SSE= 231.02


693.06
9.47 0.78
Residual N-k-1= SSE= 24.04
8 195.15
Total N-1=11 SSY=
888.25
Dari tabel ANOVA

SSY   Yi  Y   888.25


n
2

i 1
adalah total sum of squares  merupakan total
variabilitas dr nilai2 observasi Yi sebelum
memperhitungkan efek bersama (joint effect)
variabel2 HGT, AGE dan AGE2

 
n
SSE   Yi  Yˆ
2
 159.19
i 1
adalah residual sum of squares atau sum of squares
due to error  merupakan jumlah nilai2 Y yg ber-
variasi tanpa bisa dijelaskan setelah IV digunakan
untuk memprediksi Y
 
n 2

SSY  SSE   Yˆi  Y  693.06


i 1
adalah regression sum of squares dan mengukur
variasi yang dapat diterangkan oleh independent
variabel model regresi
Dengan demikian:
Total SS = Regression SS + Residual SS
Nilai r2 menjelaskan tentang kesesuaian model yang
terdiri dari HGT, AGE, (AGE)2 yang memprediksi
variabel WGT

SSY  SSE
r 
2

SSY
Latihan

TDS IMT Um TDS IMT Um TDS IMT Um


135 28 45 122 32 41 130 31 49
148 37 52 146 29 54 129 28 47
162 37 60 160 36 48 144 23 44
180 46 64 166 39 59 138 40 51
152 41 64 138 36 56 140 35 54
134 30 50 145 34 49 142 30 46
135 32 57 142 34 56 144 37 58
137 33 53 132 32 50 149 33 54
132 30 48 120 28 43 126 29 43
161 38 63 170 41 63 152 39 62

TDS=Tekanan Darah Sistolik, IMT= Indeks Massa Tubuh, Um=Umur


Tugas: lakukan prediksi TDS dengan variabel
independen IMT dan Umur
Bekerja bersama di laboratorium

a.Hitung Sum of Square for Regression (X)


b.Hitung Sum of Square for Residual
c. Hitung Means Sum of Square for
Regression (X)
d.Hitung Means Sum of Square for Residual
e.Hitung nilai F
f. Hitung nilai r2

Anda mungkin juga menyukai