Anda di halaman 1dari 82

2017

DAFTAR ISI

BAB I PENDAHULUAN
1.1 Definisi Regresi dan Kegunaannya
1.2 Konsep dasar regresi Linear
1.2.1 Model regresi Linear
1.2.2 Definisi variabel dan skala pengukurannya
1.2.3 Definisi parameter model regresi
1.3 Konsep dasar korelasi linear
1.4 Contoh dan Aplikasi

BAB II REGRESI LINEAR SEDERHANA


2.1 Model Regresi Linear Sederhana
2.2 Estimasi parameter regresi Linear sederhana dengan metode Ordinary Least
Square (OLS)
2.3 Uji signifikansi parameter model
2.4 Estimasi parameter dan prediksi
2.5 Contoh dan Aplikasi

BAB III REGRESI LINEAR BERGANDA


3.1 Model Regresi Linear Sederhana
3.2 Estimasi parameter regresi Linear berganda dengan metode Ordinary Least
Square (OLS)
3.3 Uji signifikansi parameter model
3.4 Contoh dan Aplikasi

BAB IV ASUMSI PADA MODEL REGRESI LINEAR


4.1 Definisi MultikoLinearitas
4.2 Pemeriksaan multikoLinearitas dan penangannnya
4.3 Pemeriksaan asumsi residual dan penanganannya
4.3.1 Normalitas
4.3.2 Heterekedastisitas
4.3.3 Autokorelasi
4.4 Contoh dan Aplikasi

BAB V REGRESI LINEAR DENGAN VARIABEL DUMMY


4.1 Definisi variabel dummy
4.2 Model regresi dengan variabel dummy
4.3 Uji F Sekuensial dan F Parsial
4.4 Pemeriksaan asumsi residual dan penanganannya
4.5 Contoh dan Aplikasi

BAB VII SELEKSI MODEL TERBAIK


4.1 Definisi model terbaik secara statistika
4.2 Model terbaik
4.2.1 All Possible Regression
4.2.2 Best Subset
4.2.3 Backward
4.2.4 Forward
4.2.5 Stepwise
4.3 Contoh dan Aplikasi
BAB I PENDAHULUAN

1.1 Definisi Regresi dan Kegunaannya


Regresi pertama kali diperkenalkan oleh Sir Francis Galton pada tahun 1877 dalam
sebuah penelitiaanya. Galton menemukan bahwa terdapat kecenderungan bagi orang tua yang
tinggi untuk memiliki anak yang tinggi pula dan orang tua yang pendek memiliki cenderung
memiliki anak yang pendek. Galton menjelaskan bahwa tingi rata-rata anak dari orang tua
yang sangat tinggi atau sangat pendek cenderung akan menuju ketinggian rata-rata populasi.
Garis yang menunjukkan hubungan tersebut disebut dengan garis regresi dan analisis
terhadap hubungan ini disebut dengan analisis regresi.
Analisis regresi merupakan model matematis (fungsi) hubungan antara beberapa variabel
independen dengan satu atau lebih variabel dependen bisa linear maupun non linear. Variabel
dependen yang dinotasikan dengan huruf Y merupakan variabel acak dan variabel dependen
yang dinotasikan dengan huruf X merupakan variabel tetap (fixed).
Hubungan beberapa variabel terjadi karena beberapa sebab:
1) Hubungan sebab akibat
Y = β0 + β 1 X 1 + ε X : explanatory variable
Y : unexplanatory variable ε
2) Hubungan timbal balik
P↓ Qd ↑ P↓ Q S ↓ Disatu sisi Q S↑ P↓
P↑ Q ↓d
P↑ S
Q ↑
3) Hubungan tidak langsung (melewati variabel lain)
Y t-1=10+0,1Yt-1 + ε 1
4) Hubungan antar variable karena faktor kebetulan
Y = Pendapatan seseorang
X = Tingkat Pendidikan Tergantung fenomena yang akan dimodelkan
Pendapatan Orang Tua
Hal yang pertama kali harus diperhatikan dalam membuat model regresi adalah :
1) Semua variabel X yang digunakan saling independen antar satu dan lainnya.
2) Ada dugaan awal bahwa variabel X yang dipilih mempengaruhi atau berhubungan
dengan variabel Y
Kegunaan regresi adalah untuk memprediksi Y jika nilai variabel penjelas diketahui dan
untuk memperhitungkan besarnya pengaruh secara kuantitatif dari masing-masing penjelas
yang tercakup dalam model regresi terhadap variabel respon.

1.2 Konsep dasar regresi linear


Ketika data dibentuk atau digambarkan melalui diagram pencar atau scatter plot, terlihat
bahwa hubungan antara X dan Y yang tergambar melalui plot mengikuti suatu garis lurus,
menunjukkan bahwa kedua variabel tersebut saling berhubungan secara linear. Bila terdapat
hubungan linear maka dapat dimodelkan secara matematis dengan menggunakan regresi
linear. Bentuk umum model regresi Linear :
Y = β0 + β 1 X 1 +⋯+ β k X k + ε
j=1 ,2 ,⋯, k (1)
Dimana :
Y = variabel respon / variabel dependen
Xj = variabel prediktor / variabel independen
ε = residual / error
k = banyaknya variabel predictor
β 0 , β 1 ,. . . , β k = parameter model regresi / koefisien variabel predictor

P=k +1 = banyaknya parameter regresi


Tujuan / manfaat model regresi linear :
1) Menyatakan besar pengaruh linear antara 1 atau lebih variabel prediktor terhadap
variabel respon
2) Mendapatkan estimasi / prediksi nilai variabel respon, jika nilai variabel prediktor
diketahui / ditentukan

1.2.1 Model Regresi Linear


Model regresi dengan p buah variabel X adalah sebagai berikut.
y = 0 + 1X1 + 2X2 + …+ pXp +  dengan
 y adalah variabel respon (tak bebas/dependen) yang bersifat random
 X1, X2, …,Xp adalah variabel penjelas (bebas/independen) yang bersifat tetap (fixed
variable)
 0, 1,…, p adalah parameter (koefisien) regresi
  adalah variabel random error/galat variabel pengganggu (disturbance term) atau
variabel yang tidak menjelaskan (unexplanatory variable).
Model regresi dengan p buah variabel independen X dapat pula ditulis dengan cara
menggunakan notasi vektor dan matriks sebagai berikut.
y = X  +  dimana variabel y; X; ;  mewakili vektor Y, matriks X, vektor , dan
vektor .

Gambar 1. Contoh Model Linear


Model dikatakan linear jika parameter dan variabel memiki orde sebanyak satu (1).
Model dalam regresi dapat dibedakan menjadi linear dan non linear terhadap parameter dan
variabel. Berikut ini merupakan contoh-contoh model linear dan non linear terhadap
parameter dan variabel
k =1→Y =β 0 + β1 X +ε → linear parameter dan linear variabel
1.
Y = β0 + β 1 X 2 + ε → linear parameter dan non linear variabel
2.
β 0 +β 1 X 2 +ε
Y =e →ln Y =β 0 + β 1 X 2 +ε
3.
¿
Y =β 0 + β 1 X 2 +ε → linear parameter, linear variabel
Kriteria pada model regresi linear yaitu linear dalam parameter termasuk yang bias
dinyatakan ke dalam bentuk umum model regresi linear seperti pada pers. (1)
1.2.1 Definisi variabel dan skala pengukurannya
Skala pengukuran data
Untuk data kuantitatif diskrit dan kontinu menggunakan skala data rasio dan interval,
sedangkan untuk data kualitatif menggunakan skala data ordinal dan nominal.
 Rasio Kuantitatif Diskrit
Interval
Ordinal Kualitatif Kontinu
Nominal
Regresi Linear Y : Kuantitatif kontinu
Count distribution (misal : poisson distribution) Y : Kuantitatif diskrit
Regresi Logistik Y : Kualitatif
X : - Kualitatif
- Kuantitatif
- Campuran
Contoh :
Y : besar gaji yang diterima
X : Jenis kelamin - Laki-laki Nominal
- Perempuan

Variabel Dummy

1.2.2 Definisi parameter model regresi


Parameter 0, 1,,…, p dan  sangat sukar diketahui dan bakan tidak diketahui nilainya,
hal ini dikarenakan nilai yang dihasilkan berubah untuk setiap pengamatan Y. Akan tetapi,
untuk 0, 1 cenderung selalu tetap, dan meskipun tidak mungkin mengetahui secara persis
nilainya tanpa memeriksa semua kemungkinan pasangan Y dan X, dapat digunakan informasi
di dalam data sampel untuk menghasilkan nilai estimasi untuk b 0 dan b1 bagi 0, 1 berturut-
turut. Sehingga dapat dituliskan model regresi sebagai berikut ^y =b0 +b1 X dalam hal ini ^y
melambangkan nilai ramalan Y untuk suatu X diketahui bila b 0 dan b1 telah ditentukan.
Penggunaan huruf latin kecil b 0 dan b1 untuk melambangkan nilai dugaan bagi parameter
yang dilambangkan dengan huruf Yunani 0 dan 1 adalah sudah baku.

1.3 Konsep dasar korelasi linear


Salah satu asumsi pada analisis regresi linear adalah adanya hubungan antara variabel
X dan Y. Salah satu analisis yang mampu menjelaskan kekuatan dan keeratan hubunagn
antara dua peubah melalui suatu bilangan disebut koefisien korelasi yang mana dilambangkan
dengan r. Jadi r mengukur sejauh mana titik-titik menggerombol sekitar sebuah garis lurus.
Bila titik-titik menggerombol mengiktui sebuah garis lurus dengan kemiringan positif
(menunjukkan pola naik) maka terdapat sebuah hubungan/korelasi positif. Akan tetapi, jika
titik-titik menggerombol mengikuti sebuah garis lurus dengan kemiringan negatif
(menunjukkan pola turun) maka terdapat sebuah hubungan/korelasi negatif. Berikut
merupakan tipe hubungan yang dapat dibentuk antara variabel Y dengan variabel X.
Weak

Gambar 2. Tipe Hubungan Antara Variabel Y dengan Variabel X


Ukuran korelasi linear antara dua peubah yang paling banyak digunakan adalah
menggunakan koefisien korelasi momen hasil kali pearson. Dimana persamaannya
ditunjukkan sebagai berikut.
n n n n
n ∑ x i y i−( ∑ xi )( ∑ y i ) ∑ ( x i− x̄ )( y i − ȳ )
i=1 i=1 i=1 s cov ( x , y )
r xy= =b x = = i=1

√ √ √
n n n n s y √ var( x ) √ var( y ) n n
[ n ∑ x 2i −( ∑ x i )2 ][n ∑ y 2i −( ∑ y i )2 ] ∑ ( x i− x̄ )2 ∑ ( y i− ȳ )2
i=1 i=1 i=1 i=1 i=1 i=1

Nilai rxy berada pada -1 hingga 1.


var( x )=
∑ ( x i− x̄ )2
n−1
∑ ( y i − ȳ )2 cov ( x , y )=
∑ ( x i− x̄ )( y i− ȳ )
var( y )=
n−1 n−1
 Analisis regresi linear vs analisis korelasi linear
→ Y^ =Y = β^ + β^ X + β^ X ⋯+ β^ X
i 0 1 1i 2 2i k ki
i=1 ,2 ,⋯,n
Dimana :
n = banyaknya observasi sampel
i = indeks observasi sampel
Hubungan (rxy) antara X dan Y positif jika X maka Y atau X maka Y

Hubungan (rxy) antara X dan Y negatif jika


X maka Y atau X maka Y
Secara inferensia, uji keeratan hubungan dapat dilakukan dengan menggunakan
statistik uji t pada hipotesis
H0 : Tidak terdapat hubungan antara variabel X dan variabel Y (xy=0)
H1 : Terdapat hubungan antara variabel X dan variabel Y (xy  0)
r xy √ n−2
t=
Statistik Uji : √
1−r 2
xy

Tolak H0 jika t lebih dari t1-/2(n-2)

1.4 Contoh dan Aplikasi


Sebuah penelitian dilakukan oleh seorang mahasiswa Statistika ITS untuk menentukan
hubungan antara nilai Pengantar Metode Statistika dan nilai Metode Regresi. Data yang
diperoleh adalah sebagai berikut.
Nilai_PM Nilai_Met Regresi
S (X) (Y)
65 85
50 74
55 76
65 90
55 85
70 87
65 94
70 98
55 81
70 91
50 76
55 74
Analisis data tersebut apakah dapat digunakan model regresi linear untuk memodelkan
pengaruh nilai Pengantar Metode Statistika terhadap nilai Metode Regresi dan ujilah apakah
terdapat hubungan antara nilai Pengantar Metode Statistika dengan nilai Metode Regresi
dengan taraf signifikan  = 0,05 ?

Pembahasan :

Langkah awal yang perlu digambarkan adalah scatterplot hubungan antara nilai Pengantar
Metode Statistika dengan nilai Metode Regresi sebagai berikut.

Dari scatterplot yang tergambar dapat dilihat bahwa plot cenderung mengikuti garis
linear yang terbentuk, sehingga dapat dikatakan bahwa untuk memodelkan pengaruh nilai
PMS terhadap nilai Metode Regresi dapat digunakan model regresi linear, dimana hubungan
antara nilai PMS dengan nilai metode regresi positif lemah. Koefisien korelasi pearson nilai
PMS dan nilai metode regresi adalah : x̄=60 ,42 ȳ=84,25
n
∑ ( x i− x̄ )( y i− ȳ )
i=1
r xy= =0 ,862

√∑ √∑
n n
( x i− x̄ )2 ( y i− ȳ )2
i=1 i=1
Hipotesis :
H0 : Tidak terdapat hubungan antara nilai PMS dan nilai Metode Regresi (xy=0)
H1 : Terdapat hubungan antara nilai PMS dan nilai Metode Regresi (xy0)
Taraf Signifikan :  = 0,05
Daerah Penolakan :
r xy √ n−2 0 ,862 √ 12−2 2,725
t= = = =5 ,377
Statistik Uji : √ xy2
1−r √ 1−0,862 2 0,5069

Keputusan : Tolak H0 karena t lebih dari t1-/2(n-2) (5,377 > 1,812)


Kesimpulan : Terdapat hubungan antara nilai PMS dan nilai Metode Regresi

Langkah-langkah Komputasi :
Software yang dapat digunakan dalam menentukan koefisien korelasi dan pengujiannya
adalah minitab. Berikut merupakan langkah-langkahnya :
1. Masukkan data pada sel yang aktif
2. Klik Stat  Basic Statistics  Correlations maka akan muncul kotak dialog seperti ini

Kemudian pada variables masukkan variabel yang akan diuji hubungannya.


Kemudian klik Ok. Maka akan muncul output seperti berikut.
Correlations: Nilai_PMS (X), Nilai_Met Regresi (Y)

Pearson correlation of Nilai_PMS (X) and Nilai_Met Regresi (Y) = 0.862


P-Value = 0.000
Dapat dilihat bahwa nilai dari P-value yang kurang dari  (0,000 kurang dari 0,05) sehingga
dapat disimpulkan bahwa terdapat hubungan antara nilai Pengantar Metode Statistika dan
nilai Metode Regresi.

1.5 Latihan Soal


1. Data berikut diperoleh dalam suatu telaah mengenai hubungan antara bobot badan dan
ukuran dada bayi waktu lahir
Bobot (kg) Ukuran Dada (cm)
2,75 29,5
2,15 26,3
4,41 32,2
5,52 36,5
3,21 27,2
4,32 27,7
2,31 28,3
4,30 30,3
3,71 28,7
a. Hitunglah r
b. Ujilah apakah terdapat hubungan antara bobot badan dan ukuran dada bayi waktu
lahir dengan taraf signifikan 10%.

2. Tabel berikut menyajikan data tentang hubungan antara besarnya tingkat konsumsi
rumah tangga yang dipengaruhi oleh pendapatan.
Konsumsi Pendapatan (dalam
(dalam juta juta rupiah/tahun)
rupiah/tahun)
70 80
65 100
90 120
95 140
110 160
115 180
120 200
140 220
155 240
150 260
a. Hitunglah r
b. Ujilah apakah terdapat hubungan antara bobot badan dan ukuran dada bayi waktu
lahir dengan taraf signifikan 5%.
BAB II REGRESI LINEAR SEDERHANA

2.1 Model Regresi Linear Sederhana

 Bentuk umum model regresi Linear sederhana:


Y = β0 + β 1 X 1 + ε (1)
Dimana : Y = variabel respon / variabel dependen
Xj = variabel predictor / variabel independen
ε = residual / error
k = banyaknya variabel predictor
β 0 + β 1 +⋯+ β k = parameter model regresi / koefisien variabel predictor
P=k +1 = banyaknya parameter regresi

2.2 Estimasi Parameter Regresi Linear sederhana dengan metode Ordinary Least
Square (OLS)
Model regresi linear sederhana terdiri dari 1 prediktor, estimasi parameter model regresi
Linear sederhana menggunakan metode OLS (Ordinary Least Square) yang digunakan untuk
meminimalkan jumlah kuadrat error
^y i = β^ 0 + β^ 1 x i =b0 + b1 x i i=1 , 2 ,⋯, n

x1,y1 1 ε 1= y 1 − ^y 1
ε 2= y 2 − ^y 2
2

x2,y2

( ) ( )
n n
∂ ∑ εi 2 ∂ ∑ εi 2
i=1 i=1
=0 =0
∂ β0 dan ∂ β1
S xy
β^ 1=b1 =
S xx β^ 0 =b0 = ȳ −b1 x̄
S xy =∑ ( x i− x̄ )( y i − ȳ )=( ∑ x i y i )−n x̄ ȳ
n
S xx =∑ ( xi − x̄ )2 =∑ x i 2 −n x̄ 2
i=1
n
S yy =∑ ( y i− ȳ ) =∑ y 2 −n ȳ 2
i=1 i
y=β 0 + β 1 x+ ε
^y = β^ + β^ x
0 1

∑ ( x i )2−2 ∑ xi x̄ + x̄ 2
∑ ( x i )2−2 n x̄ x̄+ x2
∑ ( x i )2−2 n x̄ +x 2
β^ 1 danr xy pada model regresi linear sederhana
Sy
β^ 1=b1 = r
S x xy

2.3 Uji Signifikansi Parameter Model


Untuk menguji apakah variabel prediktor berpengaruh signifikan terhadap model yang
terbentuk, maka diperlukan beberapa pengujian antara lain pengujian secara serentak ataupun
parsial.
PENGUJIAN HIPOTESIS
Pengujian secara serentak
H 0 : β j=β jj
‖H 1 : β j≠β jj 
¿

Kaidah pengambilan keputusan


F hitung ≤F α F hitung > F α
2(
V 1 , V 2)
2(
V 1, V 2)
Gagal tolak H0 jika dan Tolak H0 jika

Jadi tidak ada variabel X yang signifikan terhadap Y


Apabila keputusannya adalah tolak H0 maka perlu dilakukan pengujian hipotesis secara
individual / parsial
H 0 : β j=β jj
‖H 0 : β j= β jj  H i =β i > β jj|H i = βi < β jj
¿
Statistik uji
b j− β jj b j −β jj
t hitung = =
√ var (b j ) se ( b j )
Mencari p-value dengan menggunakan probability distribusi plot
Apabila
β jj =0
βj
t hitung =
β jj
-2,08 2,08
2 ,08
1− ∫ f ( t ) dt
−2,08
2 JKR
R=
JKT
R̄2 =R2( adj )=R2( a ) =1−( 1−R2 ) ( ) n−1
n− p

2.4 Estimasi parameter dan prediksi


 Untuk mendapatkan model dan melakukan suatu prediksi ada beberapa langkah-langkah
yang harus dilakukan dan juga pemenuhan asumsi. Tahap Pemodelan Regresi Linear
(OLS)
1) Merumuskan permasalahan dengan berdasar bidang ilmu yang melatarbelakangi dan
merumuskan variabel-variabel yang diperlukan
2) Menyimpulkan data sampel, membuat scatter plot dan menentukan bentuk spesifikasi
model yang akan di esrimasi serta menentukan variabel respond an variabel predictor
3) Mendapatkan estimasi model
4) Cek parameter
5) Pemeriksaan asumsi
6) Melihat kebaikan model

Scatter Plot

(xi,yi)

Y = β0 + β 1 X 1 + ε Y = β0 −β 1 X 1 +ε Y = β0 + β 1 X + β 2 X 2 + ε Y =e
β 0 +β 1 X 2 +ε

Kuadratik (Polinomial orde 2)

Cek Korelasi
cov ( x , y )
r xy = ^ρxy =
√ var( x ) √ var( y )
Uji Signifikansi Korelasi Linear
Hipotesis :
H0 : ρxy = 0 H0 dan H1 yang dituliskan pada parameter korelasi Linear 2 variabel
H1 : ρxy ≠ 0 yang signifikan
Statistik Uji :
r xy √ n−2

thit = √ 1−r xy2


|t hit|>t α , n−2
1−
Daerah penolakan : Tolak H0 jika 2
Statistika terbagi menjadi statistika deskriptif dan statistika inferensia
Error mengakomodasi ketidakpastian yang diwakili oleh α (α yaitu tingkat kesalahan dalam
mengambil kesimpulan)
Scatterplot dan korelasi Deskriptif
Uji korelasi Inferensia

 Pengujian signifikansi parameter model Regresi Linear Sederhana y=β 0 + β 1 x1 + ε


1) β 1
Hipotesis
H : β 1=0
0

H1 : β 1≠0
Tabel ANOVA
Sumber Variasi Db SS / Sum Square MS (Mean Square)
Regresi 1 n SSreg
∑ ( ^y i− ȳ )2= β^ 1 S xy 1
i=1
Residual / Error n–2 n SSerror
∑ ( y i− ^y )2=SStot−SSreg n−2
i=1
Total Terkoreksi n–1 n
∑ ( y i− ȳ ) 2=S yy
i=1
MSreg
Fhit=
Statistik Uji : MSerror
Daerah penolakan : Tolak H0 jika Fhit> F1-α(1,n-2)
Interpretasi tolak H0 β 1≠0 variabel prediktor berpengaruh signifikan terhadap variabel
respon
 Pengujian signifikansi parameter model Regresi Linear Sederhana (k=1)
1) Hipotesis
H 0 : β 1=0
H1 : β 1≠0
a) Statistik Uji :
β^ 1 β^ 1
t hit = =
√ var ( β 1 ) SE ( β 1 )
MSE σ^ 2
var ( β 1 ) = =
S xx S xx
SE ( β ) =√
MSE
S xx
Daerah penolakan : Tolak H0 jika thit> t(1-α/2)(n-2)
Confidence Interval (1 – α)100% untuk β1
β^ 1±t 1−α /2, n−2 SE ( β^ 1 )
β^ −t
1 SE ( β^ )<β < β^ +t
1−α /2, n−2 1 SE ( β^ )
1 1 1−α /2, n−2 1
Tolak H0 jika CI tidak memuat nol
BB BA
+ +
- -
2) Hipotesis
H0 : β 0 =0
H1 : β 0 ≠0
β^ 0−β 00 β^ 0
t hit = =
i. Statistik Uji : √ var ( β 0 ) SE ( β0 )
var ( β^ 0 )=MSE
( ) ( )
∑ x 12
nS xx
=σ 2
∑ x i2
nS xx


SE ( β 0 ) = var ( β^ 0 )= MSE

Daerah Penolakan
√ (∑ )
nS xx
xi

: thit> t(1-α/2)(n-2)

ii. Confidence Interval (1 – α)100% untuk β0


β^ 0 ±t 1−α /2 ,n−2 SE ( β^ 0 )
β^ 0 −t 1−α /2, n−2 SE ( β^ 0 )< β 0 < β^ 0 +t 1−α /2, n−2 SE ( β^ 0 )

Kebaikan Model Regresi Linear


Koefisien determinasi (R2)
SSreg
R2 x 100 %
SStot
R2 yaitu besar proporsi atau persentasi variabelitas variabel respon yang dijelaskan oleh
variabel prediktor yang masuk ke dalam model. Nilai R 2 berada antara 0 dan 1. Jika R2
mendekati sama dengan 0 maka tidak ada hubungan antara X dan Y atau model regresi yang
terbentuk tidak tepat untuk meramalkan Y sedangkan R 2 mendekati atau sama dengan 1 maka
garis regresi yang terbentuk dapat meramalkan Y secara sempurna.
Data = estimasi model + error
y=β 0 + β 1 x1 + ε
y = β^ + β^ x +ε
i 0 1 i i
y i = ^y i +ε i
y i =44 +0 , 72 x i
Misalkan xi adalah pendapatan dan yi pengeluaran didapatkan model regresi dan nilai
R2 = 80% artinya proporsi variabilitas pengeluaran dijelaskan oleh pendapatan sebesar 80%
dengan sisanya sebesar 20% dijelaskan oleh variabel lain.

Hubungan R2 dengan MSE ( σ )


2

Jika nilai MSE kecil maka nilai R 2 besar sehingga nilai MSE dan R 2 berbanding
terbalik.
Lihat rumus, jika SSreg besar maka nilai R2 juga besar
y i = ^y i +ε i
 Hubungan R2 dengan koefisien korelasi Linear (pearson)
r xy=( tan da β 1 ) √ R2
R2 =( r xy ) 2
Penggunaan Model Regresi Linear Sederhana
a. Interpretasi : y=β 0 + β 1 xi
β^ 1 : rata-rata nilai variabel respon akan bertambah (meningkat atau menurun sesuai tanda
β^ 1 )
β^ 0 : rata-rata nilai variabel respon pada saat variabel prediktor = 0
^ ^
b. Prediksi atau Estimasi y i0 = β 0 + β i x i0
xi = xi0 = merupakan nilai variabel yang ditentukan yang nilainya berada dalam range
data variabel prediktor yang digunakan untuk mengestimasi model
Y x
1
2 Hanya layak memprediksi
3 antara 1-5
4
5
Y^ =b0 + b1 X
=Ȳ −b 1 X̄ +b 1 X
=Ȳ +b1 ( X− X̄ )
var ( Y^ 0 )=var (Ȳ + b1 ( X 0 − X̄ ) )
=var ( Ȳ ) + ( X 0− X̄ )2 var ( b 1 )

=
( σ 2 ( X 0 − X̄ ) 2
+
n S XX
σ
)

2
1 ( X 0 − X̄ )
Estimasi S ( Y^ 0 )=se ( Y^ 0 )=S +
n S XX
CI sebesar 1 – α untuk 100%
Y^ 0 ±t α . se ( Y^ 0 )
1− ( n−2)
2

[
P Y^ 0 −t
1−
α
2
( n−2)
. se ( Y^ 0 ) <Y 0 > Y^ 0 +t
1−
α
2
( n−2)
. se ( Y^ 0 )
]
Apakah regresi dapat meramal data diluar selang pengamatan ?
Bisa, dengan syarat :
a. Kita harus yakin, kondisi data yang akan diramalkan sama dengan kondisi yang
diamati
b. Hati-hati, varians peramalan akan lebih besar dari varians yang diamati
Estimasi: meramal data yang berada dalam selang ramalan untuk
Meramal pengamatan rata-rata

Prediksi : meramal data diluar selang pengamatan


Prediksi / pengamatan tunggal / pengamatan baru

[ ]
2
2 1 ( X 0 − X̄ )
var ( Y k )=σ 1+ +
n S XX
CI sebesar 1 – α untuk 100%
Y^ 0 ±t α . Var ( Y k )
1− ( n−2)
2

[
P Y^ 0 −t
1−
α
2
( n−2)
. Var ( Y k ) <Y 0 > Y^ 0 +t
1−
α
2
(n−2)
. Var (Y k )
]
2
Jika 2 tidak diketahui, maka diduga oleh S =M SE

Uji Lack Of Fit (Jika terdapat amatan berulang)


Pengukuran berulang pada respon bermanfaat bila pengamatan diulang beberapa kali
pada bilangan X. Jadi, bula tersedia pengulangan pengukuran, maka pengujian lack of fit
dapat dilakukan untuk menentukan apakah model telah sesuai atau tidak. Hipotesis yang
digunakan dalam pengujian ini adalah sebagai berikut.
H0 : tidak terdapat lack of fit (model regresi linear sudah sesuai)
H1 : terdapat lack of fit (model regresi linear tidak sesuai)
MS lack of fit
F hitung =
MS pure error
dengan
SS lack of fit
MS lack of fit=
db lack of fit
SS pure error
MS pure error=
db pure error
m nj
SSpe= ∑ ∑ ( y ju − ȳ j )2
j=1 u=1
m
db pe= ∑ n j
j=1
SS Lof =SSE−SSpe , SSE=SStot−SSreg
db Lof =dberror −db pe

Asumsi Residual Pada Model Regresi Linear Sederhana


εi ~ IIDN (0,σ2)
1. Identik, varian residual adalah konstan ( σ ) → var ( ε i )= σ
2 2

2. Independen, covarian antar residual adalah nol →cov ( ε i , ε j )=0 , i≠ j


3. Distribusi normal, residual berdistribusi normal dengan mean 0 dan varians σ2
εi ~ N (0,σ2)

Plot antara εi dan i independen


Independen jika polanya membentuk horizontal riibon berada di sekitar nol
ei

+ . . . . . . . . . . . .. . . . . . . . . . . . Sebaran konstan

- . . . . . .. . . . .. . . . . .. . . . .. . .

^y i

Sebaran tidak konstan


Pi

0 ei
Plot antara εi dan Pi distribusi normal
e(i) error yang telah diurutkan dari yang terkecil ke yang terbesar
i−0. 5
Pi =
n
2.5 Contoh dan Aplikasi
Sebuah penelitian dilakukan oleh seorang mahasiswa Statistika ITS untuk menentukan
hubungan antara nilai Pengantar Metode Statistika dan nilai Metode Regresi. Data yang
diperoleh adalah sebagai berikut.

Nilai_PM Nilai_Met Regresi


S (X) (Y)
65 85
50 74
55 76
65 90
55 85
70 87
65 94
70 98
55 81
70 91
50 76
55 74
Dengan  = 0,05,
1. Identifikasi hubungan menggunakan scatterplot dan uji keeratan hubungan (korelasi)
2. Estimasi parameter regresi dan interpretasikan
3. Gambarkan garis regresi
4. Buat tabel ANOVA dan jika didapatkan tolak H0 maka lakukan uji secara parsial
untuk parameter 0 dan 1
5. Buat CI 95% untuk 0 dan 1
6. Apakah model yang didapatkan sudah dapat dikatakan model yang baik?
7. Berapakah hasil ujian metode regresi jika nilai PMS 65. Buatlah selang CI 95%
untuk ^y 0

Pembahasan :

1. Pembahasan visualisasi scatterplot dan uji keeratan hubungan (korelasi) telah


dibahas pada pembahasan BAB I

2. Dugaan garis regresi


12 12 12 12 12
∑ X i=725 ∑ Y i=1. 011 ∑ Y 2=85. 905
i
∑ X 2=44 . 475
i
∑ X i Y i =61 .685 x̄=60 ,42
i=1 i=1 i=1 i=1 i=1
ȳ=84,25
12 12 12
n ∑ X i Y i −∑ X i ∑ Y i
i=1 i=1 i=1
b 1= 12 12
=0 , 897=0 ,9
n ∑ X 2 −( ∑ X i ) 2

i=1 i i=1
b 0= ȳ−b1 x̄=30
Sehingga persamaan model regresi adalah ^y =30+0,897 x+e  Interpretasi : Jika nilai PMS

bertambah 1 poin nilai, maka nilai mata kuliah mata kuliah metode regresi akan bertambah
sebesar 0,897 poin nilai.

3. Gambar Garis Regresi

^y =30+0,897 x+e

Dari model tersebut didapatkan nilai y^ dan error sebagai berikut

error = y− ^y
error

88.3622 -
3.3622
3
74.904 -
0.9040
2
79.3901 -
3.3900
9
88.3622 1.6377
71
79.3901 5.6099
07
92.8483 -5.8483
88.3622 5.6377
71
92.8483 5.1517
03
79.3901 1.6099
07
92.8483 -1.8483
74.904 1.0959
75
79.3901 -
5.3900
9
4. Tabel ANOVA dan Uji Parsial
a) Uji Serentak
H0 : nilai PMS tidak berpengaruh signifikan terhadap nilai metode regresi (1 = 0)
H1 : nilai PMS berpengaruh signifikan terhadap nilai metode regresi (1  0)
Taraf Signifikan :  = 0,05
Daerah Penolakan : Tolak H0 jika Fhit> F1-α(1,n-2)
Perhitungan :
n
∑ ( ^y i− ȳ )2
i=1
JK Regresi = = ((88,365-84,25)2+(74,90-84,25)2+…+(79,39-84,25)2=541,69
n
∑ ( y i− ȳ )2
i=1
JK Total = = ((85-84,25)2+(74-84,25)2+…+(74-84,25)2=728,25

JK Residual = JK Total – JK Regresi = 728,25 – 541,69 = 186,56


Sumber Variasi Db JK KT F
Regresi 1 541,69 541,69 29,04
Residual / Error 10 186,56 18,66
Total Terkoreksi 11 728,25
Keputusan : Tolak H0 karena nilai F > F1-α(1,10) (29,04 > 4,96)
Kesimpulan : nilai PMS berpengaruh signifikan terhadap nilai metode regresi (1  0)
Sehubungan dengan adanya pengaruh nilai PMS terhadap nilai metode regresi maka
dilanjutkaan pada uji parsial sehingga didapatkan
H0 : Intersep tidak berpengaruh signifikan terhadap nilai metode regresi (0 = 0)
H1 : Intersep berpengaruh signifikan terhadap nilai metode regresi (0  0)
Taraf Signifikan :  = 0,05
Daerah Penolakan : Tolak H0 jika thit> t(1-α/2)(n-2)
Perhitungan :
Sxx2 = 61,74  Sxx = 7,8
Syy2 = 66,205
Se = √ MSE = 4,3
(b −β ) S √n(n−1) (30−0)7 ,8 √ 12(11)
t hit = 0 0 xx = =2,96


n 7,3 √ 44 .475
Se ∑ X 2 -2,23
i=1 i 2,23
Keputusan : Tolak H0 karena thit> t(1-α/2)(n-2) (2,96 > 2,228)
Kesimpulan : Intersep berpengaruh signifikan terhadap nilai metode regresi (0  0)

H0 : nilai PMS tidak berpengaruh signifikan terhadap nilai metode regresi (1 = 0)
H1 : nilai PMS berpengaruh signifikan terhadap nilai metode regresi (1  0)
Taraf Signifikan :  = 0,05
Daerah Penolakan : Tolak H0 jika thit> t(1-α/2)(n-2)
Perhitungan :
(b 1−β 1 )S xx √ n−1 (0 , 897−0 )7 , 8 √ 11
t hit = = =5 , 396
Se 7 ,3
Keputusan : Tolak H0 karena thit> t(1-α/2)(n-2) (5,396 > 2,228)
Kesimpulan : nilai PMS berpengaruh signifikan terhadap nilai metode regresi (1  0)
5. Confidence Interval 95% 0 dan 1

√∑
n
b0 ±t α /2 Se X2
30±2 , 228×4 , 3 √ 44 . 475
i=1 i
β 0= = =(7 ,51 ;53 ,6 )
S x √n (n−1 ) 7 , 8 √12(11)
artinya 7,51 <β 0 <53 ,6
b1 ±t α /2 S e 0 , 897±2 , 228×4 , 3
β 1= = =(0 , 527 ;1 ,267 )
S x √ n−1 7 , 8 √11
artinya 0,527 <β 1 <1 , 267

6. Kebaikan Model
Untuk melihat model yang terbentuk dapat dilihat dari koefisien determinasi (R2)
2 2 2
sebagai berikut. R =( r xy ) =( 0 ,862 ) =74 ,3 % yang memberikan arti bahwa proporsi variabilitas
variabel nilai Pengantar Metode Statistika mampu menjelaskan sebesar 74,3% variabel nilai
metode regresi dengan sisanya 25,7% dijelaskan oleh variabel lain di luar model.
7. Prediksi Model
Jika nilai PMS adalah 65 maka prediksi nilai metode regresi dapat ditentukan yaitu
dengan memasukkan pada persamaan regresi yang terbentuk sehingga
^y =30+0,897 x=30+0,897(65)=88,305
sehingga jika nilai PMS adalah 65 maka prediksi nilai
metode regresi yang akan didapatkan mahasiswa tersebut adalah 88,305 dengan selang


2
1 (65−60 , 42)
^y 0 ±t α SE ( ^y 0 )=88 ,305±2 ,228 + =88 , 305±3 , 7098=(84 , 5952 ;92 ,01 )
1− , n−2
2
12 7,8
kepercayaan

Dapat dipercaya sebanyak 95% bahwa jika nilai PMS yang didapatkan seorang mahasiswa 65
maka nilai metode regresi diprediksi berada pada selang 84,5952 sampai 92,01.

Langkah-Langkah Komputasi
1. Dari data tersebut kemudian dilakukan pengujian keLinearan antara dua variabel dengan
menggunakan scatterplot. Dengan menggunakan MINITAB, langkahnya adalah Graph –
Scatterplot – With Regression.

Kemudian Klik OK. Maka Didapatkan hasil scatterplot seperti pembahasan contoh dan
aplikasi pada BAB I.
2. Hubungan antara variabel x dan y seperti yang terlihat pada Gambar scatter plot yang
terbentuk terlihat mengikuti pola Linear. Hal ini dapat dilihat dari titik-titiknya yang
hampir mengikuti garis. Namun, untuk membuktikan keLinearan hubungan tersebut,
dilakukan uji korelasi antara dua variabel tersebut. Korelasi ini dapat dicari dengan Stat –
Basic Statistics – Correlation. Lalu masukkan variabel Nilai PMS dan Nilai Metode
Regresi (Variabel yang ingin diuji keeratan hubungannya).
Sehingga didapatkan output sebagai berikut.
Correlations: Nilai_PMS (X), Nilai_Met Regresi (Y)

Pearson correlation of Nilai_PMS (X) and Nilai_Met Regresi (Y) = 0.862


P-Value = 0.000

3. Output MINITAB yang dihasilkan menunjukkan nilai P-value sebesar 0.000. Dengan nilai
α = 0,05 maka kita dapat menolak H0. Sehingga, dapat dikatakan bahwa korelasi antara
kedua variabel tersebut signifikan. Ada hubungan Linear yang cukup erat antara nilai PMS
dengan nilai metode regresi. Selanjutnya akan dilakukan analisis regresi untuk melihat
pola hubungan antara kedua variabel tersebut. Analisis regresi dengan menggunakan
MINITAB dengan cara Stat – Regression – Regression. Hingga muncul kotak dialog
seperti berikut ini.
Kemudian inputkan pada response variabel respon yang ingin dimodelkan dan pada
predictors variabel prediktor yang ingin diuji. Dalam hal ini yang menjadi response adalah
nilai metode regresi dan predictors adalah nilai Pengantar Metode Statistika.
 Untuk melihat nilai prediksi nilai metode regresi dengan nilai X yang diketahui maka
pada klik option kemudian pada prediction intervals for new observations masukkan
angka 65 dan kemudian jika ingin dilihat selang kepercayaan 95% nilai metode regresi
tersebut masukkan confidence level 95 dan centang menu confidence limit kemudian
klik OK.
 Untuk mengetahui apakah secara visualisasi data tersebut telah memenuhi asumsi
IIDN, maka pada graph klik :
a. Jika ingin dilihat secara visualisasi asumsi IIDN dalam 1 gambar saja maka klik four
in one sedangkan jika ingin melihat secara masing-masing maka klik pada masing-
masing opsi
 Untuk memunculkan nilai yhat dan residual maka pada storage pilih dan centang
residuals dan fits
Sehingga muncul output analisis regresi sebagai berikut.
Regression Analysis: Nilai_Met Regresi (Y) versus Nilai_PMS (X)

The regression equation is


Nilai_Met Regresi (Y) = 30.0 + 0.897 Nilai_PMS (X)  model regresi

Predictor Coef SE Coef T P


Constant 30.04 10.14 2.96 0.014
Nilai_PMS (X) 0.8972 0.1665 5.39 0.000  Uji Parsial

S = 4.31923 R-Sq = 74.4% R-Sq(adj) = 71.8%  ukuran kebaikan Model

Analysis of Variance

Source DF SS MS F P  Uji ANOVA


Regression 1 541.69 541.69 29.04 0.000
Residual Error 10 186.56 18.66
Total 11 728.25

Predicted Values for New Observations

New Obs Fit SE Fit 95% CI  Selang Kepercayaan 95% PI


1 88.36 1.46 (85.11, 91.62) (78.20, 98.52)

Values of Predictors for New Observations

Nilai_PMS
New Obs (X)
1 65.0

Dari gambar diatas dapat diinterpretasikan bahwa residual cenderung telah memenuhi
distribusi normal, identik, dan independen. Selain itu, didapatkan hasil perhitungan residual
dan yhat untuk model tersebut sebagai berikut.
RESI1 FITS1 RESI1 FITS1 RESI1 FITS1 RESI1 FITS1
-3.36223 88.36223 5.151703 92.8483 1.637771 88.36223 1.095975 74.90402
-0.90402 74.90402 1.609907 79.39009 5.609907 79.39009 -5.39009 79.39009
-3.39009 79.39009 -1.8483 92.8483 -5.8483 92.8483 5.637771 88.36223
2.6 Latihan Soal
1. Misalkan data yang dipakai adalah data Variabel x merupakan suhu atmosfer rata-rata
(oF) dan y adalah banyaknya uap yang digunakan setiap bulan (pound). Data yang
didapat adalah sebagai berikut :
Y x y x
10.98 35.3 9.57 39.1
11.13 29.7 10.94 46.8
12.51 30.8 9.58 48.5
8.4 58.8 10.09 59.3
9.27 61.4 8.11 70
8.73 71.3 6.83 70
6.36 74.4 8.88 74.5
8.5 76.7 7.68 72.1
7.82 70.7 8.47 58.1
9.14 57.5 8.86 44.6
8.24 46.4 10.36 33.4
12.19 28.9 11.08 28.6
11.88 28.1
Dapatkan model regresi linear sesuai dengan tahapan pemodelan regresi linear sederhana !

2. Seorang guru ingin mengetahui pengaruh nilai ulangan harian terhadap perolehan nilai
mid semester pada mata pelajaran ‘A’ di kelas ‘B’, dengan 12 siswa sebagai sampel
yang diamati
Variabel dependen (Y) : Nilai mid semester
Variabel independen (x) : Nilai ulangan harian
Sisw Yi xi
a
1 8 6
5 5
2 7 5
4 0
3 7 5
6 5
4 9 6
0 5
5 8 5
5 5
6 8 7
7 0
7 9 6
4 5
8 9 7
8 0
9 8 5
1 5
10 9 7
1 0
11 7 5
6 0
12 7 5
4 5

a. Lakukan estimasi model Linear sederhana yang menjelaskan pengaruh nilai ulangan
harian terhadap perolehan nilai mid semester pada mata pelajaran dan interpretasikan
b. Buat Tabel Anova
c. Hitung koefisien Determinasi
d. Hitung estimasi interval untuk 
e. Uji signifikansi pengaruh nilai ulangan harian (x) terhadap nilai mid semester (Y) dan
signifikansi intersep dalam model
f. Bila nilai ulangan harian 60 (=x0), nilai x0 berada di dalam range data x, lakukan
estimasi nilai mid semester (Y) dan interval nilai mid semester dengan tingkat
keyakinan 95 %
g. Bila nilai ulangan harian 45 (=x0), nilai x0 berada di luar range data x, lakukan
prediksi nilai mid semester (Y) hitung estimasi interval nilai mid semester dengan
tingkat keyakinan 95 %
BAB III REGRESI LINEAR BERGANDA

3.1 Model Regresi Linear Berganda (k variabel prediktor)


Y = β0 + β 1 X 1 + β 2 X 2 +⋯+ β k X k + ε

Dalam bentuk matriks dinyatakan sebagai berikut.


Y⃗ =x ⃗β +⃗ε

3.2 Estimasi parameter metode OLS dengan pendekatan matriks


T
∂ε ε ^ ( x T x )−1 x T ⃗y
=0→ β=
∂ ⃗β

[] [ ] []
β0 1 X 11 X 21 ⋯ X k 1 Y1
⃗β = β 1 x =1 X 12 X 22 ⋯ X k 2 Y = Y2
( k +1) x 1 ⋮ ( n) x ( k +1) ⋮ ⋮ ⋮ ⋱ ⋮ nx 1 ⋮
βk 1 X1 n X 2n ⋯ X kn Yn

Dimana :

Misal :
Y = β0 + β 1 X + β 2 X 2 Y = β0 + β 1 X + β 2 X 2

[ ] [] [ ]
1 X1 X 1 X 11 X 21
12

[]
β0 β0

β= β1
X =¿ 1 X 2 X 2 2 ¿ ¿ ¿¿ ⃗
β= β1
X=¿ 1 X 12 X 22 ¿ ¿ ¿¿
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
β2 β2
¿ ¿
3.3 Pengujian Signifikansi Parameter Model
a) Serentak
Hipotesis :
H 0 : β 1= β2 =. ..=β k=0
H1 : minimal terdapat satu β j ≠0 , j=1 ,2 , .. . , k
Tabel ANOVA model regresi Linear berganda (k variabel prediktor)
Sumber Variasi db SS MS
Regresi K SSreg
SSreg k
Residual / Error n-p SSreg
SSE n− p
Total Terkoreksi n-1
SStot
p = k+1
n
SSreg=∑ ( y i− ȳ ) =β T x T y−n ȳ 2
i=1
SStot=∑ ( ^y i− ȳ ) = y T y−n ȳ 2
MSreg
Fhit=
Uji : MSerror
Statistik

|t hit|>t α , n−2
1−
penolakan : Tolak H0 jika 2

Daerah
var ( β^ j )=diag {( x T x ) MSE }
−1

[ ]
var ( β0 ) cov ( β 0 , β1 ) ⋯ cov ( β 0 , β k )
−1 var ( β 1 ) ⋯ cov ( β 1 , β k )
covar ( β^ j )=( x T x ) MSE=
⋱ ⋮
var ( β k )

SS Sequential
b1|b0)  X1 masuk pertama kali dalam model
SS(
SS Sequential

SStot = SS ( b1, b2| b0)


SS ( b1, b2, b0 )= SS ( b1, b2 | b0 ) + SS ( b0 )
SS ( b1, b2 | b0 ) = SS ( b1, b2, b0 ) - SS ( b0 )
SS ( b1 | b0 ) = SS ( b1, b0 ) - SS ( b0 )
SS ( b2 | b0, b1 ) = SS ( b0, b1 | b2 ) - SS ( b0, b1 )
Uji signifikansi berdasar urutan masuk (sequensial) ke dalam model
I. Pertama masuk
Hipotesis
H0 : βj = 0
H1 : βj ≠ 0
Statistik Uji :
MS ( b j|b 0 )
Fsekuensial=
MSE Model Lengkap
Daerah penolakan : Tolak H0 jika Fsekuensial> F1-α(1,n-p)

II. Variabel masuk pada urutan ke-II


Hipotesis
H0 : βj = 0
H1 : βj ≠ 0
Statistik Uji :
MS ( b j ,⋯,b0 )
Fsekuensial=
MSE Model Lengkap
Nilai Fparsial dapat ditentukan dengan persamaan sebagai berikut.
MS ( b1|b2 ,b0 )
F parsial =
MSE Model Yang Diestimasi
MS ( b2|b1 ,b0 )
F parsial =
MSE Model Lengkap
Daerah penolakan : Tolak H0 jika Fsekuensial> F1-α(1,n-p)

Adapun Fparsial jika terdapat 3 variabel prediktor (X) dapat ditentukan dengan persamaan :
Y = β0 +β 1 X 1 +β 2 X 2 +β 3 X 3 +ε
MS ( b1|b 2 ,b3 , b 0 )
F X1=
MSE Model Lengkap
MS ( b2|b 1 ,b3 , b 0 )
F X2=
MSE Model Lengkap
MS ( b3|b1 ,b2 ,b 0 )
F X3=
MSE Model Lengkap

3.4 Tahapan Pemodelan Regresi Liniear Berganda


1) Merumuskan permasalahan dengan berdasar bidang ilmu yang melatarbelakangi dan
merumuskan variabel-variabel yang diperlukan
2) Menyimpulkan data sampel, membuat scatter plot dan menentukan bentuk spesifikasi
model yang akan di esrimasi serta menentukan variabel respon dan prediktor
3) Estimasi
4) Cek asumsi
εi ~ IIDN (0,σ2)
tidak terjadi korelasi linear yang cukup tinggi antar variabel prediktor
1
VIF= ,Tol j =1−R 2
Tol j j

Keterangan :
VIFj = VIF variabel ke-j
Tolj = Toleransi variable predictor ke-j
Y = β0 + β 1 X 1 + β 2 X 2 + β 3 X 3 +ε
Misal :
j =1→ X 1 → X 2 , X 3 → ( R 1 )
j =2→ X 2 → X 1 , X 2 → ( R 2 )
j =3→ X 3 → X 1 , X 2 →( R3 )

Respon Prediktor

3.5 Contoh dan Aplikasi


Suatu data pada tabel berikut ini lakukan estimasi model yang diperoleh secara
sekuensial kemudian lakukan uji signifikasi dengan Fsekuensial
No Y X1 X2
1 85 75 4
2 75 60 7
3 75 65 6
4 90 75 2
5 85 65 2
6 87 80 3
7 95 75 2
8 95 80 3
9 80 65 4
10 90 80 3
11 75 60 5
12 75 65 5
Y = β0 +β 1 X 1 +β 2 X 2 +ε →Y^ =55 .8+0 .527X1 −2 .34X1 582 .61
R2 = x 100 %=87 .6 %
Y = β +β X + β X +ε →Y^ =55 .8−2,34X +0,527X
0 2 2 1 1 2 1 664 ,92

Interpretasi model  Jika X1 bertambah 1 satuan maka Y akan bertambah sebesar 0,527

satuan dengan syarat variabel X2 yang berada dalam model konstan, sedangkan jika X2

bertambah 1 satuan maka Y akan berkurang sebesar 2,34 satuan dengan syarat variabel X1

yang berada dalam model konstan.


Tabel ANOVA Sequential
Sumber Variasi db SS MS
Y =f ( X 1 ) → Y^ =23 ,7+ 0 , 855 X 1
Regresi 492,04
582,61 SS ( b 1|b0 )
b2, b1 | b0 2 R2 = ×100 %=74 %
b1 | b0 1 SStot
492,04
b2 | b1, b0 1
90,57
Y =f ( X 1 ) → Y^ =99 ,3+ 04 , 02 X 1
478,68 SS ( b 2|b0 )
Regresi 582,61 R2 = ×100 %=72%
b1, b2 | b0 2 SStot
b2 | b0 1
b1 | b2, b0 1 478,68

103,93
Residual / Error 9
82,31 9,15

Total Terkoreksi 11
664.92

Variabel masuk pertama kali ke dalam model dengan 2 variabel prediktor


X1 X2
R2 74% 72%
MSE = S2 17,29% 18,62%
Variabel prediktor masuk yang ke-2 pada model regresi dengan 2 variabel prediktor
SS ( b2|b 1 ,b0 ) 90,57
R2 = ×100%= =13,6%
SStot 664,92
2 1 2 (
SSEX |X =SStot−SS b |b1 ,b0 =574,35 )
574,35
MSE X | X = =63,82
2 1 9
SS ( b1|b 2 , b0 ) 103,93
R2 = ×100%= =15,6%
SStot 664,92
SSEX |X =SStot−SS ( b1|b2 ,b0 ) =560,99
2 1

560,99
MSE X | X = =62,3
2 1 9
X1 X2
R2 13,6% 15,6%
MSE = S2 163,82% 62,3%

Sehingga, dapat diringkas kontribusi variabel prediktor berdasar urutan masuk kedalam
model sebagai berikut.
I II
X1 X2 X2 X1
R2 74% 72% 13,6% 15,6%
MSE 17,29 18,62 63,81 62,33

Uji signifikansi berdasar urutan masuk (sequensial) ke dalam model


I. Pertama masuk
Hipotesis
H0 : β1 = 0
H1 : β1 ≠ 0
492,04
F sekuensial = =53,77
9,15
Statistik Uji : F 95%=5,12
Kesimpulan : variabel X1 signifikan pada urutan pertama masuk kedalam model

II. Variabel masuk pada urutan ke-II


Hipotesis
H0 : βj = 0
H1 : βj ≠ 0
MS ( b j ,⋯,b0 )
Fsekuensial=
MSE Model Lengkap
MS ( b 2|b1 , b 0 ) 90 , 57
Fsekuensial= = =9 . 9
MSE Model Lengkap 9 , 15
Kesimpulan : variabel X2 signifikan pada urutan masuk ke-2 kedalam model regresi
dengan 2 variabel prediktor

Uji Parsial dengan Uji F (F parsial)


SS ( b1, b2 | b0 ) = 103,93 ≠ SS (b1, b2 | b0)
SS ( b2 | b0, b1 ) = 90,57
- SS parsial jika dijumlahkan tidak sama dengan SSreg
- SSseq dijumlahkan sama dengan SSreg
Y = β0 +β 1 X 1 +β 2 X 2 +ε
H0 : β1 = 0 H0 : β2 = 0
H1: β1 ≠ 0 H1: β2 ≠ 0
Fparsial sama dengan Fsekuensial jika variabel prediktor tersebut masuk terakhir ke dalam model
MS ( b1|b2 ,b0 ) 103,93
F parsial = = =11, 358
MSE Model Yang Diestimasi 9,15
Daerah penolakan : Tolak H0 jika Fparsial> F1-α(1,n-p)
Keputusan : Tolak H0 karena Fparsial > F1-α(1,n-p) (11,358 > 5,12)
Kesimpulan : variabel X1 signifikan pada urutan masuk ke-2 kedalam model regresi dengan 2
variabel prediktor
MS ( b2|b1 ,b0 ) 90,57
F parsial = = =9 ,898
MSE Model Lengkap 9,15
Daerah penolakan : Tolak H0 jika Fparsial> F1-α(1,n-p)
Keputusan : Tolak H0 karena Fparsial > F1-α(1,n-p) (9,898 > 5,12)
Kesimpulan : variabel X2 signifikan pada urutan masuk ke-2 kedalam model regresi dengan 2
variabel prediktor

Langkah-langkah Komputasi :

Pada hakikatnya, langkah-langkah ketika menggunakan software Minitab sama dengan


pemodelan untuk regresi linear sederhana, hanya saja pada regresi linear berganda, predictors
terdiri dari variabel prediktor yang lebih dari satu. Pada pembahasan kali ini lebih
ditampilkan bagaimana cara menghitung Fsekuensial dan Fparsial pada analisis regresi Linear
berganda.
1. Meregresikan X1 dengan Y dan X2 dengan Y untuk mendapatkan nilai SS(b 1b0) dan
SS(b2b0)

Sehingga dihasilkan output sebagai berikut.


Regression Analysis: Y versus X1

The regression equation is


Y = 23.7 + 0.855 X1

Predictor Coef SE Coef T P


Constant 23.70 11.35 2.09 0.063
X1 0.8551 0.1603 5.34 0.000

S = 4.15780 R-Sq = 74.0% R-Sq(adj) = 71.4%

Analysis of Variance
2. Meregresikan X1 dengan urutan pertama masuk kedalam model kemudian disusul X 2
dengan urutan kedua untuk mendapatkan nilai SS(b2b1,b0)

sehingga didapatkan output sebagai berikut.


Regression Analysis: Y versus X1, X2

The regression equation is


Y = 55.8 + 0.527 X1 - 2.34 X2

Predictor Coef SE Coef T P


Constant 55.78 13.12 4.25 0.002
X1 0.5271 0.1564 3.37 0.008
X2 -2.3436 0.7447 -3.15 0.012

S = 3.02411 R-Sq = 87.6% R-Sq(adj) = 84.9%

Analysis of Variance

Source DF SS MS F P
Regression 2 582.61 291.30 31.85 0.000
Residual Error 9 82.31 9.15
Total 11 664.92

Source DF Seq SS
3. Meregresikan X2 dengan urutan pertama masuk kedalam model kemudian disusul X 1
dengan urutan kedua untuk mendapatkan nilai SS(b1b2,b0)

sehingga didapatkan output sebagai berikut.


Regression Analysis: Y versus X2, X1

The regression equation is


Y = 55.8 - 2.34 X2 + 0.527 X1

Predictor Coef SE Coef T P


Constant 55.78 13.12 4.25 0.002
X2 -2.3436 0.7447 -3.15 0.012
X1 0.5271 0.1564 3.37 0.008

S = 3.02411 R-Sq = 87.6% R-Sq(adj) = 84.9%

Analysis of Variance

Source DF SS MS F P
Regression 2 582.61 291.30 31.85 0.000
Residual Error 9 82.31 9.15
Total 11 664.92

Source DF Seq SS
X2 1 478.68  (SS b2b0)
X1 1 103.93  (SS b1b2,b0)

3.6 Latihan Soal


Gunakan  = 5% untuk soal nomor 1 dan 2
1. Suatu eksperimen dilakukan untuk menjelaskan pengaruh suhu dan waktu terhadap
reaksi kimia yang dihasilkan melalui model regresi Linear berganda,
Y=0+1x1+2X2+; Adapun hasil eksperimen yang telah dilakukan dirangkum dalam
tabel berikut ini.
Observasi Hasil Reaksi Kimia Suhu (F) Waktu (Hari)
(%)
1 77 160 1
2 79 160 2
3 82 165 1
4 83 165 2
5 85 170 1
6 88 170 2
7 90 175 1
8 93 175 2
Berdasarkan informasi yang diberikan,
a. Tuliskan matriks X dan vektor Y
b. Dapatkan (XTX)-1 dan (XTY)
c. Dengan pendekatan matriks, dapatkan estimasi parameter model regresi Linear
berganda dengan metode Ordinary Least Square (OLS) kemudian tuliskan estimasi
modelnya.
d. Lakukan check asumsi residual estimasi model yang telah diperoleh, lakukan
analisis baik melalui plot.
e. Dengan menganggap seluruh asumsi regresi klasik (metode estimasi parameter
model OLS) terpeuhi, lakukan seluruh pengujian signifikansi parameter model
yang diperlukan (tulis tabel anova pada uji serentak dan jika perlu melakukan uji
parsial dengan uji T)
f. Diketahui bahwa hubungan antara nilai variabel random yang berdistribusi T dan F
adalah t2=F, maka dapakan nilai Fparsial untuk masing-masing variabel prediktor dan
lakukan uji parsial dengan statistik uji tersebut.
g. Hitung koefisien determinasi estimasi model yang diperoleh dan interpretasikan.
2. Data berikut berasal dari 15 runtunan percobaan yang diukur pada dua peubah bebas
dan satu respon Y
Y X1 X2 Y X1 X2 Y X1 X2 Y X1 X2
14.8 11.5 6.3 16.6 8.8 9.1 13.8 14.7 8.2 17.6 9.3 6.6
12.1 14.3 7.4 17.2 9.8 5.6 14.7 15.1 9.2 16.3 10.8 8.7
19.0 9.4 5.9 17.5 11.2 6.8 17.7 8.7 4.7 18.2 11.9 5.4
14.5 15.2 8.7 14.1 10.9 7.4 17.0 8.6 5.5
a. Tuliskan estimasi model-model yang diperoleh secara sekuensial
b. Lengkapi tabel berikut ini.
Sumber Variasi Db. SS.
(b1,b2b0)
(b1b0)
(b2b1,b0)
(b2,b1b0)
(b2b0)
(b1b2,b0)
residual
Total terkoreksi
c. Lakukan uji signifikansi kontribusi variabel X1 dan X2 pada urutan pertama
masuk ke dalam model regresi Linear berganda dengan Fsekuensial
BAB IV ASUMSI PADA REGRESI LINEAR

Beberapa asumsi residual dalam analisis regresi diantaranya : (1) Model regresi Linear
(model regresi Linear dalam parameter), (2) Prediktor dalam analisis regresi merupakan suatu
nilai yang tetap (fixed factor), (3) Hasil ekspektasi dari residual bernilai nol, (4) Residual dari
2
analisis regresi identik ( variansi dari residual bersifat tetap Var (ei) = σ i ), (5) Tidak terjadi
autocorrelation (antara residual yang satu dengan yang lain saling bebas), (6) Covariance
antara residual dengan prediktor bernilai nol, (7) banyaknya observasi (n) dalam analisis
harus melebihi jumlah parameter (p) dari hasil estimasi, (8) Tidak terjadi multicollinearity
(hubungan yang sangat kuat diantara prediktor) (Gujarati, 2004:65).
4.1 Definisi MultikoLinearitas
Istilah multikolinearitas pertama kali ditemukan oleh Ragnar Frisch yang berarti
adanya hubungan linear sempurna atau pasti diantara beberapa atau semua variabel penjelas
(bebas) dari model regresi ganda. Selanjutnya, istilah multikolinearitas digunakan dalam arti
yang lebih luas yaitu untuk terjadinya korelasi Linear yang tinggi diantara variabel-variabel
penjelas (X1, X2, …,Xp) (Setiawan dan Kusrini, 2010). Konsekuensi adanya multikolinearitas
adalah
1. Jika terdapat korelasi yang signifikan, antar variabel prediktor (rxi,xj)
2. Nilai VIFj > 10
1
VIF j = ;Tol j =1−R 2
Tol j j

3. Standard error yang sangat besar.


4.2 Pemeriksaan multikoLinearitas dan penangannnya
Ada beberapa cara mendeteksi adanya multikolinearitas, yaitu
1. Apabila memperoleh R2 yang tinggi (>0,7) dalam model tetapi sedikit atau bahkan
tidak satu pun parameter regresi yang signifikan jika diuji dengan uji parsial (T).
2. Apabila memperoleh koefisien korelasi yang tinggi diantara sepasang-sepasang
variabel penjelas. Tingginya koefisien korelasi merupakan syarat yang cukup untuk
terjadinya multikolinearitas.
^
3. Apabila dalam model regresi memperoleh koefisien regresi ( β j ) dengan tanda yang
berbeda dengan koefisien korelasi antara Y dengan Xj.
4. Nilai indeks kondisi
nilai eigen maksimum
Nilai kondisi = k =
nilai eigenminimum
Indeks kondisi = IK = √ k

Jika
10 – 30 ; ada multikolinearitas sedang
IK =
Lebih 30; ada multikolinearitas serius

5. Tolerance (TOL) dan Variance Inflation Factor (VIF)


Terdapat satu variabel respon Y dengan p buah variabel prediktor maka jika
diregresikan akan diperoleh koefisien determinasi.
X j =A 0 + A 1 X 1 + A 2 X 2 +.. .+ A p−1 X p +ε⃗
menghasilkan R 2
j
TOL j=1−R
j2
1 1
VIF j = =
TOL j 1−R 2
j VIFj>10 Terdapat multikolinearitas
Jika terdapat multikolinearitas dalam model maka dapat ditangani dengan beberapa
hal tersebut, yaitu
1. Membuang salah satu variabel prediktor yang saling berkorelasi.
2. Mengganti dengan sampel baru  menggunakan variabel yang sama tetapi data yang
baru
3. Menggunakan pengembangan model (metode yang advance)  stepwise, ridge
regression, principal component regression, dan lain-lain.

4.3 Pemeriksaan asumsi residual dan penanganannya


Asumsi residual IIDN (Identik, Independen, dan Berdistribusi Normal) merupakan
asumsi yang harus terpenuhi saat melakukan analisis regresi. Baik analisis regresi sederhana
maupun analisis regresi berganda.
4.3.1 Normalitas
Uji Distribusi Normal menggunakan uji Kolmogorov Smirnov, Anderson Darling,
Chi-Square, dan Lielifors. Pada umumnya, pengujian terhadap asumsi kenormalan dapat
dilakukan menggunakan uji Kolmogorov Smirnov. Uji kenormalan Kolmogorov Smirnov ini
biasanya digunakan pada data yang bersifat kontinu. Penerapan pengujian ini menggunakan
dua buah fungsi distribusi kumulatif yaitu distribusi kumulatif yang ditentukan sebagai
hipotesis serta distribusi kumulatif dari data yang teramati. Adapun pengujian hipotesisnya
adalah sebagai berikut (Daniel, 1989).

Hipotesis
H0 : F0 (X) = F0 (X), Data berdistribusi normal
H1 : F0 (X)  F0 (X), Data tidak berdistribusi normal
Statistik Uji
D = Sup |F n ( x ) − F 0 ( x )|

Dimana
Fn(x) : Nilai distribusi kumulatif sampel
F0(x) : Nilai distribusi kumulatif yang diterapkan, atau di bawah H 0 P(Z<Zi) untuk distribusi
Normal.

Daerah Penolakan : Tolak H0 jika Dhitung >Dα, n

Penanganan jika residual data tidak berdistribusi normal adalah dengan transformasi
variabel baik variabel respon
4.4.1 Heterokedastisitas
Asumsi residual independen berarti bahwa variansi dari error bersifat tetap dengan
2
Var (ei) = σ i . Pada dasarnya adda dua metode yang dapat digunakan untuk mendeteksi
heteroskedastisitas yaitu metode informal dan metode formal. Metode informal terdiri atas
sifat persoalan dan metode grafik. Melalui metode grafik dapat dilihat jika suatu plot tidak
membentuk suatu pola, maka dapat disimpulkan residual tersebut telah memenuhi asumsi
identik. Sedangkan pada metode formal, pendeteksian dapat dilakukan dengan menggunakan
pengujian secara statistika. Beberapa pengujian yang dapat digunakan adalah uji korelasi
rank spearman, uji park, uji glejser, uji Goldfeld-Quandt, uji White.

a. Uji Korelasi Rank-Spearman


Langkah-langkahnya adalah sebagai berikut.
1. Meregresikan Y dengan variabel X dengan metode kuadrat terkecil sehingga memperoleh
sisaan (ei)
2. Dengan tanpa memperhatikan tanda dari ei (anggap ei) berikan peringkat dari pasangan
variabel ei dengan xi. Selanjutnya hitung besarnya koefisien korelasi rank spearman

[ ]
n
∑ di2
i=1
r s=1−6 2
n(n −1)
diantara kedua variabel tersebut dengan menggunakan persamaan dengan
di adalah selisih peringkat pasangan variabel e i dengan xi individu ke i dan n adalah
banyaknya individu yang diamati.
r s √ n−2
t=
3. Gunakan statistik uji t dengan persamaan √ 1−r s2 dengan daerah penolakan tolak H0 jika
t lebih besar dari t dengan derajat bebas n-2.
b. Uji Park
Salah satu statistik uji yang dapat digunakan untuk menguji apakah varians error bersifat
homokedastis atau tidak adalah uji park dengan mengasumsikan bahwa i2 merupakan fungsi
dari variabel penjelas X. Terdapat dua tahap pada uji park, yaitu
1. Meregresikan Y terhadap X dengan metode kuadrat terkecil dan mendapatkan ei dan ei2
2. Meregresikan ei2 dengan X pada model ln ei2 =  + Xi + Vi
c. Uji Glejser
Pengujian homogenitas variansi dari error dilakukan menggunakan uji glejser dengan cara
meregresikan seluruh variabel prediktor terhadap nilai error. Kebalikan dari
homoskedastisitas adalah heteroskedastisitas, cara mengatasinya dengan mentrasformasikan
variabel (Setiawan dan Kusrini, 2010). Tahapan pada uji glejser yaitu meregresikan Y
terhadap X dan memperoleh ei. Dan tahapan kedua yaitu meregresikan ei terhadap X. Ada
beberapa persamaan yang dianjurkan yaitu :
ei = 0 + 1Xi + Vi
ei = 0 + 1√ X i + Vi
1
ei = 0 + 1 X + Vi
i

1
ei = 0 + 1 +V
√ Xi i
ei = √ β 0+ β1 X i + Vi

ei = √ β 0+ β1 X i + Vi
2

d. Uji Goldfeld-Quandt
Langkah-langkah pada uji Goldfeld-Quandt adalah sebagai berikut.
1. Urutkan pasangan X dan Y berdasarkan nilai X
2. Ambil k buah data yang ada di tengah sehingga data terbagi menjadi dua kelompok, yaitu
kelompok data pertama sebanyak (n-k)/2, serta kelompok data kedua sebanyak (n-k)/2
data.
3. Masing-masing kelompok data diregresikan oleh Y terhadap X sehingga diperoleh dua
buah Jumlah Kuadrat Sisa (JKS1 dan JKS2) dengan derajat bebas masing-masing db=[(n-
k)/2]-2.
4. Hitung rasio kedua JKS.
JKS 2/db
h= ≈F
JKS 1/db
5. Daerah penolakan Tolak H0 jika h lebih besar dari Ftabel dengan derajat bebas
v1=v2=[(n-k)/2]-2.
e. Uji White
Jika terdapat dua buah variabel penjelas, maka langkah-langkah uji heteroskedastisitas
secara umum dari uji white adalah sebagai berikut.
1. Lakukan perkiraan dengan metode kuadrat terkecil sehingga memperoleh sisan ei.
2. Regresikan ei terhadap X dengan menggunakan model berikut.
e 2 =α 0 + α 1 X 1 i +α 2 X 2 i +α 3 X + α4 X +α 5 X 1 i X 2i +V i
i 1 i2 4 i2

3. Hitunglah n.R2   dengan derajat bebas p (sama dengan banyaknya parameter regresi)
Jika terdapat residual tidak identik, maka dapat dilakukan beberapa cara untuk mengatasi
kasus heteroskedastisitas dalam model yaitu transformasi variabel baik variabel respon
maupun variabel penjelas, maupun keduanya dan metode kuadrat terkecil tertimbang.
 Metode Kuadrat Terkecil Tertimbang
ε T V −1 ε atau ε T W −1 ε minimum
S=ε T W −1 ⃗ε
⃗β^ =( X T W −1 X )−1 X T W −1 Y⃗
Pertanyaannya : kenapa matriks varians nya di invedkan pada bobot ? jika varians nya besar,
maka diberi peran atau bobot yang kecil
Apakah b merupakan penduga yang tak bias bagi β ?
E(β^)=β?
[ ]
=E ( XTW−1X) XTW−1Y⃗)
−1

−1
=(XTW−1X) XTW−1E(Y⃗)
T −1 −1 T −1
=(X W X) X W X⃗β −1 −1 −1 −1 −1 −1
W−1var(Y)XTW−1(XTW−1X) ¿ =(XTW−1X) XTW−1σ2W−1X(XTW−1X) ¿ =σ2(XTW−1X) (XTW−1W)W−1X(XTW−1X) ¿ =(XTW−1X) σ2¿
=⃗β
var(AX)=Avar(X)AT
var(⃗b)=var( XTW−1X) XTW−1Y⃗)
−1

−1
=(XTW−1X) XTunderbracealignl⏟
simetris→karena simetris ¿menjadi dir sendir ¿
maka ditransposkan akan ¿
Judge etal
Sej 2 =β 0 + β1 X̄+ β1 X̄ 2 + ε
1
W= 2
Sej
4.4.2 Autokorelasi
Dilakukan dengan membuat plot antara nilai residual ε t dengan hasil prediksi variabel
dependen. Asumsi yang harus dipenuhi adalah pengamatan atau residual yang satu dengan
yang lain saling bebas (Hair, 2010: 183-185).
Pelanggaran terhadap asumsi independen disebut dengan autocorrelation.
Autocorrelation dalam konsep regresi Linear berarti komponen residual berkorelasi, dengan
kata lain terjadi ketergantungan antara residual ke-i dengan ke-j.Suatu data dikatakan terjadi
kasus autocorrelation apabila pola data membentuk pola tertentu sepeti gambar diatas. Secara
visual, data diharuskan menyebar agar memenuhi asumsi independen. Pada dasarnya terdapat
dua metode untuk mendeteksi adanya autokorelasi yaitu metode grafik dan pengujian secara
statistika. Pada metode grafik tergambarkan pola antara ei dan i. Jika terbentuk pola yang
saling berfluktuasi maka diindikasikan bahwa residual pada data tersebut tidak terdapat
autokorelasi atau independen. Pengujian secara statistika dapat digunakan uji tanda, uji
durbin watson, uji breusch godfrey, dan uji fungsi Autokorelasi atau (Autocorrelation
Function, ACF).
a. Uji Tanda
Uji ini merupakan teknik statistika non parametrika yang biasa, yang diuji pada masalah
ini adalah tanda dari residual. Langkah pertama pada uji ini adalah lakukan regresi antara Y
dengan X pada metode OLS. Selanjutnya, lakukan uji tanda dan pengujiannya terhadap
residual yang dihasilkan.
b. Uji Durbin Watson
Uji ini bertujuan untuk menguji adanya autokorelasi pada lag 1. Hipotesis pada pengujian
ini adalah
I. Hipotesis pertama:
H0: tidak ada korelasi positif
H1: ada korelasi positif
Daerah Penolakan : d < dL : tolak H0
d > du : terima H0
dL  d  du : tidak dapat disimpulkan (inclonclusive)

II. Hipotesis kedua:


H0: tidak ada korelasi negatif
H1: ada korelasi negatif
Daerah Penolakan : d > 4-dL : tolak H0
d < 4-du : terima H0
4-du  d  4-dL : tidak dapat disimpulkan (inclonclusive)
III. Hipotesis ketiga:
H0: tidak ada korelasi positif atau negatif
H1: ada korelasi positif atau negatif
Daerah Penolakan : d < dL : tolak H0
d > 4-dL : tolak H0
du < d < 4-du : terima H0
dL  d  du atau 4-du  d  4-dL : tidak dapat disimpulkan
n
∑ (ei −e i−1 )2
d= i=1 n
∑ e i2
Perhitungan : i=1

dengan : d = nilai d Durbin Watson


dL = batas bawah
dU = batas atas
c. Uji Breusch Godfrey (Uji BG)
Salah sau kelemahan dari uji durbin watson adalah penguraian adanya autokorelasi hanya
pada lag-1, tidak melihat (menguji) autokorelasi pada lag-2, pada lag-3, dan seterusnya.
Secara umum, koefisien autokorelasi pada lag-1 memang yang paling besar jika
dibandingkan dengan koefisien korelasi pada lag-2, lag-3 dan seterusnya. Pada dasarnya
diperlukan pengujian juga untuk mengetahui signifikansi dari lag-2, lag-3 dan seterusnya.
Pengujian yang dapat digunakan dalam hal ini adalah menggunakan uji Breush Godfrey (uji
BG).
d. Uji Fungsi Autokorelasi (Autocorrelation Function)
Uji ini sering digunakan dalam analisis time series. Langkah pertama dalam uji ini adalah
meregresikan Y dengan X sehingga diperoleh residual yang dihasilkan. Dari residual yang
didapatkan dicari koefisien ACF (biasanya dapat berupa garis-garis ACF). Jika garis
melewati batas maka pada lag tersebut terjadi autokorelasi pada residual. Uji ini lebih
lengkap dari uji Durbin Watson karena dapat melihat lag berapa saja yang terjadi
autokorelasi.
Jika dalam suatu analisis regresi terdapat pelanggaran terhadap asumsi residual dependen
(terjadi autokorelasi, maka salah satu cara mengatasi Autokorelasi yaitu dengan
menggunakan metode kuadrat terkecil umum Generalized Least Square (Setiawan dan
Kusrini, 2010). Praktiknya, biasanya ada asumsi bahwa error akan mengikuti autoregresif
tingkat pertama.
ϵt = ρ ϵt-1 + µt
Apabila asumsi tersebut benar, maka persoalan autokorelasi dapat dipecahkan. Langkah
untuk mengatasi terlebih dahulu mencari nilai ρ yang didasarkan pada statistik uji Durbin
d
ρ=1−
Watson dengan rumus 2
(1)

Setelah memperoleh nilai ρ. Model untuk observasi ke-t sebagai berikut


Y t =β 0 + β 1 X 1 + ε t (2)

Apabila model (2) benar untuk observasi ke-t, maka benar juga untuk observasi t-1
Y t−1 =β0 +β 1 X t−1 +ε t−1
(3)

Mengalikan persamaan (3) dengan ρ, diperoleh model sebagai berikut.


ρY t−1= ρβ0 +ρβ 1 X t−1 +ρε t−1
(4)

Persamaan (2) dikurangi dengan persamaan (4)


Y t − ρY t−1 =( β 0 −ρβ 0 )+( β 1 X 1 −ρβ 1 X t−1 )+(ε t−1 −ρε t−1 )
Y t − ρY t−1 =β 0 (1− ρ)+β 1 ( X t −ρX t−1 )+(ε t−1− ρε t−1 )
¿ ¿
Y t =β 0 + β 1 X t +v t
¿

dimana
¿
Y t =Y t −ρY t−1
X ¿t =X t −ρX t−1
¿
β 0 =β 0 (1− ρ)
v t =ε t−1 −ρε t−1
Pada keadaan ini pengamatan pertama akan hilang. Untuk terhindar gunakan persamaan
berikut.

Y ¿1 t =Y t √1− ρ2 serta X ¿1 t =X t √ 1−ρ2


Jika  tidak diketahui, maka kita dapat mengestimasi  dengan :

ρ^
1. Asumsi First Difference ,  = 1. Menggunakan asumsi ini jika :

a. Korelasi dari t, t-1 mendekati 1.

b. t = t-1 + t   = 1

c. Jika nilai durbin watson < R2

d. Uji Berenblutt Web-Test

H0 : =1

H1 : 1
n
∑ εt 2 ¿

g= t −2n
∑ et
t =1
Statistik Uji :

dengan t*2 merupakan residual regresi first difference dan t merupakan residual regresi

OLS

Jika digunakan regresi first difference (Asumsi  = 1)

Yt-Yt-1 = (1-)0 + (Xt-Xt-1)1+(t-t-1)

(Yt-Yt-1) = (Xt-Xt-1)1+(t-t-1)

Yt* = Xt*1 + t*  Regresi dengan OLS tanpa intersep.


dw
ρ^ =1−
2
2. Pendekatan durbin watson untuk sampel besar
dw
n 2−( 1− )+ k 2
2
ρ^ =
n−k 2
3. Pendekatan Theil dan Nagar untuk sampel kecil dengan k adalah jumlah

parameter pada model regresi


Secara umum, pendeteksian dan penanggulangan jika tidak memenuhi asumsi residual

IIDN dan terjadinya multikolinearitas ditampilkan pada tabel berikut.

4.6 Contoh dan Aplikasi


Berikut merupakan suatu data simulasi yang terdiri dari 3 variabel X dengan 1
variabel Y. Lakukan pemeriksaan sekaligus pengujian terhadap asumsi residual IIDN dan
terjadinya kasus multikolinearitas.
X1 X2 X3 Y
42.2 11.2 31. 167.1
9
48.6 10.6 13. 174.4
2
42.6 10.6 28. 160.8
7
39.0 10.4 26. 162
1
34.7 9.3 30. 140.8
1
44.5 10.8 8.5 174.6
39.1 10.7 24. 163.7
3
40.1 10.0 18. 174.5
6
45.9 12.0 20. 185.7
4
Pemeriksaan Multikolinearitas
a. Dilihat dari tanda koefisien korelasi dan model. Sama seperti pada pembahasan
sebelumnnya, regresikan antara Y dengan X 1, X2, dan X3 kemudian korelasikan Y
dengan X1, X2, dan X3 sehingga muncul output sebagai berikut.
Correlations: X1, X2, X3, Y Regression Analysis: Y versus X1, X2, X3

X1 X2 X3 The regression equation is


X2 0.684 Y = 60.0 + 0.24 X1 + 10.7 X2 - 0.751 X3
0.042

X3 -0.616 -0.172 Predictor Coef SE Coef T P


0.077 0.657 Constant 60.01 36.19 1.66 0.158
X1 0.240 1.012 0.24 0.822
Y 0.802 0.768 -0.629 X2 10.718 4.530 2.37 0.064
0.009 0.016 0.070 X3 -0.7510 0.3950 -1.90 0.116

S = 6.29050 R-Sq = 84.5% R-Sq(adj) = 75.3%

Dilihat dari nilai VIF yang dihasilkan


Dari Koefisien dan Model Regresi yangAnalysis
terbentukof Variance
telah sesuai hal ini mengindikasikan bahwa tidak
Untuk mendapatkan nilai VIF denganSourcebantuan minitab,
DF makaSS sepertiMS
halnyaFdenganP
regresi Regression 3 1081.35 360.45 X1,9.11 0.018
b. Linear berganda yaitu masukkan variabel Y pada response
Residual Error 5
dan variabel
197.85 39.57
X2, dan X3
pada predictors, seperti gambar berikut. Total 8 1279.20
Untuk mendapatkan nilai VIF untuk masing-masing variabel prediktor, maka diperlukan R-
square dengan variabel prediktor tersebut menjadi variabel respon sedangkan variabel prediktor lain
tetap sebagai variabel prediktor 
a) X1  X1 = 0 + 1X2 + 2X3  R2 = 72,3%  Tol1 = 0,277  VIF1 = 3,612
b) X2  X2 = 0 + 1X1 + 2X3  R2 = 56,7%  Tol2 = 0,433  VIF2 = 2,310
c) X3  X3 = 0 + 1X1 + 2X2  R2 = 49,55%  Tol3= 0,5045  VIF3 = 1,982
Karena nilai VIF yang dihasilkan masing-masing kurang dari 10 maka diindikasikan bahwa tidak

Kemudian pada options centang Variance Inflation Factors. Kemudian klik OK  OK.

Sehingga output yang dihasilkan sebagai berikut.


Regression Analysis: Y versus X1, X2, X3

The regression equation is


Y = 60.0 + 0.24 X1 + 10.7 X2 - 0.751 X3

Predictor Coef SE Coef T P VIF


Constant 60.01 36.19 1.66 0.158
X1 0.240 1.012 0.24 0.822 3.612
Pemeriksaan
X2 dan Pengujian
10.718 Residual
4.530 2.37Distribusi Normal
0.064 2.310
X3 -0.7510 0.3950 -1.90 0.116 1.982

S = 6.29050 R-Sq = 84.5% R-Sq(adj) = 75.3%

Analysis of Variance

Source DF SS MS F P
Regression 3 1081.35 360.45 9.11 0.018
Residual Error 5 197.85 39.57
Total 8 1279.20

Source DF Seq SS
X1 1 822.28
X2 1 116.01
X3 1 143.06

Dapat dilihat dari normal


probability plot bahwa plot yang terbentuk mengikuti garis normal sehingga dapat
diindikasikan bahwa residual berdistribusi normal. Berikut pengujian residual berdistribusi
normal.
H0 : Residual berdistribusi normal
H1 : Residual tidak berdistribusi normal
Taraf Signifikan :  = 0,05
Daerah Penolakan : Tolak H0 jika D > D
Perhitungan
ei Urutan ei Frek Fkum Fn(X) Z F0(x) Fn(X)-F0(X)
0.875652 -5.461903584 1 1 0.111111 -1.09829 0.136038 0.024927
-0.97189 -4.612473152 1 2 0.222222 -0.92749 0.176836 0.045386
-1.49245 -2.129232354 1 3 0.333333 -0.42815 0.33427 0.000937
0.762051 -1.492448147 1 4 0.444444 -0.30011 0.382048 0.062396
-4.61247 -0.971886752 1 5 0.555556 -0.19543 0.422528 0.133027
-5.4619 0.762050657 1 6 0.666667 0.153235 0.560894 0.105773
-2.12923 0.875651872 1 7 0.777778 0.176078 0.569884 0.207894
11.65312 1.377126369 1 8 0.888889 0.276916 0.609078 0.279811
1.377126 11.65311509 1 9 1 2.34324 0.990441 0.009559
Adapun langkah komputasi dengan menggunakan minitab yaitu stat  Basic Statistics 
Normality Test  pada variable masukkan resi1 (residual yang dihasilkan) dan kemudian
pilih metode Kolmogorov Smirnov.

Sehingga muncul output seperti berikut.

Keputusan : Gagal Tolak H0


karena D < D (0,279 < 0,43) Kesimpulan : Residual Model Regresi Berdistribusi Normal.
Pemeriksaan dan Pengujian Residual Identik

versus fits sebagai berikut

Pemeriksaan residual identik dapat dilakukan dengan melihat plot


Dapat dilihat bahwa plot yang dihasilkan menyebar secara acak dan tidak membentuk pola
tertentu, sehingga diindikasikan bahwa residual pada model regresi yang terbentuk telah
memenuhi asumsi identik. Untuk meyakinkan kesimpulan hasil visualisasi, maka dilakukan
uji secara inferensia dengan menggunakan uji glejser dengan model ei= 0+
1X1+2X2+3X3+ sehingga dihasilkan

H0 : Residual model regresi telah memenuhi asumsi identik


H1 : Residual model regresi tidak memenuhi asumsi identik
Taraf Signifikan :  = 0,05
Daerah Penolakan : Tolak H0 jika F > F(dbr,dbe) atau P-value < 
Tabel ANOVA
Sumber db JK KT F P-value
Keragaman
Regresi 3 49,55 16,52 1,5 0,308
7
Error 5 52,68 10,54
Total 8 102,23
Keputusan : Gagal Tolak H0 karena F < F(dbr,dbe) (1,57 < 5,41) dan P-value >  (0,308 >
0,05)
Kesimpulan : Residual model regresi telah memenuhi asumsi identik.

Pemeriksaan dan Pengujian Asumsi Residual Independen


Secara visualisasi dapat dilihat melalui versus order sebagai berikut.

Dapat dilihat bahwa plot residual


mengalami fluktuasi atau menyebar secara acak, sehingga dapat diindikasikan bahwa residual
yang terbentuk dari model regresi telah memenuhi asumsi residual independen. Untuk

0 : Residual yang terbentuk pada model regresi independen


meyakinkan hasil visualisasi tersebut maka dilakukan pengujian secara inferensia dengan
menggunakan uji durbin watson sebagai berikut

ei (ei-ei-1)2 e i2
0.875652 0.766766
-0.97189 3.413399 0.944564
-1.49245 0.270984 2.227401
0.762051 5.082765 0.580721
-4.61247 28.88551 21.27491
-5.4619 0.721532 29.83239
-2.12923 11.1067 4.53363
11.65312 189.9531 135.7951
1.377126 105.5959 1.896477
Jumlah 345.0299 197.852
n
∑ (ei −e i−1 )2
345 , 0299
d= i=1 n
= =1, 74
197 , 852
∑ e i2
i=1
Keputusan : Gagal Tolak H0 karena d lebih besar dari dl (1,74 > (<0,82)
Kesimpulan : Residual yang dihasilkan pada model regresi telah memenuhi asumsi
independen

Untuk menampilkan nilai durbin watson dengan menggunakan minitab dapat


dilakukan dengan mencentang durbin watson statistics pada options kotak dialog regression
seperti gambar berikut.

4.7 Latihan Soal


1. Suatu eksperimen dilakukan untuk menjelaskan pengaruh suhu dan waktu terhadap
reaksi kimia yang dihasilkan melalui model regresi linear berganda,
Y=0+1x1+2X2+; Adapun hasil eksperimen yang telah dilakukan dirangkum dalam
tabel berikut ini.
Observasi Hasil Reaksi Kimia Suhu (F) Waktu (Hari)
(%)
1 77 160 1
2 79 160 2
3 82 165 1
4 83 165 2
5 85 170 1
6 88 170 2
7 90 175 1
8 93 175 2

Linear

2. Data yang akan dipakai adalah data tentang komposisi bahan kimia dalam semen yang
berpengaruh terhadap panas
Lakukan pemeriksaan dan yang dihasilkan
pengujian setiap gram
terhadap semen. asumsi regresi
pemenuhan
X1 : presentase tricalcium aluminate
x2 : presentase tricalcium silicate
x3 : presentase tetracalcium alumino ferrite
x4 : presentase dicalcium silicate
Y : panas yang dihasilkan semen (kalori)
x1 x2 x3 x4 Y x1 x2 x3 x4 Y
7 26 6 60 78 21 47 4 26 115
1 29 15 52 74 1 40 23 34 83
11 56 8 20 104 11 66 9 12 113
11 31 8 47 87 10 68 8 12 109
7 52 6 33 95
11 55 9 22 109
3 71 17 6 102
1 31 22 44 72
2 54 18 22 93

Lakukan pemeriksaan dan pengujian terhadap pemenuhan asumsi regresi Linear berganda
berupa multikolinearitas dan asumsi residual IIDN dengan menggunakan uji yang telah
diajarkan juga jika terjadi kasus tidak terpenuhinya asumsi residual IIDN, maka lakukan
penanggulangan.
BAB V REGRESI LINEAR DENGAN VARIABEL DUMMY

5.1 Definisi variabel dummy


Dalam analisis regresi, respon (Y) sering kali dipengaruhi oleh prediktor yang tidak
hanya berskala rasio, tetapi juga oleh prediktor yang berskala nominal. Prediktoryang
berskala nominal tersebut disebut variabel dummy. Untuk menentukan variabel dummy yaitu
dengan melihat kategori pada prediktor. Apabila prediktor memiliki kategori sebanyak r,
maka variabel dummyyang terbentuk sebanyak(r-1). Kemudian simbolkan variabel
dummytersebut dengan simbol D (Gujarati, 2004: 340). Nama lain Regresi Dummy adalah
Regresi Kategori. Regresi ini menggunakan prediktor kualitatif (yang bukan dummy dinamai
prediktor kuantitatif). Variabel yang disertakan dalam persamaan regresi biasanya berskala
kontinue. Adakalanya dalam suatu persamaan harus memasukkan suatu faktor yang hanya
memiliki dua atau lebih taraf yang berbeda. Variabel dummy yang digunakan yaitu variabel
Dummy tanpa interaksi (Draper dan Smith, 1992).
Variabel dummy tanpa interaksi adalah variabel dummy dimana variabel tersebut tidak
berinteraksi dengan variabel prediktor. Sebagai contoh, dalam model mengandung variabel
jenis mesin yaitu mesin A dan mesin B, maka dapat digunakan variabel dummy sebagai

berikut.
Penentuan kategori 0 dan 1 pada variabel dummy sebenarnya tidak tunggal, ada
banyak kategori yang bisa digunakan, misalnya -1 dan 1. Perlu diperhatikan dalam penentuan
kategori tersebut tidak rumit dan saling independen (bukan merupakan kombinasi linear).
Penentuan kategori 0 dan 1 merupakan kategori yang paling mudah dan paling sering
digunakan. Secara umum, jika ada r kategori maka penentuan jumlah variabel dummy adalah
sebagai berikut.
a. Model regresi tanpa intersep
- Jumlah variabel dummy = r
b. Model regresi dengan intersep
- Jumlah variabel dummy = r -1
- Pola alokasi variabel dummy diperoleh dengan menuliskan matrik I yang berukuran
(r – 1) x (r – 1) (Draper dan Smith, 1992).
Sifat-sifat variabel dummy yaitu :
1. Untuk membedakan kategori dalam variabel kualitatif tanpa menyebabkan matrik
(X’X)-1 singular
2. Interpretasi hasil dari model yang menggunakan variabel dummy tergantung pada
penggunaan angka 1 dan 0, artinya kategori mana yang dikode 1 dan mana yang 0.
3. Kategori yang diberi angka 0 disebut kategori dasar/pembanding Kategori tersebut
merupakan dasar pembandingan yang dilakukan terhadap kategori tersebut.
4. Koefisien dari variabel dummy (D) disebut sebagai koefisien diferensial intersep, sebab
menerangkan besarnya perbedaan kategori yang diberi nilai 1 dengan kategori dasar
(angka 0).

5.2 Model regresi dengan Variabel Dummy


Variabel-variabel dummy merupakan sebuah skala refleksibel yang dapat mengatasi berbagai
masalah. Untuk memahami hal ini, sebagai contoh, dilakukan pemodelan untuk mengetahui faktor
yang mempengaruhi upah per jam. Variabel dummy yang digunakan yaitu perbedaan jenis kelamin
dan ras. Perhatikan model berikut:
Y i =α 0 +α 1 D 1i + α 2 D 2i + βX i + ε i
(5.1)

denganY i = upah per jam dalam dolar


X = (pendidikan) lamanya bersekolah
D 1 = 1 jika perempuan, 0 lainnya

D2 = 1 jika bukan kulit putih, 0 lainnya

Persamaan (5.1), jenis kelamin dan ras merupakan kualitatif, serta pendidikan adalah variabel
independen berjenis kuantitatif. Secara implisit, terdapat asumsi bahwa pengaruh perbedaan dari
dummy jenis kelamin adalah sama untuk kedua kategori ras. Pengaruh perbedaan dari dummy ras juga
sama untuk kedua kategori jenis kelamin (Gujarati, 2004: 340).
Contoh variabel dummy :
Y : besar gaji yang diterima
X : Jenis kelamin - Laki-laki
Nominal
- Perempuan

Variabel Dummy
Uji parameter baik secara parsial maupun squensial untuk variabel dummy tidak jauh berbeda
dengan pengujian parameter regresi pada umumnya, seperti yang telah dibahas pada BAB II. Variabel
dummy.

 Model Regresi Dummy Tanpa Interaksi


Contoh model regresi dummy dengan tanpa interaksi yaitu jika Y merupakan berat badan
ayam dan X merupakan usia ayam dengan asal daerah ayam yaitu
G  Georgia
Ada 2 dummy
V  Victoria
W  Wisconsin
D1 D2 D3 Kenapa dummy tidak semuanya ?
G 1 0 0 Karena jika dijumlahkan menjadi 4 akan sama dengan β 0
V 0 1 0 Tidak full rank
W 0 0 1

y=β 0 +β 1 x1 + β 2 D 1 +β 3 D2 +ε
y=1 , 43+0 , 487 X −1, 192 Z 1 −2 ,19 Z 2 W
^y 6 =−0 , 49+0 , 487 x
^y v =−0 , 76+0 , 487 x G
^y w =1 , 43+0 , 487 x V

 Model Regresi Dummy Dengan Interaksi


Contoh regresi dummy dengan interaksi yaitu jika Y merupakan berat badan ayam dan
X merupakan usia ayam dengan jenis ayam yaitu

jenis ayam Kampung 0

ras 1
y=β 0 + β 1 x+ β 2 D+ β 3 xD+ ε

No Y X D XD Dummy dengan interaksi


1 10 2 0 0 ^y =10+4 x +5 D+2 xD
2 15 3 1 3 ^y R=10+4 x+5(1)+2 x(1 )
3 8 1 0 0
=15+6 x
4 9 2 1 2 ^y K =10+4 x
5 12 4 0 0

 Variabel dummy dengan interaksi


y=β 0 + β 1 x+ z ( α 0 + α 1 x ) + ε
y=β 0 + β 1 x+ α 0 xz + ε
Model A = β 0 + β 1 x
Model β =( β 0 + α 0 ) + ( β1 +α 1 ) x
γ 0 = β 0 + α 0 dan γ 0= β 0 +α 0
Secara umum terdapat empat kemungkinan model regresi
γ 0 + β1 x
γ 0+ γ 1 x
β 0+ β 1 x
β 0+ β 1 x

Semua parameter signifikan Jika α1 = 0

(a) (b)
Berpotongan intersep slope beda Sejajar intersep berbeda

γ 0 + β1 x

β 0+ β 1 x
β 0+ β 1 x

Jika α0 = 0 Jika α0 = 0 dan α1 = 0

(c) (d)

Berpotongan slope berbeda Berimpit, intersep dan slope sama

5.3 Pemeriksaan Asumsi Residual dan Penanganannya


εi ~ IIDN (0,σ2)
1. εi ~ N (0, σ2) residual berdistribusi normal
με i =E( ε i )=0
2
2. var ε i =σ residual identik (i = 1,2, . . ., n)
3. Independen (antar residual observasi)
cov ( ε i , ε j ) ,i≠ j
cov ( ε i , ε j )
coor ( ε i , ε j ) =
√ var ε i √ var ε j
5.4 Contoh dan Aplikasi
Berikut merupakan data penelitian mengenai pengaruh usia ayam (minggu) dan asal
daerah terhadap berat badan ayam kalkun (kg).
X Y Asal Daerah
28 13.3 Georgia
20 8.9 Georgia
32 15.1 Georgia
22 10.4 Georgia
29 13.1 Virginia
27 12.4 Virginia
28 13.2 Virginia
26 11.8 Virginia
21 11.5 Wisconsin
27 14.2 Wisconsin
29 15.4 Wisconsin
23 13.1 Wisconsin
25 13.8 Wisconsin
Buatlah model regresinya dan interpretasikan hasil yang diperoleh.
Pembahasan :
Model regresi dummy yang terbentuk pada kasus tersebut terdiri dari dua variabel
dummy yaitu Z1 dan Z2 hal ini dikarenakan terdapat 3 jenis asal daerah ayam yang diteliti
dengan struktur sebagai berikut.

X Y Asal Z1 Z2
28 13.3 G 1 0
20 8.9 G 1 0
32 15.1 G 1 0
22 10.4 G 1 0
29 13.1 V 0 1
27 12.4 V 0 1
28 13.2 V 0 1
26 11.8 V 0 1
21 11.5 W 0 0
27 14.2 W 0 0
29 15.4 W 0 0
23 13.1 W 0 0
25 13.8 W 0 0

Model regresi yang didapatkan adalah :


Regression Analysis: y versus x; Z1; Z2

The regression equation is


y = 1.43 + 0.487 x - 1.92 z1 - 2.19 z2

Predictor Coef SE Coef T P


Constant 1.4309 0.6574 2.18 0.058
x 0.48676 0.02574 18.91 0.000
Z1 -1.9184 0.2018 -9.51 0.000
Z2 -2.1919 0.2114 -10.37 0.000

S = 0.300218 R-Sq = 97.9% R-Sq(adj) = 97.3%

Analysis of Variance

Source DF SS MS F P
Regression 3 38.606 12.869 142.78 0.000
Residual Error 9 0.811 0.090
Total 12 39.417

Model regresi yang dihasilkan mempunyai koefisien determinasi yang besar, yaitu
97,9% dan semua parameter signifikan terhadap model. Model regresi tersebut adalah:
y = 1,43 + 0,487 x – 1,92 Z1 – 2,19 Z2
Interpretasi model tersebut sedikit berbeda dengan analisis regresi biasa. Interpretasi
dilakukan dengan memperhatikan variabel base atau kontrol yang terdapat pada
model. Dari model yang terbentuk dapat diinterpretasi bahwa :
 Setiap usia ayam bertambah 1 minggu maka berat badan ayam akan bertambah
sebesar 0,487 gram dengan syarat tidak memperhatikan asal daerah ayam.
 Berat badan ayam jenis Georgia lebih kecil sebesar 1,92 jika dibandingkan dengan
berat badan ayam jenis Wisconsin dengan syarat usia ayam tetap.
 Berat badan ayam jenis Virginia lebih kecil sebesar 2,19 jika dibandingkan dengan
berat badan ayam jenis Wisconsin dengan syarat usia ayam tetap.
Setiap kategori dalam variabel dummy (dalam hal ini adalah daerah asal) mempunyai
model yang berbeda – beda, sesuai dengan variabel dummy yang digunakan.
a. Daerah Georgia (z1 = 1 dan z2 = 0)
y = 1,43 + 0,487 x – 1,92 (1) – 2,19 (0)
y = -0,49 + 0,487 x
Ketika usia ayam bertambah 1 minggu, maka berat badan ayam daerah Georgia
akan berkurang sebesar 0,49 gram.
b. Daerah Virginia (z1 = 0 dan z2 = 1)
y = 1,43 + 0,487 x – 1,92 (0) – 2,19 (1)
y = -0,76 + 0,487 x
Ketika usia ayam bertambah 1 minggu, maka berat badan ayam daerah Virginia
akan berkurang sebesar 0,76 gram.
c. Daerah Wisconsin (z1 = 0 dan z2 = 0)
y = 1,43 + 0,487 x – 1,92 (0) – 2,19 (0)
y = 1,43 + 0,487 x
Ketika usia ayam bertambah 1 minggu, maka berat badan ayam daerah Wisconsin
akan bertambah sebesar 1,43 gram.
Pengujian individu untuk model regresi di atas adalah :
1. Pengaruh variabel x (umur kalkun) terhadap berat kalkun
H0 : β1 = 0
H1 : β1 ≠ 0
Tolak H0 jika |Thitung| > T0,05(13) atau P-value < α.
Berdasarkan hasil pengujian Thitung sebesar 18,91 sedangkan nilai T0,05(13) sebesar
1,77093. P-value yang dihasilkan sebesar 0,000. Dalam taraf signifikan 5%, hal
ini berarti bahwa umur kalkun berpengaruh signifikan terhadap berat kalkun
2. Pengaruh daerah asal terhadap berat kalkun
H0 : α1 = α2 = 0
H1 : α1 ≠ 0 atau α2 ≠ 0
Statistik uji :
SS(a1 ,a 2|b0 , b1 )/2 (38 , 606−26 , 202)/2
F hitung = = =137 . 8222
s 2 0 , 090

Tolak H0 jika Fhitung > F0,05 (2,9). Ftabel = 4,25649

Hal ini berarti bahwa terdapat pengaruh perbedaan daerah asal terhadap berat

ayam kalkun.

3. Perbedaan antara daerah Georgia dengan Wisconsin


H0 : α1 = 0
H1 : α1 ≠ 0
Tolak H0 jika |Thitung| > T0,05(13) atau P-value < α.
Berdasarkan hasil pengujian Thitung sebesar -9,51 sedangkan nilai T0,05(13) sebesar
1,77093. P-value yang dihasilkan sebesar 0,000. Hal ini berarti bahwa ada
perbedaan berat kalkun antara daerah Georgia dan Wisconsin.
4. Perbedaan antara daerah Virginia dengan Wisconsin
H0 : α2 = 0
H1 : α2 ≠ 0
Tolak H0 jika |Thitung| > T0,05(13) atau P-value < α.
Berdasarkan hasil pengujian Thitung sebesar -10.37 sedangkan nilai T 0,05(13) sebesar
1,77093. P-value yang dihasilkan sebesar 0,000. Hal ini berarti bahwa ada
perbedaan berat kalkun antara daerah Virginia dan Wisconsin.
5. Perbedaan antara daerah Georgia dengan Virginia
H0 : α1 - α2 = 0
H1 : α1 - α2 ≠ 0
Tolak H0 jika |Thitung| > T0,05(13) atau P-value < α.
α1 - α2 = -1,9184 – (- 2,1919) = 0,2735
V(α1 - α2) = V(α1) + V(α2) – 2 Cov(α1,α2) = 0,040723 + 0,04469 = 0,085413
( α 1−α 2 ) 0 , 2735
|T hitung| =| |= =0 , 935825
s . d ( α 1 −α 2 ) √ 0 , 085413
Berdasarkan hasil pengujian Thitung sebesar 0,935825 sedangkan nilai T0,05(13)
sebesar 1,77093.. Hal ini berarti bahwa tidak ada perbedaan berat kalkun antara
daerah Georgia dan Virginia.

5.5 Latihan Soal


1. Dilakukan penelitian mengenai penelitian faktor-faktor yang diduga berpengaruh
Indeks Prestasi (IP) mahasiswa Departemen Statistika Bisnis ITS. Adapun faktor-faktor
yang diduga tersebut adalah rata-rata jumlah jam belajar per minggu dan tempat tinggal
mahasiswa yang digolongkan menjadi 3, yaitu asrama, kos dan rumah sendiri. Berikut
merupakan data penelitian.
Rata-rata jumlah jam Tempat Tinggal Indeks Prestasi (Y)
belajar per minggu Mahasiswa (X2)
(X1)
19 Kos 2,44
21 Rumah 3,53
24 Rumah 3,22
16 Kos 3,56
16 Asrama 3,75
16 Asrama 2,53
19 Rumah 3,5
15 Kos 2,72
18 Kos 3,47
10 Kos 2,3
Dapatkan model regresi yang mampu menjelaskan kasus tersebut juga lakukan pengujian
baik serentak maupun parsial untuk melihat apakah terdapat pengaruh yang dihasilkan pada
masing-masing faktor tersebut terhadap indeks prestasi mahasiswa.
2. Suatu penelitian bertujuan untuk mengetahui pengaruh NPL (Non Performing Loan
(%)) dan Kurs (USD) terhadap LDR (Loan to Deposit Ratio (%)) di 4 bank yaitu BRI,
BCA, BNI, dan BTN masing-masing selama 5 tahun. Setelah dimodelkan dengan
menggunakan metode OLS didapatkan model terbaik sebagai berikut.
Y = 111 – 18,2 X1 + 0,00130 X2 – 27,2 D1 – 78,4 D2 – 27,2 D3
Pvalue 0,00 0,02 0,051 0,001 0,06
Dimana Y merupakan Loan to Deposit Ratio ; X1 merupakan NPL (%); X2 merupakan kurs
(USD) dan BTN sebagai reference category.
Interpretasikan dari model dan hasil uji signifikansi yang dihasilkan pada model tersebut !

BAB VI PEMILIHAN MODEL TERBAIK

6.1 Definisi Model Terbaik Secara Statistika


Dalam melakukan pemodelan regresi linear seringkali kita dihadapkan dengan
beberapa kedua kriteria yang saling bertentangan (Drapper and Smith, 1992), yaitu :
1. Agar persamaannya bermanfaat bagi tujuan peramalan, maka biasanya ingin
dimasukkan sebanyak mungkin variabel X sehingga diperoleh nilai ramalan yang
terandalkan.
2. Karena untuk memperoleh informasi dari banyak variabel serta pemonitorannya
seringkali diperlukan biaya yang tinggi, maka kita menginginkan persamaan
regresinya mencakup seminimum mungkin variabel X yang terdapat pada model
regresi.
Kedua kriteria yang saling bertentangan tersebut dapat diselesaikan dengan memilih
model regresi yang terbaik. Dikatakan model terbaik secara statistika atau biasa yang disebut
parsimoni jika variabel yang berada pada model seminimal mungkin dimana informasi yang
didapatkan seoptimal mungkin. Semakin bertambahnya variabel X maka diharapkan nilai R 2
akan semakin meningkat. Selain itu, pemilihan model terbaik dapat juga berdasarkan atas
basis ilmu (teori) yang sudah ada. Hal ini biasanya berlaku bagi pembentukan model
ekonomis yang mengharuskan variabel tersebut berada pada model.

6.2 Model terbaik


Ada berbagai prosedur-prosedur dalam mendapatkan suatu pemodelan regresi terbaik
menurut statistik. Prosedur yang biasanya sering digunakan dan dibahas dalam pembahasan
ini adalah (1) semua kemungkinan model regresi (All Possible Regression) dengan
menggunakan tiga kriteria yaitu R2, s2 dan Cp Mallow ; (2) Regresi himpunan bagian terbaik
(best subset regression) dengan menggunakan 3 kriteria juga yaitu R 2, R2adjusted, dan Cp
mallow; (3) eliminasi langkah mundur (backward) ; (4) seleksi maju (fordward); (5) regresi
bertatar (stepwise regression).
6.2.1 All Possible Regression
Semua kemungkinan regresi yang dapat dibuat, prosedur ini tidak praktis dan tidak
mungkin dilakukan tanpa bantuan software khusus. Prosedur dari semua kemungkinan
regresi yaitu:
Pertama-tama prosedur ini menentukan semua kemungkinan persamaan regresi yang
melibatkan semua variabel bebas X1, X2, . . . , dan Xp. Karena setiap variabel bebas Xi
mungkin berada di dalam atau di luar persamaan, maka jumlah seluruh persamaan yang
dapat dibuat ada sebanyak 2k persamaan termasuk bo sebagai koefisien dari X0 yang
nilainya = 1; sehingga suku X0 selalu ada di dalam persamaan. Jadi, jika p = 3, di mana p
adalah jumlah variabel bebas Xi, tidak termasuk X0 maka jumlah persamaan yang mungkin
dapat dibuat dari p = 3 adalah sebanyak 23 = 8 seperti berikut:

¿^ =b
0
1. Y ¿
^ =b
¿ +b X
0 1 1
2. Y ¿
^ =b
¿ +b X
0 2 2
3. Y ¿
^ =b
¿ +b X
0 3 3
4. Y ¿
^ =b
¿ +b X +b X
0 1 1 2 2
5. Y ¿
^ =b
¿ +b X +b X
0 1 1 3 3
6. Y ¿
^ =b
¿ +b X +b X
0 2 2 3 3
7. Y ¿
^ =b
¿ +b X +b X +b X
0 1 1 2 2 3 3
8. ¿ Y
Untuk memilih persamaan penduga yang terbaik, maka seharusnya setiap persamaan
regresi penduga dievaluasi menurut kriteria tertentu; dengan kriteria yang telah disebutkan
dimuka yaitu:
1). Nilai R2 yang dicapai.
2). Nilai S2 yaitu jumlah kuadrat sisa regresi.
3). Nilai Statistik Cp.
Cp = JKSk/S2 - (n - 2k)

6.2.2 Best Subset


Tiga kriteria yang dilihat dan ditinjau oleh metode best subset dalam menentukan
pemilihan model regresi terbaik, yaitu :
a. nilai R2 maksimum
b. nilai R2 terkoreksi maksimum (adj R2)
c. nilai cp mallow
Untuk memilih model regresi terbaik, dilihat dari nilai R2 yang terbesar di antara
seluruh hasil output, dan nilai cp mallow yang minimum.

6.2.3 Backward
Metode Backward merupakan langkah mundur, semua variabel X diregresikan

dengan variabel Y. Pengeliminasian variabel X didasarkan pada nilai


F parsial terkecil dan

turut tidaknya variabel X pada model juga ditentukan oleh nilai


F tabel . Metode Backward
merupakan metode regresi yang baik karena dalam metode ini dijelaskan perilaku variabel
respon dengan sebaik-baiknya dengan memilih variabel penjelas dari sekian banyak variabel
penjelas yang tersedia dalam data. Adapun langkah-langkah dalam metode Backward yaitu :
1. Membentuk Persamaan Regresi Linear Berganda Lengkap

Yi = a0 + a1 X1i + a2 X2i + ... + an Xni +


εi

keterangan:
i = 1,2,...,k
Yi = variabel terikat
X1i, X2i,..., Xni = variabel bebas
a0, a1, a2,..., an = parameter regresi yang belum diketahui nilainya
εi = nilai kesalahan

2. Menentukan nilai dari


F parsial dari masing-masing variabel X

a2n
F parsial =
s2n
Keterangan:
a 2n = koefisien regresi
s2n = galat taksiran
3. Menentukan Nilai ANOVA Dan Uji Korelasi Parsial
Untuk menentukan nilai ANOVA maka diperlukan nilai-nilai sebagai berikut.
( )
n 2

n ∑Y
JKT=∑ Y 2−
i=1

i=1 n

(∑ )
n 2

n n n
Y
JKR=a 0 ∑ Y +a 1 ∑ X 1 Y +. ..+ an ∑ X n Y −
i=1

i=1 i=1 i=1 n


JKR
KTR=
p−1

JKS
KTS=
n− p

( )
n 2

n n n n ∑Y
JKR=a 0 ∑ Y +a 1 ∑ X 1 Y +. ..+ an ∑ X n Y −∑ Y 2
i=1

i=1 i=1 i=1 i=1 n

Keterangan:
JKT = jumlah kuadrat total

JKR = jumlah kuadrat regresi

KTR = kuadrat total regresi

KTS = kuadrat total sisa

n = total sampel

p = jumlah variabel

4. Pemilihan Variabel Pertama Yang Keluar Dari Model Dari Nilai


F parsial Terkecil
Untuk menentukan apakah variabel Xn keluar dari model regresi atau tidak, maka

nilai
F parsial dibandingkan dengan nilai F tabel dengan hipotesa sebagai berikut.
H0 = regresi antara Y dan Xn tidak signifikan

H1 = regresi antara Y dan Xn signifikan

Keputusan:

Jika
F hitung <F tabel maka terima H
0
Jika
F hitung >F tabel maka tolak H
0

5. Membentuk Persamaan Regresi Linear Berganda Yang Kedua

6.2.4 Forward Selection


Pada metode ini, dimasukkan secara masing-masing variabel prediktor secara
1. Meregresikan variabel respon, Y, dengan setiap variabel prediktor, misal X1, X2, ... ,
Xk. Kemudian dipilih model yang mempunyai nilai R 2 tertinggi. Misal model tersebut
adalah yang memuat prediktor Xa, yaitu Y^ = b0 + baXa.
2. Meregresikan variabel respon, Y, dengan prediktor X a, ditambah dengan setiap
prediktor selain Xa, satu-persatu, sehingga setiap model memuat dua prediktor, yaitu
Xa dan prediktor lain. Kemudian dipilih model yang nilai R 2 nya tertinggi, misal yang
^
mengandung tambahan prediktor Xb, yaitu model Y = b0 + baXa + bbXb. Prediktor
terpilih, Xb, berarti mempunyai Fsequential tertinggi. Formula Fsequential untuk Xb adalah
sbb :
Fseq = R(b|0,a)/MSE (model dg prediktor Xa dan Xb)/db

R(b|0,a) adalah tambahan jumlah kuadrat regresi akibat tambahan prediktor X b


pada model terdahulu (yaitu :Y^ = b0 + baXa). Notasi db menyatakan derajat bebas
Residual/Error yang tercantum pada Tabel ANOVA.Nilai F sekuensial untuk Xb dapat
diperoleh dengan cara mengkuadratkan nilai statistik uji T prediktor Xb.
3. Pemodelan dilanjutkan dengan menambahkan setiap satu variabel yang tersisa,
sehingga model melibatkan tiga prediktor. Misal yang mempunyai nilai R 2 terbesar
adalah yang memuat Xc, maka model inilah yang dipilih.
4. Proses diulang, sampai didapatkan Fsekuensial yang lebih kecil dari Fin, yaitu suatu nilai
yang menghasilkan tingkat signifikansi sebesar P in , misal in, biasanya sebesar 0,1.
Nilai Fin = F(1,,in), sehingga model terbaik yang dipilih adalah model yang tidak
mempunyai prediktor dengan Fsekuensial < Fin.

6.2.5 Stepwise
Langkah-langkah pada prosedur stepwise :
1. Menghitung korelasi antara prediktor dengan respons (Y)
2. Memilih nilai korelasi yang paling mendekati hubungan yang kuat (-1 atau 1).
3. Meregresikan variabel respon (Y) terhadap variabel prediktor (X4).
4. Nilai P-value kurang tadi taraf α (0,05) maka variabel prediktor berpengaruh secara
signifikan, sehingga variabel tersebut dipertahankan dalam model.
5. Menghitung nilai koefisien korelasi parsial antara variabel yang bukan sebagai kontrol
tadi dengan kontrol (nilai korelasi yang tertinggi) dengan variabel respon (Y)
6. Ulangi langkah yang sama, sampai nilai korelasi antara y dan x gagal tolak H 0, nilai P-
value > alpha. Sehingga model terbaik akan terbentuk
6.3 Contoh dan Aplikasi
Tabel berikut menyajikan data tingkat kejernihan air (Y), kadar klor cair (X 1), kadar
kaporit (X2), kadar cupri sulfat (X3), dan kadar dukem S01A (X4)
PENGAMATA
Y X1 X2 X3 X4
N KE
1 0.909 1.287 0.984 0.987 1.046
2 1.252 1.281 1.078 1.064 1.081
3 0.947 0.787 1.061 1.007 1.051
4 1.022 0.796 1.013 1.012 1.046
5 1.044 1.392 1.028 1.029 1.036
6 0.905 0.893 0.969 0.993 1.02
7 1.219 1.4 1.057 1.047 1.057
8 0.923 0.721 1.001 1.024 1.034
9 1.001 1.032 0.996 1.003 1.014
10 0.916 0.685 0.972 0.993 1.013
11 1.173 1.291 1.046 1.027 1.037
12 0.938 1.17 1.004 1.001 1.007
13 0.965 0.817 1.002 1.014 1.008
14 1.106 1.231 1.049 1.032 1.024
15 1.011 1.086 1.023 1.02 1.03
16 1.08 1.001 1.035 1.053 1.029

Dapatkan model regresi terbaik dengan menggunakan metode forward, backward, dan
stepwise

 Metode Fordward
1. Klik Stat  Regression  Stepwise Regreesion  Lalu masukkan variabel Y pada
Response dan variabel X1 sampai X4 pada predictors

2. Kemudian pada methods pilih forward selection. Pada alpha to enter masukkan berapa
taraf signifikan yang digunakan. Dalam hal ini digunakan  = 0,05.
Output minitab
Stepwise Regression: Y versus X1, X2, X3, X4

Forward selection. Alpha-to-Enter: 0.05

Response is Y on 4 predictors, with N = 16

Step 1 2
Constant -3.364 -2.805

X3 4.31 3.60

T-Value 6.23 5.63

P-Value 0.000 0.000

X1 0.152

T-Value 2.62

P-Value 0.021

S 0.0598 0.0503
Pada step 2, dapat73.51
R-Sq dilihat bahwa
82.65 model regresi yang dapat terbentuk adalah dari variabel
prediktor X3 dan X1, sehingga
R-Sq(adj) 71.62 model yang terbentuk adalah
79.98
Mallows Cp 7.3 2.6
Y = - 2.81 + 3.60 X3 + 0.152 X1

Interpretasi  Jika kadar cupri sulfat bertambah satu satuan, maka tingkat kejernihan air
akan bertambah sebesar 3,60 dengan syarat kadar klor cair konstan, sedangkan jika kadar klor
cair bertambah satu satuan, maka tingkat kejernihan air akan bertambah sebesar 0,152 dengan
syarat kadar cupri sulfat konstan.

Manual
1. Model regresi Y dengan setiap prediktor

Regression Analysis: Y versus X1

The regression equation is


Y = 0.721 + 0.289 X1

Predictor Coef SE Coef T P


Constant 0.7207 0.1016 7.09 0.000
X1 0.28930 0.09401 3.08 0.008
S = 0.0897811 R-Sq = 40.3% R-Sq(adj) = 36.1%

Regression Analysis: Y versus X2

The regression equation is


Y = - 1.83 + 2.80 X2




Regression Analysis: Y versus X3

 regression equation is
The
Y = - 3.36 + 4.31 X3


Predictor Coef SE Coef T P

Constant -3.3635 0.7043 -4.78 0.000
X3 4.3068 0.6909 6.23 0.000

S = 0.0598262 R-Sq = 73.5% R-Sq(adj) = 71.6%

Regression Analysis: Y versus X4

The regression equation is
Y = - 2.51 + 3.42 X4

Predictor Coef SE Coef T P


Constant -2.509 1.246 -2.01 0.064
X4 3.421 1.205 2.84 0.013

S = 0.0926186 R-Sq = 36.5% R-Sq(adj) = 32.0%

2. Penambahan Setiap Prediktor selain Variabel X3 Satu Persatu

Regression Analysis: Y versus X3, X1

The regression equation is


Y = - 2.81 + 3.60 X3 + 0.152 X1

Predictor Coef SE Coef T P


Constant -2.8051 0.6289 -4.46 0.001
X3 3.6019 0.6399 5.63 0.000
X1 0.15176 0.05802 2.62 0.021

S = 0.0502525 R-Sq = 82.6% R-Sq(adj) = 80.0%

Regression Analysis: Y versus X3, X2

The regression equation is


Y = - 3.15 + 2.87 X3 + 1.23 X2

Predictor Coef SE Coef T P


Constant -3.1516 0.6775 -4.65 0.000
X3 2.872 1.090 2.63 0.021
X2 1.2265 0.7465 1.64 0.124  tidak sig

S = 0.0564952 R-Sq = 78.1% R-Sq(adj) = 74.7%


 \


Regression Analysis: Y versus X3, X4

The regression equation is
Y = - 3.93 + 3.78 X3 + 1.07 X4


Predictor Coef SE Coef T P
3.Constant -3.9323 0.8529 -4.61 0.000
X3 3.7848 0.8191 4.62 0.000
X4 1.0653 0.9231 1.15 0.269  tidak sig

S = 0.0591299 R-Sq = 76.0% R-Sq(adj) = 72.3%

3. Penambahan setiap prediktor selain Variabel X3, X1 satu persatu


Regression Analysis: Y versus X3, X1, X2

The regression equation is


Y = - 2.73 + 2.69 X3 + 0.133 X1 + 0.850 X2


Predictor Coef SE Coef T P

Constant -2.7257 0.6178 -4.41 0.001
X3 2.6926 0.9511 2.83 0.015
X1 0.13344 0.05851 2.28 0.042
X2 0.8498 0.6696 1.27 0.229  tidak sig

S = 0.0491129 R-Sq = 84.7% R-Sq(adj) = 80.9%

Regression Analysis: Y versus X3, X1, X4

The regression equation is
Y = - 3.22 + 3.29 X3 + 0.142 X1 + 0.720 X4

Predictor Coef SE Coef T P


Constant -3.2249 0.7879 -4.09 0.001
X3 3.2933 0.7309 4.51 0.001
X1 0.14221 0.05942 2.39 0.034
X4 0.7204 0.8036 0.90 0.388  tidak sig

S = 0.0506364 R-Sq = 83.7% R-Sq(adj) = 79.7%


Karena ketika ditambah satu variabel lain variabel prediktor ada yang tidak signifikan pada
model, maka yang dipilih adalah model terbaik dengan 2 variabel saja, sehingga diperoleh
model

Y=- 2.81 + 3.60 X3 + 0.152 X1


Interpretasi model  Jika kadar cupri sulfat bertambah satu satuan, maka tingkat kejernihan air
akan bertambah sebesar 3,60 dengan syarat kadar klor cair konstan, sedangkan jika kadar klor
cair bertambah satu satuan, maka tingkat kejernihan air akan bertambah sebesar 0,152 dengan
syarat kadar cupri sulfat konstan.

 Metode Backward
 Software
1. Hampir sama dengan metode fordward yaitu Klik Stat  Regression  Stepwise
Regreesion  Lalu masukkan variabel Y pada Response dan variabel X1 sampai X4
pada predictors

2. Kemudian pada methods pilih backward elimination. Pada alpha to enter masukkan
berapa taraf signifikan yang digunakan. Dalam hal ini digunakan  = 0,05.
Sehingga output yang dihasilkan adalah sebagai berikut.
Stepwise Regression: Y versus X1, X2, X3, X4

Backward elimination. Alpha-to-Remove: 0.05

Response is Y on 4 predictors, with N = 16

Step 1 2 3
Constant -2.941 -2.726 -2.805

X1 0.132 0.133 0.152


T-Value 2.16 2.28 2.62
P-Value 0.053 0.042 0.021

X2 0.72 0.85
T-Value 0.92 1.27
P-Value 0.376 0.229

X3 2.69 2.69 3.60


T-Value 2.72 2.83 5.63
P-Value 0.020 0.015 0.000

X4 0.35
T-Value 0.39
P-Value 0.707
Sehingga model yang terbentuk adalah :
Y=- 2.81 + 0,152 X1 +3,60 X3
Interpretasi model  Jika kadar klor cair bertambah satu satuan, maka tingkat kejernihan air
akan bertambah sebesar 0,152 dengan syarat kadar cupri sulfat konstan, sedangkan jika kadar
cupri sulfat bertambah satu satuan, maka tingkat kejernihan air akan bertambah sebesar 3,60
dengan syarat kadar klor cair konstan.

Manual
1. Meregresikan seluruh variabel prediktor terhadap variabel respon

Regression Analysis: Y versus X1, X2, X3, X4

The regression equation is


Y = - 2.94 + 0.132 X1 + 0.716 X2 + 2.69 X3 + 0.349 X4

Predictor Coef SE Coef T P


Constant -2.9413 0.8503 -3.46 0.005
X1 0.13170 0.06087 2.16 0.053
X2 0.7162 0.7762 0.92 0.376
X3 2.6861 0.9869 2.72 0.020
X4 0.3486 0.9034 0.39 0.707  eliminasi(tidak sig)

S = 0.0509530 R-Sq = 84.9% R-Sq(adj) = 79.4%

2. Meregresikan variabel prediktor yang masih bertahan pada model terhadap


variabel respon
Regression Analysis: Y versus X1, X2, X3

The regression equation is


Y = - 2.73 + 0.133 X1 + 0.850 X2 + 2.69 X3

Predictor Coef SE Coef T P


Constant -2.7257 0.6178 -4.41 0.001
X1 0.13344 0.05851 2.28 0.042
X2 0.8498 0.6696 1.27 0.229  eliminasi *tidak sig*
X3 2.6926 0.9511 2.83 0.015

S = 0.0491129 R-Sq = 84.7% R-Sq(adj) = 80.9%


Regression Analysis: Y versus X1, X3

The regression equation is


Y = - 2.81 + 0.152 X1 + 3.60 X3

Predictor Coef SE Coef T P


Constant -2.8051 0.6289 -4.46 0.001
X1 0.15176 0.05802 2.62 0.021
X3 3.6019 0.6399 5.63 0.000
Dari proses eliminasi backward tersebut, telah didapatkan bahwa masing-masing
prediktor sudah signifikan, karena pvalue<alpha (Pvalue<0,05). Maka dari itu, didapatkan model
regresi
Y= - 2.81 + 0,152 X1 + 3,60 X3
Interpretasi model  Jika kadar klor cair bertambah satu satuan, maka tingkat kejernihan air
akan bertambah sebesar 0,152 dengan syarat kadar cupri sulfat konstan, sedangkan jika kadar
cupri sulfat bertambah satu satuan, maka tingkat kejernihan air akan bertambah sebesar 3,60
dengan syarat kadar klor cair konstan.
 Metode Stepwise
o Software
1. Hampir sama dengan metode fordward yaitu Klik Stat  Regression  Stepwise
Regreesion  Lalu masukkan variabel Y pada Response dan variabel X1 sampai X4
pada predictors

2. Kemudian pada methods pilih stepwise. Pada alpha to enter masukkan berapa taraf
signifikan yang digunakan. Dalam hal ini digunakan  to enter = 0,05 dan
 to enter = 0,05 .
Dimana outputnya adalah sebagai berikut.

Stepwise Regression: Y versus X1, X2, X3, X4

Alpha-to-Enter:
o 0.05 Alpha-to-Remove: 0.05

Response is Y on 4 predictors, with N = 16

Step 1 2
Constant -3.364 -2.805

X3 4.31 3.60
T-Value 6.23 5.63
P-Value 0.000 0.000

X1 0.152
T-Value 2.62
P-Value 0.021

S 0.0598 0.0503
R-Sq 73.51 82.65
R-Sq(adj) 71.62 79.98
Mallows Cp
Manual 7.3 2.6

1. Mengkorelasikan seluruh variabel prediktor dengan variabel respons


Correlations
Correlations

y x1 x2 x3 x4

y Pearson Correlation 1 .635** .815** .857** .604*

Sig. (2-tailed) .008 .000 .000 .013

N 16 16 16 16 16
**
x1 Pearson Correlation .635 1 .471 .421 .368
Sig. (2-tailed) .008 .065 .104 .161
N 16 16 16 16 16
x2 Pearson Correlation .815** .471 1 .801** .677**
Sig. (2-tailed) .000 .065 .000 .004
N 16 16 16 16 16
** **
x3 Pearson Correlation .857 .421 .801 1 .552*
Sig. (2-tailed) .000 .104 .000 .027
N 16 16 16 16 16
* ** *
x4 Pearson Correlation .604 .368 .677 .552 1

Sig. (2-tailed) .013 .161 .004 .027

N 16 16 16 16 16

**. Correlation is significant at the 0.01 level (2-tailed).


*. Correlation is significant at the 0.05 level (2-tailed).
2. Meregresikan variabel prediktor X3 dengan variabel respons sehingga diperoleh
bahwa variabel prediktor X3 berpengaruh signifikan.
Regression Analysis: Y versus DPI

The regression equation is


Y = - 3.36 + 4.31 DPI

Predictor Coef SE Coef T P


Constant -3.3635 0.7043 -4.78 0.000
DPI 4.3068 0.6909 6.23 0.000

S = 0.0598262 R-Sq = 73.5% R-Sq(adj) = 71.6%

3. Mengkorelasikan secara parsial variabel prediktor selain X3 dengan Y dimana X3


menjadi control

Partial Corr
Correlations

Control Variables y x1 x2 x4

x3 Y Correlation 1.000 .587 .415 .305

Significance (2-tailed) . .021 .124 .269

Df 0 13 13 13

x1 Correlation .587 1.000 .247 .179

Significance (2-tailed) .021 . .375 .522


Df 13 0 13 13

x2 Correlation .415 .247 1.000 .469

Significance (2-tailed) .124 .375 . .077

Df 13 13 0 13

x4 Correlation .305 .179 .469 1.000

Significance (2-tailed) .269 .522 .077 .

Df 13 13 13 0

4. Meregresikan variabel prediktor X3, X1 dengan variabel respons sehingga


diperoleh bahwa variabel prediktor X3, X1 berpengaruh signifikan.
Regression Analysis: Y versus DPI, PRODUKSI MOBIL

The regression equation is


Y = - 2.81 + 3.60 DPI + 0.152 PRODUKSI MOBIL

Predictor Coef SE Coef T P


Constant -2.8051 0.6289 -4.46 0.001
DPI 3.6019 0.6399 5.63 0.000
PRODUKSI MOBIL 0.15176 0.05802 2.62 0.021

S = 0.0502525 R-Sq = 82.6% R-Sq(adj) = 80.0%

5. Mengkorelasikan secara parsial variabel prediktor selain X3,X1 dengan Y dimana


X3,X1 menjadi control

Partial Corr
Correlations

Control Variables y x2 x4

x3 & x1 Y Correlation 1.000 .344 .251

Significance (2-tailed) . .229 .388

df 0 12 12

x2 Correlation .344 1.000 .446

Significance (2-tailed) .229 . .110


df 12 0 12

x4 Correlation .251 .446 1.000

Significance (2-tailed) .388 .110 .

df 12 12 0

Karena hasil pvalue > alpha, maka model yang terbentuk berhenti pada variabel prediktor X3
dan X1 sehingga model yang terbentuk adalah
Y= - 2.81 + 0,152 X1 + 3,60 X3
Interpretasi model  Jika kadar klor cair bertambah satu satuan, maka tingkat kejernihan air
akan bertambah sebesar 0,152 dengan syarat kadar cupri sulfat konstan, sedangkan jika kadar
cupri sulfat bertambah satu satuan, maka tingkat kejernihan air akan bertambah sebesar 3,60
dengan syarat kadar klor cair konstan.

Stepwise Manual (Menentukan Korelasi Parsial) Menggunakan Minitab


1. Menentukan korelasi antara variabel X dan Y secara keseluruhan

Correlations: Y, X1, X2, X3, X4

Y X1 X2 X3
X1 0.635
0.008

X2 0.815 0.471
0.000 0.065

X3 0.857 0.421 0.801


0.000 0.104 0.000

X4 0.604 0.368 0.677 0.552


0.013 0.161 0.004 0.027

2. Memilih nilai koefisien pearson maksimum, dalam hal ini koefisien korelasi Y-X3
yang masuk dalam model. Kemudian di regresikan antara Y dan X3 untuk diamati
apakah X3 berpengaruh signifikan atau tidak terhadap variabel Y
Regression Analysis: Y versus X3

The regression equation is


Y = - 3.36 + 4.31 X3
Variabel Y dan X3 berpengaruh signifikan. Sehingga, layak masuk dalam model
terbaik.
3. Predictor
MenentukanCoef nilai SEkorelasi
Coef parsial
T dengan
P syarat X 3 menjadi variabel control
Constant -3.3635 0.7043 -4.78 0.000
X3 (ryx ,x
1 3 ;ryx ,x
2 3
4.3068;ryx ,x ).
4 0.6909
3 Misal untuk mencari
6.23 0.000 ryx1,x3. Cara untuk mendapatkan
besaran tersebut adalah mengkorelasikan nilai error pada persamaan regresi
y=b0+b1X3+error dan X1=b0+b1X3+error. Sehingga didapatkan besaran
ryx1,x3;ryx2,x3;ryx4,x3 sebagai berikut
Correlations: RESI_YX3, RESI_X1X3, RESIX2X3, RESIX3X4

RESI_YX3 RESI_X1X3 RESIX2X3


RESI_X1X3 0.587
0.017

RESIX2X3 0.415 0.247


0.110 0.357

RESIX3X4 0.305 0.179 0.469


0.251 0.506 0.067

Cell Contents: Pearson correlation


P-Value
4. Dipilih nilai korelasi parsial terbesar yaitu 0,587 kemudian meregresikan X3 dan X1
terhadap Y.Analysis:
Regression Apakah variabel
Y versustersebut
X1, X3berpengaruh signifikan atau tidak.

The regression equation is


Y = - 2.81 + 0.152 X1 + 3.60 X3

Predictor Coef SE Coef T P


Constant -2.8051 0.6289 -4.46 0.001
X1 0.15176 0.05802 2.62 0.021
X3 3.6019 0.6399 5.63 0.000

S = 0.0502525 R-Sq = 82.6% R-Sq(adj) = 80.0%

5. Ternyata variabel X1, dan X3 berpengaruh signifikan terhadap variabel Y. Kemudian


menentukan korelasi parsial (ryx2,x3.x1;ryx4,x3.x1). Diperoleh hasil sebagai berikut
Correlations: RESIYX3X1, RESIX2X3X1, RESIX4X3X1

RESIYX3X1 RESIX2X3X1
RESIX2X3X1 0.344
0.192

RESIX4X3X1 0.251 0.446


0.349 0.083

6. Mengulang proses yang sama, yaitu meregresikan variabel X 3,X1,X2 untuk


mengamati masing-masing variabel prediktor saling berpengaruh terhadap Y atau
tidak. Didapatkan hasil regresi sebagai berikut
Regression Analysis: Y versus X3, X2, X1

The regression equation is


Y = - 2.73 + 2.69 X3 + 0.850 X2 + 0.133 X1

Karena pvalue>alpha (0,229>0,05) yang ditujukkan oleh X 2 tidak berpengaruh signifikan


Predictorvariabel
terhadap Coef SE Coef
Y, maka variabel TX2 tidak
P dapat dipertahankan dalam model. Sehingga
Constant -2.7257 0.6178 -4.41 0.001
model
X3 terbaik 2.6926
yang dibentuk adalah
0.9511 2.83 0.015
X2 0.8498 0.6696 1.27 0.229 TIDAK SIGNIFIKAN
X1 0.13344 0.05851 2.28 0.042
Y= - 2.81 + 0,152 X1 + 3,60 X3
Interpretasi model  Jika kadar klor cair bertambah satu satuan, maka tingkat kejernihan air
akan bertambah sebesar 0,152 dengan syarat kadar cupri sulfat konstan, sedangkan jika kadar
cupri sulfat bertambah satu satuan, maka tingkat kejernihan air akan bertambah sebesar 3,60
dengan syarat kadar klor cair konstan.

6.4 Latihan Soal


1. Jelaskan secara singkat mengenai persamaan dan perbedaan metode pemilihan
persamaan regresi terbaik menggunakan teknik all possible, best subset, stepwise,
fordward selection, dan backward elimination !
2. Tersedia data mengenai percobaan pengaruh radiasi dalam gram kalori relatif per
menit akibat terjemur matahari selama setengah hari sebelumnya (X1), kelembaban
tanah rata-rata (X2) dan suhu udara dalam Fahrenheit (X3) terhadap Kandungan
Vitamin B2 dalam milligram per gram Turnip Green (Y)

X1 X2 X3 Y X1 X2 X3 Y
1.76 0.07 7.8 110.4 2.03 0.474 7.6 74
1.55 0.07 8.9 102.8 1.91 0.474 8.3 65.7
2.73 0.07 8.9 101 1.91 0.474 8.2 56.8
2.73 0.07 7.2 108.4 1.91 0.474 6.9 62.1
2.56 0.07 8.4 100.7 0.76 0.474 7.4 61
2.8 0.07 8.7 100.3 2.13 0.474 7.6 53.2
2.8 0.07 7.4 102 2.13 0.474 6.9 59.4
1.84 0.07 8.7 93.7 1.51 0.474 7.5 58.7
2.16 0.07 8.8 98.9 2.05 0.474 7.6 58
1.98 0.02 7.6 96.6 1.05 0.02 7 88.4
0.59 0.02 6.5 99.4 1.8 0.02 7.3 75.3
0.8 0.02 6.7 96.2 1.8 0.02 6.5 92
0.8 0.02 6.2 99 1.77 0.02 7.6 82.4
2.3 0.02 8.2 77.1
a) Berdasarkan data diatas, dapatkan model terbaik menggunakan best subset, backward,
fordward, dan stepwise. Tuliskan output setiap tahapan dan berikan penjelasan secara
lengkap.
b) Apakah persamaan regresi yang dihasilkan dari keempat prosedur tersebut sama atau
berbeda? Jelaskan alasannya!

DAFTAR PUSTAKA

Setiawan n kusrini

Hair
Gujarati
Draper

LAMPIRAN
1. Data Tugas Akhir Alfisyahrina Hapsery (267 data)

Dok.Inggri
Nama Sitasi Indeks h s Dok.Indonesia Jurusan Jabatan Fakultas JK
Suasmoro 75 4 21 2 Fisika Guru Besar FMIPA Laki-laki
Hasto Sunarno 19 2 11 32 Fisika Lektor Kepala FMIPA Laki-laki
Suminar Pratapa 141 7 43 48 Fisika Guru Besar FMIPA Laki-laki
Gatut Yudoyono 8 2 3 50 Fisika Lektor Kepala FMIPA Laki-laki
Yono Hadi P. 74 4 22 12 Fisika Lektor Kepala FMIPA Laki-laki
Mashuri 70 3 10 14 Fisika Lektor Kepala FMIPA Laki-laki
Darminto 115 4 32 13 Fisika Guru Besar FMIPA Laki-laki
M.Zainuri 1 1 6 17 Fisika Lektor FMIPA Laki-laki
...
...
Imam Mukhlash 29 3 8 21 Matematika Lektor FMIPA Laki-laki
Laksmi Prita W. 2 1 0 10 Matematika Lektor FMIPA Perempuan
Bandung Arry S. 6 1 6 7 Matematika Lektor FMIPA Laki-laki
Budi Setiyono 5 1 3 1 Matematika Lektor FMIPA Laki-laki
Didik Khusnul A. 1 1 2 4 Matematika Lektor FMIPA Laki-laki
Subchan 125 6 22 12 Matematika Lektor Kepala FMIPA Laki-laki

Anda mungkin juga menyukai