Anda di halaman 1dari 35

Analisa Data Statistik

Chap 11: Regresi Linear


Agoes Soehianie, Ph.D
Model Regresi Linear
Variabel Y merupakan respons dari variabel independen x dengan
hubungan Y = + X + . Dengan dan adalah titik poting
dengan sumbu Y dan gradien yg belum diketahui, sedangkan
adalah variabel random dengan sifat nilai rata-rata =0, dan
variansi =
2
.

Dari sampel data diperoleh set data {x
i
,y
i
} ingin diperoleh model garis
lurus terbaik y= a + b x, yaitu dengan mendapatkan a sebagai
estimator dan di estimasi oleh b.

Variable independen X dipilih yg error dalam pengukurannya kecil
atau dapat diabaikan dibandingkan Y.
Garis Lurus Terbaik Metoda Least Squares
Garis lurus terbaik diperoleh dengan meminimasi residual error e
k

yaitu selisih antara predicted y
k
dengan data yg dipeoleh y
k
, yaitu
jumlah total kuadrat residual error minimum (Sum Squares of
Errors)
X
X X
k

Y
k

e
k

bx a y + =

k
y

Garis lurus terbaik diperoleh dengan meminimasi


residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)

= = =
+ = = =
N
k
k k
N
k
k k
N
k
k
y bx a y y e SSE
1
2
1
2
1
2
) ( ) (
Garis Lurus Terbaik Metoda Least Squares
Untuk mendapatkan koefisien a dan b yg terbaik, maka dicari a dan b
yg meminimumkan SSE, yaitu dengan menghitung turunan SSE
thd a dan b:
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
0 0 =
c
c
=
c
c
SSE
b
SSE
a
Yang akan memberikan dua buah persamaan linear bagi a dan b:
0 2 2 1 2 ) ( 2 ) (
1 1 1 1 1
2

= = = = =
= + = + = +
c
c
N
k
k
N
k
k
N
k
N
k
k k
N
k
k k
y x b a y bx a y bx a
a
0 2 2 2 ) ( 2 ) (
1 1
2
1 1 1
2

= = = = =
= + = + = +
c
c
N
k
k k
N
k
k
N
k
k
N
k
k k k
N
k
k k
y x x b x a y bx a x y bx a
b
Garis Lurus Terbaik Metoda Least Squares
Dalam notasi matrix sistem pers. Linear tsb dapat dituliskan:
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)

= = =
= +
N
k
k
N
k
k
N
k
y x b a
1 1 1
1

= = =
= +
N
k
k k
N
k
k
N
k
k
y x x b x a
1 1
2
1
|
|
|
|
.
|

\
|
=
|
|
.
|

\
|
|
|
|
|
.
|

\
|



=
=
= =
= =
N
k
k k
N
k
k
N
k
k
N
k
k
N
k
k
N
k
y x
y
b
a
x x
x
1
1
1
2
1
1 1
1
Solusi bagi sistem pers. Linear tsb dapat diperoleh dengan berbagai
cara antara lain cara Cramers:
Garis Lurus Terbaik Metoda Least Squares
Solusi bagi a dan b (metoda Cramers):
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)




= =
= =
= =
= =
=
N
k
k
N
k
k
N
k
k
N
k
N
k
k
N
k
k k
N
k
k
N
k
k
x x
x
x y x
x y
a
1
2
1
1 1
1
2
1
1 1
1
Atau :




= =
= =
= =
= =
=
N
k
k
N
k
k
N
k
k
N
k
N
k
k k
N
k
k
N
k
k
N
k
x x
x
y x x
y
b
1
2
1
1 1
1 1
1 1
1
1


= = =
= = = =
|
.
|

\
|

=
N
k
N
k
k
N
k
k
N
k
N
k
k k k
N
k
N
k
k k
x x
y x x y x
a
1
2
1 1
2
1 1 1 1
2
1


= = =
= = = =
|
.
|

\
|

=
N
k
N
k
k
N
k
k
N
k
N
k
k k
N
k
N
k
k k
x x
y x y x
b
1
2
1 1
2
1 1 1 1
1
1
Garis Lurus Terbaik Metoda Least Squares
Penyederhanaan bisa dilakukan mengingat 1=N, sehingga:
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
2
1 1
2
1 1 1 1
2
|
.
|

\
|

=


= =
= = = =
N
k
k
N
k
k
N
k
N
k
k k k
N
k
N
k
k k
x x N
y x x y x
a 2
1 1
2
1 1 1
|
.
|

\
|

=


= =
= = =
N
k
k
N
k
k
N
k
N
k
k k
N
k
k k
x x N
y x y x N
b
Untuk keperluan perhitungan, formula di atas dapat dituliskan sbb:
( )( )
( )

=
=


=
N
k
k
N
k
k k
x x
y y x x
b
1
2
1
x b y a =
Dengan
N
y
y
N
x
x
N
k
k
N
k
k
= =
= =
1 1
Notasi
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
Sehingga rumus regresi linear dapat dituliskan sbb:

b = SXY/SXX a=y
s
-bx
s

Dengan x
s
dan y
s
adalah rata-rata x dan y.
Untuk keperluan penulisan diperkenalkan notasi berikut:
( )( ) ( ) ( )

= = =
= = =
N
k
k YY
N
k
k XX
N
k
k k XY
y y S x x S y y x x S
1
2
1
2
1
Contoh
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
SXX = 1554.9 SYY= 3117.5 SXY=2168.5
x
s
= 293/6=48.8 y
s
=1713/6=285.5
b = SXY/SXX = 1.3947 a= y
s
-bx
s
= 285.5- 1.3947*48.8=217.39
X Y Xs=X-Xr Ys=Y-Yr Xs^2 Ys^2 Xs*Ys Yteori
27 250 -21.8 -35.5 476.7 1260.25 775.1 255.0
45 285 -3.8 -0.5 14.7 0.25 1.9 280.2
72 320 23.2 34.5 536.7 1190.25 799.3 317.8
58 295 9.2 9.5 84.0 90.25 87.1 298.3
31 265 -17.8 -20.5 318.0 420.25 365.6 260.6
60 298 11.2 12.5 124.7 156.25 139.6 301.1
293 1713 0 0 1554.8 3117.5 2168.5
Contoh : Grafik
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
Regresi Linear
220
240
260
280
300
320
340
20 30 40 50 60 70 80
X
Y
Partisi Variabilitas Total dan Estimator Variansi
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
Sedangkan variansi dari Y, yaitu
2
, diwakili oleh estimator S
2
yg
besarnya adalah:




S juga disebut Standard Error Estimates bagi Y.

Catatan SSE kadang dinamakan juga SST (Total corrected sum
squares of Y)


Dapat dibuktikan SSE (Sum Squares of Errors) bisa dituliskan
sebagai:
SXY b SXX y y SSE
N
k
k k
* ) (
1
2
= =

=
2
*
2
2

=
n
SXY b SYY
n
SSE
S
Inference Statistik ttg Slope Regresi ()
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
Estimator bagi slope regresi adalah b, sedangkan variabel statistik
yg terkait dengan distribusi b adalah :
SXX S
b
t
/
|
=
Variabel t memiliki distribusi student-t dengan derajat kebebasan
v=n-2.
Dengan ini dapat dicari interval kepercayaan bagi slope () dan juga
dilakukan testing hipotesis terhadap slope tsb.
Contoh: Interval Kepercayaan
Garis lurus terbaik diperoleh dengan meminimasi
residual error e
k
yaitu selisih antara predicted y
k

dengan data yg dipeoleh y
k
, yaitu jumlah total
kuadrat residual error minimum (metoda Least
Squares)
Dari contoh sebelumnya tentukan interval kepercayaan 95% bagi
slope ().

Jawab:

Interval kepercayaan 100(1-)% diberikan oleh

Jumlah data n=6, sehingga v=n-2 = 4. Interval kepercayaan 95%
berarti = 5%. Dari tabel student-t diperoleh nilai kritis t
0.025
(v=4)
adalah 2.776.
SXX S t b SXX S t b / /
2 / 2 / o o
| + < <
2
*
2

=
n
SXY b SYY
S
Contoh: Interval Kepercayaan
Sehingga interval kepercayaan bagi slope adalah:
SXX S t b SXX S t b / /
2 / 2 / o o
| + < <
28 . 23
2 6
5 . 2168 * 3947 . 1 5 . 3117
2
*
2
=

=
n
SXY b SYY
S
Dari tabel tsb diperoleh:
SXX = 1554.9 SYY= 3117.5 SXY=2168.5 b = SXY/SXX = 1.3947
Sehingga:
9 . 1554 / 28 . 23 * 776 . 2 3947 . 1 9 . 1554 / 28 . 23 * 776 . 2 3947 . 1 < < |
interval kepercayaan 95% bagi slope adalah: 1.?? < < 1.??
Contoh: Hipotesis Testing untuk slope
No x y
1 3 5
2 7 11
3 11 21
4 15 16
5 18 16
6 27 28
7 29 27
8 30 25
9 30 35
10 31 30
11 31 40
12 32 32
13 33 34
14 33 32
15 34 34
16 36 37
Tabel disamping memberikan hasil
pengukuran BOD (Biological Oxygen
Demand) Y% dan Solid Reduction X(%).
Periksalah hipotesa H0: =1 dan H1: <1
dengan tingkat signifikan 5%
No x y
17 36 38
18 36 34
19 37 36
20 38 38
21 39 37
22 39 36
23 39 45
24 40 39
25 42 41
26 42 40
27 43 44
28 44 37
29 45 44
30 46 46
31 47 49
32 50 51
Oxygen Demand vs Solid Reduction
0
10
20
30
40
50
60
0 10 20 30 40 50 60
X
Y
Contoh: Hipotesis Testing
Jawab:
1. Hipotesa H0: =1 dan H1: <1
2. Tingkat signifikan = 5%
3. Daerah kritis
Variabel statistik untuk di test adalah t:
dengan derajat kebebasan v=n-2
Nilai kritis -t
0.05
= -1.697
Tolak H0 jika t < -1.697
SXX S
b
t
/
|
=
Contoh: Hipotesis Testing
4. Perhitungan
Berdasarkan tabel data diperoleh koefisien regresi Y = a+ bX,
a = 4.1390 b=0.8895
SXX = 4093.47 SYY = 3566.88
SXY = 3641.19
S
2
= (SYY-b SXY)/(n-2) = (3566.88-0.8895*3641.19)/(32-2)
S = 3.3065

5. Keputusan
Karena t < -1.697 maka H0 ditolak
6. Kesimpulan, cukup bukti untuk menolak bahwa slope = 1, dan
menerima slope < 1
14 . 2
47 . 4093 / 3065 . 3
1 8895 . 0
/
=

=
SXX S
b
t
|
Interval Kepercayaan & Interval Prediksi
Untuk sebuah nilai X tertentu, kita dapat membuat interval
kepercayaan bagi nilai rata-rata Y yg terkait, dengan interval
kepercayaan (1-)100% yaitu diberikan oleh:





Dengan dan

Sedangkan interval prediksi nilai Y (bukan rata-rata) bagi sebuah
nilai X tertentu adalah:


SXX
X X
n
S t Y Y
SXX
X X
n
S t Y
2 2
) ( 1
*
) ( 1
*

+ + < <

+
o o

SXX
X X
n
S t Y Y
SXX
X X
n
S t Y
2 2
) ( 1
1 *
) ( 1
1 *

+ + + < <

+ +
o o

bX a Y + =

N
X
X
N
i
i
=
=
1
Contoh
Contoh.
Data berikut ini memberikan hubungan antara frekuensi kunjungan
Salesman fotocopy (X) dan jumlah mesin fotocopy terjual (Y).





a) Buatlah interval kepercayaan 95% bagi rata-rata fotocopy terjual
bagi salesman-salesman yg melakukan kunjungan sebanyak 25
kali
b) Bilamana si Polan melakukan kunjungan 25 kali berapakah interval
kepercayaan 95% bagi jumlah mesin fotocopy yg mampu dia jual?
SOlusi
45 22 = = Y X
Jawab.
Hasil pengolahan data memberikan:


SXX = 760 SYY=1850 SXY=900
b = SXY/SXX = 900/760 = 1.1842
a = Y
rata
-b*X
rata
= 45 1.1842*22= 18.95
S
2
= (SYY-bSXY)/(n-2) = 98.03 S = 9.90

Dari tabel student t untuk v=n-2=8, t
0.025
= 2.306
Sehingga untuk X=25, Y = a+bX = 18.95+1.1842*25 =48.55
64 . 7
760
) 22 25 (
10
1
* 9 . 9 * 306 . 2
) ( 1
*
2 2
025 . 0
=

+ =

+
SXX
X X
n
S t
SOlusi
Jawab (lanjutan).
Hasil pengolahan data memberikan:

a) Interval kepercayaan bagi rata-rata sales untuk frekuensi
kunjungan X=25 adalah




48.55 7.64 < Y < 48.55+ 7.64
40.9 < Y < 56.2
b) Interval prediksi bagi si Polan yg melakukan kunjungan X=25 kali:
SXX
X X
n
S t Y Y
SXX
X X
n
S t Y
2 2
) ( 1
*
) ( 1
*

+ + < <

+
o o

SXX
X X
n
S t Y Y
SXX
X X
n
S t Y
2 2
) ( 1
1 *
) ( 1
1 *

+ + + < <

+ +
o o

SOlusi
Jawab (lanjutan).





48.55 24.1 < Y < 48.55 + 24.1
24.5 < Y < 72.6

Wajar bagi interval prediksi bagi 1 orang si Polan jauh lebih besar
dibandingkan dengan interval kepercayaan bagi rata-rata sales
untuk seluruh sales untuk jumlah kunjungan yg sama yaitu 25.




1 . 24
760
) 22 25 (
10
1
1 * 9 . 9 * 306 . 2
) ( 1
1 *
2 2
025 . 0
=

+ + =

+ +
SXX
X X
n
S t
Grafik : Garis Regresi, CI dan Prediksi
Sales vs Frek Kunjungan
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50
X (kunjungan)
Y
(
s
a
l
e
s
)
Data
Teori
CI-min
CI-max
Pred-min
Pred-max
ANALISA KORELASI - Definisi
Analisa korelasi ini mempelajari hubungan atau asosiasi antara
beberapa variabel. Bilamana regresi dilakukan hingga menyatakan
hubungan eksplisit berupa persamaan matematika, maka pada
analisa korelasi hanya diwujudkan pada kekuatan hubungan itu saja
yg dinyatakan oleh koefisien korelasi.
Koefisien korelasi (r) : ukuran kekuatan asosiasi linear antara dua
variabel.
SYY SXX
SXY
SYY
SXX
b r
*
= =
Nilai r terbatas anstara -1 sd 1. Nilai r=1 atau -1 menyatakan
hubungan korelasi sempurna antara X dan Y.
ANALISA KORELASI - Definisi
APakah nilai korelasi 0.8 bagus atau tidak, tidak ada ukuran absolut.
Tergantung pada kasusnya. Untuk ilmu sosial atau ekonomi dimana
banyak sekali variabel yg berpengaruh, nilai tsb sudah bagus sekali
menyatakan hubungan korelasi yg kuat. Akan tetapi di bidang
engineering, dimana variabel bisa dikontrol sangat ketat sekali, nilai
r=0.9 mungkin baru dipandang cukup bagus.

Hal lain adalah kita tidak boleh menyatakan r=0.6 adalah 2x lebih
bagus dibandingkan r=0.3
Korelasi (r=1)
-10
-5
0
5
10
15
20
25
-6 -4 -2 0 2 4 6 8 10
X
Y
Korelasi (r=-1)
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
-6 -4 -2 0 2 4 6 8 10
X
Y
Contoh
Kita pakai contoh sebelumnya, tentang hubungan antara sales mesin
fotocopy (Y) dan frekuensi kunjungan (X)
No X Y
5 10 30
6 10 40
1 20 30
3 20 40
7 20 40
8 20 50
9 20 30
4 30 60
10 30 70
2 40 60
Contoh
Dari perhitungan manual tsb diperoleh:
SXX = 760 SYY = 1850 SXY = 900
Sehingga koefisien korelasinya., r
No X Y Xe=X-Xs Ye=Y-Ys Xe^2 Ye^2 Xe*Ye
5 10 30 -12 -15 144 225 180
6 10 40 -12 -5 144 25 60
1 20 30 -2 -15 4 225 30
3 20 40 -2 -5 4 25 10
7 20 40 -2 -5 4 25 10
8 20 50 -2 5 4 25 -10
9 20 30 -2 -15 4 225 30
4 30 60 8 15 64 225 120
10 30 70 8 25 64 625 200
2 40 60 18 15 324 225 270
Sum 220 450 0 0 760 1850 900
Mean 22 45 0 0 76 185 90
7590 . 0
1850 * 760
900
*
= =
SYY SXX
SXY
r
Contoh
Apa artinya r=0.7590?
1. Nilainya positif, jadi ada hubungan langsung kenaikan frekuensi
kunjungan (X) akan menaikkan juga volume sales (Y).
2. Karena 0.759 lumayan dekat ke nilai 1 jadi agaknya memang
hubungan antara frekuensi kunjungan dengan kenaikan sales
cukup kuat.

Koefisien Determinasi
Arti lebih jelas daripada r didapat dari r
2
= R yang sering disebutkan
sebagai koefisien determinasi sampel.

Jadi R adalah:

SYY
SSR
SYY SXX
SXY
r R = = =
*
2
2
Dimana SST = SSR + SSE, dengan masing-masing adalah
2 2 2
) ( ) ( ) (

= = =
+ =
n
k
i i
n
k
i
n
k
i
y y y y y y
DI depan kita beri nama SST=SEE. SSR = Sum Squares of Residual
atau regression sum squares, SSR mencerminkan bagian dari
variasi data yg bisa dijelaskan oleh regresi.
Sehingga R menyatakan porsi dari variasi SYY yg bisa dijelaskan
dengan regresi Y thd X, atau porsi dari variabilitas variabel Y yg
bisa dijelaskan oleh model regresi.
Hipotesis Testing untuk koefisien korelasi
Untuk memeriksa kebenaran hipotesis
H0: = 0
H1: 0
yg berkenan dengan koefisien korelasi r, maka variabel statistik yg
diuji adalah
2
1
2
/
r
n r
SXX S
b
t

= =
Yg terdistribusi menurut student t dengan derajat kebebasan v=n-2.

Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah
hipotesa H0: =0 dengan H1: 0 dengan tingkat signifikan 5%.
2
1
2
r
n r
t

=
Jawab:
1. Hipotesa
H0: =0 dengan H1: 0
2. Tingkat signifikan = 0.05
3. Daerah kritis : ini adalah tes 2 ekor
Variabel statistik yg diuji adalah t:

dengan n= 10, sehingga
nilai kritis t
0.025
(v=10-2=8) = 2.306
Tolak H0 jika t > 2.306 atau t < -2.306
4. Perhitungan, telah dihitung r=0.759

297 . 3
759 . 0 1
2 10 759 . 0
1
2
2 2
=

=
r
n r
t
Contoh
5. Keputusan
Karena r > 3.297, maka H0 ditolak
6. Kesimpulan

Cukup bukti untuk menyatakan bahwa ada hubungan korelasi
linear antara frekuensi kunjungan (X) dengan tingkat penjualan (Y)

Hipotesis Testing untuk koefisien korelasi
Sedangkan untuk kasus lebih umum untuk memeriksa kebenaran
hipotesis
H0: =
0


yg berkenan dengan koefisien korelasi r, maka variabel statistik yg
diuji adalah
(

+
+
=
) 1 )( 1 (
) 1 )( 1 (
ln
2
3
0
0

r
r n
z
Yg terdistribusi menurut distribusi normal
Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah
hipotesa H0: =0.8 dengan H1: <0.8 dengan tingkat signifikan 5%.
Jawab:
1. Hipotesa
H0: =0.8 dengan H1: < 0.8
2. Tingkat signifikan = 0.05
3. Daerah kritis : ini adalah tes 1 ekor
Variabel statistik yg diuji adalah Z:

nilai kritis -Z
0.05
= -1.645
Tolak H0 jika Z < -1.645
4. Perhitungan, telah dihitung r=0.759, dan dalam hal ini
0
=0.8

(

+
+
=
) 1 )( 1 (
) 1 )( 1 (
ln
2
3
0
0

r
r n
z
227 . 0
) 8 . 0 1 )( 759 . 0 1 (
) 8 . 0 1 )( 759 . 0 1 (
ln
2
3 10
) 1 )( 1 (
) 1 )( 1 (
ln
2
3
0
0
=
(

+
+
=
(

+
+
=

r
r n
z
Contoh
5. Keputusan
Karena Z> -1.645, maka H0 tidak bisa ditolak
6. Kesimpulan

Tidak cukup bukti untuk menyatakan bahwa < 0.8

Anda mungkin juga menyukai