Anda di halaman 1dari 35

Analisa Data Statistik Chap 11: Regresi Linear

Agoes Soehianie, Ph.D

Model Regresi Linear


Variabel Y merupakan respons dari variabel independen x dengan hubungan Y = + X + . Dengan dan adalah titik poting dengan sumbu Y dan gradien yg belum diketahui, sedangkan adalah variabel random dengan sifat nilai rata-rata =0, dan variansi = 2. Dari sampel data diperoleh set data {xi,yi} ingin diperoleh model garis lurus terbaik y= a + b x, yaitu dengan mendapatkan a sebagai estimator dan di estimasi oleh b. Variable independen X dipilih yg error dalam pengukurannya kecil atau dapat diabaikan dibandingkan Y.

Garis Lurus Terbaik Metoda Least Squares


X Yk ek

y ! a  bx

yk

Xk

Garis lurus terbaik diperoleh dengan meminimasi residual error ek yaitu selisih antara predicted yk dengan data yg dipeoleh yk, yaitu jumlah total kuadrat residual error minimum (Sum Squares of Errors) N N N
2 SSE ! ek ! ( yk  yk ) 2 ! (a  bxk  yk ) 2 k !1 k !1 k !1

Garis Lurus Terbaik Metoda Least Squares


Untuk mendapatkan koefisien a dan b yg terbaik, maka dicari a dan b yg meminimumkan SSE, yaitu dengan menghitung turunan SSE thd a dan b:

x SSE ! 0 xa

x SSE ! 0 xb

Yang akan memberikan dua buah persamaan linear bagi a dan b:


N N N N x N 2 (a  bxk  yk ) ! 2 (a  bxk  yk ) !2a 1  2b xk 2 yk !0 xa k !1 k !1 k !1 k !1 k !1

N N N N x N 2 2 (a  bxk  yk ) ! 2 xk (a  bxk  yk ) !2a xk  2b xk  2 xk yk !0 xb k !1 k !1 k !1 k !1 k !1

Garis Lurus Terbaik Metoda Least Squares


Dalam notasi matrix sistem pers. Linear tsb dapat dituliskan:

a 1  b xk ! y k

a xk  b x ! xk y k
2 k k !1 k !1
N

k !1 N

k !1 N

k !1

k !1

N 1 k !1 N xk k !1

N xk a yk k !1 ! k !1 N b N 2 xk xk yk k !1 k !1

Solusi bagi sistem pers. Linear tsb dapat diperoleh dengan berbagai cara antara lain cara Cramers:

Garis Lurus Terbaik Metoda Least Squares


Solusi bagi a dan b (metoda Cramers):

y
k !1 N

x
k !1 N k !1 N

1
k !1 N k

y
k !1 N k k !1 N

xk y k
a!
k !1 N k !1 N

2 xk

x x
b!
k !1 N k !1 N k !1 N

yk
k

1 x x x
k k !1 N k !1 N k !1 N

1 x xk
k !1 N N N k !1

2 k

xk2

Atau :

2 x k y k  x k xk y k

1 x
b!
k !1 N k !1 N

y k  xk y k
k !1 2 k k !1 2

a!

k !1 N

k !1 N

k !1

k !1 2

N 2 1 xk  xk k !1 k !1 k !1

N 1 x  xk k !1 k !1 k !1

Garis Lurus Terbaik Metoda Least Squares


Penyederhanaan bisa dilakukan mengingat 1=N, sehingga:

x y  x x
2 k k k

yk b!

N xk y k  xk y k
k !1 N 2 k k !1

a!

k !1

k !1 N

k !1 N

k !1 2

2 N xk  xk k !1 k !1
N

N N x  xk k !1 k !1

k !1 2

Untuk keperluan perhitungan, formula di atas dapat dituliskan sbb:

x
b!
k !1

 x yk  y a ! y  bx
k

x
k !1

x
N

Dengan

x
x!
k !1

y
N y!
k !1

Notasi
Untuk keperluan penulisan diperkenalkan notasi berikut:

S XY ! xk  x yk  y
k !1

S XX

! xk  x
k !1

SYY

! yk  y
k !1

Sehingga rumus regresi linear dapat dituliskan sbb: b = SXY/SXX a=ys-bxs

Dengan xs dan ys adalah rata-rata x dan y.

Contoh
X 27 45 72 58 31 60 293 Y 250 285 320 295 265 298 1713 Xs=X-Xr -21.8 -3.8 23.2 9.2 -17.8 11.2 0 Ys=Y-Yr -35.5 -0.5 34.5 9.5 -20.5 12.5 0 Xs^2 476.7 14.7 536.7 84.0 318.0 124.7 1554.8 Ys^2 1260.25 0.25 1190.25 90.25 420.25 156.25 3117.5 Xs*Ys 775.1 1.9 799.3 87.1 365.6 139.6 2168.5 Yteori 255.0 280.2 317.8 298.3 260.6 301.1

SXX = 1554.9

SYY= 3117.5 SXY=2168.5 ys=1713/6=285.5 a= ys-bxs= 285.5- 1.3947*48.8=217.39

xs= 293/6=48.8 b = SXY/SXX = 1.3947

Contoh : Grafik

Regresi Linear
340 320 300 Y 280 260 240 220 20 30 40 50 X 60 70 80

Partisi Variabilitas Total dan Estimator Variansi


Dapat dibuktikan SSE (Sum Squares of Errors) bisa dituliskan sebagai: N SSE ! ( yk  yk ) 2 ! SXX  b * SXY
k !1

Sedangkan variansi dari Y, yaitu besarnya adalah:

2,

diwakili oleh estimator S2 yg

SSE SYY  b * SXY S ! ! n2 n2


2

S juga disebut Standard Error Estimates bagi Y. Catatan SSE kadang dinamakan juga SST (Total corrected sum squares of Y)

Inference Statistik ttg Slope Regresi ( )


Estimator bagi slope regresi adalah b, sedangkan variabel statistik yg terkait dengan distribusi b adalah :

bF t! S / SXX
Variabel t memiliki distribusi student-t dengan derajat kebebasan v=n-2. Dengan ini dapat dicari interval kepercayaan bagi slope ( ) dan juga dilakukan testing hipotesis terhadap slope tsb.

Contoh: Interval Kepercayaan


Dari contoh sebelumnya tentukan interval kepercayaan 95% bagi slope ( ). Jawab: Interval kepercayaan 100(1- )% diberikan oleh

b  tE / 2 S / SXX

b  tE / 2 S / SXX

Jumlah data n=6, sehingga v=n-2 = 4. Interval kepercayaan 95% berarti = 5%. Dari tabel student-t diperoleh nilai kritis t0.025 (v=4) adalah 2.776.

SYY  b * SXY S ! n2


2

Contoh: Interval Kepercayaan


Dari tabel tsb diperoleh: SXX = 1554.9 SYY= 3117.5 SXY=2168.5 b = SXY/SXX = 1.3947 Sehingga:
S2 ! SYY  b * SXY 3117.5  1.3947 * 2168.5 ! ! 23.28 n2 62

Sehingga interval kepercayaan bagi slope adalah:

b  tE / 2 S / SXX 1.3947  2.776 * 23.28 / 1554.9

F F

b  tE / 2 S / SXX 1.3947  2.776 * 23.28 / 1554.9


< 1.??

interval kepercayaan 95% bagi slope adalah: 1.?? <

Contoh: Hipotesis Testing untuk slope


Tabel disamping memberikan hasil pengukuran BOD (Biological Oxygen Demand) Y% dan Solid Reduction X(%). Periksalah hipotesa H0: =1 dan H1: <1 dengan tingkat signifikan 5%
Oxygen Dem and vs Solid Reduction 60 50 40 30 20 10 0 0 10 20 30 X 40 50 60 Y

No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

x 3 7 11 15 18 27 29 30 30 31 31 32 33 33 34 36

y 5 11 21 16 16 28 27 25 35 30 40 32 34 32 34 37

No 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

x 36 36 37 38 39 39 39 40 42 42 43 44 45 46 47 50

y 38 34 36 38 37 36 45 39 41 40 44 37 44 46 49 51

Contoh: Hipotesis Testing


Jawab: 1. Hipotesa H0: =1 dan H1: <1 2. Tingkat signifikan = 5% 3. Daerah kritis Variabel statistik untuk di test adalah t: dengan derajat kebebasan v=n-2 Nilai kritis -t0.05 = -1.697 Tolak H0 jika t < -1.697

bF t! S / SXX

Contoh: Hipotesis Testing


4. Perhitungan Berdasarkan tabel data diperoleh koefisien regresi Y = a+ bX, a = 4.1390 b=0.8895

SXX = 4093.47 SYY = 3566.88 SXY = 3641.19 S2 = (SYY-b SXY)/(n-2) = (3566.88-0.8895*3641.19)/(32-2) S = 3.3065

bF 0.8895  1 t! ! ! 2.14 S / SXX 3.3065 / 4093.47

5. Keputusan Karena t < -1.697 maka H0 ditolak 6. Kesimpulan, cukup bukti untuk menolak bahwa slope = 1, dan menerima slope < 1

Interval Kepercayaan & Interval Prediksi


Untuk sebuah nilai X tertentu, kita dapat membuat interval kepercayaan bagi nilai rata-rata Y yg terkait, dengan interval kepercayaan (1- )100% yaitu diberikan oleh: 1 ( X  X )2 Y  tE * S  n SXX 1 ( X  X )2 Y  tE * S  n SXX

Dengan Y ! a  bX

X
dan

N Sedangkan interval prediksi nilai Y (bukan rata-rata) bagi sebuah nilai X tertentu adalah: 1 ( X  X )2 Y  tE * S 1   n SXX 1 ( X  X )2 Y  tE * S 1   n SXX

X!

i !1

Contoh
Contoh. Data berikut ini memberikan hubungan antara frekuensi kunjungan Salesman fotocopy (X) dan jumlah mesin fotocopy terjual (Y).

a)

b)

Buatlah interval kepercayaan 95% bagi rata-rata fotocopy terjual bagi salesman-salesman yg melakukan kunjungan sebanyak 25 kali Bilamana si Polan melakukan kunjungan 25 kali berapakah interval kepercayaan 95% bagi jumlah mesin fotocopy yg mampu dia jual?

SOlusi
Jawab. Hasil pengolahan data memberikan:

X ! 22

Y ! 45

SXX = 760 SYY=1850 SXY=900 b = SXY/SXX = 900/760 = 1.1842 a = Yrata-b*Xrata = 45 1.1842*22= 18.95 S2 = (SYY-bSXY)/(n-2) = 98.03 S = 9.90 Dari tabel student t untuk v=n-2=8, t0.025 = 2.306 Sehingga untuk X=25, Y = a+bX = 18.95+1.1842*25 =48.55

1 ( X  X )2 1 ( 25  22) 2 t0.025 * S  ! 2.306 * 9.9 *  ! 7.64 n SXX 10 760

SOlusi
Jawab (lanjutan). Hasil pengolahan data memberikan: a) Interval kepercayaan bagi rata-rata sales untuk frekuensi kunjungan X=25 adalah

1 ( X  X )2 Y  tE * S  n SXX

1 ( X  X )2 Y  tE * S  n SXX

48.55 7.64 < Y < 48.55+ 7.64 40.9 < Y < 56.2 b) Interval prediksi bagi si Polan yg melakukan kunjungan X=25 kali:

1 ( X  X )2 Y  tE * S 1   n SXX

1 ( X  X )2 Y  tE * S 1   n SXX

SOlusi
Jawab (lanjutan).

1 ( X  X )2 1 (25  22) 2 t0.025 * S 1   ! 2.306 * 9.9 * 1   ! 24.1 n SXX 10 760

48.55 24.1 < Y < 48.55 + 24.1 24.5 < Y < 72.6 Wajar bagi interval prediksi bagi 1 orang si Polan jauh lebih besar dibandingkan dengan interval kepercayaan bagi rata-rata sales untuk seluruh sales untuk jumlah kunjungan yg sama yaitu 25.

Grafik : Garis Regresi, CI dan Prediksi


Sales vs Frek Kunjungan
100 90 80 70 Y(sales) 60 50 40 30 20 10 0 0 10 20 30 40 50 X (kunjungan)
Data Teori CI-min CI-max Pred-min Pred-max

ANALISA KORELASI - Definisi


Analisa korelasi ini mempelajari hubungan atau asosiasi antara beberapa variabel. Bilamana regresi dilakukan hingga menyatakan hubungan eksplisit berupa persamaan matematika, maka pada analisa korelasi hanya diwujudkan pada kekuatan hubungan itu saja yg dinyatakan oleh koefisien korelasi. Koefisien korelasi (r) : ukuran kekuatan asosiasi linear antara dua variabel.

SXX r !b ! SYY

SXY SXX * SYY

Nilai r terbatas anstara -1 sd 1. Nilai r=1 atau -1 menyatakan hubungan korelasi sempurna antara X dan Y.

ANALISA KORELASI - Definisi


APakah nilai korelasi 0.8 bagus atau tidak, tidak ada ukuran absolut. Tergantung pada kasusnya. Untuk ilmu sosial atau ekonomi dimana banyak sekali variabel yg berpengaruh, nilai tsb sudah bagus sekali menyatakan hubungan korelasi yg kuat. Akan tetapi di bidang engineering, dimana variabel bisa dikontrol sangat ketat sekali, nilai r=0.9 mungkin baru dipandang cukup bagus. Hal lain adalah kita tidak boleh menyatakan r=0.6 adalah 2x lebih bagus dibandingkan r=0.3
Korelasi (r=1)
25 20 15 Y 10 Y 5 0 -6 -4 -2 -5 -10 X 0 2 4 6 8 10 25 20 15 10 5 -6 -4 -2 0 -5 0 -10 -15 -20 -25 -30 X 2 4 6 8 10

Korelasi (r=-1)

Contoh
Kita pakai contoh sebelumnya, tentang hubungan antara sales mesin fotocopy (Y) dan frekuensi kunjungan (X)
No 5 6 1 3 7 8 9 4 10 2 X 10 10 20 20 20 20 20 30 30 40 Y 30 40 30 40 40 50 30 60 70 60

Contoh
No 5 6 1 3 7 8 9 4 10 2 Sum Mean X 10 10 20 20 20 20 20 30 30 40 220 22 Y 30 40 30 40 40 50 30 60 70 60 450 45 Xe=X-Xs Ye=Y-Ys Xe^2 Ye^2 Xe*Ye -12 -15 144 225 180 -12 -5 144 25 60 -2 -15 4 225 30 -2 -5 4 25 10 -2 -5 4 25 10 -2 5 4 25 -10 -2 -15 4 225 30 8 15 64 225 120 8 25 64 625 200 18 15 324 225 270 0 0 760 1850 900 0 0 76 185 90

Dari perhitungan manual tsb diperoleh: SXX = 760 SYY = 1850 SXY = 900 Sehingga koefisien korelasinya., r
r! SXY 900 ! 0.7590 SXX * SYY 760 *1850

Contoh
Apa artinya r=0.7590? 1. Nilainya positif, jadi ada hubungan langsung kenaikan frekuensi kunjungan (X) akan menaikkan juga volume sales (Y). 2. Karena 0.759 lumayan dekat ke nilai 1 jadi agaknya memang hubungan antara frekuensi kunjungan dengan kenaikan sales cukup kuat.

Koefisien Determinasi
Arti lebih jelas daripada r didapat dari r2 = R yang sering disebutkan sebagai koefisien determinasi sampel. Jadi R adalah:

SXY 2 SSR R!r ! ! SXX * SYY SYY


2 n n

Dimana SST = SSR + SSE, dengan masing-masing adalah

( yi  y ) ! ( yi  y )  ( yi  yi ) 2
2 2 k! k! k!

DI depan kita beri nama SST=SEE. SSR = Sum Squares of Residual atau regression sum squares, SSR mencerminkan bagian dari variasi data yg bisa dijelaskan oleh regresi. Sehingga R menyatakan porsi dari variasi SYY yg bisa dijelaskan dengan regresi Y thd X, atau porsi dari variabilitas variabel Y yg bisa dijelaskan oleh model regresi.

Hipotesis Testing untuk koefisien korelasi


Untuk memeriksa kebenaran hipotesis H0: = 0 H1: 0 yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalah

b r n2 t! ! S / SXX 1 r2
Yg terdistribusi menurut student t dengan derajat kebebasan v=n-2.

Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: =0 dengan H1: 0 dengan tingkat signifikan 5%. Jawab: 1. Hipotesa H0: =0 dengan H1: 0 2. Tingkat signifikan = 0.05 3. Daerah kritis : ini adalah tes 2 ekor Variabel statistik yg diuji adalah t: dengan n= 10, sehingga nilai kritis t0.025(v=10-2=8) = 2.306 Tolak H0 jika t > 2.306 atau t < -2.306 4. Perhitungan, telah dihitung r=0.759

t!

r n2 1 r2

t!

r n2 1 r2

0.759 10  2 1  0.759 2

! 3.297

Contoh
5. Keputusan Karena r > 3.297, maka H0 ditolak 6. Kesimpulan Cukup bukti untuk menyatakan bahwa ada hubungan korelasi linear antara frekuensi kunjungan (X) dengan tingkat penjualan (Y)

Hipotesis Testing untuk koefisien korelasi


Sedangkan untuk kasus lebih umum untuk memeriksa kebenaran hipotesis H0: = 0 yg berkenan dengan koefisien korelasi r, maka variabel statistik yg diuji adalah

n  3 (1  r )(1  V 0 ) z! ln 2 (1  r )(1  V 0 )
Yg terdistribusi menurut distribusi normal

Contoh
Dalam contoh sebelumnya, tentang sales mesin fotocopy, ujilah hipotesa H0: =0.8 dengan H1: <0.8 dengan tingkat signifikan 5%. Jawab: 1. Hipotesa H0: =0.8 dengan H1: < 0.8 2. Tingkat signifikan = 0.05 3. Daerah kritis : ini adalah tes 1 ekor Variabel statistik yg diuji adalah Z:

n  3 (1  r )(1  V 0 ) z! ln 2 (1  r )(1  V 0 )
0=0.8

nilai kritis -Z0.05 = -1.645 Tolak H0 jika Z < -1.645 4. Perhitungan, telah dihitung r=0.759, dan dalam hal ini

n  3 (1  r )(1  V 0 ) 10  3 (1  0.759)(1  0.8) z! ln ln ! ! 0.227 2 2 (1  0.759)(1  0.8) (1  r )(1  V 0 )

Contoh
5. Keputusan Karena Z> -1.645, maka H0 tidak bisa ditolak 6. Kesimpulan Tidak cukup bukti untuk menyatakan bahwa < 0.8