Anda di halaman 1dari 61

JURUSAN TEKNIK SIPIL

UNIVERSITAS ANDALAS

STATISTIKA
dan
PROBABILITAS

----- Bab 11 -----


Bab 11
Pengenalan Analisa Regresi Linier
dan Korelasi
Tujuan Materi Kuliah
Setelah menyelesaikan materi ini mahasiswa
harus dapat :
 Menghitung dan menginterpretasikan korelasi
sederhana antara dua variabel
 Menentukan apakah korelasi tersebut signifikan
 Menghitung dan menginterpretasikan perhitungan
regresi linier sederhana untuk suatu data
 Mengerti asumsi yang melatarbelakangui analisa
regresi
 Menentukan apakah model regresi tersebut signifikan
Tujuan Materi Kuliah
(lanjutan)

Sesudah menyelesaikan materi ini mahasiswa


harus dapat :
 Menghhitung dan menginterpretasikan interval
keyakinan untuk koefisien regresi
 Memahami aplikasi dari analisa regresi untuk tujuan
penjelasan dan prediksi
 Memahami beberapa potensi masalah jika analisa
regresi digunakan secara benar
 Memahammi hubungan non-linear antara dua variabel
Memplot ‘Scatter’ dan Korelasi

 Plot ’scatter’ (diagram scatter) digunakan untuk


memperlihatkan hubungan antara dua variabel
 Analisa korelasi digunakan untuk mengukur
kekuatan dari hubungan linier antara dua variabel
 Hanya untuk parameter dengan hubungan
yang ada
 Tidak ada efek sebab akibat didalamnya
Contoh : Plot ‘Scatter’

Hubungan Linear Hubungan Curvilinear

y y

x x

y y

x x
Contoh : Plot ‘Scatter’
(lanjutan)
Hubungan yg kuat Hubungan yg lemah

y y

x x

y y

x x
Contoh : Plot ‘Scatter’
(lanjutan)
No relationship

x
Koefisien Korelasi

 Koefisien korelasi population ρ (rho)


mengukur kekuatan hubungan antara
variabel
 Koefisien korelasi sampel r adalah
perkiraan dari ρ yang digunakan untuk
mengukur kekuatan hubungan linier dari
sampel yang diamati
Karakteristik ρ dan r

 Unit free
 Range nilai antara -1 dan 1
 Jika nilai mendekati -1, hubungan linier
variabel tersebut adalah kuat negatif
 Jika nilai mendekati 1, hubungan linier
variabel tersebut adalah kuat positif
 Jika nilai mendekati 0, maka hubungan linier
antara variabel lemah
Contoh : Perkiraan nilai r
y y y

x x x
r = -1 r = -.6 r=0
y y

x x
r = +.3 r = +1
Menghitung
Koefisien Korelasi
Koefisien korelasi sampel :

r
 ( x  x)( y  y)
[ ( x  x ) ][  ( y  y ) ]
2 2

Atau sama dengan :


n xy   x y
r
[n( x 2 )  ( x )2 ][n( y 2 )  ( y )2 ]
Keterangan :
r = Sampel koefisien korelasi
n = Jumlah sampel
x = Nilai variabel independen
y = Nilai variabel dependen
Contoh : Perhitungan
Tinggi Diameter
Pohon Pohon
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
Contoh : Perhitungan
(lanjutan)

Tinggi n xy   x  y
Pohon, r
y 70 [n(  x 2 )  (  x) 2 ][n(  y 2 )  (  y) 2 ]
60

8(3142)  (73)(321)
50 
40
[8(713)  (73)2 ][8(14111)  (321)2 ]

 0.886
30

20

10

0
r = 0.886 → relatif linier positif kuat
0 2 4 6 8 10 12 14
hubungan antara x dan y
Diameter Pohon, x
Output Excel

Excel Correlation Output


Tools / data analysis / correlation…

Tree Height Trunk Diameter


Tree Height 1
Trunk Diameter 0.886231 1

Korelasi antara
Tinggi pohon dan Diameter pohon
Tes Signifikan untuk Korelasi

 Hipotesis
H0: ρ = 0 (tdk ada korelasi)
HA: ρ ≠ 0 (terdapat korelasi)

 Test statistik

r

t (df = n – 2)

1 r 2

n2
Contoh : Korelasi
Apakah terdapat hubungan linier antara
tinggi pohon dengan diameter pohon pada
tingkat nyata 0.05 ?

H0: ρ = 0 (tidak ada korelasi)


H1: ρ ≠ 0 (terdapat korelasi)
 =0.05 , df = 8 - 2 = 6

r .886
t   4.68
1 r 2 1  .8862
n2 82
Contoh : Solusi tes

r .886 Keputusan:
t   4.68
1 r 2 1  .8862 H0 ditolak

n2 82 Kesimpulan:


Terdapat bukti
d.f. = 8-2 = 6
terdapat
hubungan linnier
/2=.025 /2=.025
pada tingkat
nyata 5%
H0 ditolak H0 diterima H ditolak
-tα/2 tα/2 0
0
-2.4469 2.4469
4.68
Pengantar Analisa Regresi

Analisa Regresi digunakan untuk :


 Memprediksi nilai variabel dependen didasarkan
atas nilai minimal satu variabel independen
 Menjelaskan dampak perubahan pada variabel
independen pada variabel dependen
Variabel Dependen : variabel yang ingin
dijelaskan
Variabel Independen : variabel yang digunakan
utk menjelasakan variabel dependen
Model Regresi Linear Sederhana

 Hanya satu variabel independen, x


 Hubungan antara x dan y diuraikan dengan
fungsi linier
 Perubahan didalam nilai y dianggap
disebabkan oleh perubahan nilai x
Tipe Model Regresi
Hubungan Linier Positif Hubungan TIDAK Linier

Hubungan Linier Negatif Tidak Ada Hubungan


Populasi Regresi Linier

Populasi model regresi :


Potongan Koefisien Kesalahan
Variabel acak, atau
pada sb y Kemiringan
Independen ‘residual’
populasi Populasi
Variabel

y  β0  β1x  ε
Dependen

Komponen Linier Komponen


kesalahan acak
Asumsi Regresi Linear

 Nilai ‘error’ (ε) independen secara statistik


 Nilai ‘error’ berdistribusi normal untuk setiap
nilai x
 Distribusi probabilitas ‘error’ adalah normal
 Distribusi probabilitas mempunyai varian
konstan
 Hubungan antara variabel x dan y adalah linier
Populasi Regresi Linier
(lanjutan)

y y  β0  β1x  ε
Observed Value
of y for xi

εi Kemiringan = β1
Nilai Prediksi y Kesalahan Acak
untuk xi
untuk nilai x

Potongan = β0

xi x
Perkiraan Model Regresi
Sampel garis regresi menghasilkan perkiraan garis
regresi populasi

Perkiraan Perkiraan kemiringan


Perkiraan (atau potongan hasil regresi
prediksi) nilai y hasil regresi

Variabel

ŷi  b0  b1x Independen

Kesalahan acak individual ei mempunyai arti nol


Kriteria
Kuadrat Terkecil (‘Least Squares’)

 b0 dan b1 diperoleh dengan menemukan nilai


b0 dan b1 yang memiinimalkan nilai jumlah
kuadrat sisa (‘squared residuals’)

e 2
  (y ŷ) 2

  (y  (b 0  b1x)) 2
Perhitungan ‘Least Squares’

 Formula untuk b1 dan b0 adalah :

b1 
 ( x  x )( y  y )
 (x  x) 2

Atau :

 x y
dan

 xy 
b1  n b0  y  b1 x
 x 2

(  x ) 2

n
Interpretasi dari Kemiringan
dan Potongan

 b0 adalah nilai perkiraan rata-rata dari y


ketika nilai x adalah nol

 b1 adalah perkiraan perubahan nilai


rata-rata dari y sebagai hasil dari satu
unit perubahan nilai x
Menentukan
perhitungan ‘Least Squares’

 Koefisien b0 dan b1 akan ditemukan


pada saat menggunakan software Excel
atau Minitab

 Ukuran regresi lain akan juga dihitung


yang merupakan bagian dari analisa
regresi
Contoh : Regresi Linier Sederhana

 Agen ‘real estate berkeinginan untuk menguji


hubungan antara harga penjualan rumah dengan
ukurannya (diukur dlm ft)

 Sampel rumah dipilih secara acak sebanyak 10


buah
 Variabel Dependen (y) = harga rumah ($1000)

 Variabel Independen (x) = luas (ft)


Sampel data
untuk model harga rumah
Harga Rumah ($1000) Luas (ft)
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Analisa Regresi dengan Excel
 Tools / Data Analysis / Regression
Output Excel
Regression Statistics
Multiple R 0.76211 Persamaan model regresi :
R Square 0.58082
Adjusted R Square 0.52842 houseprice  98.24833  0.10977 (square feet)
Standard Error 41.33032
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Tampilan dalam Grafik

 Model harga rumah : plot ‘scatter‘ dan


garis regresi
450
400
House Price ($1000s)

350 Kemiringan
300
250
= 0.10977
200
150
100
50
potongan 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet

houseprice  98.24833  0.10977 (square feet)


Interpretasi dari potongan, b0

houseprice  98.24833  0.10977 (square feet)

 b0 merupakan nilai perkiraan rata-rata Y ketika


nilai X adalah nol (jika x = 0 adalah dalam
range nilai x yang diamati)
 Disini tidak ada rumah yg mempunyai luas 0 square
feet, sehingga b0 = 98.24833 hanya menunjukan
bahwa untuk rumah didalam range ukuran yang
diamati, $98,248.33 adalah bagian harga rumah yg
tidak dijelaskan dalam square feet
Interpretasi koefisien kemiringan, b1

houseprice  98.24833  0.10977 (square feet)

 b1 mengukur perkiraan perubahan


didalam nilai rata-rata Y sebagai hasil dari
perubahan satu unit X
 Nilai, b1 = .10977 menjelaskan bahwa nilai rata-rata
rumahmeningkat rata-rata sebesar 10977($1000) =
$109.77, untuk penambahan ukuran satu square foot
Karakteristik
‘Least Squares Regression’
 Jumlah ‘residuals’ dari ‘least squares regression line’
adalah 0 (  ( y yˆ )  0 )
 Jumlah ‘squared residuals ‘ adalah minimum (minimized )
 ( y  ˆ
y ) 2

 Garis regresi sederhana selalu melewati nilai mean dari


variabel y variabel dan mean dari variabel x
 Koefisien ‘least squares ‘ adalah perkiraan ‘unbiased’ dari
β0 dan β1
Variasi ‘Explained’ dan ‘Unexplained’

 Total variasi dibuat menjasi 2 bagian:

SST  SSE  SSR


Jumlah Total Jumlah Kuadrat Jumlah Kuadrat
dari Kuadrat Kesalahan Regresi

SST   ( y  y)2 SSE   ( y  ŷ)2 SSR   ( ŷ  y)2


Keterangan :
y = Nilai rata-rata variabel dependen
y = Nilai hasil pengamatan dari variabel dependen
ŷ =Nilai perkiraan y untuk nilai x
Variasi ‘Explained’ dan ‘Unexplained’
(lanjutan)

 SST = jumlah total kuadrat


 Mengukur variasi dari nilai yi sekitar nilai mean y
 SSE = jumlah kuadrat ‘error’
 Variation attributable to factors other than the
relationship between x and y
 SSR = jumlah kuadrat regresi
 Menjelaskan variasi yang mempunyai atribut
terhadap hubungan antara x dan y
Variasi ‘Explained’ dan ‘Unexplained’
(lanjutan)
y
yi 
 2
SSE = (yi - yi ) y
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y

Xi x
Koefisien Determinasi, R2

 Kofisien determinasi iadalah bagiuan dari


variasi total didalam variabel dependen yang
dijelaskan oleh variasi variabel independen

 Koefisien determinasi juga disebut dengan R-


squared dan diberi notasi R2

SSR
R 2 dimana 0 R 1
2

SST
Koefisien Determinasi, R2
(lanjutan)
Koefisien determinasi
SSR jumlah kuadrat yg dijelaskan oleh regresi
R 
2

SST jumlah total kuadrat

Note: Pada variabel tunggal independen, koefisien determinasi :

Dimana : R r2 2

R2 = Koefisien determinasi
r = koefisien korelasi
Contoh nilai R2
y
R2 = 1

Hubungan yang ‘perfect’


antara x dan y:
x
R2 = 1
y 100% dari variasi didalam y
dijelaskan oleh variasi
didalam x

x
R2 = +1
Contoh nilai R2
y
0 < R2 < 1

Hubungan linier yang


lemah antara x dan y
x
Beberapa tetapi tidak
y
semua variasi y dijelaskan
variasi dalam x

x
Contoh nilai R2

R2 = 0
y
Hubungan tidak linier antara x
dan y

Nilai Y tidak tergantung pada


x nilai x. (tidak ada variasi
R2 = 0
didalam y dijelaskan oleh
variasi didalam x)
Output Excel
SSR 18934.9348
Regression Statistics
R 2
  0.58082
Multiple R 0.76211 SST 32600.5000
R Square 0.58082
Adjusted R Square 0.52842 58.08% dari variasi pada
Standard Error 41.33032 harga rumah dijelaskan oleh
Observations 10
variasi dengan feet
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Perkiraan ‘Standard Error’

 Standar deviasi dari variasi pengamatan sekitar


garis regresi diperkirakan dengan

SSE
s 
n  k 1
Dimana :
SSE = jumlah kuadrat terkecil
n = jumlah sampel
k = jumlah variabel independen dalam model
Standar Deviasi
dari kemiringan Regresi
 Standar ‘error ‘ dari koefisien kemiringan
regresi (b1) diestimasi dengan
sε sε
sb1  
 (x  x) 2
( x)
x  n 2
2

Dimana :
sb1 = perkiraan standar ‘error’ dari kemiringan ‘least squares’
SSE = sampel perkiraan standar ‘error’
sε 
n2
Output Excel
Regression Statistics sε  41.33032
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error
Observations
41.33032
10
sb1  0.03297
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
Membandingkan ‘Standard Error’
Variasi nilai hasil pengamatan Variasi kemiringan dari garis regresi
dari garis regresi dari kemungkinan sampel yang
y y berbeda

s kecil x s b1 kecil x

y y

s besar x s b1 besar x
Kesimpulan
mengenai kemiringan : t Test
 t test untuk kemiringan populasi
 apakah ada hubungan linier antara x dan y?
 Null dan hipotesis alternatif
 H0: β1 = 0 (tdk ada hubungan linier)
 H1: β1  0 (terdapat hubungan linier)
 Tes statistik Dimana :

b1  β1
b1 = koefisien kemiringan

t regresi sampel

sb1 β1 = kemiringan yg
dihipotesakan

d.f.  n  2
 sb1 = perkiraan standar ‘error’
kemiringan
Kesimpulan
mengenai kemiringan : t Test
(lanjutan)

Harga rumah Hasil analisa regresi :


Luas (ft)
($1000)
(x)
(y) houseprice  98.25  0.1098 (sq.ft.)
245 1400
312 1600
279 1700
308 1875 Kemiringan model ini adalah
199 1100 0.1098
219 1550
405 2350 Apakah luas rumah
324 2450 mempengaruhi harga rumah?
319 1425
255 1700
Contoh : hasil t-test kemiringan
Tes statistik: t = 3.329
b1 sb1 t
H0: β1 = 0 Output Excel :
HA: β1  0 Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892
Square Feet 0.10977 0.03297 3.32938 0.01039

d.f. = 10-2 = 8
Keputusan:
/2=.025 /2=.025 H0 ditolak
Kesimpulan:
H0 Ditolak H Diterima H Ditolak
Terdapat cukup bukti
-tα/2 0 tα/2 0
0 bahwa luas mempengaruhi
-2.3060 2.3060 3.329
harga rumah
Hasil Analisa Regresi
Interval keyakinan kemiringan :
b1  t /2sb1 d.f. = n - 2

Output : Excel untuk harga rumah:


Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Pada tingkat keyakinan 95%, interval keyakinan untuk


kemiringan sebesar (0.0337, 0.1858)
Hasil Analisa Regresi

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Karena satuan harga rumah adalah $1000, maka


untuk tingkat keyakinan 95%, rata-rata dampak
harga penjualan berkisar antara $33.70 dan
$185.80 per square foot dari luas rumah

Interval keyakinan 95% tidak termasuk 0.


Kesimpulan : Terdapat hubungan yang signifikan antara
harga rumah dan luasnya pada tingkat signifikan 0.05
Interval Keyakinan untuk nilai
rata-rata y, untuk nilai x

Perkiraan interval keyakinan untuk


mean dari y pada xp tertentu
Jumlah interval bervariasi sesuai
dengan jarak menjauhnya dari
mean, x

1 (xp  x)
2

ŷ  t /2sε 
n  (x  x) 2
Interval Keyakinan untuk nilai
rata-rata y, untuk nilai x

Perkiraan interval keyakinan untuk nilai


individu y ditetapkan utk xp tertentu

1 (xp  x)
2

ŷ  t /2sε 1 
n  (x  x) 2

Ini tambahan ketentuan untuk interval lebar utk


merefleksikan tambahan ketidakpastian untuk
kasus individu
Perkiraan Interval untuk nilai
yang berbeda dari x
Predisi Interval utk
nilai individual y,
y diketahui xp

Interval
Keyakinan
utk mean
dari y,
diketahui xp

x
x xp
Contoh: Harga Rumah

Harga rumah Perkiraan model Regresi :


Luas (Ft)
($1000)
(x)
(y)
harga rumah  98.25  0.1098 (luas)
245 1400
312 1600
279 1700
308 1875 Prediksi harga rumah untuk
199 1100 luas 2000 ft2
219 1550
405 2350
324 2450
319 1425
255 1700
Contoh: Harga Rumah
(lanjutan)
Prediksi harga rumah untuk
luas 2000 ft2 :

harga rumah  98.25  0.1098 (luas)


 98.25  0.1098(2000)
 317.85

Prediksi harga rumah untuk luas 2000 ft2


adalah 317.85($1,000s) = $317,850
Ringkasan Materi Kuliah

 Pengantar analisa korelasi


 Diskusi korelasi untuk mengukur kekuatan
hubungan linier
 Pengantar analisa regresi linier sederhana
 Menghitung koefisien untuk analisa regresi
sederhana
 Menjelaskan pengukuran variasi (R2 dan sε)
 Asumsi pada analisa regresi dan korelasi

Anda mungkin juga menyukai