Anda di halaman 1dari 81

INTRODUCTION TO LINEAR

REGRESSION AND
CORRELATION ANALYSIS
TM 14
Intan N. Awwaliyah
Goals
After this, you should be able to:
• Calculate and interpret the simple correlation
between two variables
• Determine whether the correlation is significant
• Calculate and interpret the simple linear
regression equation for a set of data
• Understand the assumptions behind
regression analysis
• Determine whether a regression model is
significant
Goals
(continued)
After this, you should be able to:
• Calculate and interpret confidence intervals for the
regression coefficients
• Recognize regression analysis applications for
purposes of prediction and description
• Recognize some potential problems if regression
analysis is used incorrectly
• Recognize nonlinear relationships between two
variables
CORRELATION ANALYSIS
• suatu peristiwa atau kejadian memiliki
keterkaitan dengan peristiwa lain.

• Dalam ranah metodologi situasi seperti itu dikenal dengan


sebutan Hubungan Sebab Akibat
• Hubungan atau korelasi antara kejadian satu dengan
kejadian yang lainnya dapat dinyatakan dengan
adanya perubahan nilai variabel

Misalnya :
• variabel harga (X) → naik turunnya harga dinyatakan dalam
perubahan nilai X
• variabel hasil penjualan (Y) → naik turunnya hasil penjualan
diperlihatkan dari perubahan pada nilai Y
Langkah
identifikasi variabel
awal

• Variabel X (pengaruh) dan


Variabel Y (terpengaruh)

• Hubungan yang hendak diuji juga harus


didasarkan pada landasan teoritik dan logika
yang kuat
• Variabel bebas/ independent variabel/
Variabel X explanatory variable/ variabel peramal (
predictor)/ yang meregresi (regressor) dan
variabel kendali (stimulus or control variable)
• Intinya variabel bebas adalah variabel yang nilai-
nilainya tidak tergantung pada variabel yang
lainnya
• disimbolkan dengan X

• Variabel terikat / dependent variable; variabel


yang dijelaskan (explained variable); variabel
yang diramalkan (predictand); variabel yang
diregresi (regressand); variabel tanggapan
(response)
Variabel Y
• disimbolkan dengan Y
• Variabel terikat intinya adalah variabel yang
dipengaruhi; variabel yang ada karena variabel lain
KORELASI

KORELASI
pengertian dan bentuk
istilah yang digunakan untuk mengukur kekuatan hubungan
antar variabel

merupakan cara untuk mengetahui ada tidaknya


hubungan antar 2 variabel
(a) korelasi positif;
(b) korelasi negatif;
Bentuk Korelasi : (c) tidak ada korelasi;
(d) korelasi sempurna
Korelasi/hubungan jika Korelasi/hubungan jika
kenaikan variabel X diikuti pula kenaikan variabel X diikuti
dengan kenaikan variabel Y dengan penurunan pada
dan sebaliknya penurunan
variabel X diikuti dengan variabel Y atau penurunan
penurunan variabel Y variabel X diikuti dengan
kenaikan variabel Y

Korelasi Positif Korelasi Negatif

Korelasi Sempurna Tidak Ada Korelasi


jenis korelasi di mana Jika kedua variabel tidak
kenaikan ataiu penurunan memperlihatkan adanya
variabel X berbanding hubungan. Ketika X naik Y
dengan kenaikan atau naik tapi pada saat
bersamaan Y juga bisa
penurunan variabel Y turun
Scatter Plot (Diagram Pencar)
• alat berupa diagram yang digunakan untuk menunjukkan
ada tidaknya hubungan antara variabel X dan variabel Y
melalui penggambaran nilai dari variabel-variabel tersebut
• menggunakan sistem koordinat cartesius. Pada sumbu
X diletakkan nilai variabel bebas dan pada sumbu Y
diletakkan nilai variabel terikat.

• Tujuan diagram pencar:


untuk mengetahui apakah titik-titik koordinat diagram
membentuk pola tertentu
Scatter Plot (cont’d)
• Selanjutnya dalam diagram ditarik suatu garis yang
dapat membagi dua titik koordinat pada kedua
sisinya. Garis yang ditarik diupayakan sesuai
menggambarkan kecenderungan data yang
tersebar (garis best fit)

• Dari garis tersebut dapat diketahui korelasi antara 2


variabel sekaligus arah atau bentuk hubungan

• Jika garis naik → jenis hubungan positif


Jika garis turun → jenis hubungan negatif.
Jika terjadi beberapa garis → tidak ada korelasi
Jika titik2 tepat melalui garis → korelasi sempurna.
Scatter Plot Examples
Linear relationships Curvilinear relationships

y y

x x

y y

x x
Scatter Plot Examples
(continued)
Strong relationships Weak relationships

y y

x x

y y

x x
Scatter Plot Examples
(continued)
No relationship

x
Correlation Coefficient
• The population correlation coefficient ρ (rho)
measures the strength of the association between
the variables

• The sample correlation coefficient r is an estimate


of ρ and is used to measure the strength of the
linear relationship in the sample observations
Koefisien Korelasi (KK atau r)

• indeks atau bilangan yang digunakan untuk mengukur keeratan ( kuat,


sedang, lemah, tidak ada hubungan) antar variabel
• memiliki nilai antara: - 1 sampai dengan + 1 ( -1 ≤ r ≤ + 1)

1. KK bernilai + maka hubungan variabel arahnya positif


2. KK bernilai - maka hubungan variabel arahnya negatif
3. KK bernilai 0 maka antar variabel tidak ada hubungan
4. KK bernilai +1 atau – 1 maka variabelnya menunjukkan
korelasi sempurna positif /negatif
HUBUNGAN KUAT DAN LEMAHNYA
SUATU KORELASI

korelasi korelasi tidak ada korelasi korelasi


negatif negatif korelasi positif positif
sempurna sedang sedang kuat

korelasi negatif korelasi negatif korelasi positif korelasi positif


kuat lemah lemah kuat

- - 0,0 0,5 1,0


1,0 0,5
korelasi korelasi
negatif positif
Contoh Scatter Plot nilai r

y y y

x x x
r = -1 r = -.6 r=0
y y

x x
r = +.3 r = +1
Korelasi Product Moment (Pearson’s
Correlation)
Karl
• Korelasi product moment yang dikembangkan oleh
Pearson populer juga dengan sebutan Korelasi
Pearson

• Korelasi pearson merupakan indeks atau angka yang


digunakan untuk mengukur keeratan hubungan antara 2
variabel

• Fungsi :
1. Untuk mengetahui hubungan antara 2 variabel
2. Untuk mengetahui arah atau bentuk hubungan
3. Untuk mengetahui keeratan hubungan
4. Dasar untuk melakukan prediksi
Type of Bivariate Correlation
Pearson Spearman dan Kendall

• Mengukur keeratan • Mengukur keeratan


hubungan di antara hasil2 hubungan antara
pengamatan dari populasi peringkat2 dibandingkan
yang memiliki 2 variate. hasil pengamatan itu
• Syarat: bivariate dan sendiri.
sampel berdistibrusi
normal • Data ordinal
• Data berskala interval • Statistik non-parametric
atau rasio ct: hungan antara
• Contoh: hub atr tilang dan motivasi dan IQ pekerja
jumlah mobil
Menghitung Korelasi Pearson
Rumus r untuk sampel:

r=
 ( x − x)( y − y)
[ ( x − x ) ][  ( y − y ) ]
2 2

Atau bisa juga dihitung sbb


n xy −  x y
r=
[n( x 2 ) − ( x )2 ][n( y 2 ) − ( y )2 ]
where:
r = Sample correlation coefficient
n = Sample size
x = Value of the independent variable
y = Value of the dependent variable
Calculation Example
Tree Trunk
Height Diamete
r
y x xy y2 x2
35 8 280 1225 64
49 9 441 2401 81
27 7 189 729 49
33 6 198 1089 36
60 13 780 3600 169
21 7 147 441 49
45 11 495 2025 121
51 12 612 2601 144
=321 =73 =3142 =14111 =713
Calculation Example (continued)

Tree n xy −  x  y
Height, r=
y 70 [n(  x 2 ) − (  x) 2 ][n(  y 2 ) − (  y) 2 ]
60

8(3142) − (73)(321)
50 =
40
[8(713) − (73)2 ][8(14111) − (321)2 ]

= 0.886
30

20

10

0
r = 0.886 → relatively strong positive
0 2 4 6 8 10 12 14
linear association between x and y
Trunk Diameter, x
Excel Output
Excel Correlation Output
Tools / data analysis / correlation…

Tree Height Trunk Diameter


Tree Height 1
Trunk Diameter 0.886231 1

Correlation between
Tree Height and Trunk Diameter
Significance Test for Correlation
• Hypotheses

H0: ρ = 0 (no correlation)


H A: ρ ≠ 0 (correlation exists)
• Test statistic

r

t= (with n – 2 degrees of freedom)

1− r 2

n−2
Example: Produce Stores
Is there evidence of a linear relationship
between tree height and trunk diameter at
the .05 level of significance?

H0: ρ = 0 (No correlation)


H1: ρ ≠ 0 (correlation exists)
 =.05 , df = 8 - 2 = 6
r .886
t= = = 4.68
1− r 2 1 − .8862
n−2 8−2
Example: Test Solution

r .886 Decision:
t= = = 4.68
1− r 2 1 − .8862 Reject H0

n−2 8−2 Conclusion:


There is
d.f. = 8-2 = 6
evidence of a
linear relationship
/2=.025 /2=.025
at the 5% level of
significance
Reject H0 Do not reject H0 Reject H0
-tα/2 tα/2
0
-2.4469 2.4469
4.68
Contoh Kesimpulan
• Kesimpulan
1. Ada hubungan antara tinggi pohon dan diameter pohon
pada alpha 5 persen.
2. Arah hubungan positif, artinya semakin tinggi pohon
maka semakin lebar diameter pohon dan sebaliknya.
3. Kekuatan hubungannya tergolong kuat dengan
koefisien korelasi sebesar 0,886
4. Prediksi : semakin tinggi pohon “X” maka semakin lebar
diameter pohon dan sebaliknya (*).
Koefisien Determinasi

• Dihitung dengan mengkuadratkan koefisien


korelasi (r2).
• Menyatakan besarnya kontribusi variabel X
terhadap perubahan variabel Y.
SPSS Procedure
• Buka data korelasi.sav
• Menu Analyze → Correlate → Bivariate
• Variable → masukkan semua
• Correlation → Pearson
• Test of Significance → Two Tailed
• Flag Significance Correlation → 5% dengan tanda * dan **
untuk 10%
• Options
• Statistics → abaikan
• Missing Values → default exclude cases pairwise
• Jika dipilih exclude cases listwiseartinya ada data yang dibuang untuk
yang missing
• CONTINUE
• OK
SIMPLE LINEAR
REGRESSION
Introduction to Regression Analysis
• Regression analysis digunakan untuk:
• Predict the value of a dependent variable based on the
value of at least one independent variable
• Explain the impact of changes in an independent variable
on the dependent variable
Dependent variable: the variable we wish to explain
Independent variable: the variable used to explain the
dependent variable
Simple Linear Regression Model
REGRESI LINIER SEDERHANA
• Hanya ada satu independent variable, x

• Hubungan antara x and y dijelaskan lewat


fungsi linear
• Perubahan pada variable y diasumsikan
bersumber dari perubahan pada variabel x
Types of Regression Models
Positive Linear Relationship Relationship NOT Linear

Negative Linear Relationship No Relationship


Population Linear Regression
The population regression model:
Population Random
Population Independent Error
Slope
y intercept Variable term, or
Coefficient
Dependent residual

y = β0 + β1x + ε
Variable

Linear component Random Error


component
Asumsi
• Error values (ε) adalah bersifat independen secara
statistik
• Error values berdistibusi normal untuk nilai x yang ada
• Distribusi probailitas dari error adalah normal
• Distribusi probailitas dari error memiliki constant
variance
• Hubungan mendasar antara x dan y adalah linear
Population Linear Regression
(continued)

y y = β0 + β1x + ε
Observed Value
of y for xi

εi Slope = β1
Predicted Value Random Error
of y for xi
for this x value

Intercept = β0

xi x
Estimated Regression Model
Garis regresi linier dari sampel menyediakan
estimasi dari garis regresi linier untuk populasi

Estimated Estimate of Estimate of the


(or predicted) the regression regression slope
y value intercept

Independent

ŷi = b0 + b1x variable

The individual random error terms ei have a mean of zero


Least Squares Criterion
(Kriteria Metode Kuadarat Terkecil)
• b0 dan b1 dicari dengan cara menghitung nilai b0
and b1 sedemikian rupa sehingga sum of the
squared residuals (Jumlah kuadrat dari residual)
menjadi minimum

RUMUS

e 2
=  (y −ŷ) 2

=  (y − (b 0 + b1x)) 2
The Least Squares Equation
(Formula Kuadrat Terkecil)
• Rumus menghitung manual b1 and b0 sbb

b1 =
 ( x − x )( y − y )
 (x − x) 2

Atau :
 xy −  x y
n and b0 = y − b1 x
b1 =
 x 2

(  x ) 2

n
Interpretasi nilai Slope dan Intercept
ŷi = b0 + b1x
• b0 adalah estimasi rata2 nilai y
ketika nilai x sama dengan 0

• b1 estimasi perubahan nilai rata-rata


y sebagai akibat perubahan satu
unit x
Contoh Kasus
• A real estate agent wishes to examine the relationship
between the selling price of a home and its size
(measured in square feet)

• A random sample of 10 houses is selected

• Dependent variable (y) = house price in


$1000s

• Independent variable (x) = square feet


Sample Data for House Price Model
House Price in $1000s Square Feet
(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Regression Using Excel
• Tools →Data Analysis → Regression
Excel Output
Regression Statistics Pers Regresinya adalah
Multiple R 0.76211
houseprice = 98.24833 + 0.10977 (square feet)
R Square 0.58082
Adjusted R
Square 0.52842
Standard Error 41.33032
Observations 10

ANOVA Significance
df SS MS F F
18934.934 11.084
Regression 1 18934.9348 8 8 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficien P- Upper
ts Standard Error t Stat value Lower 95% 95%
0.1289 232.0738
Intercept 98.24833 58.03348 1.69296 2 -35.57720 6
0.0103
Square Feet 0.10977 0.03297 3.32938 9 0.03374 0.18580
Gambar Grafis
• House price model: scatter plot and regression line

450
400
House Price ($1000s)

350 Slope
300
250
= 0.10977
200
150
100
50
Intercept 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet

houseprice = 98.24833 + 0.10977 (square feet)


Interpretasi nilai Intercept, b0

houseprice = 98.24833 + 0.10977 (square feet)

• b0 is the estimated average value of Y when the value of


X is zero (if x = 0 is in the range of observed x values)
• Here, no houses had 0 square feet, so b0 = 98.24833 just
indicates that, for houses within the range of sizes observed,
$98,248.33 is the portion of the house price not explained by
square feet
Interpretasi nilai Slope Coefficient, b1

houseprice = 98.24833 + 0.10977 (square feet)

• b1 measures the estimated change in


the average value of Y as a result of a
one-unit change in X
• Here, b1 = .10977 tells us that the average value of a house
increases by .10977($1000) = $109.77, on average, for each
additional one square foot of size
Properti dari Metode Kuadrat
Terkecil
• Total jumlah residual yuang dihasilkan dari
garis regresi linier = 0(  ( y −yˆ ) = 0 )
• Jumlah kuadrat residual bisa dihitung dari nilai
minimum  ( y − ˆ
y ) 2

• Garis simple regression selalu melewati rata-


rata nilai variable y dan rata-rata nilai variable x
• Koefisien leats square adalah estimasi yang
tidak bias dari nilai β0 and β1
Explained and Unexplained Variation
(Variasi yg dijelaskan dan tdk dijelaskan)
• Total variasi dari Metode Least Square terdiri dari 2
yaitu:

SST = SSE + SSR


Total sum Sum of Sum of
of Squares Squares Error Squares
Regression
SST =  ( y − y)2 SSE =  ( y − ŷ)2 SSR =  ( ŷ − y)2
where:
y = Average value of the dependent variable
y = Observed values of the dependent variable
ŷ = Estimated value of y for the given x value
Explained and Unexplained Variation
(continued)

• SST = total sum of squares


• Measures the variation of the yi values around their mean y

• SSE = error sum of squares


• Variation attributable to factors other than the relationship
between x and y

• SSR = regression sum of squares


• Explained variation attributable to the relationship between x
and y
Explained and Unexplained Variation
(continued)
y
yi 
 2
SSE = (yi - yi ) y
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y

Xi x
Coefficient of Determination, R2
• The coefficient of determination adalah porsi dari total
variasi dalam dependent variable yg dapat dijelaskan
oleh variasi pada independent variable

• Disebut juga R-squared (R2), dengan rumus:

SSR
R =2 dimana 0 R 1 2

SST
Coefficient of Determination, R2
(continued)
Coefficient of determination

SSR sum of squaresexplained by regression


R =
2
=
SST total sum of squares

Note: Dalam kasus dimana hanya ada 1 variable independent


(X) maka R2 sama dengan koefisien korelasi r2

where:
R =r2 2

R2 = Coefficient of determination
r = Simple correlation coefficient
Contoh Nilai R2
y
R2 = 1

Perfect linear relationship


between x and y:
x
R2 = 1
y 100% of the variation in y is
explained by variation in x

x
R2 = +1
Contoh Nilai R2
y
0 < R2 < 1

Weaker linear relationship


between x and y:
x
Some but not all of the
y
variation in y is explained
by variation in x

x
Contoh Nilai R2

R2 = 0
y
No linear relationship
between x and y:

The value of Y does not


x depend on x. (None of the
R2 = 0
variation in y is explained
by variation in x)
Excel Output
Regression Statistics SSR 18934.9348
Multiple R 0.76211
R2 = = = 0.58082
SST 32600.5000
R Square 0.58082
Adjusted R 58.08% of the variation in
Square 0.52842
house prices is explained by
Standard Error 41.33032
variation in square feet
Observations 10

ANOVA Significance
df SS MS F F
18934.934 11.084
Regression 1 18934.9348 8 8 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficien P- Upper
ts Standard Error t Stat value Lower 95% 95%
0.1289 232.0738
Intercept 98.24833 58.03348 1.69296 2 -35.57720 6
0.0103
Square Feet 0.10977 0.03297 3.32938 9 0.03374 0.18580
Standard Error of Estimate
• Standard deviation variasi observasi seputar garis
regresi dapat diestimasi dengan cara:

SSE
s =
n − k −1
Where
SSE = Sum of squares error
n = Sample size
k = number of independent variables in the model
Standard Deviasi dari Slope Regresi

• standard error of the regression slope coefficient (b1)


dapat diestimasi dg cara:

sε sε
sb1 = =
 (x − x) 2
( x)
x − n 2
2

where:
sb1 = Estimate of the standard error of the least squares slope
SSE = Sample standard error of the estimate
sε =
n−2
Excel Output
Regression Statistics sε = 41.33032
Multiple R 0.76211
R Square 0.58082

sb1 = 0.03297
Adjusted R
Square 0.52842
Standard Error 41.33032
Observations 10

ANOVA Significance
df SS MS F F
18934.934 11.084
Regression 1 18934.9348 8 8 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficien P- Upper
ts Standard Error t Stat value Lower 95% 95%
0.1289 232.0738
Intercept 98.24833 58.03348 1.69296 2 -35.57720 6
0.0103
Square Feet 0.10977 0.03297 3.32938 9 0.03374 0.18580
Membandingkan plotting Standard Errors
Variation of observed y values Variation in the slope of regression
from the regression line lines from different possible samples
y y

smalls x smallsb1 x

y y

large s x large sb1 x


Statistik Inferensial untuk Slope:
t-Test
• t test for a population slope
• Apakah ada hubungan linear antara x dan y?
• Hipotesis
• H0: β1 = 0 (no linear relationship)
• H1: β1  0 (linear relationship does exist)
• Test statistic

b1 − β1

t= where:
sb1 b1 = Sample regression slope
coefficient

d.f. = n − 2 β1 = Hypothesized slope
sb1 = Estimator of the standard
error of the slope
Inferences about the Slope:
t Test Example
Test Statistic: t = 3.329 sb1
b1 t
H0: β1 = 0 From Excel output:
Coefficient Standard P-
HA: β1  0 s Error t Stat value
1.6929 0.1289
Intercept 98.24833 58.03348 6 2
d.f. = 10-2 = 8
Square 3.3293 0.0103
Feet 0.10977 0.03297 8 9
/2=.025 /2=.025 Decision: Reject H0
Conclusion:
Reject H0 Do not reject H0
-tα/2 tα/2
Reject H
0 There is sufficient evidence that
0 square footage affects house
-2.3060 2.3060 3.329
price
Analisis Regresi untuk Deskripsi
Confidence Interval Estimate of the Slope:
b1  t /2sb1 d.f. = n - 2

Excel Printout for House Prices:


Coefficient Standard Upper
s Error t Stat P-value Lower 95% 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

At 95% level of confidence, the confidence interval for


the slope is (0.0337, 0.1858)
Analisis Regresi untuk Deskripsi
(cont’d)
Coefficient Standard Upper
s Error t Stat P-value Lower 95% 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Since the units of the house price variable is


$1000s, we are 95% confident that the average
impact on sales price is between $33.70 and
$185.80 per square foot of house size

This 95% confidence interval does not include 0.


Conclusion: There is a significant relationship between
house price and square feet at the .05 level of significance
Interval Keyakinan untuk rata2 y,
dengan x tertentu
Confidence interval estimate for the
mean of y given a particular xp

Size of interval varies according


to distance away from mean, x

1 (xp − x)
2

ŷ  t /2sε +
n  (x − x) 2
Interval Keyakinan untuk rata2 y, dengan
x tertentu (contd)
Confidence interval estimate for an
Individual value of y given a particular xp

1 (xp − x)
2

ŷ  t /2sε 1+ +
n  (x − x) 2

This extra term adds to the interval width to reflect


the added uncertainty for an individual case
Interval Estimates
for Different Values of x
Prediction Interval
for an individual y,
y given xp

Confidence
Interval for
the mean of
y, given xp

x
x xp
Contoh: House Prices
House Price Estimated Regression Equation:
Square Feet
in $1000s
(x)
(y) houseprice = 98.25 + 0.1098 (sq.ft.)
245 1400
312 1600
279 1700 Prediksikan harga rumah
308 1875
dengan luas 2000 square
199 1100
219 1550
feet
405 2350
324 2450
319 1425
255 1700
Example: House Prices
(continued)
Prediksikan harga rumah
dengan luas 2000 square
feet
house price = 98.25 + 0.1098 (sq.ft.)

= 98.25 + 0.1098(2000)

= 317.85
Prediksi harga rumah dengan luas 2000
square feet adalah 317.85($1,000s) =
$317,850
Estimasi Nilai Rata-rata
Interval Leyakinan untuk E(y)|xp
Contoh: Dengan 95% confidence interval tentukan
harga rata-rata rumah dengan luas 2,000 square-foot

Harga Prediksi Yi = 317.85 ($1,000s)

1 (xp − x)2
ŷ  t α/2sε + = 317.85  37.12
n  (x − x) 2

Rentang keyakinan untuk kasus ini adalah 280.66 --


354.90, atau dari $280,660 -- $354,900
Estimasi Nilai Individu y
Prediction Interval Estimate untuk y|xp
Contoh: Dengan 95% confidence interval tentukan
prediksi harga sebuah rumah dg luas 2,000 square
 feet
Harga Prediksi Yi = 317.85 ($1,000s)

1 (xp − x)2
ŷ  t α/2sε 1+ + = 317.85  102.28
n  (x − x) 2

Range harga sebuah rumah pada contoh adalah


215.50 -- 420.07, atau $215,500 -- $420,070
Residual Analysis
(Analisis Residual)
• Purposes
• Examine for linearity assumption
• Examine for constant variance for all
levels of x
• Evaluate normal distribution assumption
• Graphical Analysis of Residuals
• Can plot residuals vs. x
• Can create histogram of residuals to
check for normality
Residual Analysis for Linearity

y y

x x
residuals

x residuals x

Not Linear
✓ Linear
Residual Analysis for
Constant Variance

y y

x x
residuals

x residuals x

Non-constant variance ✓Constant variance


Excel Output

RESIDUAL OUTPUT
Predicted House Price Model Residual Plot
House
Price Residuals 80

1 251.92316 -6.923162 60

2 273.87671 38.12329 Residuals 40

3 284.85348 -5.853484 20

4 304.06284 3.937162 0
0 1000 2000 3000
5 218.99284 -19.99284 -20
6 268.38832 -49.38832 -40
7 356.20251 48.79749 -60
8 367.17929 -43.17929 Square Feet

9 254.6674 64.33264
10 284.85348 -29.85348
SPSS Procedure
• Buka data regresi.sav
• Menu Analyze → Regression → Linear
• Dependent → variable terikat : Sales
• Independent → Promosi
• Case Labels → Daerah
• Method → ENTER
• Options
• Stepping Method Criteria→ Uji F
• Lainnya default
• CONTINUE
• Statistics
• Regression Coefficients : Estimate dan Model Fit , Descriptive
• Residuals → Casewise Diagnostics → all cases : untuk melihat
pengaruh regresi thdp semua daerah
• Continue
SPSS Procedure
• Plots (bisa untuk mendeteksi Outlier)
• SDRESID → Y; ZPRED → X
• Next
• ZPRED → Y; DEPENDT --X
• Next
• Note dua plot di ats untuk uji linieritas dan kesamaan varians
(homokedastisitas)
• Standarized Residual Plots dan Normal Probability Plot (untuk
menguji normalitas)
• Continue
• OK
Kesimpulan
• Introduced correlation analysis
• Discussed correlation to measure the strength of a
linear association
• Introduced simple linear regression analysis
• Calculated the coefficients for the simple linear
regression equation
• measures of variation (R2 and sε)
• Addressed assumptions of regression and correlation
Summary
(continued)

• Described inference about the slope


• Addressed estimation of mean values and prediction
of individual values
• Discussed residual analysis

Anda mungkin juga menyukai