Anda di halaman 1dari 41

Regresi Linear Sederhana

Tujuan pembelajaran: memvisualisasikan hubungan linear antara dua variabel,


menduga garis regresi, melakukan inferensi bagi parameter regresi, menentukan
koefisien korelasi, melakukan diagnostik regresi.

1
Thuesen
Ventricular Shortening Velocity
The thuesen data frame has 24 rows and 2 columns. It contains ventricular shortening
velocity and blood glucose for type 1 diabetic patients.

This data frame contains the following columns:


blood.glucose
a numeric vector, fasting blood glucose (mmol/l).
short.velocity
a numeric vector, mean circumferential shortening velocity (%/s).
Source: D.G. Altman (1991), Practical Statistics for Medical Research, Table 11.6,
Chapman & Hall.

2
> thuesen <- read.csv(file="C:/data/thuesen.csv",head=TRUE)
> thuesen
i blood.glucose short.velocity
1 1 15.3 1.76
2 2 10.8 1.34
3 3 8.1 1.27
4 4 19.5 1.47
5 5 7.2 1.27 > #mengidentifikasi kelengkapan baris dari
6 6 5.3 1.49 suatu data frame
7 7 9.3 1.31 > complete.cases(thuesen)
8 8 11.1 1.09
9 9 7.5 1.18
[1] TRUE TRUE TRUE TRUE TRUE TRUE
10 10 12.2 1.22 TRUE TRUE TRUE TRUE TRUE
11 11 6.7 1.25 [12] TRUE TRUE TRUE TRUE FALSE TRUE
12 12 5.2 1.19 TRUE TRUE TRUE TRUE TRUE
13 13 19.0 1.95
14 14 15.1 1.28 [23] TRUE TRUE
15 15 6.7 1.52
16 16 8.6 NA
17 17 4.2 1.12
18 18 10.3 1.37
19 19 12.5 1.19
20 20 16.1 1.05
21 21 13.3 1.32
22 22 4.9 1.03
23 23 8.8 1.12
24 24 9.5 1.70
3
> thuesen.complete <- thuesen[complete.cases(thuesen), ]
> thuesen.complete
i blood.glucose short.velocity
1 1 15.3 1.76
2 2 10.8 1.34 Pengamatan ke-16 dibuang dari data frame
3 3 8.1 1.27
4 4 19.5 1.47
5 5 7.2 1.27
6 6 5.3 1.49
7 7 9.3 1.31
8 8 11.1 1.09
9 9 7.5 1.18
10 10 12.2 1.22
11 11 6.7 1.25
12 12 5.2 1.19
13 13 19.0 1.95
14 14 15.1 1.28
15 15 6.7 1.52
17 17 4.2 1.12
18 18 10.3 1.37
19 19 12.5 1.19
20 20 16.1 1.05
21 21 13.3 1.32
22 22 4.9 1.03
23 23 8.8 1.12
24 24 9.5 1.70

4
Apakah ada hubungan linear antara gula darah dan kecepatan
pemendekan ventrikel?
> attach(thuesen.complete)
> plot(blood.glucose, short.velocity)

5
Regresi Linear Sederhana
▪ Hubungan deterministik antara dua variabel 𝑋 dan 𝑌 adalah nilai 𝑌 ditentukan oleh
nilai 𝑋. Secara umum, 𝑦 = 𝑓(𝑥) adalah hubungan deterministik antara 𝑋 (variabel
independen) dan 𝑌 (variabel dependen).
▪ Hubungan deterministik paling sederhana antara 𝑋 dan 𝑌 adalah hubungan linear:
𝑌 = 𝛽0 + 𝛽1 𝑋 dengan 𝛽0 dan 𝛽1 adalah konstanta. Sekumpulan pasangan terurut
(𝑋, 𝑌) sedemikian hingga 𝑌 = 𝛽0 + 𝛽1 𝑋 membentuk suatu garis lurus dengan slope 𝛽1
dan intersep 𝛽0 pada 𝑌.
▪ Perluasan suatu hubungan deterministik adalah model probabilistik. Bagi suatu nilai
tetap 𝑋, nilai variabel 𝑌 adalah terdistribusi secara acak.
▪ Model probabilistik aditif secara umum terdiri dari bagian deterministik dan bagian
acak. Nilai 𝑌 berbeda dari 𝑓(𝑥) oleh sejumlah acak.
𝑌 = (fungsi deterministik 𝑥) + (simpangan acak)
= 𝑓 𝑥 +𝜀
dengan 𝜀 adalah suatu peubah acak dan disebut sebagai kesalahan acak (random error).

6
Model Regresi Linear Sederhana

Misal 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥(𝑛 , 𝑦𝑛 ) adalah 𝑛 pasangan pengamatan sedemikian sehingga


𝑦𝑖 adalah nilai pengamatan dari peubah acak 𝑌𝑖 . Lalu diasumsikan bahwa ada konstanta
𝛽0 dan 𝛽1 sehingga
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
dengan 𝜀1 , 𝜀2 , … , 𝜀𝑛 adalah independen, peubah-peubah acak normal dengan rata-rata 0
dan variansi 𝜎 2 . Secara umum:
1. 𝜀𝑖 berdistribusi normal (yang berimplikasi bahwa 𝑌𝑖 berdistribusi normal).
2. Nilai harapan bagi 𝜀𝑖 adalah 0 (yang berimplikasi bahwa 𝐸 𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 ).
3. 𝑉𝑎𝑟 𝜀𝑖 = 𝜎 2 (yang berimplikasi bahwa 𝑉𝑎𝑟 𝑌𝑖 = 𝜎 2 ).
4. 𝜀𝑖 adalah independen (yang berimplikasi bahwa 𝑌𝑖 adalah independen).

𝜀𝑖 ~𝑖𝑛𝑑 𝑁(0, 𝜎 2 )

7
Notasi

▪ Misal masing-masing peubah acak 𝑌𝑖 = 𝑌|𝑥𝑖 . (𝑌 given 𝑥𝑖 )


𝜇𝑌|𝑥𝑖 = 𝐸 𝑌 𝑥𝑖 adalah nilai harapan 𝑌 bagi suatu nilai tetap 𝑥𝑖
2
𝜎𝑌|𝑥𝑖
adalah variansi 𝑌 bagi suatu nilai tetap 𝑥𝑖
▪ Asumsi-asumsi model regresi linear sederhana berimplikasi bahwa
𝜇𝑌|𝑥𝑖 = 𝐸 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝐸 𝜀𝑖 = 𝛽0 + 𝛽1 𝑥𝑖
2 2
𝜎𝑌|𝑥𝑖
= 𝑉𝑎𝑟 𝛽0 + 𝛽 𝑥
1 𝑖 + 𝜀𝑖 = 𝑉𝑎𝑟 𝜀𝑖 = 𝜎
𝑌|𝑥𝑖 adalah normal
▪ Sehingga, rata-rata nilai 𝑌 adalah suatu fungsi linear 𝑥. Garis regresi melewati garis
nilai rata-rata. Keragaman dalam distribusi 𝑌 adalah sama untuk setiap nilai 𝑥
(disebut homogenitas variansi)

8
Gambar 1. Garis regresi menghubungkan nilai rata-rata 𝛽0 + 𝛽1 𝑥𝑖

Masing-masing 𝑌𝑖 memiliki suatu distribusi normal, berpusat pada 𝛽0 + 𝛽1 𝑥𝑖 .


Semua distribusi memiliki lebar yang sama atau variansi yang sama.

9
Estimasi garis regresi

▪ Garis regresi dugaan diperoleh menggunakan


prinsip kuadrat terkecil (least squares), yaitu
meminimumkan jumlah kuadrat deviasi atau
jarak vertikal dari titik pengamatan ke garis.
▪ Sehingga diperoleh
𝑛 σ 𝑥𝑖 𝑦𝑖 − σ 𝑥𝑖 σ 𝑦𝑖
𝛽መ1 = σ 2
𝑛 𝑥𝑖 − σ 𝑥𝑖 2

σ 𝑦 −𝛽 σ 𝑥
𝛽መ0 = 𝑖 1 𝑖 = 𝑦ത − 𝛽መ1 𝑥ҧ
𝑛
▪ Garis regresi dugaan adalah
Gambar 2. Ilustrasi prinsip kuadrat terkecil
𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥

10
Data Thuesen
> sum.x <- sum(blood.glucose)
> # menggunakan fungsi lm di R
> sum.x > lm(short.velocity~blood.glucose)
[1] 238.6 Call:
lm(formula = short.velocity ~ blood.glucose)
> sum.x2 <- sum(blood.glucose^2)
> sum.x2 Coefficients:
[1] 2904.92
(Intercept) blood.glucose
> sum.y <- sum(short.velocity) 1.09781 0.02196
> sum.y
[1] 30.49

> sum.xy <- sum(blood.glucose*short.velocity)


> sum.xy
[1] 325.738

> n <- nrow(thuesen.complete) #n=23


> n
[1] 23

> beta1.hat <- (n*sum.xy-sum.x*sum.y)/(n*sum.x2-(sum.x)^2)


> beta1.hat
[1] 0.02196252

> beta0.hat <- (sum.y-beta1.hat*sum.x)/n


> beta0.hat
[1] 1.097815
11
Persamaan regresi dugaan

▪ Dari data Thuesen diperoleh persamaan regresi dugaan (garis regresi dugaan):
𝑦ො = 1.09781+0.02196x

▪ Makna 𝛽መ1 = 0.02196, jika gula darah meningkat sebesar 1 mmol/l maka rata-rata
kecepatan pemendekan ventrikel meningkat sebesar 0.02196 %/s.
▪ Makna 𝛽መ0 = 1.09781, jika gula darah sebesar 0 mmol/l maka rata-rata kecepatan
pemendekan ventrikel sebesar 1.09781 %/s.

Catatan: 𝛽መ0 mungkin saja tidak bermakna.

12
Prediksi

▪ Jika gula darah puasa sebesar 10.2 mmol/l, maka nilai dugaan bagi kecepatan
pemendekan ventrikel adalah 1.321802%/s.
𝑦ො = 1.09781+0.02196(10.2)=1.321802

> plot(blood.glucose,short.velocity)
> abline(lm(short.velocity~blood.glucose))

13
Variansi

▪ Variansi 𝜎 2 adalah suatu ukuran yang mendasari keragaman dalam model regresi
linear sederhana.
▪ 𝜎 2 besar berarti data akan sangat bervariasi dari garis regresi.
▪ 𝜎 2 kecil berarti data akan dekat dengan garis regresi.
▪ Suatu penduga bagi 𝜎 2 digunakan untuk melakukan pengujian hipotesis dan
membentuk interval kepercayaan pada regresi linear sederhana.
▪ Suatu metode untuk memeriksa keakuratan model regresi linear sederhana adalah
dengan analisis variansi.

14
Jumlah Kuadrat (Sum of Squares)

Keragaman total dalam data disebut jumlah kuadrat


total (total sum of squares, SST) dekomposisikan
dalam suatu jumlah keragaman yang dijelaskan oleh
model (sum of squares due to regression, SSR) dan
keragaman tentang garis regresi (sum of squares due
to error, SSE).

15
Tabel ANOVA bagi regresi linear sederhana

Sumber Jumlah Derajat Kuadrat Tengah F p-value


Variasi Kuadrat bebas
Regresi JKR 1 𝐽𝐾𝑅 𝐾𝑇𝑅 𝑝
𝐾𝑇𝑅 =
1 𝐾𝑇𝐺
Galat JKG 𝑛−2 𝐽𝐾𝐺
𝐾𝑇𝐺 =
𝑛−2
Total JKT 𝑛−1
16
Koefisien Determinasi, 𝑅2

▪ Koefisien determinasi (𝑅2 ) adalah suatu ukuran proporsi keragaman dalam data yang
dapat dijelaskan oleh model regresi dan didefinisikan sebagai
𝑅2 = 𝑆𝑆𝑅/𝑆𝑆𝑇
▪ Oleh karena 0 ≤ 𝑆𝑆𝑅 ≤ 𝑆𝑆𝑇, koefisien determinasi selalu bernilai antara 0 dan 1.
▪ Semakin tinggi 𝑅2 maka model semakin baik.
▪ Berbagai program statistik melaporkan 100𝑅2 yang menyatakan persentase
keragaman yang dapat dijelaskan oleh model regresi.

17
Sum of squares

> Sxx <- sum((blood.glucose-mean(blood.glucose))^2)


> Sxx
[1] 429.7043

> Syy <- sum((short.velocity-mean(short.velocity))^2)


> Syy
[1] 1.193365

> Sxy <- sum((blood.glucose-mean(blood.glucose))*(short.velocity-mean(short.velocity)))


> Sxy
[1] 9.437391

18
> SST <- Syy > F <- MSR/MSE
> SST > F
[1] 1.193365 [1] 4.414018

> SSR <- beta1.hat*(Sxy) > p.value <- 1-pf(F,df1=1,df2=n-2)


> SSR > p.value
[1] 0.2072689 [1] 0.04789591

> SSE <- SST-SSR > R2 <- SSR/SST


> SSE > R2
[1] 0.9860963 [1] 0.1736844

> MSR <- SSR/1


> MSR
[1] 0.2072689 Koefisien determinasi, 𝑅2 = 0.1737 berarti 17%
keragaman dalam data dijelaskan oleh model regresi.
> MSE <- SSE/(n-2)
> MSE
[1] 0.04695697

19
Tabel ANOVA dengan program R

> mod.reg <- lm(short.velocity~blood.glucose)


> mod.aov <- anova(mod.reg)
> mod.aov
Analysis of Variance Table

Response: short.velocity
Df Sum Sq Mean Sq F value Pr(>F)
blood.glucose 1 0.20727 0.207269 4.414 0.0479 *
Residuals 21 0.98610 0.046957
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

20
Pengujian hipotesis bagi regresi linear

Hipotesis
H0: Tidak ada hubungan linear yang signifikan antara 𝑋 dan 𝑌 (𝛽1 = 0)
H1: Ada hubungan linear yang signifikan antara 𝑋 dan 𝑌 (𝛽1 ≠ 0)
Taraf signifikansi: 𝛼 = 0.05
Statistik uji: 𝐹 = 𝑀𝑆𝑅/𝑀𝑆𝐸
Kriteria keputusan: H0 ditolak jika 𝐹 > 𝐹𝛼(1,𝑛−2)
atau H0 ditolak jika p-value < 𝛼

21
Pada data Thuesen
Hipotesis
H0: Tidak ada hubungan linear yang signifikan antara gula darah dan kecepatan
pemendekan ventrikel (𝛽1 = 0)
H1: Ada hubungan linear yang signifikan antara gula darah dan kecepatan
pemendekan ventrikel (𝛽1 ≠ 0)
Taraf signifikansi: 𝛼 = 0.05
Statistik uji: 𝐹 = 𝑀𝑆𝑅/𝑀𝑆𝐸
Kriteria keputusan: 𝐹0.05(1,21) = 4.324794 > qf(0.95,df1=1,df2=21)
H0 ditolak jika 𝐹 > 4.324794 [1] 4.324794
atau H0 ditolak jika p-value < 0.05
Hitungan: F = 4.414 dan p-value = 0.0479
Kesimpulan:
Oleh karena F = 4.414 > 4.324794 (atau p-value = 0.0479 < 0.05) maka H0 ditolak. Jadi
pada taraf signifikansi 0.05 dapat disimpulkan bahwa ada hubungan linear yang signifikan antara
gula darah dan kecepatan pemendekan ventrikel.

22
Uji hipotesis dan interval kepercayaan bagi 𝛽1

Hipotesis:
H0: 𝛽1 = 𝛽10
H1: 𝛽1 > 𝛽10 , 𝛽1 < 𝛽10 , atau 𝛽1 ≠ 𝛽10
Taraf signifikansi: 𝛼
Statistik uji: 𝑡 =
෡1 −𝛽10
𝛽 𝑠 2 𝛽መ1 = 𝑠 2 /𝑆𝑥𝑥 dengan 𝑠 2 = 𝑀𝑆𝐸
෡1 }
𝑠{𝛽
Kriteria keputusan:
a) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2)
b) H0 ditolak jika 𝑡 < −𝑡𝛼(𝑛−2)
c) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2) Interval kepercayaan 100(1-𝛼)% bagi 𝛽1 adalah
𝛽መ1 − 𝑡𝛼 𝑠{𝛽መ1 } ≤ 𝛽1 ≤ 𝛽1Ƹ + 𝑡𝛼 𝑛−2 𝑠{𝛽1Ƹ }
2

2 𝑛−2 2

23
Uji hipotesis dan interval kepercayaan bagi 𝛽0

Hipotesis:
H0: 𝛽0 = 𝛽00
H1: 𝛽0 > 𝛽00 , 𝛽0 < 𝛽00 , atau 𝛽0 ≠ 𝛽00
Taraf signifikansi: 𝛼
෡0 −𝛽00
𝛽
Statistik uji: 𝑡 = ෡0 }
𝑠{𝛽 𝑠 2 σ 𝑥𝑖2
Kriteria keputusan: 𝑠 2 𝛽መ0 =
𝑛𝑆𝑥𝑥
a) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2)
b) H0 ditolak jika 𝑡 < −𝑡𝛼(𝑛−2)
c) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2) Interval kepercayaan 100(1-𝛼)% bagi 𝛽0 adalah
𝛽መ0 − 𝑡𝛼 𝑠{𝛽መ0 } ≤ 𝛽0 ≤ 𝛽0Ƹ + 𝑡𝛼 𝑛−2 𝑠{𝛽0Ƹ }
2

2 𝑛−2 2

24
Uji hipotesis bagi 𝛽1 untuk data Thuesen
Hipotesis:
H0: 𝛽1 = 0 (Tidak ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
H1: 𝛽1 ≠ 0 (Ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
Taraf signifikansi: 𝛼 = 0.05
෡1 −𝛽10
𝛽
Statistik uji: 𝑡 = ෡1 }
𝑠{𝛽 𝑠2 0.04695697
Kriteria keputusan: 𝑡0.025(21) = 2.079614 𝑠 𝛽መ1 = =
𝑆𝑥𝑥 429.7043
H0 ditolak jika 𝑡 > 2.079614
= 0.01045358
0.02196252−0
Hitungan: 𝑡 = = 2.100957
0.01045358
Kesimpulan:
Oleh karena 𝑡 = 2.100957 > 2.079614 maka H0 ditolak. Jadi pada taraf signifikansi 0.05 dapat
disimpulkan bahwa ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel.

25
Interval kepercayaan 95% bagi 𝛽1 untuk data Thuesen

𝛽መ1 − 𝑡0.025(21) 𝑠{𝛽መ1 } ≤ 𝛽1 ≤ 𝛽መ1 + 𝑡0.025(21) 𝑠{𝛽መ1 }

0.02196252 − 2.079614 0.01045358 ≤ 𝛽1 ≤ 0.02196252 + 2.079614(0.01045358)

0.02196252 − 0.02173941 ≤ 𝛽1 ≤ 0.02196252 + 0.02173941

0.00022311 ≤ 𝛽1 ≤ 0.04370193

Interval bernilai positif sehingga dapat disimpulkan 95% yakin bahwa ada
hubungan linear positif antara gula darah dan kecepatan pemendekan ventrikel.

26
Uji hipotesis bagi 𝛽0 pada data Thuesen

Hipotesis:
H0: 𝛽0 = 0
𝑠 2 σ 𝑥𝑖2
H1: 𝛽0 ≠ 0 𝑠 𝛽መ0 =
𝑛𝑆𝑥𝑥
Taraf signifikansi: 𝛼 = 0.05
෡0 −𝛽00
Statistik uji: 𝑡 =
𝛽 (0.04695697)(2904.92)
෡0 }
𝑠{𝛽 =
(23)(429.7043)
Kriteria keputusan: 𝑡0.025(21) = 2.079614
= 0.1174812
H0 ditolak jika 𝑡 > 2.079614
1.097815−0
Hitungan: 𝑡 = = 9.344602
0.1174812
Kesimpulan:
Oleh karena 𝑡 = 9.344602 > 2.079614 maka H0 ditolak. Jadi pada taraf
signifikansi 0.05 dapat disimpulkan bahwa 𝛽0 ≠ 0.

27
Dengan program R
> mod.reg <- lm(short.velocity~blood.glucose)
> summary(mod.reg)
Call:
lm(formula = short.velocity ~ blood.glucose)

Residuals:
Min 1Q Median 3Q Max
-0.40141 -0.14760 -0.02202 0.03001 0.43490

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.09781 0.11748 9.345 6.26e-09 ***
blood.glucose 0.02196 0.01045 2.101 0.0479 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.2167 on 21 degrees of freedom


Multiple R-squared: 0.1737, Adjusted R-squared: 0.1343
F-statistic: 4.414 on 1 and 21 DF, p-value: 0.0479

> confint(mod.reg)
2.5 % 97.5 %
(Intercept) 0.8534993816 1.34213037
blood.glucose 0.0002231077 0.04370194

28
Koefisien korelasi
▪ Koefisien korelasi populasi dinotasikan dengan 𝜌.
▪ Koefisien korelasi sampel dinotasikan dengan 𝑟.
▪ Misal ada 𝑛 pengamatan berpasangan (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), …, (𝑥𝑛 , 𝑦𝑛 ). Koefisien korelasi sampel bagi
𝑛 pasangan adalah
1
𝑆𝑥𝑦 σ 𝑥𝑖 𝑦𝑖 − σ 𝑥𝑖 σ 𝑦𝑖
𝑛
𝑟= =
𝑆𝑥𝑥 𝑆𝑦𝑦 1 1
σ 𝑥𝑖2 − σ 𝑥𝑖 2 σ 𝑦𝑖2 − σ 𝑦𝑖 2
𝑛 𝑛

▪ Nilai 𝑟 selalu antara -1 dan +1.


▪ 𝑟 adalah suatu ukuran kekuatan hubungan linear. Jika 𝑟 dekat 0, maka tidak ada bukti hubungan
linear, tetapi 𝑋 dan 𝑌 mungkin berkaitan dalam cara yang lain.
▪ Misal ada garis horizontal (𝑦 = 𝛽0 ) dengan slope nol, dan semua titik data sangat dekat dengan
garis. Sehingga tidak ada hubungan antara variabel-variabel, korelasi dengan 0.
▪ Jika 0 ≤ 𝑟 ≤ 0.5 maka ada hubungan linear lemah.
▪ Jika 0.5 ≤ 𝑟 ≤ 0.8 maka ada hubungan linear moderat.
▪ Jika 𝑟 > 0.8 maka ada hubungan linear kuat.
29
30
Koefisien korelasi sampel

▪ Koefisien korelasi sampel adalah 0.4167733, yang bermakna ada hubungan


linear positif yang lemah.

> r <- Sxy/sqrt(Sxx*Syy)


> r
[1] 0.4167546
> cor(blood.glucose,short.velocity)
[1] 0.4167546

31
Uji koefisien korelasi populasi 𝜌

Hipotesis
1) H0:  = 0 (Tidak ada hubungan linear antara X dan Y)
H1:   0 (Ada hubungan linear antara X dan Y)
2) H0:   0 3) H0:   0
H1:  < 0 H1:  > 0
Taraf nyata : 
𝑟 𝑛−2
Statistik uji : 𝑡 =
1−𝑟 2
Kriteria Keputusan :
1) H0 ditolak jika |thit| > t/2,n-2
2) H0 ditolak jika thit < - t,n-2
3) H0 ditolak jika thit > t,n-2

32
Uji koefisien korelasi populasi 𝜌 untuk data Thuesen

Hipotesis:
H0: 𝜌 = 0 (Tidak ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
H1: 𝜌 ≠ 0 (Ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
Taraf signifikansi: 𝛼 = 0.05
𝑟 𝑛−2
Statistik uji: 𝑡 =
1−𝑟 2
Kriteria keputusan: 𝑡0.025(21) = 2.079614
H0 ditolak jika 𝑡 > 2.079614
0.4167546 23−2
Hitungan: 𝑡 = 2
= 2.100957
1−0.4167546
Kesimpulan:
Oleh karena 𝑡 = 2.100957 > 2.079614 maka H0 ditolak. Jadi pada taraf signifikansi 0.05 dapat disimpulkan
bahwa ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel.

33
Koefisien korelasi dengan program R

> cor.test(blood.glucose,short.velocity)
Pearson's product-moment correlation

data: blood.glucose and short.velocity


t = 2.101, df = 21, p-value = 0.0479
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.005496682 0.707429479
sample estimates:
cor
0.4167546

34
Diagnostik regresi

▪ Residual adalah deviasi dari garis regresi dugaan, 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 .


▪ Residual digunakan untuk mengecek pelanggaran asumsi.

35
Asumsi-asumsi dalam model regresi linear

Asumsi-asumsi dalam model regresi linear:


1) Galat saling independen.
2) Galat berdistribusi normal.
3) Galat memiliki variansi yang konstan.

𝜀𝑖 ~𝑖𝑛𝑑 𝑁(0, 𝜎 2 )

36
Plot residual vs variabel independen

▪ Jika tida ada pelanggaran dalam asumsi, plot pencar residual vs variabel independen
harus berbentuk pita horizontal dekat 0 dengan titik-titik terdistribusi acak dan tidak
ada pola yang terlihat.

37
Plot residual yang mengindikasikan pelanggaran asumsi

Plot residual berbentuk kurva. Hal ini Plot residual dengan penyebaran tidak
mengindikasikan bahwa model linear tidak konstan. Hal ini mengindikasikan bahwa
tepat digunakan. variansi tidak sama untuk setiap nilai 𝑥.
38
Plot nilai dugaan vs residual & plot X vs residual

Pada model regresi linear sederhana, plot nilai dugaan vs residual dan plot X vs residual
memiliki pola yang sama. Titik-titik menyebar secara disekitar garis horizontal 0 maka
galat saling independen. Titik-titik tidak membentuk pola tertentu maka galat memiliki
variansi yang sama.
39
> par(mfrow=c(1,2))
> plot(fitted(mod.reg),resid(mod.reg),xlab="Nilai dugaan",ylab="Residual")
> abline(h=0,col="blue",lty=2)
> plot(blood.glucose,resid(mod.reg),xlab="X",ylab="Residual")
> abline(h=0,col="blue",lty=2)

40
Plot peluang normal

Titik-titik terletak di sepanjang garis lurus


perkiraan. Sehingga tidak ada pelanggaran
asumsi normalitas.
Galat berdistribusi normal

> qqnorm(resid(mod.reg))

41

Anda mungkin juga menyukai