1
Thuesen
Ventricular Shortening Velocity
The thuesen data frame has 24 rows and 2 columns. It contains ventricular shortening
velocity and blood glucose for type 1 diabetic patients.
2
> thuesen <- read.csv(file="C:/data/thuesen.csv",head=TRUE)
> thuesen
i blood.glucose short.velocity
1 1 15.3 1.76
2 2 10.8 1.34
3 3 8.1 1.27
4 4 19.5 1.47
5 5 7.2 1.27 > #mengidentifikasi kelengkapan baris dari
6 6 5.3 1.49 suatu data frame
7 7 9.3 1.31 > complete.cases(thuesen)
8 8 11.1 1.09
9 9 7.5 1.18
[1] TRUE TRUE TRUE TRUE TRUE TRUE
10 10 12.2 1.22 TRUE TRUE TRUE TRUE TRUE
11 11 6.7 1.25 [12] TRUE TRUE TRUE TRUE FALSE TRUE
12 12 5.2 1.19 TRUE TRUE TRUE TRUE TRUE
13 13 19.0 1.95
14 14 15.1 1.28 [23] TRUE TRUE
15 15 6.7 1.52
16 16 8.6 NA
17 17 4.2 1.12
18 18 10.3 1.37
19 19 12.5 1.19
20 20 16.1 1.05
21 21 13.3 1.32
22 22 4.9 1.03
23 23 8.8 1.12
24 24 9.5 1.70
3
> thuesen.complete <- thuesen[complete.cases(thuesen), ]
> thuesen.complete
i blood.glucose short.velocity
1 1 15.3 1.76
2 2 10.8 1.34 Pengamatan ke-16 dibuang dari data frame
3 3 8.1 1.27
4 4 19.5 1.47
5 5 7.2 1.27
6 6 5.3 1.49
7 7 9.3 1.31
8 8 11.1 1.09
9 9 7.5 1.18
10 10 12.2 1.22
11 11 6.7 1.25
12 12 5.2 1.19
13 13 19.0 1.95
14 14 15.1 1.28
15 15 6.7 1.52
17 17 4.2 1.12
18 18 10.3 1.37
19 19 12.5 1.19
20 20 16.1 1.05
21 21 13.3 1.32
22 22 4.9 1.03
23 23 8.8 1.12
24 24 9.5 1.70
4
Apakah ada hubungan linear antara gula darah dan kecepatan
pemendekan ventrikel?
> attach(thuesen.complete)
> plot(blood.glucose, short.velocity)
5
Regresi Linear Sederhana
▪ Hubungan deterministik antara dua variabel 𝑋 dan 𝑌 adalah nilai 𝑌 ditentukan oleh
nilai 𝑋. Secara umum, 𝑦 = 𝑓(𝑥) adalah hubungan deterministik antara 𝑋 (variabel
independen) dan 𝑌 (variabel dependen).
▪ Hubungan deterministik paling sederhana antara 𝑋 dan 𝑌 adalah hubungan linear:
𝑌 = 𝛽0 + 𝛽1 𝑋 dengan 𝛽0 dan 𝛽1 adalah konstanta. Sekumpulan pasangan terurut
(𝑋, 𝑌) sedemikian hingga 𝑌 = 𝛽0 + 𝛽1 𝑋 membentuk suatu garis lurus dengan slope 𝛽1
dan intersep 𝛽0 pada 𝑌.
▪ Perluasan suatu hubungan deterministik adalah model probabilistik. Bagi suatu nilai
tetap 𝑋, nilai variabel 𝑌 adalah terdistribusi secara acak.
▪ Model probabilistik aditif secara umum terdiri dari bagian deterministik dan bagian
acak. Nilai 𝑌 berbeda dari 𝑓(𝑥) oleh sejumlah acak.
𝑌 = (fungsi deterministik 𝑥) + (simpangan acak)
= 𝑓 𝑥 +𝜀
dengan 𝜀 adalah suatu peubah acak dan disebut sebagai kesalahan acak (random error).
6
Model Regresi Linear Sederhana
𝜀𝑖 ~𝑖𝑛𝑑 𝑁(0, 𝜎 2 )
7
Notasi
8
Gambar 1. Garis regresi menghubungkan nilai rata-rata 𝛽0 + 𝛽1 𝑥𝑖
9
Estimasi garis regresi
10
Data Thuesen
> sum.x <- sum(blood.glucose)
> # menggunakan fungsi lm di R
> sum.x > lm(short.velocity~blood.glucose)
[1] 238.6 Call:
lm(formula = short.velocity ~ blood.glucose)
> sum.x2 <- sum(blood.glucose^2)
> sum.x2 Coefficients:
[1] 2904.92
(Intercept) blood.glucose
> sum.y <- sum(short.velocity) 1.09781 0.02196
> sum.y
[1] 30.49
▪ Dari data Thuesen diperoleh persamaan regresi dugaan (garis regresi dugaan):
𝑦ො = 1.09781+0.02196x
▪ Makna 𝛽መ1 = 0.02196, jika gula darah meningkat sebesar 1 mmol/l maka rata-rata
kecepatan pemendekan ventrikel meningkat sebesar 0.02196 %/s.
▪ Makna 𝛽መ0 = 1.09781, jika gula darah sebesar 0 mmol/l maka rata-rata kecepatan
pemendekan ventrikel sebesar 1.09781 %/s.
12
Prediksi
▪ Jika gula darah puasa sebesar 10.2 mmol/l, maka nilai dugaan bagi kecepatan
pemendekan ventrikel adalah 1.321802%/s.
𝑦ො = 1.09781+0.02196(10.2)=1.321802
> plot(blood.glucose,short.velocity)
> abline(lm(short.velocity~blood.glucose))
13
Variansi
▪ Variansi 𝜎 2 adalah suatu ukuran yang mendasari keragaman dalam model regresi
linear sederhana.
▪ 𝜎 2 besar berarti data akan sangat bervariasi dari garis regresi.
▪ 𝜎 2 kecil berarti data akan dekat dengan garis regresi.
▪ Suatu penduga bagi 𝜎 2 digunakan untuk melakukan pengujian hipotesis dan
membentuk interval kepercayaan pada regresi linear sederhana.
▪ Suatu metode untuk memeriksa keakuratan model regresi linear sederhana adalah
dengan analisis variansi.
14
Jumlah Kuadrat (Sum of Squares)
15
Tabel ANOVA bagi regresi linear sederhana
▪ Koefisien determinasi (𝑅2 ) adalah suatu ukuran proporsi keragaman dalam data yang
dapat dijelaskan oleh model regresi dan didefinisikan sebagai
𝑅2 = 𝑆𝑆𝑅/𝑆𝑆𝑇
▪ Oleh karena 0 ≤ 𝑆𝑆𝑅 ≤ 𝑆𝑆𝑇, koefisien determinasi selalu bernilai antara 0 dan 1.
▪ Semakin tinggi 𝑅2 maka model semakin baik.
▪ Berbagai program statistik melaporkan 100𝑅2 yang menyatakan persentase
keragaman yang dapat dijelaskan oleh model regresi.
17
Sum of squares
18
> SST <- Syy > F <- MSR/MSE
> SST > F
[1] 1.193365 [1] 4.414018
19
Tabel ANOVA dengan program R
Response: short.velocity
Df Sum Sq Mean Sq F value Pr(>F)
blood.glucose 1 0.20727 0.207269 4.414 0.0479 *
Residuals 21 0.98610 0.046957
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
20
Pengujian hipotesis bagi regresi linear
Hipotesis
H0: Tidak ada hubungan linear yang signifikan antara 𝑋 dan 𝑌 (𝛽1 = 0)
H1: Ada hubungan linear yang signifikan antara 𝑋 dan 𝑌 (𝛽1 ≠ 0)
Taraf signifikansi: 𝛼 = 0.05
Statistik uji: 𝐹 = 𝑀𝑆𝑅/𝑀𝑆𝐸
Kriteria keputusan: H0 ditolak jika 𝐹 > 𝐹𝛼(1,𝑛−2)
atau H0 ditolak jika p-value < 𝛼
21
Pada data Thuesen
Hipotesis
H0: Tidak ada hubungan linear yang signifikan antara gula darah dan kecepatan
pemendekan ventrikel (𝛽1 = 0)
H1: Ada hubungan linear yang signifikan antara gula darah dan kecepatan
pemendekan ventrikel (𝛽1 ≠ 0)
Taraf signifikansi: 𝛼 = 0.05
Statistik uji: 𝐹 = 𝑀𝑆𝑅/𝑀𝑆𝐸
Kriteria keputusan: 𝐹0.05(1,21) = 4.324794 > qf(0.95,df1=1,df2=21)
H0 ditolak jika 𝐹 > 4.324794 [1] 4.324794
atau H0 ditolak jika p-value < 0.05
Hitungan: F = 4.414 dan p-value = 0.0479
Kesimpulan:
Oleh karena F = 4.414 > 4.324794 (atau p-value = 0.0479 < 0.05) maka H0 ditolak. Jadi
pada taraf signifikansi 0.05 dapat disimpulkan bahwa ada hubungan linear yang signifikan antara
gula darah dan kecepatan pemendekan ventrikel.
22
Uji hipotesis dan interval kepercayaan bagi 𝛽1
Hipotesis:
H0: 𝛽1 = 𝛽10
H1: 𝛽1 > 𝛽10 , 𝛽1 < 𝛽10 , atau 𝛽1 ≠ 𝛽10
Taraf signifikansi: 𝛼
Statistik uji: 𝑡 =
1 −𝛽10
𝛽 𝑠 2 𝛽መ1 = 𝑠 2 /𝑆𝑥𝑥 dengan 𝑠 2 = 𝑀𝑆𝐸
1 }
𝑠{𝛽
Kriteria keputusan:
a) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2)
b) H0 ditolak jika 𝑡 < −𝑡𝛼(𝑛−2)
c) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2) Interval kepercayaan 100(1-𝛼)% bagi 𝛽1 adalah
𝛽መ1 − 𝑡𝛼 𝑠{𝛽መ1 } ≤ 𝛽1 ≤ 𝛽1Ƹ + 𝑡𝛼 𝑛−2 𝑠{𝛽1Ƹ }
2
2 𝑛−2 2
23
Uji hipotesis dan interval kepercayaan bagi 𝛽0
Hipotesis:
H0: 𝛽0 = 𝛽00
H1: 𝛽0 > 𝛽00 , 𝛽0 < 𝛽00 , atau 𝛽0 ≠ 𝛽00
Taraf signifikansi: 𝛼
0 −𝛽00
𝛽
Statistik uji: 𝑡 = 0 }
𝑠{𝛽 𝑠 2 σ 𝑥𝑖2
Kriteria keputusan: 𝑠 2 𝛽መ0 =
𝑛𝑆𝑥𝑥
a) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2)
b) H0 ditolak jika 𝑡 < −𝑡𝛼(𝑛−2)
c) H0 ditolak jika 𝑡 > 𝑡𝛼(𝑛−2) Interval kepercayaan 100(1-𝛼)% bagi 𝛽0 adalah
𝛽መ0 − 𝑡𝛼 𝑠{𝛽መ0 } ≤ 𝛽0 ≤ 𝛽0Ƹ + 𝑡𝛼 𝑛−2 𝑠{𝛽0Ƹ }
2
2 𝑛−2 2
24
Uji hipotesis bagi 𝛽1 untuk data Thuesen
Hipotesis:
H0: 𝛽1 = 0 (Tidak ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
H1: 𝛽1 ≠ 0 (Ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
Taraf signifikansi: 𝛼 = 0.05
1 −𝛽10
𝛽
Statistik uji: 𝑡 = 1 }
𝑠{𝛽 𝑠2 0.04695697
Kriteria keputusan: 𝑡0.025(21) = 2.079614 𝑠 𝛽መ1 = =
𝑆𝑥𝑥 429.7043
H0 ditolak jika 𝑡 > 2.079614
= 0.01045358
0.02196252−0
Hitungan: 𝑡 = = 2.100957
0.01045358
Kesimpulan:
Oleh karena 𝑡 = 2.100957 > 2.079614 maka H0 ditolak. Jadi pada taraf signifikansi 0.05 dapat
disimpulkan bahwa ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel.
25
Interval kepercayaan 95% bagi 𝛽1 untuk data Thuesen
0.00022311 ≤ 𝛽1 ≤ 0.04370193
Interval bernilai positif sehingga dapat disimpulkan 95% yakin bahwa ada
hubungan linear positif antara gula darah dan kecepatan pemendekan ventrikel.
26
Uji hipotesis bagi 𝛽0 pada data Thuesen
Hipotesis:
H0: 𝛽0 = 0
𝑠 2 σ 𝑥𝑖2
H1: 𝛽0 ≠ 0 𝑠 𝛽መ0 =
𝑛𝑆𝑥𝑥
Taraf signifikansi: 𝛼 = 0.05
0 −𝛽00
Statistik uji: 𝑡 =
𝛽 (0.04695697)(2904.92)
0 }
𝑠{𝛽 =
(23)(429.7043)
Kriteria keputusan: 𝑡0.025(21) = 2.079614
= 0.1174812
H0 ditolak jika 𝑡 > 2.079614
1.097815−0
Hitungan: 𝑡 = = 9.344602
0.1174812
Kesimpulan:
Oleh karena 𝑡 = 9.344602 > 2.079614 maka H0 ditolak. Jadi pada taraf
signifikansi 0.05 dapat disimpulkan bahwa 𝛽0 ≠ 0.
27
Dengan program R
> mod.reg <- lm(short.velocity~blood.glucose)
> summary(mod.reg)
Call:
lm(formula = short.velocity ~ blood.glucose)
Residuals:
Min 1Q Median 3Q Max
-0.40141 -0.14760 -0.02202 0.03001 0.43490
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.09781 0.11748 9.345 6.26e-09 ***
blood.glucose 0.02196 0.01045 2.101 0.0479 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> confint(mod.reg)
2.5 % 97.5 %
(Intercept) 0.8534993816 1.34213037
blood.glucose 0.0002231077 0.04370194
28
Koefisien korelasi
▪ Koefisien korelasi populasi dinotasikan dengan 𝜌.
▪ Koefisien korelasi sampel dinotasikan dengan 𝑟.
▪ Misal ada 𝑛 pengamatan berpasangan (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), …, (𝑥𝑛 , 𝑦𝑛 ). Koefisien korelasi sampel bagi
𝑛 pasangan adalah
1
𝑆𝑥𝑦 σ 𝑥𝑖 𝑦𝑖 − σ 𝑥𝑖 σ 𝑦𝑖
𝑛
𝑟= =
𝑆𝑥𝑥 𝑆𝑦𝑦 1 1
σ 𝑥𝑖2 − σ 𝑥𝑖 2 σ 𝑦𝑖2 − σ 𝑦𝑖 2
𝑛 𝑛
31
Uji koefisien korelasi populasi 𝜌
Hipotesis
1) H0: = 0 (Tidak ada hubungan linear antara X dan Y)
H1: 0 (Ada hubungan linear antara X dan Y)
2) H0: 0 3) H0: 0
H1: < 0 H1: > 0
Taraf nyata :
𝑟 𝑛−2
Statistik uji : 𝑡 =
1−𝑟 2
Kriteria Keputusan :
1) H0 ditolak jika |thit| > t/2,n-2
2) H0 ditolak jika thit < - t,n-2
3) H0 ditolak jika thit > t,n-2
32
Uji koefisien korelasi populasi 𝜌 untuk data Thuesen
Hipotesis:
H0: 𝜌 = 0 (Tidak ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
H1: 𝜌 ≠ 0 (Ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel)
Taraf signifikansi: 𝛼 = 0.05
𝑟 𝑛−2
Statistik uji: 𝑡 =
1−𝑟 2
Kriteria keputusan: 𝑡0.025(21) = 2.079614
H0 ditolak jika 𝑡 > 2.079614
0.4167546 23−2
Hitungan: 𝑡 = 2
= 2.100957
1−0.4167546
Kesimpulan:
Oleh karena 𝑡 = 2.100957 > 2.079614 maka H0 ditolak. Jadi pada taraf signifikansi 0.05 dapat disimpulkan
bahwa ada hubungan linear antara gula darah dan kecepatan pemendekan ventrikel.
33
Koefisien korelasi dengan program R
> cor.test(blood.glucose,short.velocity)
Pearson's product-moment correlation
34
Diagnostik regresi
35
Asumsi-asumsi dalam model regresi linear
𝜀𝑖 ~𝑖𝑛𝑑 𝑁(0, 𝜎 2 )
36
Plot residual vs variabel independen
▪ Jika tida ada pelanggaran dalam asumsi, plot pencar residual vs variabel independen
harus berbentuk pita horizontal dekat 0 dengan titik-titik terdistribusi acak dan tidak
ada pola yang terlihat.
37
Plot residual yang mengindikasikan pelanggaran asumsi
Plot residual berbentuk kurva. Hal ini Plot residual dengan penyebaran tidak
mengindikasikan bahwa model linear tidak konstan. Hal ini mengindikasikan bahwa
tepat digunakan. variansi tidak sama untuk setiap nilai 𝑥.
38
Plot nilai dugaan vs residual & plot X vs residual
Pada model regresi linear sederhana, plot nilai dugaan vs residual dan plot X vs residual
memiliki pola yang sama. Titik-titik menyebar secara disekitar garis horizontal 0 maka
galat saling independen. Titik-titik tidak membentuk pola tertentu maka galat memiliki
variansi yang sama.
39
> par(mfrow=c(1,2))
> plot(fitted(mod.reg),resid(mod.reg),xlab="Nilai dugaan",ylab="Residual")
> abline(h=0,col="blue",lty=2)
> plot(blood.glucose,resid(mod.reg),xlab="X",ylab="Residual")
> abline(h=0,col="blue",lty=2)
40
Plot peluang normal
> qqnorm(resid(mod.reg))
41