Anda di halaman 1dari 11

KELOMPOK A

Kelas: Matematika B 2019


Nama Anggota:
Choirul Fatihin (19305141002)
William Chandra Pratama (19305141027)
Rahmatika Maulida Pinakesti (19305141029)
An Naffila Putri Prasari (19305141033)
Kholida Nailil Muna (19305141036)
Ridho Rahmanto (19305144001)

Tugas 3 Analisis Data dan Visualisasi


Masing-masing soal dikerjakan secara manual dan dengan program R.
Berikan jawaban yang lengkap dan sertakan program R dan output dalam satu file.
1. Gunakan dataset rmr. (rmr.csv)
a) Buatlah plot metabolic rate vs body weight dan berikan interpretasi.
> rmr=read.csv(file="C:/Users/Williamcp/Downloads/rmr.csv",head=T
RUE)
> attach(rmr)
> plot(body.weight,metabolic.rate)

Sumbu-X = body.weight
Sumbu-Y = metabolic.rate

b) Tentukan variabel independen dan variabel dependen.


X = body.weight (variabel independen)
Y = metabolic.rate (variabel dependen)
c) Lakukan pengepasan model regresi linear, dan berikan persamaan regresi dugaan dan
interpretasinya
- MANUAL
> sum.x <- sum(body.weight)
> sum.x
[1] 3294.7
> sum.x2 <- sum(body.weight^2)
> sum.x2
[1] 272795.5
> sum.y <- sum(metabolic.rate)
> sum.y
[1] 58953
> sum.xy <- sum(body.weight*metabolic.rate)
> sum.xy
[1] 4598556
> n <- nrow (rmr)
> n
[1] 44
> beta1.hat <- (n*sum.xy-sum.x*sum.y )/(n*sum.x2-(sum.x)^2)
> beta1.hat
[1] 7.059528
> beta0.hat <- (sum.y-beta1.hat* sum.x )/n
> beta0.hat
[1] 811.2267

- PROGRAM R
> (lm(metabolic.rate~body.weight))

Call:
lm(formula = metabolic.rate ~ body.weight)

Coefficients:
(Intercept) body.weight
811.23 7.06
Persamaan regresi dugaan: ŷ = 811.23 + 7.06𝑥
Makna 𝛽̂1 = 7.06, jika berat badan meningkat sebesar 1 kg maka tingkat metabolisme
meningkat sebesar 7.06%.
Makna 𝛽̂0 = 811.23, jika berat badan sebesar 0 kg maka tingkat metabolismenya sebesar
811.23%.
Catatan: 𝛽̂0 dalam kasus ini tidak bermakna.
> abline(lm(metabolic.rate~body.weight))

d) Berdasarkan model regresi dugaan, berapa prediksi metabolic rate bagi body weight sebesar
70kg?
ŷ = 811.23 + 7.06𝑥
ŷ = 811.23 + 7.06(70)
ŷ = 811.23 + 494.2
ŷ = 1305.43
Sehingga, jika berat badan sebesar 70 kg maka tingkat metabolismenya sebesar 1305.43

e) Apakah ada hubungan linear positif antara metabolic rate dan body weight? Lakukan
pengujian yang sesuai dan gunakan taraf signifikansi 𝛼 = 0.05.
- MANUAL
> Sxx <- sum((body.weight-mean( body.weight ))^2)
> Sxx
[1] 26089.91
> Syy=sum(( metabolic.rate-mean( metabolic.rate ))^2)
> Syy
[1] 2347472
> Sxy=sum((body.weight-mean(body.weight))* (metabolic.rate -me
an(metabolic.rate )))
> Sxy
[1] 184182.5
> SST <- Syy
> SST
[1] 2347472
> SSR <- beta1.hat*(Sxy)
> SSR
[1] 1300241
> SSE <- SST-SSR
> SSE
[1] 1047231
> MSR <- SSR/1
> MSR
[1] 1300241
> MSE <- SSE/(n-2)
> MSE
[1] 24934.06
> F <- MSR/MSE
> F
[1] 52.14718
> p.value <- 1-pf(F,df1=1,df2=n-2)
> p.value
[1] 7.02538e-09
> R2 <- SSR/SST
> R2
[1] 0.55389

Koefisien determinasi , 𝑅2 = 0.55389 berarti 55% keragaman dalam data dijelaskan


oleh model regresi.

- PROGRAM R
> mod.reg <-lm(metabolic.rate~body.weight)
> mod.aov = anova (mod.reg)
> mod.aov
Analysis of Variance Table

Response: metabolic.rate
Df Sum Sq Mean Sq F value Pr(>F)
body.weight 1 1300241 1300241 52.147 7.025e-09 ***
Residuals 42 1047231 24934
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Pengujian hipotesis bagi regresi linear


 Hipotesis
𝐻0 : Tidak ada hubungan linear yang signifikan antara metabolic rate dan body weight
(𝛽1 = 0)
𝐻1 : Ada hubungan linear yang signifikan antara metabolic rate dan body weight
(𝛽1 ≠ 0)
 Taraf signifikansi: 𝛼 = 0.05
𝑀𝑆𝑅
 Statistik uji: 𝐹 =
𝑀𝑆𝐸
1300241
=
24934.06
= 52.14718
p-value = 7.02538𝑒 − 09
 Kriteria keputusan: 𝐹0.05(1,42) = 4.072654
𝐻0 ditolak jika 𝐹 > 4.072654 atau 𝐻0 ditolak jika p-value < 0.05
 Kesimpulan:
Oleh karena 𝐹 = 52.14718 > 4.072654 atau (p-value = 7.02538𝑒 − 09 < 0.05)
maka 𝐻0 ditolak Jadi pada taraf signifikansi 0.05 dapat disimpulkan bahwa ada
hubungan linear yang signifikan antara metabolic rate dan body weight.

f) Buat interval kepercayaan 95% bagi slope dan berikan interpretasi.


- MANUAL
𝛽̂1 − 𝑡0.025(42) 𝑠{𝛽̂1 } ≤ 𝛽1 ≤ 𝛽̂1 + 𝑡0.025(42) 𝑠{𝛽̂1 }
7.06 − 2.018082(0.9775978) ≤ 𝛽1 ≤ 7.06 + 2.018082(0.9775978)
7.06 − 1.972872 ≤ 𝛽1 ≤ 7.06 + 1.972872
5.087128 ≤ 𝛽1 ≤ 9.032872

- PROGRAM R
> confint(mod.reg)
2.5 % 97.5 %
(Intercept) 655.883819 966.5695
body.weight 5.086656 9.0324

Interval bernilai positif sehingga dapat disimpulkan 95% yakin bahwa ada hubungan
linear positif antara body weight dan metabolic rate.

g) Tentukan koefisien korelasi dan koefisien determinasi antara metabolic rate dan body
weight, dan berikan interpretasinya.
Koefisien korelasi:
- MANUAL
𝑆𝑥𝑦
𝑟=
√𝑆𝑥𝑥 𝑆𝑦𝑦
184182.5
𝑟=
√(26089.91)(2347472)
𝑟 = 0.7442379
Karena 0.5 ≤ |𝑟| ≤ 0.8 maka ada hubungan linear moderat.
- PROGRAM R
> cor(body.weight,metabolic.rate)
[1] 0.7442379
Koefisien determinasi:
- MANUAL
𝑆𝑆𝑅
𝑅2 =
𝑆𝑆𝑇
1300241
𝑅2 =
2347472
𝑅2 = 0.55389
Koefisien determinasi , 𝑅2 = 0.55389 berarti 55% keragaman dalam data dijelaskan
oleh model regresi.
- PROGRAM R
> R2 <- SSR/SST
> R2
[1] 0.55389

h) Lakukan diagnostik regresi terkait dengan asumsi-asumsi dalam model regresi linear
sederhana.
> par(mfrow =c(1,2))
> plot(fitted(mod.reg),resid (mod.reg), xlab ="Nilai dugaan", yla
b ="residual")
> abline (h=0,col="blue", lty =2)
> plot(body.weight,resid (mod.reg), xlab ="X", ylab ="residual")
> abline (h=0,col="blue", lty =2)

Pada model regresi linear sederhana, plot nilai dugaan vs residual dan plot X vs residual
memiliki pola yang sama. Titik titik menyebar secara disekitar garis horizontal 0 maka galat
saling independen. Titik-titik tidak membentuk pola tertentu maka galat memiliki variansi
yang sama.
2. Pilih salah satu dataset yang memuat dua variabel kontinu dari website berikut
https://vincentarelbundock.github.io/Rdatasets/datasets.html. Lakukan analisis regresi linear
sederhana secara lengkap. Anda dapat mengikuti langkah pada nomor satu dengan disesuaikan
pada kasus yang Anda pilih.
(Catatan: masing-masing kelompok harus memiliki dataset yang berbeda).
Dataset: Nile
a) Membuat plot value (debit aliran sungai) vs X (waktu/tahun) dan berikan interpretasi.
> Nile <-read.csv(file="D:/Kuliah/Kerja_dg_R/Nile.csv",head=TRUE)
> attach(Nile)
> plot(X,value)

Sumbu X = waktu atau tahun ke-i ketika data diambil, disimbolkan dengan X
Sumbu Y = debit aliran sungai, disimbolkan dengan value

b) Mentukan variabel independen dan variabel dependen.


X = waktu/tahun (variabel independen)
Y = value/debit aliran sungai (variabel dependen)

c) Melakukan pengepasan model regresi linear, dan berikan persamaan regresi dugaan dan
interpretasinya
- MANUAL
> sum.x <-sum(X)
> sum.x
[1] 5050
> sum.x2 <-sum(X^2)
> sum.x2
[1] 338350
> sum.y <-sum(value)
> sum.y
[1] 91935
> sum.xy <-sum(X*value)
> sum.xy
[1] 4416548
> n <-nrow(Nile)
> n
[1] 100
> beta1.hat <-(n*sum.xy-sum.x*sum.y)/(n*sum.x2-(sum.x)^2)
> beta1.hat
[1] -2.714305
> beta0.hat <-(sum.y-beta1.hat*sum.x)/n
> beta0.hat
[1] 1056.422

- PROGRAM R
> lm(formula=value~X)
Call:
lm(formula = value ~ X)
Coefficients:
(Intercept) X
1056.422 -2.714
Persamaan regresi dugaan: ŷ = 1056.422 − 2.714𝑥
Makna 𝛽̂1 = −2.714, debit aliran sungai setiap tahunnya menurun sebesar 2.714%.
Makna 𝛽̂0 = 1056.422, debit aliran sungai pada tahun ke-0 sebesar 811.23%.
Catatan: 𝛽̂0 dalam kasus ini tidak bermakna.
> plot(X,value)
> abline(lm(value~X))
d) Apakah ada hubungan linear negatif antara value (debit aliran sungai) dan X (waktu/tahun)?
Lakukan pengujian yang sesuai dan gunakan taraf signifikansi 𝛼 = 0.05
- MANUAL
> Sxx <-sum((X-mean(X))^2)
> Sxx
[1] 83325
> Syy <-sum((value-mean(value))^2)
> Syy
[1] 2835157
> Sxy <-sum((X-mean(X))*(value-mean(value)))
> Sxy
[1] -226169.5
> SST <-Syy
> SST
[1] 2835157
> SSR <-beta1.hat*(Sxy)
> SSR
[1] 613893.1
> SSE <-SST-SSR
> SSE
[1] 2221264
> MSR <-SSR/1
> MSR
[1] 613893.1
> MSE <-SSE/(n-2)
> MSE
[1] 22665.96
> F <-MSR/MSE
> F
[1] 27.08437
> p.value <- 1-pf(F,df1=1,df2=n-2)
> p.value
[1] 1.071695e-06
> R2 <-SSR/SST
> R2
[1] 0.2165288

Koefisien determinasi , 𝑅2 = 0.2165288 berarti 21% keragaman dalam data


dijelaskan oleh model regresi.

- PROGRAM R
> mod.reg <-lm(value~X)
> mod.aov <-anova(mod.reg)
> mod.aov
Analysis of Variance Table
Response: value
Df Sum Sq Mean Sq F value Pr(>F)
X 1 613893 613893 27.084 1.072e-06 ***
Residuals 98 2221264 22666
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pengujian hipotesis bagi regresi linear
 Hipotesis
𝐻0 : Tidak ada hubungan linear yang signifikan antara value (debit aliran sungai)
dan X (waktu/tahun). (𝛽1 = 0)
𝐻1 : Ada hubungan linear yang signifikan antara value (debit aliran sungai) dan X
(waktu/tahun). (𝛽1 ≠ 0)
 Taraf signifikansi: 𝛼 = 0.05
𝑀𝑆𝑅
 Statistik uji: 𝐹 =
𝑀𝑆𝐸
613893.1
=
22665.96
= 27.08437
p-value = 1.071695e − 06
 Kriteria keputusan: 𝐹0.05(1,98) = 3.938111
𝐻0 ditolak jika 𝐹 > 3.938111 atau 𝐻0 ditolak jika p-value <
0.05
 Kesimpulan:
Oleh karena 𝐹 = 27.08437 > 3.938111 atau (p-value = 1.071695e − 06 <
0.05) maka 𝐻0 ditolak. Jadi pada taraf signifikansi 0.05 dapat disimpulkan bahwa
ada hubungan linear antara value (debit aliran sungai) dan X (waktu/tahun).

e) Menentukan interval kepercayaan 95% bagi slope dan berikan interpretasi


- MANUAL
𝛽̂1 − 𝑡0.025(98) 𝑠{𝛽̂1 } ≤ 𝛽1 ≤ 𝛽̂1 + 𝑡0.025(98) 𝑠{𝛽̂1 }
−2.714 − 1.984467(0.5215541) ≤ 𝛽1 ≤ −2.714 + 1.984467(0.5215541)
−2.714 − 1.0350069 ≤ 𝛽1 ≤ −2.714 + 1.0350069
−3.7490069 ≤ 𝛽1 ≤ −1.6789931

- PROGRAM R
> confint(mod.reg)
2.5 % 97.5 %
(Intercept) 996.218275 1116.626574
X -3.749313 -1.679298

Interval bernilai negatif sehingga dapat disimpulkan 95% yakin bahwa ada hubungan
linear negatif antara waktu/tahun dan debit aliran sungai.

f) Menentukan koefisien korelasi dan koefisien determinasi antara value (debit aliran
sungai) dan X (waktu/tahun), dan berikan interpretasinya
Koefisien korelasi:
- MANUAL
𝑆𝑥𝑦
𝑟=
√𝑆𝑥𝑥 𝑆𝑦𝑦
− 226169.5
𝑟=
√(83325)(2835157)
𝑟 = −0.4653266
Karena 0 ≤ |𝑟| ≤ 0.5 maka ada hubungan linear lemah.
- PROGRAM R
> cor(X,value)
[1] -0.4653266

Koefisien determinasi:
- MANUAL
𝑆𝑆𝑅
𝑅2 =
𝑆𝑆𝑇
613893.1
𝑅2 =
2835157
𝑅2 = 0.2165288
Koefisien determinasi , 𝑅2 = 0.2165288berarti 21% keragaman dalam data dijelaskan
oleh model regresi.
- PROGRAM R
> R2 <-SSR/SST
> R2
[1] 0.2165288

g) Lakukan diagnostik regresi terkait dengan asumsi-asumsi dalam model regresi linear
sederhana
> par(mfrow=c(1,2))
> plot(fitted(mod.reg),resid(mod.reg),xlab="Nilai dugaan",ylab="re
sidual")
> abline(h=0,col="blue",lty=2)
> plot(X,resid(mod.reg),xlab="X",ylab="Residual")
> abline(h=0,col="blue",lty=2)

Pada model regresi linear sederhana, plot nilai dugaan vs residual dan plot X vs residual
memiliki pola yang sama. Titik titik menyebar secara disekitar garis horizontal 0 maka galat
saling independen. Titik-titik tidak membentuk pola tertentu maka galat memiliki variansi
yang sama.

Anda mungkin juga menyukai