Sumber data:
http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/ml
r/frames/mlr08.html
Data asli:
Baseball
A random sample of major league baseball players was obtained.
The following data (X1, X2, X3, X4, X5, X6) are by player.
X1 = batting average
X2 = runs scored/times at bat
X3 = doubles/times at bat
X4 = triples/times at bat
X5 = home runs/times at bat
X6 = strike outs/times at bat
Reference: The Baseball Encyclopedia 9th edition, Macmillan
Pada analisis yang akan dilakukan peubah X1 dianggap sebagai peubah respon, sehingga pelabelan
data di ubah menjadi
Y = batting average
X1 = runs scored/times at bat
X2 = doubles/times at bat
X3 = triples/times at bat
X4 = home runs/times at bat
X5 = strike outs/times at bat
#mendefinisikan peubah
x1 <- data2$X1
x2 <- data2$X2
x3 <- data2$X3
x4 <- data2$X4
x5 <- data2$X5
y <- data2$Y
#scatterplot
plot(x1,y)
0.35
0.30
y
0.25
0.20
x1
plot(x2,y)
0.35
0.30
y
0.25
0.20
x2
plot(x3,y)
0.35
0.30
y
0.25
0.20
x3
plot(x4,y)
0.35
0.30
y
0.25
0.20
x4
plot(x5,y)
0.35
0.30
y
0.25
0.20
x5
Dari grafik-grafik di atas terlihat bahwa peubah x1,x2,x3,x4,x5 memiliki pengaruh terhadap
peubah y. Melihat dari bentuk grafik, kita curiga bahwa setiap peubah penjelas memiliki
hubungan linear terhadap peubah respon y.
#Dugaan regresi : reg <- lm(nama data y~nama data x, data=nama data)
reg <- lm(y~x1+x2+x3+x4+x5, data=data2)
reg
#Menampilkan Tabel Sidik Ragam (ANOVA) untuk melihat p-value atau F-parsial dari
masing-masing peubah penjelas sehigga diketahui peubah penjelas mana yang harus dibuang.
TSR <- aov(y~x1+x2+x3+x4+x5, data=data2)
summary(TSR)
Peubah yang memiliki p-value terbesar adalah x4 yaitu 0.782043.
Karena p-value x4 > , maka peubah x4 dikeluarkan dari model