Anda di halaman 1dari 6

Analisis Baseball

Sumber data:
http://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/ml
r/frames/mlr08.html

Data asli:
Baseball
A random sample of major league baseball players was obtained.
The following data (X1, X2, X3, X4, X5, X6) are by player.
X1 = batting average
X2 = runs scored/times at bat
X3 = doubles/times at bat
X4 = triples/times at bat
X5 = home runs/times at bat
X6 = strike outs/times at bat
Reference: The Baseball Encyclopedia 9th edition, Macmillan

Pada analisis yang akan dilakukan peubah X1 dianggap sebagai peubah respon, sehingga pelabelan
data di ubah menjadi
Y = batting average
X1 = runs scored/times at bat
X2 = doubles/times at bat
X3 = triples/times at bat
X4 = home runs/times at bat
X5 = strike outs/times at bat

#mencopy data dari excel


#penanda desimal dalam excel adalah tanda titik
data2 <- read.delim("clipboard", header=TRUE)
View(data2)

#mendefinisikan peubah
x1 <- data2$X1
x2 <- data2$X2
x3 <- data2$X3
x4 <- data2$X4
x5 <- data2$X5
y <- data2$Y

#scatterplot
plot(x1,y)
0.35
0.30
y

0.25
0.20

0.10 0.15 0.20 0.25

x1

plot(x2,y)
0.35
0.30
y

0.25
0.20

0.03 0.04 0.05 0.06

x2

plot(x3,y)
0.35
0.30
y

0.25
0.20

0.000 0.005 0.010 0.015 0.020 0.025 0.030

x3

plot(x4,y)
0.35
0.30
y

0.25
0.20

0.00 0.02 0.04 0.06 0.08

x4

plot(x5,y)
0.35
0.30
y

0.25
0.20

0.00 0.05 0.10 0.15 0.20 0.25

x5

Dari grafik-grafik di atas terlihat bahwa peubah x1,x2,x3,x4,x5 memiliki pengaruh terhadap
peubah y. Melihat dari bentuk grafik, kita curiga bahwa setiap peubah penjelas memiliki
hubungan linear terhadap peubah respon y.

#Mencari model terbaik dengan menggunakan metode backward


Di awali dengan membuat model awal regresi linear berganda yang di dalamnya
menggunakan semua peubah penjelas yang ada pada data. ( )
y = 0 + 1x1 + 2x2 + 3x3 + 4x4 + 5x5 + i
model dugaan persamaan garis regresi linear berganda
̂ = ̂ 0 + ̂ 1x1 + ̂ 2x2 + ̂ 3x3 + ̂ 4x4 + ̂ 5x5

#Dugaan regresi : reg <- lm(nama data y~nama data x, data=nama data)
reg <- lm(y~x1+x2+x3+x4+x5, data=data2)
reg

#Menampilkan Tabel Sidik Ragam (ANOVA) untuk melihat p-value atau F-parsial dari
masing-masing peubah penjelas sehigga diketahui peubah penjelas mana yang harus dibuang.
TSR <- aov(y~x1+x2+x3+x4+x5, data=data2)
summary(TSR)
Peubah yang memiliki p-value terbesar adalah x4 yaitu 0.782043.
Karena p-value x4 > , maka peubah x4 dikeluarkan dari model

#Melakukan regresi dugaan model persamaan linear berganda tanpa peubah x4


y = 0 + 1x1 + 2x2 + 3x3 + 5x5 + i
̂ = ̂ 0 + ̂ 1x1 + ̂ 2x2 + ̂ 3x3 + ̂ 5x5

Peubah yang memiliki p-value terbesar adalah x5 yaitu 0.01254


Karena p-value x5 < , maka peubah x5 tetap di dalam model dan model tersebut
merupakan model regresi linear berganda terbaik dengan menggunakan metode backward.

Jadi, model regresi linear terbaik dengan metode backward:


y = 0 + 1x1 + 2x2 + 3x3 + 5x5 + i

# Cek asumsi Gauss Markov

Anda mungkin juga menyukai