Anda di halaman 1dari 25

1.

Los datos de la Tabla 1 estn relacionados con el desempeo de los 26 equipos


de la Liga Nacional de Ftbol en 1976. Se cree que la cantidad de yardas
ganadas por tierra por los contrarios(x8) tienen un efecto sobre la cantidad de
juegos que gana un equipo (y). Realizar un estudio estadstico completo,
haciendo uso de diferentes pruebas estadsticas, con el fin de aplicarlas y
explicarlas para validar el modelo seleccionado. Usar el lenguaje R para obtener
los resultados requeridos, como se indic en clase.

Tabla 1

Respuesta:

1. Propuesta del modelo.


a. El grfico de dispersin de las variables X e Y (realizado con minitab).
La Fig 1.1 muestra un diagrama de dispersin entre las variables y y
x8 con la ecuacin de regresin lineal. Las lineas puntada en color
rojo representan el intervalo de confiaza a un 95%.

Grfica de lnea ajustada


y = 21,79 - 0,007025 x8
Regresin
IC de 95%
I P de 95%

15

S
R-cuad.
R-cuad.(ajustado)

10

2,39287
54,5%
52,7%

-5
1500

1750

2000

2250
x8

2500

2750

3000

Fig. 1.1
En donde se observa que los datos estimados siguen una lnea recta con
pendiente negativa.
b. El coeficiente de correlacin entre las variables y y x8 es de

-0,7380273.

Fig. 1.2
sto nos indica que las variables y y x8 estn correlacionadas y el
signo negativo se refiere a una pendiente negativa como se muestra en la Fig. 1.1.
La Fig. 1.2 nos indica que las dos variables estn fuertemente correlacionadas,
dentro de los intervalos predefinidos, aunque su valor se encuentra en el extremo
derecho, ya que su valor es apenas de -0,73.
2. Estimacin e inferencia sobre los parmetros.
a.

La ecuacin
que se

y 0 1 x representa la recta de regresin lineal con la

intentar explicar el comportamiento de los datos de la Tabla 1.1. Usando


el lenguaje R, se obtiene que los valores correspondientes para

0 y 1

son 21,78851 y -0,007025 respectivamente. Por lo tanto, sin realizar


ningn tipo de ajustes el modelo quedar explicado por:

y 21, 78851 0, 007025 x

(1.1)

Estimate
2.5 %
97.5 %
(Intercept) 21.7882509 16.246064040 27.330437725
x8
-0.0070251 -0.009614347 -0.004435854
Dentro de un intervalo de confianza de -0.009614347 a -0.004435854
para 1 y 16.246064040 a 27.330437725 para 0 para un 5% de
significancia. El campo (4) de la tabla 1.1 muestra el modelo ajustado
de la ecuacin (1.1) aplicado a los datos de la Tabla 1. A esta tabla se
volver ms adelante. El modelo ajustado est representado en la linea
recta de color negro de la Fig. 1.1

Equipo

Y x8

(1)
Washington
Minnesota
New England
Oakland
Pittsburgh
Baltimor
Los ngeles
Dallas
Atlanta
Buffalo
Chicago
Cincinnati
Cleveland
Denver
Detroit
Green Bay
Houston
Kansas City
Miami
Nueva Orleans
Nueva York Giants
Nueva York Jets
Philadelphia
St, Louis
San Diego
San Francisco
Seattle
Tampa Bay

(2)
10
11
11
13
10
11
10
11
4
2
7
10
9
9
6
5
5
5
6
4
3
3
4
10
6
8
2
0

cooks
Fitted
residuals rstudent
hatvalues distance
Modeloyx8 Modeloyx8 Modeloyx8 Modeloyx8 Modeloyx8 obsNumber

(3)
2205
2096
1847
1903
1457
1848
1564
1821
2577
2476
1984
1917
1761
1709
1901
2288
2072
2861
2411
2289
2203
2592
2053
1979
2048
1786
2876
2560

(4)
6,30
7,06
8,81
8,42
11,55
8,81
10,80
9,00
3,68
4,39
7,85
8,32
9,42
9,78
8,43
5,71
7,23
1,69
4,85
5,71
6,31
3,58
7,37
7,89
7,40
9,24
1,58
3,80

(5)

(6)

3,70
3,94
2,19
4,58
-1,55
2,19
-0,80
2,00
0,32
-2,39
-0,85
1,68
-0,42
-0,78
-2,43
-0,71
-2,23
3,31
1,15
-1,71
-3,31
-0,58
-3,37
2,11
-1,40
-1,24
0,42
-3,80
Tabla 1.1

b.

La estimacin de la varianza residual MSR.

1,63
1,74
0,94
2,08
-0,70
0,94
-0,35
0,86
0,14
-1,04
-0,36
0,71
-0,18
-0,34
-1,04
-0,30
-0,95
1,58
0,49
-0,72
-1,44
-0,25
-1,46
0,90
-0,59
-0,53
0,19
-1,73

(7)

(8)
0,04
0,04
0,05
0,05
0,15
0,05
0,12
0,06
0,10
0,07
0,04
0,05
0,07
0,08
0,05
0,04
0,04
0,19
0,06
0,04
0,04
0,10
0,04
0,04
0,04
0,06
0,20
0,09

(9)
0,05
0,05
0,03
0,10
0,05
0,03
0,01
0,02
0,00
0,04
0,00
0,01
0,00
0,01
0,03
0,00
0,02
0,28
0,01
0,01
0,04
0,00
0,04
0,02
0,01
0,01
0,00
0,14

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

Syy = 1685-38025/28 = 326,9643


SSR = 326,9643-(-0,00702510027*-25350,85714)= 148,87197

2 = 148,87197/(28-2)= 5,7258451 = MSR


Usando SPSS, se comprueba:

c.

i= i0.
El valor calculado para Fo=31,103, y el valor para =1%, entonces
F0.01, 1, 26=7,721254458.

Prueba de hiptesis para H0:

Como Fo > F0.01, 1, 26 , se rechaza Ho: B1=0


d.

Intervalos de Confianza para la estimacin de los parmetros.


Usando el valor anterior:

5, 72584509285715
= 0,00125964955
3608611, 429
t0,025,1, 26 = 2,055529439

1 2,055529439*0,00125964955
de donde:
1 = -25350,85714/3608611.429 = -0,00702510027
Se calcula el intervalo de confianza del punto medio:
-0,00702510027 - 0,00258924673 1 -0,00702510027 +0,00258924673
-0,009614347 -0,004435854
1

Ntese que el intervalo de confianza es menor en el punto medio (Fig.


1.1, linea punteada), mientras que se va ensanchando a los extremos.
Comprobando estos resultados con R:

La siguiente imagen muestra la elipse de confianza del modelo.

-0.006
-0.008
-0.010

x8 coefficient

-0.004

Region de Confianza

16

18

20

22

24

(Intercept) coefficient

3. Criterios para evaluar el modelo.


a. Coeficiente de determinacin R2 y su valor ajustado.
Segn SPSS, se tiene:

b. Tabla ANOVA para la prueba de la hiptesis H0 :


De R se obtiene:

i = 0.

Analysis of Variance Table


Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x8
1 178.09 178.092 31.103 7.381e-06 ***
Residuals 26 148.87 5.726
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

26

28

Los cuales se resumen en la siguiente tabla.

4. Anlisis de residuales y diagnstico para balanceo e influencia.


-4

-2

10

fitted.Modeloyx8

2800

-4

-2

residuals.Modeloyx8

1600

2000

2400

x8

10

1600

1800

2000

2200

2400

2600

2800

lm(y ~ x8)

-1

Standardized residuals

2
0
-4

28

Normal Q-Q
4

-2

Residuals

Residuals vs Fitted

28

10

-2

-1

Fitted values

10

Fitted values

a. Grfico de probabilidad normal.

0.5

18

Cook's distance

-2
4

-1

Standardized residuals

1.2
0.8
0.4

Residuals vs Leverage
4

0.0

Standardized residuals

Scale-Location
28

0
Theoretical Quantiles

0.00

28

0.05

0.10
Leverage

0.5

0.15

0.20

Grfica de probabilidad normal


(la respuesta es y)
99

95
90

Porcentaje

80
70
60
50
40
30
20
10
5

-5,0

-2,5

0,0
Residuo

2,5

5,0

En donde se observa que los residuales se alinean con respecto a la linea


recta (la normal), lo que nos indica que los residuales estn normalmente
distribuidos dentro de un intervalo de confianza.
b.

Grfica de residuales en funcin de los valores ajustados y i .


5

10

7
26

13

12

15

24

23

25

17
21

Residuales

14

20

2
1
16
19

28

10
22

27
-4

-2

18
2

Modelo Ajustado

Esta grfica nos indica que existe un alto porcentaje de dispersin de los
puntos, sin embargo los puntos 5, 7, 27 y 18 podran ser candidatos a ser
outliers. Obsrvese la gran influencia que tiene el punto 27.

c. Grfica de residuales en funcin del regresor.

6
4
2
0
-2

Component+Residual(y)

-4
-6

1600

1800

2000

2200

2400

2600

x8

d. Grfica de residuales en el tiempo.


No hay variables que tengan relacin con el tiempo, por lo tanto no
se aplica
para este modelo.
e. Estadsticas de Correlacin de residuales.
La siguiente imagen muestra que existe cierta correlacin entre el
desempeo de los equipos y su valor pronosticado, aunque existen puntos a ser
candidatos a ser outliers-

2800

0.
Durbin-Watson test
data: y ~ x8
DW = 1.5661, p-value = 0.1027
alternative hypothesis: true autocorrelation is greater than 0
Wilcoxon signed rank test
data: Ejercicio21$fitted.Modeloyx8 and Ejercicio21$residuals.Modeloyx8
V = 404, p-value = 2.235e-08
alternative hypothesis: true location shift is not equal to 0
f. Estadsticas de Homogeneidad de Varianza.
g. Estadsticas de Normalidad de los residuales.

Distribution of Errors

0.0

0.1

0.2

Density

0.3

0.4

Normal Curve
Kernel Density Curve

-2

-1

Studentized Residual
Shapiro-Wilk normality test
data: Ejercicio21$residuals.Modeloyx8
W = 0.9578, p-value = 0.309

h. Prueba de E(") = 0.
evidencia para
se muestra

Al realizar la prueba con los residuales notamos que no existe


rechazar H0: E(") = 0, por lo cual los valores tienen media 0 como
con el siguiente cdigo en R:

5. Diagnstico para balanceo e influencia

24

38
12

19
9

27

Studentized Residuals

18

11 16

13

22

14

-1

25
17

26

20
15

10

21
23

28

0.05

0.10

0.15

0.20

Hat-Values

La grfica de influencias de arriba nos muestra que los puntos ms


influyentes son los puntos 4, 18, 28 son los ms influyentes aunque no
todos stos son candidatos a ser outliers.
La siguiente tabla muestra una comparacin de los valores hat
producidos con R y el cociente entre 6/n, en donde n es el tamao de la
muestra, cuyo valor es 0,2143. Las observaciones de gran influencia son
aquellas cuyos valores hi > 0,2143 y estn marcado de color verde.

Con R, se pueden obtener los puntos influenciales con la instruccin:


cooks.distance(Modeloyx8) , a continuacin se muestra una tabla resume

En donde el punto 27 es el muestra mayor influencia.


a. Estadstica DFFITS.
b. Estadstica DFBETAj,i .
c. Estadstica COVRATIOi
Los siguientes datos se obtienen de la funcion covratio aplicada al
modelo.

.
6. Uso del modelo.
a. Intervalo de confianza para la respuesta E(Y j x0).
b. Un intervalo de prediccin para una observacin futura x0.

2. Los datos de la Tabla 2 contiene los datos reunidos durante un proyecto de


energa solar en el Tecnolgico de Georgia. Ajustando a un modelo de regresin
lineal simple que relacione el flujo total del calor y (kilowats) con la deflexin
radial de los rayos desviados x4 (milirradianes) Realizar un estudio estadstico
completo, haciendo uso de diferentes pruebas estadsticas, con el fin de
aplicarlas y explicarlas para validar el modelo seleccionado. Usar el lenguaje R
para obtener los resultados requeridos, como se indic en clase.

Tabla 2

Respuesta:
1. Propuesta del modelo.
El grfico de dispersin de las variables X e Y. La Fig 2.1 muestra un
a.
diagrama de dispersin entre las variables y y x4

280
260
240
180

200

220

15.5

16.0

16.5

17.0

17.5

18.0

18.5

19.0

x4

Fig. 2.1
En donde se observa que los datos estimados para una regresin lineal
simple presentan una pendiente negativa. Ntese que los datos del Fig.
1.1. estn ms dispersos que los datos de la Fig. 2.1. Mientras que la
mayor dispersin se presenta en el rea central de la grfica.

b.

El coeficiente de correlacin entre las variables y y x4 es de -0.848837,


sto nos indica que las variables y y x4 s estn correlacionadas y el signo
negativo se refiere a una pendiente negativa como se muestra en la Fig.
2.1. La Fig. 1.2 nos indica que las dos variables estn fuertemente
correlacionadas, y ms que el valor obtenido para el ejercicio 1.

2. Estimacin e inferencia sobre los parmetros.


a.

La ecuacin

y 0 1 x representa la recta de regresin lineal con la

que se
intentar explicar el comportamiento de los datos de la Tabla 2.1. Usando
el lenguaje R, se obtiene que los valores correspondientes para

0 y 1

son 607,103 y -21,402 respectivamente. Por lo tanto, sin realizar ningn


tipo de ajustes

el modelo quedar explicado por:

y 607,103 21, 402 x

(2.1)

A continuacin se muestran los resultados con R:

dentro de un intervalo de confianza de -0.9269616 -0.7001507 para un


5% de significancia. El campo (3) de la tabla 2.1 muestra el modelo
ajustado de la ecuacin (2.1) aplicado a los datos de la Tabla 2. A esta
tabla se volver ms adelante. El modelo ajustado est representado en
la linea recta de color verde de la Fig. 2.1

Tabla 2.1
b.

La estimacin de la varianza residual MSR.

Syy = 1821935,73-52410360,25/29 = 14681,9283


SSR = 14681,9283(-21,40116158*-494,2782759)= 4103,79903

2 = 4103,79902784228/(29-2)= 151,992556= MSR


A continuacin se muestran los datos obtenidos con R.

c.

En donde se observa que la varianza se redondea a 152.


Prueba de hiptesis para H0: i= i0.

El valor calculado para Fo=69,609, y el valor para =1%, entonces


F0.01, 1, 27=7,6766844049.
Como Fo > F0.01, 1, 27 , se rechaza Ho: B1=0

Intervalos de Confianza para la estimacin de los parmetros.


Con R se obtiene el intervalo de confianza como sigue:
d.

3. Criterios para evaluar el modelo.


a. Coeficiente de determinacin R2 y su valor ajustado.
Con SPSS se obtiene:

b. Tabla ANOVA para la prueba de la hiptesis H0 :


Analysis of Variance Table

i = 0.

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x4
1 10578.7 10579 69.609 5.935e-09 ***
Residuals 27 4103.2
152
4. Anlisis de residuales y diagnstico para balanceo e influencia.
a. Grfico de probabilidad normal,

b. Grfica de residuales en funcin de los valores ajustados

c. Grfica de residuales en funcin del regresor.


d. Grfica de residuales en el tiempo.
No aplica.
e. Estadsticas de Correlacin de residuales.

Resumen de datos de los Residuales:

y i .

f. Estadsticas de Homogeneidad de Varianza.


g. Estadsticas de Normalidad de los residuales.

Shapiro-Wilk normality test


data: Ejercicio23$residuals.Modeloyx4
W = 0.9793, p-value = 0.8205
Lo cual se presenta dentro de un valor aceptable como prueba de
normalidad.

h. Prueba de E(") = 0.

i.

valores atpicos:

5. Diagnstico para balanceo e influencia


Con R, se pueden obtener los puntos influenciales con la instruccin:
cooks.distance(Modeloyx4) , a continuacin se muestra una tabla resume

En donde los puntos 24 y 25 presentan la mayor influencia en el modelo.


a. Calculo de los hi .

27

18

0.10

0.15

0.05

hatvalues(Modeloyx8)

0.20

Index Plot of Hat Values

10

15
Index

b. Distancia de Cook: Ver campo (7) de la tabla 2.1

20

25

0.30

Cook's distance

0.20
0.15
0.10

28

0.05

0.00

Cook's distance

0.25

18

10

15
Obs. number
lm(y ~ x8)

20

25

Influence Plot
4

1
0
-1

Studentized Residuals

18

28

0.05

0.10

0.15

Hat-Values
Circle size is proportional to Cooks distance

0.20

18

-6

-4

-2

y | others

28
-600

-400

-200

200

400

600

x8 | others
c. Estadstica DFFITS.
d. Estadstica DFBETAj,i .
e. Estadstica COVRATIO
Con R se obtiene los siguiente resultados de la funcin covratio
aplicada al modelo .

6. Uso del modelo.


a. Intervalo de confianza para la respuesta E(Y j x0).
b. Un intervalo de prediccin para una observacin futura x0.

800

Anda mungkin juga menyukai