Analisis de Regresion

1.
Los datos de la Tabla 1 estn relacionados con el desempeo de los 26 equipos

de la Liga Nacional de Ftbol en 1976. Se cree que la cantidad de yardas
ganadas por tierra por los contrarios(x8) tienen un efecto sobre la cantidad de
juegos que gana un equipo (y). Realizar un estudio estadstico completo,
haciendo uso de diferentes pruebas estadsticas, con el fin de aplicarlas y
explicarlas para validar el modelo seleccionado. Usar el lenguaje R para obtener
los resultados requeridos, como se indic en clase.
Tabla 1
Respuesta:
1. Propuesta del modelo.

a. El grfico de dispersin de las variables X e Y (realizado con minitab).
La Fig 1.1 muestra un diagrama de dispersin entre las variables y y
x8 con la ecuacin de regresin lineal. Las lineas puntada en color
rojo representan el intervalo de confiaza a un 95%.
Grfica de lnea ajustada

y = 21,79 - 0,007025 x8
Regresin
IC de 95%
I P de 95%
15
S
R-cuad.
R-cuad.(ajustado)
10
2,39287
54,5%
52,7%
-5
1500
1750
2000
2250
x8
2500
2750
3000
Fig. 1.1
En donde se observa que los datos estimados siguen una lnea recta con
pendiente negativa.
b. El coeficiente de correlacin entre las variables y y x8 es de
-0,7380273.
Fig. 1.2
sto nos indica que las variables y y x8 estn correlacionadas y el
signo negativo se refiere a una pendiente negativa como se muestra en la Fig. 1.1.
La Fig. 1.2 nos indica que las dos variables estn fuertemente correlacionadas,
dentro de los intervalos predefinidos, aunque su valor se encuentra en el extremo
derecho, ya que su valor es apenas de -0,73.
2. Estimacin e inferencia sobre los parmetros.
a.
La ecuacin
que se
y 0 1 x representa la recta de regresin lineal con la
intentar explicar el comportamiento de los datos de la Tabla 1.1. Usando

el lenguaje R, se obtiene que los valores correspondientes para
0 y 1
son 21,78851 y -0,007025 respectivamente. Por lo tanto, sin realizar

ningn tipo de ajustes el modelo quedar explicado por:
y 21, 78851 0, 007025 x
(1.1)
Estimate
2.5 %
97.5 %
(Intercept) 21.7882509 16.246064040 27.330437725
x8
-0.0070251 -0.009614347 -0.004435854
Dentro de un intervalo de confianza de -0.009614347 a -0.004435854
para 1 y 16.246064040 a 27.330437725 para 0 para un 5% de
significancia. El campo (4) de la tabla 1.1 muestra el modelo ajustado
de la ecuacin (1.1) aplicado a los datos de la Tabla 1. A esta tabla se
volver ms adelante. El modelo ajustado est representado en la linea
recta de color negro de la Fig. 1.1
Equipo
Y x8
(1)
Washington
Minnesota
New England
Oakland
Pittsburgh
Baltimor
Los ngeles
Dallas
Atlanta
Buffalo
Chicago
Cincinnati
Cleveland
Denver
Detroit
Green Bay
Houston
Kansas City
Miami
Nueva Orleans
Nueva York Giants
Nueva York Jets
Philadelphia
St, Louis
San Diego
San Francisco
Seattle
Tampa Bay
(2)
10
11
11
13
10
11
10
11
4
2
7
10
9
9
6
5
5
5
6
4
3
3
4
10
6
8
2
0
cooks
Fitted
residuals rstudent
hatvalues distance
Modeloyx8 Modeloyx8 Modeloyx8 Modeloyx8 Modeloyx8 obsNumber
(3)
2205
2096
1847
1903
1457
1848
1564
1821
2577
2476
1984
1917
1761
1709
1901
2288
2072
2861
2411
2289
2203
2592
2053
1979
2048
1786
2876
2560
(4)
6,30
7,06
8,81
8,42
11,55
8,81
10,80
9,00
3,68
4,39
7,85
8,32
9,42
9,78
8,43
5,71
7,23
1,69
4,85
5,71
6,31
3,58
7,37
7,89
7,40
9,24
1,58
3,80
(5)
(6)
3,70
3,94
2,19
4,58
-1,55
2,19
-0,80
2,00
0,32
-2,39
-0,85
1,68
-0,42
-0,78
-2,43
-0,71
-2,23
3,31
1,15
-1,71
-3,31
-0,58
-3,37
2,11
-1,40
-1,24
0,42
-3,80
Tabla 1.1
b.
La estimacin de la varianza residual MSR.
1,63
1,74
0,94
2,08
-0,70
0,94
-0,35
0,86
0,14
-1,04
-0,36
0,71
-0,18
-0,34
-1,04
-0,30
-0,95
1,58
0,49
-0,72
-1,44
-0,25
-1,46
0,90
-0,59
-0,53
0,19
-1,73
(7)
(8)
0,04
0,04
0,05
0,05
0,15
0,05
0,12
0,06
0,10
0,07
0,04
0,05
0,07
0,08
0,05
0,04
0,04
0,19
0,06
0,04
0,04
0,10
0,04
0,04
0,04
0,06
0,20
0,09
(9)
0,05
0,05
0,03
0,10
0,05
0,03
0,01
0,02
0,00
0,04
0,00
0,01
0,00
0,01
0,03
0,00
0,02
0,28
0,01
0,01
0,04
0,00
0,04
0,02
0,01
0,01
0,00
0,14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Syy = 1685-38025/28 = 326,9643

SSR = 326,9643-(-0,00702510027*-25350,85714)= 148,87197
2 = 148,87197/(28-2)= 5,7258451 = MSR

Usando SPSS, se comprueba:
c.
i= i0.
El valor calculado para Fo=31,103, y el valor para =1%, entonces
F0.01, 1, 26=7,721254458.
Prueba de hiptesis para H0:
Como Fo > F0.01, 1, 26 , se rechaza Ho: B1=0

d.
Intervalos de Confianza para la estimacin de los parmetros.

Usando el valor anterior:
5, 72584509285715
= 0,00125964955
3608611, 429
t0,025,1, 26 = 2,055529439
1 2,055529439*0,00125964955
de donde:
1 = -25350,85714/3608611.429 = -0,00702510027
Se calcula el intervalo de confianza del punto medio:
-0,00702510027 - 0,00258924673 1 -0,00702510027 +0,00258924673
-0,009614347 -0,004435854
1
Ntese que el intervalo de confianza es menor en el punto medio (Fig.

1.1, linea punteada), mientras que se va ensanchando a los extremos.
Comprobando estos resultados con R:
La siguiente imagen muestra la elipse de confianza del modelo.
-0.006
-0.008
-0.010
x8 coefficient
-0.004
Region de Confianza
16
18
20
22
24
(Intercept) coefficient
3. Criterios para evaluar el modelo.

a. Coeficiente de determinacin R2 y su valor ajustado.
Segn SPSS, se tiene:
b. Tabla ANOVA para la prueba de la hiptesis H0 :

De R se obtiene:
i = 0.
Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x8
1 178.09 178.092 31.103 7.381e-06 ***
Residuals 26 148.87 5.726
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
26
28
Los cuales se resumen en la siguiente tabla.
4. Anlisis de residuales y diagnstico para balanceo e influencia.

-4
-2
10
fitted.Modeloyx8
2800
-4
-2
residuals.Modeloyx8
1600
2000
2400
x8
10
1600
1800
2000
2200
2400
2600
2800
lm(y ~ x8)
-1
Standardized residuals
2
0
-4
28
Normal Q-Q
4
-2
Residuals
Residuals vs Fitted
28
10
-2
-1
Fitted values
10
Fitted values
a. Grfico de probabilidad normal.
0.5
18
Cook's distance
-2
4
-1
1.2
0.8
0.4
Residuals vs Leverage
4
0.0
Scale-Location
28
0
Theoretical Quantiles
0.00
28
0.05
0.10
Leverage
0.5
0.15
0.20
Grfica de probabilidad normal

(la respuesta es y)
99
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-5,0
-2,5
0,0
Residuo
2,5
5,0
En donde se observa que los residuales se alinean con respecto a la linea

recta (la normal), lo que nos indica que los residuales estn normalmente
distribuidos dentro de un intervalo de confianza.
b.
Grfica de residuales en funcin de los valores ajustados y i .

5
10
7
26
13
12
15
24
23
25
17
21
Residuales
14
20
2
1
16
19
28
10
22
27
-4
-2
18
2
Modelo Ajustado
Esta grfica nos indica que existe un alto porcentaje de dispersin de los
puntos, sin embargo los puntos 5, 7, 27 y 18 podran ser candidatos a ser
outliers. Obsrvese la gran influencia que tiene el punto 27.
c. Grfica de residuales en funcin del regresor.
6
4
2
0
-2
Component+Residual(y)
-4
-6
1600
1800
2000
2200
2400
2600
x8
d. Grfica de residuales en el tiempo.

No hay variables que tengan relacin con el tiempo, por lo tanto no
se aplica
para este modelo.
e. Estadsticas de Correlacin de residuales.
La siguiente imagen muestra que existe cierta correlacin entre el
desempeo de los equipos y su valor pronosticado, aunque existen puntos a ser
candidatos a ser outliers-
2800
0.
Durbin-Watson test
data: y ~ x8
DW = 1.5661, p-value = 0.1027
alternative hypothesis: true autocorrelation is greater than 0
Wilcoxon signed rank test
data: Ejercicio21$fitted.Modeloyx8 and Ejercicio21$residuals.Modeloyx8
V = 404, p-value = 2.235e-08
alternative hypothesis: true location shift is not equal to 0
f. Estadsticas de Homogeneidad de Varianza.
g. Estadsticas de Normalidad de los residuales.
Distribution of Errors
0.0
0.1
0.2
Density
0.3
0.4
Normal Curve
Kernel Density Curve
-2
-1
Studentized Residual
Shapiro-Wilk normality test
data: Ejercicio21$residuals.Modeloyx8
W = 0.9578, p-value = 0.309
h. Prueba de E(") = 0.
evidencia para
se muestra
Al realizar la prueba con los residuales notamos que no existe

rechazar H0: E(") = 0, por lo cual los valores tienen media 0 como
con el siguiente cdigo en R:
5. Diagnstico para balanceo e influencia
24
38
12
19
9
27
Studentized Residuals
18
11 16
13
22
14
-1
25
17
26
20
15
10
21
23
28
0.05
0.10
0.15
0.20
Hat-Values
La grfica de influencias de arriba nos muestra que los puntos ms

influyentes son los puntos 4, 18, 28 son los ms influyentes aunque no
todos stos son candidatos a ser outliers.
La siguiente tabla muestra una comparacin de los valores hat
producidos con R y el cociente entre 6/n, en donde n es el tamao de la
muestra, cuyo valor es 0,2143. Las observaciones de gran influencia son
aquellas cuyos valores hi > 0,2143 y estn marcado de color verde.
Con R, se pueden obtener los puntos influenciales con la instruccin:

cooks.distance(Modeloyx8) , a continuacin se muestra una tabla resume
En donde el punto 27 es el muestra mayor influencia.

a. Estadstica DFFITS.
b. Estadstica DFBETAj,i .
c. Estadstica COVRATIOi
Los siguientes datos se obtienen de la funcion covratio aplicada al
modelo.
.
6. Uso del modelo.
a. Intervalo de confianza para la respuesta E(Y j x0).
b. Un intervalo de prediccin para una observacin futura x0.
2. Los datos de la Tabla 2 contiene los datos reunidos durante un proyecto de

energa solar en el Tecnolgico de Georgia. Ajustando a un modelo de regresin
lineal simple que relacione el flujo total del calor y (kilowats) con la deflexin
radial de los rayos desviados x4 (milirradianes) Realizar un estudio estadstico
completo, haciendo uso de diferentes pruebas estadsticas, con el fin de
aplicarlas y explicarlas para validar el modelo seleccionado. Usar el lenguaje R
para obtener los resultados requeridos, como se indic en clase.
Tabla 2
Respuesta:
1. Propuesta del modelo.
El grfico de dispersin de las variables X e Y. La Fig 2.1 muestra un
a.
diagrama de dispersin entre las variables y y x4
280
260
240
180
200
220
15.5
16.0
16.5
17.0
17.5
18.0
18.5
19.0
x4
Fig. 2.1
En donde se observa que los datos estimados para una regresin lineal
simple presentan una pendiente negativa. Ntese que los datos del Fig.
1.1. estn ms dispersos que los datos de la Fig. 2.1. Mientras que la
mayor dispersin se presenta en el rea central de la grfica.
b.
El coeficiente de correlacin entre las variables y y x4 es de -0.848837,

sto nos indica que las variables y y x4 s estn correlacionadas y el signo
negativo se refiere a una pendiente negativa como se muestra en la Fig.
2.1. La Fig. 1.2 nos indica que las dos variables estn fuertemente
correlacionadas, y ms que el valor obtenido para el ejercicio 1.
2. Estimacin e inferencia sobre los parmetros.

a.
La ecuacin
y 0 1 x representa la recta de regresin lineal con la
que se
intentar explicar el comportamiento de los datos de la Tabla 2.1. Usando
el lenguaje R, se obtiene que los valores correspondientes para
0 y 1
son 607,103 y -21,402 respectivamente. Por lo tanto, sin realizar ningn

tipo de ajustes
el modelo quedar explicado por:
y 607,103 21, 402 x
(2.1)
A continuacin se muestran los resultados con R:
dentro de un intervalo de confianza de -0.9269616 -0.7001507 para un

5% de significancia. El campo (3) de la tabla 2.1 muestra el modelo
ajustado de la ecuacin (2.1) aplicado a los datos de la Tabla 2. A esta
tabla se volver ms adelante. El modelo ajustado est representado en
la linea recta de color verde de la Fig. 2.1
Tabla 2.1
b.
La estimacin de la varianza residual MSR.
Syy = 1821935,73-52410360,25/29 = 14681,9283

SSR = 14681,9283(-21,40116158*-494,2782759)= 4103,79903
2 = 4103,79902784228/(29-2)= 151,992556= MSR

A continuacin se muestran los datos obtenidos con R.
c.
En donde se observa que la varianza se redondea a 152.

Prueba de hiptesis para H0: i= i0.
El valor calculado para Fo=69,609, y el valor para =1%, entonces

F0.01, 1, 27=7,6766844049.
Como Fo > F0.01, 1, 27 , se rechaza Ho: B1=0
Intervalos de Confianza para la estimacin de los parmetros.

Con R se obtiene el intervalo de confianza como sigue:
d.
3. Criterios para evaluar el modelo.

a. Coeficiente de determinacin R2 y su valor ajustado.
Con SPSS se obtiene:
b. Tabla ANOVA para la prueba de la hiptesis H0 :

Analysis of Variance Table
i = 0.
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x4
1 10578.7 10579 69.609 5.935e-09 ***
Residuals 27 4103.2
152
4. Anlisis de residuales y diagnstico para balanceo e influencia.
a. Grfico de probabilidad normal,
b. Grfica de residuales en funcin de los valores ajustados
c. Grfica de residuales en funcin del regresor.

d. Grfica de residuales en el tiempo.
No aplica.
e. Estadsticas de Correlacin de residuales.
Resumen de datos de los Residuales:
y i .
f. Estadsticas de Homogeneidad de Varianza.

g. Estadsticas de Normalidad de los residuales.
Shapiro-Wilk normality test

data: Ejercicio23$residuals.Modeloyx4
W = 0.9793, p-value = 0.8205
Lo cual se presenta dentro de un valor aceptable como prueba de
normalidad.
h. Prueba de E(") = 0.
i.
valores atpicos:
5. Diagnstico para balanceo e influencia

Con R, se pueden obtener los puntos influenciales con la instruccin:
cooks.distance(Modeloyx4) , a continuacin se muestra una tabla resume
En donde los puntos 24 y 25 presentan la mayor influencia en el modelo.

a. Calculo de los hi .
27
18
0.10
0.15
0.05
hatvalues(Modeloyx8)
0.20
Index Plot of Hat Values
10
15
Index
b. Distancia de Cook: Ver campo (7) de la tabla 2.1
20
25
0.30
Cook's distance
0.20
0.15
0.10
28
0.05
0.00
Cook's distance
0.25
18
10
15
Obs. number
lm(y ~ x8)
20
25
Influence Plot
4
1
0
-1
Studentized Residuals
18
28
0.05
0.10
0.15
Hat-Values
Circle size is proportional to Cooks distance
0.20
18
-6
-4
-2
y | others
28
-600
-400
-200
200
400
600
x8 | others
c. Estadstica DFFITS.
d. Estadstica DFBETAj,i .
e. Estadstica COVRATIO
Con R se obtiene los siguiente resultados de la funcin covratio
aplicada al modelo .
6. Uso del modelo.

a. Intervalo de confianza para la respuesta E(Y j x0).
b. Un intervalo de prediccin para una observacin futura x0.
800

Analisis de Regresion

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis de Regresion

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

Los datos de la Tabla 1 estn relacionados con el desempeo de los 26 equipos

1. Propuesta del modelo.

Grfica de lnea ajustada

y 0 1 x representa la recta de regresin lineal con la

intentar explicar el comportamiento de los datos de la Tabla 1.1. Usando

son 21,78851 y -0,007025 respectivamente. Por lo tanto, sin realizar

y 21, 78851 0, 007025 x

La estimacin de la varianza residual MSR.

Syy = 1685-38025/28 = 326,9643

2 = 148,87197/(28-2)= 5,7258451 = MSR

Prueba de hiptesis para H0:

Como Fo > F0.01, 1, 26 , se rechaza Ho: B1=0

Intervalos de Confianza para la estimacin de los parmetros.

Ntese que el intervalo de confianza es menor en el punto medio (Fig.

La siguiente imagen muestra la elipse de confianza del modelo.

3. Criterios para evaluar el modelo.

b. Tabla ANOVA para la prueba de la hiptesis H0 :

Analysis of Variance Table

Los cuales se resumen en la siguiente tabla.

4. Anlisis de residuales y diagnstico para balanceo e influencia.

a. Grfico de probabilidad normal.

Grfica de probabilidad normal

En donde se observa que los residuales se alinean con respecto a la linea

Grfica de residuales en funcin de los valores ajustados y i .

c. Grfica de residuales en funcin del regresor.

d. Grfica de residuales en el tiempo.

Al realizar la prueba con los residuales notamos que no existe

5. Diagnstico para balanceo e influencia

La grfica de influencias de arriba nos muestra que los puntos ms

Con R, se pueden obtener los puntos influenciales con la instruccin:

En donde el punto 27 es el muestra mayor influencia.

2. Los datos de la Tabla 2 contiene los datos reunidos durante un proyecto de

El coeficiente de correlacin entre las variables y y x4 es de -0.848837,

2. Estimacin e inferencia sobre los parmetros.

y 0 1 x representa la recta de regresin lineal con la

son 607,103 y -21,402 respectivamente. Por lo tanto, sin realizar ningn

el modelo quedar explicado por:

y 607,103 21, 402 x

A continuacin se muestran los resultados con R:

dentro de un intervalo de confianza de -0.9269616 -0.7001507 para un

La estimacin de la varianza residual MSR.

Syy = 1821935,73-52410360,25/29 = 14681,9283

2 = 4103,79902784228/(29-2)= 151,992556= MSR

En donde se observa que la varianza se redondea a 152.

El valor calculado para Fo=69,609, y el valor para =1%, entonces

Intervalos de Confianza para la estimacin de los parmetros.

3. Criterios para evaluar el modelo.

b. Tabla ANOVA para la prueba de la hiptesis H0 :

b. Grfica de residuales en funcin de los valores ajustados

c. Grfica de residuales en funcin del regresor.

Resumen de datos de los Residuales:

f. Estadsticas de Homogeneidad de Varianza.

Shapiro-Wilk normality test

5. Diagnstico para balanceo e influencia

En donde los puntos 24 y 25 presentan la mayor influencia en el modelo.

Index Plot of Hat Values

b. Distancia de Cook: Ver campo (7) de la tabla 2.1

6. Uso del modelo.

Anda mungkin juga menyukai