Anda di halaman 1dari 15

Universidad Nacional de Loja

Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

LIBRO DÍAZ MATA-EJERCICIOS ADICIONALES

4. Una agencia de bienes raíces que desea determinar si existe relación entre los
precios de departamentos en venta y su superficie y la disponibilidad de cuarto
de servicio, obtuvo los siguientes datos de una muestra de departamentos:

Construya una ecuación de regresión lineal múltiple, con el precio como variable
dependiente y plantee las conclusiones que se pueden extraer de ese modelo.

Tabla 1: Ecuación de regresión lineal múltiple

Source SS df MS Number of obs = 15


F(2, 12) = 25.76
Model 593.33397 2 296.666985 Prob > F = 0.0000
Residual 138.222339 12 11.5185283 R-squared = 0.8111
Adj R-squared = 0.7796
Total 731.55631 14 52.2540221 Root MSE = 3.3939

precio Coef. Std. Err. t P>|t| [95% Conf. Interval]

superficie .4046459 .0643611 6.29 0.000 .2644152 .5448766


cuartoconservicio1caurtosinservi 5.779474 1.861835 3.10 0.009 1.722884 9.836064
_cons 75.13573 6.52749 11.51 0.000 60.91355 89.35791

Fuente: Texto de Díaz ejercicio 4


Elaboración propia

𝑦̂ = 75,14 + 0,405𝑥1 + 5,78𝑥2

 En la tabla 1 podemos ver que, si todo permanece constante, se explica que el precio
promedio tendría una constante aproximada de 75.14.
 Tras obtener una unidad más en la superficie, se espera que el precio aumente
aproximadamente en 0.40
 Tras obtener mayor disponibilidad de cuartos de servicio, se espera que el precio de
departamentos en venta aumente aproximadamente en 5.78.

5. Un fabricante desea revisar la relación que tienen las ventas de su producto con
el espacio de anaquel y la ubicación en los pasillos que los supermercados le
otorgan. Para ello, tomó una muestra de 12 supermercados y obtuvo la
información que se muestra en seguida:

Construya una ecuación de regresión lineal múltiple, con las ventas semanales
como variable dependiente y plantee las conclusiones que se pueden extraer de
ese modelo.
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

Tabla 2.- Ecuación de regresión lineal múltiple

ventasporsemanamiles Coef. Std. Err. t P>|t| [95% Conf. Interval]

espacioenanaquelm 2.69548 .4875322 5.53 0.000 1.592606 3.798355


UbicaciónenelpasilloEnmedio0Alpr 5.85 1.985983 2.95 0.016 1.357394 10.34261
_cons 17.46921 2.368109 7.38 0.000 12.11217 22.82625

Fuente: Texto de Díaz ejercicio 5


Elaboración propia

𝑦̂ = 17.47 + 2.70𝑥1 + 5.85𝑥2

 En la tabla 2 podemos ver que, si todas las variables independientes permanecen


constantes, es aproximadamente de 17.47.
 Cuando se obtiene un espacio adicional de, se espera que la venta semanal aumente
aproximadamente en 2.70.
 Cuando se obtiene una unidad adicional en los espacios delos pasillos, se espera que la
venta semanal aumente aproximadamente en 5.85.

Parte A. Realizar e interpretar del libro de Díaz, los ejercicios adicionales 23, 24.

23. Para evaluar la relación que existe entre la edad y la hipertensión con el estado general
de salud, el cual resume la calificación sobre 10 indicadores, se tomó una muestra de 23
sujetos y se obtuvieron los siguientes resultados, en donde 1 representa un individuo con
hipertensión y 0 otro que no la padece.

a) Construya una ecuación de regresión lineal múltiple que describa la relación del estado
de salud como variable dependiente y plantee las conclusiones a las que se pueda llegar
a partir del modelo.

Tabla 3: Resumen estadístico de la regresión lineal múltiple


Source SS df MS Number of obs = 23
F(2, 20) = 64.58
Model 3284.39563 2 1642.19782 Prob > F = 0.0000
Residual 508.581661 20 25.429083 R-squared = 0.8659
Adj R-squared = 0.8525
Total 3792.97729 22 172.408059 Root MSE = 5.0427

estadodesalud Coef. Std. Err. t P>|t| [95% Conf. Interval]

edad -.9225482 .0907671 -10.16 0.000 -1.111885 -.7332113


hipertensoconhipertensia1sinhipe -17.53128 2.209561 -7.93 0.000 -22.14035 -12.92222
_cons 112.5999 5.076784 22.18 0.000 102.0099 123.1899

Fuente: Texto de Díaz ejercicio 23


Elaboración propia
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

En la Tabla 23, se puede constatar que contamos con dos variables independientes como lo son
la edad y la hipertensión.

contamos en la parte superior un resumen de la tabla ANOVA; en donde se observa las sumas
cuadráticas de la regresión es de 3284,40, la de error que es de 508,58 con un total de 3792,98.
De igual manera tenemos las medias cuadráticas: la de regresión es de 1642,20; y la de error es
de 25,43; con un total de 172,41. Los grados de libertad para la regresión es de 2 y para el error
es de 20.

El coeficiente de determinación es de 87 %. Lo que nos explica que la variación del estado de


salud está explicada por la variación de las variables independientes como son la edad y la
hipertensión.

El error de estimación es 5,04, el cual no es significativo con respeto a la media del estado de
salud; por lo que si es posible estimar con un pequeño porcentaje de error.

Ecuación de regresión múltiple:

Ŷ = 𝟏𝟏𝟐, 𝟔𝟎 − 𝟎, 𝟗𝟐𝒙𝟏 −𝟏𝟕, 𝟓𝟑𝒙𝟐

Conclusiones:
A partir de la ecuación de regresión múltiple obtenida, su puede concluir:
 En la tabla 3 podemos ver que, si todo permanece constante, se explica que el estado
de salud tendría una aproximación de 112.60.
 Tras obtener aumentar un año más, se espera que el estado de salud disminuya
aproximadamente en -0.92.
 Tras obtener una persona hipertensión, se espera que el estado de salud disminuya
aproximadamente en -17.53.

b) Interprete el coeficiente de la variable ficticia.


A partir del resumen descriptivo de la Tabla 3, tenemos que el coeficiente de regresión de la
variable ficticia (hipertensión) es de -17,53; por lo que se concluye que el estado de salud de una
persona se detonaría en un 17,53.

24. Para evaluar el efecto de la capacitación y el turno laboral sobre la calidad de la


producción, se tomó una muestra de 40 turnos de trabajo en la fábrica y se determinó la
cantidad de horas que los operarios dedicaron a capacitación, junto con la cantidad de
artículos sin defectos que lograron elaborar en cada uno de los turnos matutino (I),
vespertino (II) y nocturno (III).
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

a) Construya una ecuación de regresión lineal múltiple que describa la relación del número
de artículos sin defectos como variable dependiente y plantee las conclusiones a las que
se pudiera llegar a partir del modelo.
Tabla 4: Resumen estadístico de la regresión lineal múltiple
Source SS df MS Number of obs = 39
F(3, 35) = 69.66
Model 13632635 3 4544211.66 Prob > F = 0.0000
Residual 2283154.76 35 65232.9932 R-squared = 0.8565
Adj R-squared = 0.8443
Total 15915789.7 38 418836.572 Root MSE = 255.41

Artículossindefec~s Coef. Std. Err. t P>|t| [95% Conf. Interval]

Horasdecapacitación 3.035567 .2259274 13.44 0.000 2.57691 3.494224


matutino 586.0978 96.41498 6.08 0.000 390.365 781.8306
nocturno 238.1844 109.9792 2.17 0.037 14.91471 461.454
_cons -142.2606 148.8974 -0.96 0.346 -444.5384 160.0172

Fuente: Texto de Díaz ejercicio 24


Elaboración propia

En la Tabla 4, se puede observar los datos estadísticos de la regresión lineal múltiple en donde
la variable dependiente es “Artículos sin defectos” y se cuenta con 3 variables independientes
como son horas de capacitación turnos matutino y nocturno.

las variables independientes Tenemos en la parte superior un resumen de la tabla AN OVA; en


donde se observa las sumas cuadráticas: la de regresión es de 13632625; la de error que es de
2283154,76 y la total es de 15915789,7. Por otro lado tenemos las medias cuadráticas: la de
regresión es de 4544211,66; la de error es de 65232,99; y la total es de 418836,57. Los grados
de libertad para la regresión es de 3 y para el error es de 35.

El coeficiente de determinación es de 86 %. Lo que nos explica que la variación de los Artículos


sin defectos está explicada por la variación de las variables independientes: horas de
capacitación, turno matutino, turno nocturno.

El error de estimación es 255,41, el cual no es significativo, por lo tanto, no es recomendable


estimar porque el porcentaje de error es grande.

b) Interprete los coeficientes de las variables ficticias.


A partir del resumen descriptivo de la Tabla 4, tenemos que el coeficiente de regresión de la
variable ficticia (turno) es de -142,26; sin embargo, se elimina el turno vespertino debido a que
esta variable no se considera significativa para la variable dependiente.
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

Parte B. Aplicaciones con bases de datos.

1. ¿Cuánto afecta la educación a las tasas salariales? El archivo de datos cps4_small.dat


contiene 1000 observaciones sobre las tasas de salario por hora, educación y otras
variables de la Encuesta de Población Actual (CPS) de 2008.

a. Obtenga las estadísticas de resumen y los histogramas para las variables WAGE
(salario), EDUC (educación). Discuta las características de los datos.

Tabla 5: Resumen estadístico de la regresión lineal múltiple

Variable Obs Mean Std. Dev. Min Max

wage 1,000 20.61566 12.83472 1.97 76.39


educ 1,000 13.799 2.711079 0 21

Fuente: Texto de Díaz


Elaboración propia

En la Tabla 5, se puede observar que para la variable salario, se obtiene una media de 20.61, con
una desviación estándar de 12,83 con un máximo de 76.39 y un mínimo de 1.97. estos
estadísticos nos ayudan a explicar la simetría que se presenta en la variable 1.

Para la variable educación se obtiene una media de 13.79, con una desviación estándar de 2.71
con un máximo de 21 y un mínimo de 0. Por lo cual estos estadísticos nos ayudan a explicar la
simetría que existen en la variable 2.

Figura 1: Histograma de la tasa salarial


.05
.04
.03
Density

.02
.01
0

0 20 40 60 80
earnings per hour

Fuente: Texto de Díaz


Elaboración propia

En la Figura 1; nos muestra que los datos de la variable salario tienen una simetría positiva.
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

Figura 2: Histograma de la educación


.5
.4
.3
Density

.2
.1
0

0 5 10 15 20
years of education

Fuente: Texto de Díaz


Elaboración propia
La Figura 2; nos muestra que los datos de la variable educación tiene una simetría negativa.

b. Estime la regresión lineal entre el salario (wage), educación (EDUC), experiencia (exp),
married (1 si es casado), female (1 si es mujer) y discuta los resultados.

Tabla 6: Resumen estadístico de la regresión lineal múltiple

Fuente: Texto de Díaz


Elaboración propia

Ŷ = −𝟏𝟏, 𝟑𝟓 + 𝟐, 𝟏𝟓𝒙𝟏 +𝟎, 𝟏𝟒𝒙𝟐 + 𝟏, 𝟔𝟔𝒙𝟑 − 𝟒, 𝟒𝟕𝒙𝟒

 En la tabla 6 constatamos si todo lo demás permanece constante, se explica que el


salario promedio tendrá una aproximación de -11.35.
 Tras obtener más educación, se espera que el salario promedio aumente en 2,15.
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

 Tras obtener mayor experiencia, se espera que el salario promedio aumente en un


aproximado de 0,14.
 Tras estar casado, se espera que el salario promedio aumente en aproximado de 0,14.
 Por ser de género femenino se pretende que el salario promedio se reduzca
aproximadamente en un -4,47.

c. Calcule los residuales de mínimos cuadrados ¿Si se cumplen las suposiciones?

Figura 3: diagrama de dispersión entre los residuos y Y estimada


60
40
20
Residuals

0
-20
-40

-10 0 10 20 30 40
Linear prediction

Fuente: Texto de Díaz


Elaboración propia

En la Figura 3, se observa observar que los datos siguen una línea de tendencia igual tienen una
relación positiva débil por lo que se puede concluir que no cumple con los supuestos de
homoscedasticidad ni el supuesto de linealidad.

Figura 4.- histograma de los residuos


.06
.04
Density

.02
0

-40 -20 0 20 40 60
Residuals

Fuente: Texto de Díaz


Elaboración propia

En la figura 4 se puede observar que la campana se encuentra por debajo de los residuos por lo
que concluimos que no se cumple el supuesto de normalidad.
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

Figura 5.- probabilidad normal de los residuos


1.00
0.75
0.50
0.25
0.00

0.00 0.25 0.50 0.75 1.00


Empirical P[i] = i/(N+1)

Fuente: Texto de Díaz


Elaboración propia

En la figura 5 podemos observar que los residuos de encuentran alejados a más de 45 grados
de la recta de regresión por lo tanto se llega a la conclusión que no cumple con el supuesto de
normalidad.

2. El archivo stockton4.dat contiene datos sobre 15009 casas vendidas en Stockton, CA


durante 1996-1998. Las descripciones de las variables se encuentran en el archivo
stockton4.def.

a. Grafique el precio de venta de la parcela (SPRICE) contra el área de vivienda


(LIVAREA) de todas las casas de la muestra.

Figura 6: Diagrama de dispersión del precio de venta de la parcela contra el área de vivienda
800000
600000
400000
200000

10 20 30 40 50
living area, hundreds of square feet

Fuente: Texto de Díaz


Elaboración propia
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

En la Figura 6, se puede observar un diagrama de dispersión entre el precio de venta de la parcela


contra el área de vivienda; el cual tiene una pendiente directa es decir que a medida que aumenta
el precio de venta de la parcela aumentara así mismo el precio de venta.

b. Estime el modelo de regresión lineal para todas las casas en la muestra. Interpreta las
estimaciones (Coeficiente de determinación, pruebas de significancia global e individual)

Tabla 7: Resumen estadístico de la regresión lineal múltiple

Fuente: Texto de Díaz


Elaboración propia

Ecuación de regresión múltiple:

Ŷ = 𝟏𝟔𝟎𝟑𝟏, 𝟏𝟏 + 𝟖𝟖𝟖𝟒, 𝟒𝟖𝒙𝟏 −𝟏𝟎𝟓𝟕𝟏, 𝟖𝟔𝒙𝟐 − 𝟑𝟓𝟑𝟗, 𝟑𝟐𝒙𝟑 +𝟓𝟗𝟓𝟗𝟖, 𝟎𝟐𝒙𝟒 − 𝟏𝟔𝟐, 𝟗𝟒𝒙𝟓 + 𝟏𝟒𝟒𝟕𝟗, 𝟐𝟔𝒙𝟔

En la tabla 7 podemos constatar que el promedio del precio de las parcelas cuando lo demás
permanece constante es aproximadamente de 16031,11.

 Cuando se obtiene una cantidad adicional, se espera que el promedio del precio aumente
aproximadamente en 8884,48.
 Cuando se obtiene una cama adicional, se espera que el precio disminuya
aproximadamente en -10571,86.
 Al obtener una bañera adicional, se espera que el precio disminuya aproximadamente
en -3539,31.
 Al obtener una unidad adicional en el tamaño se espera que el precio promedio aumente
en 59598,02.
 Si se obtiene un año adicional se espera que el precio disminuya en aproximadamente -
162,93
Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

 Al obtener una piscina adicional se espera que el precio promedio aumente


aproximadamente en 14479,26.

PRUEBA DE SIGNIFICANCIA GLOBAL

Ho: b1=b2=b3=0

H1: al menos una es diferente de cero

Nivel de significancia 0.05.


𝑀𝑆𝑅
𝐹 = 𝑀𝑆𝐸

Gl= 6/1493 = 2.099


Se rechaza la hipótesis nula si f calculado es mayor o igual que 2.099
9499.41
𝐹= = 565.42
127.23
Se rechaza la hipótesis nula por lo que al menos una variable es significativa

PRUEBA DE SIGNIFICANCIA INDIVIDUAL

LIVAREA

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-1.96 1.96 gl: 1493 31.60

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

8884.48
𝑇= = 31.60
281.19

Si se rechaza la hipótesis nula por lo que la variable independiente es significativa


Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

BEDS

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-1.96 1.96 gl: 1493 31.60

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

−10571.86
𝑇= = −5.65
1870.12

Si se rechaza la hipótesis nula por lo que la variable independiente es significativa

BATHS

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-1.96 -1.30 1.96 gl: 1493

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

−3539.32
𝑇= = −1.30
2027.87

No se rechaza la hipótesis nula por lo que la variable independiente es no significativa


Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

LIVAREA

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-1.96 1.96 gl: 1493 31.60

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

8884.48
𝑇= = 31.60
281.19

Si se rechaza la hipótesis nula por lo que la variable independiente es significativa

lgelot

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-1.96 1.96 gl: 1493 14.18

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

59598.02
𝑇= = 14.18
4204.45

Si se rechaza la hipótesis nula por lo que la variable independiente es significativa


Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

Age

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-2.15 -1.96 1.96 gl: 1493

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

−162.94
𝑇= = −2.15
75.75
Si se rechaza la hipótesis nula por lo que la variable independiente es significativa

Poll

Ho: b=0

H1:b≠0

Nivel de significancia 0.05


𝑏1 − 0
𝑇=
𝑠𝑏1

ZNR
ZR ZR

-1.96 1.96 gl: 1493 3.81

Se rechaza la hipotesis nula si t calculado es mayor o igual a 1.96 y si es menor o igual a -1.96

14479.29
𝑇= = 3.81
3795.59

Si se rechaza la hipótesis nula por lo que la variable independiente es significativa


Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
Curso: 3 “A”

c. Analice si cumple los supuestos de normalidad, homoscedasticidad y linealidad.

Figura 7 diagrama de dispersión entre los residuos y Y estimada


600000
400000
Residuals

200000

0
-200000

0 100000 200000 300000 400000


Linear prediction

Fuente: Texto de Díaz


Elaboración propia
En la figura 7 se puede observar que los datos siguen una línea de tendencia pareja por lo cual
tiene una relación positiva débil por lo tanto se llegaría a una conclusión que no cumple el
supuesto de homoscedasticidad ni de linealidad.

Figura 8 histograma de residuos


2.0e-05
1.5e-05
Density
1.0e-05
5.0e-06

-200000 0 200000 400000 600000


Residuals

Fuente: Texto de Díaz


Elaboración propia

En la figura 8 claramente se puede observar que la campana se encuentra por debajo de los
residuos por lo que concluimos que no se cumple el supuesto de normalidad.

Figura 9 probabilidad normal de los residuos


Universidad Nacional de Loja
Carrera de Economía
Estadística III
Nombre: George Fernando Lalangui Armijos
Fecha: 06/01/2019
1.00
0.75
0.50
0.25
0.00 Curso: 3 “A”

0.00 0.25 0.50 0.75 1.00


Empirical P[i] = i/(N+1)

Fuente: Texto de Díaz


Elaboración propia

En la figura 9 se puede observar que los residuos están alejados de la recta más de 45 grados
por lo que se concluye que no cumple el supuesto de normalidad.

Anda mungkin juga menyukai