Anda di halaman 1dari 8

ICN 312 - ECONOMETRÍA

Santiago / Certamen 1 / 20 abril 2006


Prof. Pedro Fernández de la Reguera

NOMBRE:

INDICACIONES

1. Escriba su nombre en cada una de las hojas de respuesta, que se encuentran al final de
este certamen

2. Use los papeles por ambos lados. Debe entregar todas las hojas, incluso las preguntas y
corcheteadas.

3. Puede usar una calculadora sencilla y tablas estadísticas de las distribuciones normal,
t y F sin otra escritura que su nombre.

4. No puede usar teléfonos celulares, "palms", calculadoras gráficas o con programas


estilo Excel. En general, nada capaz de guardar texto.

5. LEA TODA LA PRUEBA ANTES DE COMENZAR A RESPONDER.

6. La prueba consta de 18 preguntas. Responda a las preguntas No. 11 y 12


(obligatorias). Responda a 12 de las restantes 16 preguntas.

7. Todas las preguntas valen lo mismo. Se calificarán de 0 a 10. Nota del certamen =
(suma de puntos) * 100 / 140.

8. La prueba está pensada para una duración de 120 minutos.


ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 2
NOMBRE:

Preguntas para respuestas CORTAS

1. Señale diferencias entre los coeficientes de correlación de Pearson y de Spearman

El coeficiente de Pearson está pensado para relaciones rectilíneas entre dos variables.
Supone variables continuas y muestras grandes. Spearman se aplica a variables en escala
ordinal y sirve para muestras chicas.

2. Se trata de estudiar las ventas mensuales medias de un bien durable en términos del inventario
mensual de las tiendas minoristas (retail), el IMACEC, la tasa de interés de los bonos del
gobierno a 4 y 6 meses y los ingresos mensuales brutos de los trabajadores de la industria (que
se asocian a las ventas en forma exponencial negativa). Construya un modelo adecuado si
dispone de datos mensuales desde enero de 1983 hasta abril de 1990. Justifique la formulación
del modelo.

V = ventas en $; I = Inventario en $; M = IMACEC;

R = Tasa interés, en %; S = sueldos mensuales; IPC = IPC.

Vt = βo + β1 It-1 + β2 Mt-1 + β3 Rt + β4 St-1 + β5 IPCt-1 + εt ;

t = 1, 2, …, 88 (meses)

It-1 = Inventario mes anterior es disponibilidad para este mes

Mt-1 = IMACEC corresponde al mes anterior

Rt = tasa interés es costo del dinero para este mes

St-1 = Salarios mes anterior para ser gastados este mes. También pueden llevar sub índice
t, si se consideran parte de los costos del negocio

IPCt-1 = Se informa rezagado.

3. En un modelo hay que usar la variable exógena NOMBRE que asume los valores Santiago,
Valparaíso, Concepción. Describa cómo la incorporaría al modelo.

Definir 3 variables dicotómicas discriminantes (Di = 1, si la observación proviene de la


ciudad i; 0 si no) y se usan k-1 de estas variables en el modelo para evitar la colinealidad.
ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 3
NOMBRE:

4. ¿Qué diferencia hay entre el R2 y el R2 ajustado?. ¿Para qué sirve uno y el otro?

El R2 es el cuadrado de la correlación múltiple de Y con todas las exógenas X en grupo.


Mide qué tan bien las variables del modelo explican la variabilidad de la endógena Y. El R2
ajustado tiene la misma interpretación; pero, se trata de un valor ajustado por los grados de
libertad y, por lo tanto, al revés del R2, permite comparar la correlación entre modelos.

5. Planteado el modelo muestral Yi = βo + β1X1i + β2X2i + β3X3i + ε i , se lo estima por MCO


obteniendo el modelo estimado Ŷ i = bo + b1X1i + b2X2i + b3X3i. ¿Qué cosa está siendo
estimada por Ŷ i ?

Ŷ i estima dos cosas. Primero y más importante, el promedio poblacional de Y dado el


escenario xi . Luego, menos importante, el valor específico, Yi correspondiente al escenario xi .

6. A un estudiante se le pide escribir el modelo de regresión lineal con una sola variable
independiente. El estudiante responde así: E[Yi] = β0 + β1X1 + εi. ¿Está Ud. de acuerdo con la
respuesta?, ¿por qué?.

No. Al tomar esperanza, la E[ ] de los residuales es cero y, por lo tanto, este término no
debe aparecer en el enunciado.

7. Explique las diferencias entre los conceptos de correlación simple, correlación parcial y
correlación múltiple. ¿Para qué sirve cada uno de ellos?.

La correlación simple expresa el grado de asociación lineal en un modelo de regresión


lineal simple (con dos variables, x e y). Su valor oscila ente [-1,1]

La Correlación parcial busca explicar (dentro de un modelo de regresión múltiple) el


grado de asociación lineal de la respuesta Y con una variable Xi, sin considerar el resto
de las variables del modelo( o sea eliminando el efecto conjunto del resto de las
variables). Su valor oscila ente [-1,1], dependiendo del signo que posea el parámetro Bi
correspondiente.

La correlación múltiple explica el grado de asociación lineal existente en un modelo de


regresión múltiple, entre la variable predicha y todas las predictoras tomadas en
conjunto. Su valor oscila ente [-1,1]

8. ¿Es posible estimar el modelo Y = β0 + β1exp{-0,8(X – 2)}?. Sí/no, por qué, cómo ...

Sí, por MCO. Para ello es suficiente definir X1 = exp{-0,8(X – 2)}. El modelo queda: Yi
= β0 + β1 X1i + εi
ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 4
NOMBRE:

9. Considere un modelo de regresión lineal simple. Obtenga las fórmulas para los estimadores de
los β si las variables X e Y se estandarizan a media cero y varianza uno.

En este caso b0 = y promedio – b1*x promedio = 0, pues ambas tienen media cero.

b1 = Σ xy / Σx2 = σ2 * rXY / S2 = rXY si las varianzas son iguales

10. Comente sobre el resultado anterior.

El intercepto se pierde pero se puede rescatar usando la fórmula b0 = y promedio – b1*x


promedio.

La pendiente es igual o proporcional a la correlación entre X e Y.

Problema OBLIGATORIO

Se estudia la eficacia del control de infecciones nosocómicas (enfermedades venéreas) en los


hospitales. Se quiere determinar si los programas de control y de monitoreo han reducido las tasas
de esta infección, adquirida en los hospitales. Datos ficticios. Muestra aleatoria de 54 hospitales.

Variables son:

X1 = Puntaje que representa la estadía promedio de los pacientes en el hospital


X2 = Edad media de los pacientes, en años
X3 = Riesgo de infección. Probabilidad promedio estimada de adquirir la
infección en el hospital (%)
X4 = Razón (%) del número de cultivos realizados, con respecto al número de
pacientes sin signos o síntomas de haber adquirido la infección en el hospital.

Resultados de la estimación de modelos:

Modelo SCR SCE CME Cp R2 R2 aj


X1 155.274,29 963.657,21 18.531,87 208,5 0,1388 0,1222
X2 343.388,20 775.543,30 14.914,29 158,04 0,3069 0,2936
X3 376.725,09 742.206,41 14.273,20 149,1 0,3367 0,3239
X4 583.808,87 535.122,63 10.290,82 93,55 0,5218 0,5126
X1,X2 460.785,73 658.145,77 12.904,82 128,55 0,4118 0,3887
X1,X3 618.222,28 500.709,22 9.817,83 86,31 0,5525 0,5350
X1,X4 583.947,11 534.984,39 10.489,89 95,51 0,5219 0,5031
X2,X3 737.504,60 381.426,90 7.478,96 54,32 0,6591 0,6457
X2,X4 690.815,59 428.115,92 8.394,43 66,84 0,6174 0,6024
X3 X4 689.519,62 429.411,88 8.419,84 67,19 0,6162 0,6012
ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 5
NOMBRE:

X1,X2,X3 931.546,04 187.385,46 3.747,71 4,27 0,8325 0,8225


X1,X2,X4 693.406,79 425.524,72 8.510,49 68,15 0,6197 0,5969
X1,X3,X4 721.932,02 396.999,48 7.939,99 60,49 0,6452 0,6239
X2,X3,X4 853.000,73 265.930,78 5.318,62 25,34 0,7623 0,7481
X1,X2,X3,X4 936.264,54 182.666,96 3.727,90 5 0,8367 0,8234

Se le pide:

11. Establecer el mejor modelo por el método de todas las regresiones posibles. Debe decidirse por
un solo modelo y explicar sus fundamentos para elegir ese modelo.

12. Desarrollar una iteración completa del método paso a paso mixto o stepwise, a partir de un
modelo con una o dos variables en él.

Preguntas de desarrollo.

Planteo: Y es la renta disponible per capita en los estados del este de los EE. UU., en miles de
dólares, modelada en función del porcentaje de licenciados universitarios en la población de 25
años o más, X, en los diferentes estados, así como el efecto de la región (Norte, Centro, Sur) en la
renta disponible.
Se propone el modelo E[Y | x ] = βo + β1 X + β2 D1 + β3 D2 donde X e Y se definieron arriba y
D1 y D2 son variables discriminantes definidas así:
D1 = 1, si se trata de un estado del Norte; = 0 en caso contrario
D2 = 1, si se trata de un estado del Centro; = 0 en caso contrario
La base son los estados del Sur, definidos por D1 = 0 = D2.

Datos recogidos (observaciones del Centro aparecen en letra negrita):

ID Estado Y X D1 D2 Región
ME 19,76 19,2 1 0 Norte
NH 24,99 26,6 1 0 Norte
VT 20,77 27,1 1 0 Norte
MA 26,72 31 1 0 Norte
RI 23,02 27,8 1 0 Norte
CN 30,22 31,4 1 0 Norte
NY 26,06 26,8 0 1 Centro
NJ 28,31 30,1 0 1 Centro
PA 22,79 22,1 0 1 Centro
DE 24,96 25,1 0 0 Sur
MD 24,90 31,8 0 0 Sur
VA 23,00 30,3 0 0 Sur
ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 6
NOMBRE:

WV 17,12 16,3 0 0 Sur


NC 20,49 23,3 0 0 Sur
SC 18,52 21,3 0 0 Sur
GA 21,27 20,7 0 0 Sur
FL 22,06 22,5 0 0 Sur

Matriz X´X inv = 1,9635 -0,0769 0,1265 0,0611


-0,0769 0,0032 -0,0105 -0,0078
0,1265 -0,0105 0,3261 0,1505
0,0611 -0,0078 0,1505 0,4772
Nota: Filas y columnas corresponden a Xo y las tres variables exógenas

Elementos diagonales de M = H = X(X´X)-1X´ :

m(1, 1) = 0,3716 m( 7, 7) = 0,3340 m(13, 13) = 0,3113


m(2, 2) = 0,1678 m( 8, 8) = 0,3789 m(14, 14) = 0,1262
m(3, 3) = 0,1667 m( 9, 9) = 0,3910 m(15, 15) = 0,1469
m(4, 4) = 0,2135 m(10, 10) = 0,1295 m(16, 16) = 0,1582
m(5, 5) = 0,1679 m(11, 11) = 0,3250 m(17, 17) = 0,1314
m(6, 6) = 0,2238 m(12, 12) = 0,2562 Notación: m(i, i) = mii

Modelo estimado: Ŷ = 8,1573 + 0,5597 X + 0,8761 D1 + 2,8252 D2


i i i i
Desv. típica/estándar de β^: 2,728 0,110 1,112 ¿?

ANOVA g.l. sc cm F calc. Valor-p


Regresión 3 145,06716 48,3557 12,755 0,00036
Residuos 13 49,284997 3,7912
Total 16 194,35215

Usando los resultados que se le entregan en las páginas anteriores, se le pide responder a las
siguientes preguntas:

13. Obtener la desviación estándar de β̂ 3.

De la matriz (X´X)-1 dada, se obtiene (X´X)-144 = 0,4772


De la tabla ANOVA, se obtiene S2 = 3,7912
Var(b3) = 3,7912*0,4772 = 1,2363 = (1,34505)2
La desviación estándar de β̂ 3 = 1,34505.
ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 7
NOMBRE:

14. Interpretar la dócima F de la tabla ANOVA.

El valor-p (4 por 10.000) indica que la hipótesis de que todas las pendientes βj (j = 1, 2, ..., p)
valen cero, a la vez, es rechazada. Por lo tanto, debe existir al menos una β no nula en el modelo
poblacional; es decir, alguna de las variables X (aparte del intercepto) realmente explica la
variación de la endógena Y.

15. Interpretar los coeficientes beta estimados

Modelo estimado: Ŷ = 8,1573 + 0,5597 X + 0,8761 D1 + 2,8252 D2


i i i i
Y = Renta disponible per capita en los estados del este de los EE. UU., en miles de dólares,
X = Porcentaje de licenciados universitarios en la población de 25 años o más,
D = Efecto de la región (Norte, Centro, Sur) en la renta disponible.

• Como D3 no aparece en el modelo, los resultados se comparan sobre la base de los estados del
Sur.
• Existe una renta disponible media general para todos los estados de USA$ 8.157,3 por persona,
que corresponde a los estados del Sur.
• Si el número de licenciados universitarios aumenta en 1%, la renta disponible aumenta en
USA$ 559,7 por persona.
• El hecho de vivir en un estado del Norte implica un aumento de USA$ 876,1 por persona.
• El hecho de vivir en un estado del Centro implica un aumento de USA$ 2.825,2 por persona.
• Los estados del centro aparecen, entonces, como los estados de mayores ingresos personales,
seguidos por los estados del Norte, mientras que los del Sur son los de menores ingresos.

16. Construir UNA dócima individual habitual para UNA βj poblacional (hipótesis, desarrollo,
conclusiones).

Deben presentar UNA de estas dócimas:


Ho: βj = 0, j = 0, 1, 2, 3; Ha: βa <> 0; α = 0,05; t* = t(13; 0,975) = 2,16
Se tiene:
bj = 8,157 0,56 0,876 2,825
Sj = 2,728 0,11 1,1119 1,345
E = bj/Sj 2,990 5,091 0,7878 2,100
Signif = * ** ns ¿?
ICN 312 / Certamen 1 / Santiago / Diurno / 20 abril 2006 8
NOMBRE:

Se decide que los coeficientes del intercepto y de X ( = porcentaje de licenciados universitarios en


la población de 25 años o más ) son significativamente diferentes de cero. No así el caso de D1. El
caso de D2 ( β3 ) es dudoso.

17. ¿ Hay alguna observación influyente ?; ¿por qué?

Considerando los apalancamientos m(i,i) dados, valores cercanos a 1 indican una observación
influyente. Considerando la tabla dada arriba, no hay observaciones influyentes.

18. Estime el ingreso promedio, per capita, en miles de dólares, del estado de New Jersey
(observación No. 8) usando un intervalo al 95 de confianza.

Var( Ŷ 8) = S2*( x8 ´i (X´X) -1 x8i ) = 3,7912 *

1 30,1 0 1 1,9635 -0,0769 0,1265 0,0611 1


-0,0769 0,0032 -0,0105 -0,0078 30,1
0,1265 -0,0105 0,3261 0,1505 0
0,0611 -0,0078 0,1505 0,4772 1

Var( Ŷ 8) = 3,7912 * 0,363192 = 1,3769 = ( 1,1734 )2 t* = t(13, 0,975) = 2,16

Intervalo al 95% de confianza para la media:

E[ Y | x = (1; 30,1; 0; 1)´ ] = 27,8280 ± 2,16 * 1,1734 = 27,828 ± 2,535

O sea, 25,293 ≤ µY ≤ 30,363

Anda mungkin juga menyukai