Anda di halaman 1dari 68

INTRODUCCIN A LOS MTODOS

ECONOMTRICOS Y SERIES DE TIEMPO


(Primera versin de borrador, slo para revisin y discusin, 28 de
noviembre 2016)

Pedro Pablo Ramrez Moreno


Universidad Autnoma Chapingo

Centro de Investigaciones Econmicas, Sociales y Tecnolgicas de la Agricultura y


Agroindustria Mundial (CIESTAAM)

Dixia Dania Vega Valdivia


Universidad Autnoma Chapingo

Divisin de Ciencias Econmicas y Administrativas (DICEA)

2016
CAPITULO 2

MODELOS DE REGRESION LINEAL SIMPLE

Contenido
2.1 Introduccin
2.1.1. El modelo econmico
2.1.2. El modelo economtrico
2.1.3. Otros modelos econmicos
2.1.4. Incorporacin del trmino error
2.1.4.1. La media del valor del trmino error, dado X, es cero
2.1.4.2. Qu comprende el error aleatorio e?
2.1.5. El supuesto de que la variable X no es aleatoria.
2.2. Descripcin del modelo.
2.2.1. Supuestos del modelo.
2.3. Estimacin de los parmetros por mnimos cuadrados ordinarios.
2.4. Supuestos con relacin al trmino error.
2.5. Propiedades de los estimadores mnimo-cuadrticos.
2.6. Anlisis de varianza en el modelo de regresin lineal simple.
2.7 Factores que afectan la precisin de los estimadores MCO de 1 y 2
2.8 El clculo de elasticidades
2.9. Coeficiente de determinacin R2.
2.9.1 El coeficiente de determinacin ajustado o R2 ajustado
2.9.2 Anlisis de correlacin y R2 en el modelo de regresin lineal
simple
2.10. Coeficiente de correlacin simple.
2.11. Pruebas de significancia e intervalos de confianza para los
parmetros.
2.12. Uso del modelo para pronosticacin.
2.13. Regresin a travs del origen

Anexo 1. Ejercicio de RLS en EViews y comparacin con SAS


OBJETIVOS DE APRENDIZAJE DEL CAPTULO MODELOS DE REGRESIN LINEAL SIMPLE

Al terminar este captulo, el estudiante debe ser capaz de:


1. Explicar la diferencia entre un estimador y un valor estimado, y por
qu los estimadores MCO son variables aleatorias, y por qu un
valor estimado MCO no lo es.
2. Interpretar los parmetros pendiente e intercepto del modelo de
regresin lineal simple, y dibujar el grfico de una ecuacin
estimada.
3. Explicar la descomposicin terica de una variable observable Y
en sus componentes sistemtica y aleatoria, y mostrar grficamente
esta descomposicin.
4. Discutir y explicar cada uno de los supuestos del modelo de
regresin lineal simple
5. Explicar cmo se usa el principio de mnimos cuadrados para
ajustar una lnea a travs de una nube de puntos. Ser capaz de
definir los residuos de mnimos cuadrados y los valores ajustados
de la variable dependiente y mostrar esto en un grfico.
6. Definir la elasticidad de Y con respecto a X y explicar su clculo
en el modelo de regresin lineal simple cuando Y y X no son
transformadas de ninguna manera.
7. Explicar el significado del argumento si los supuestos del modelo de
regresin se cumplen, entonces el estimador MCO 2 es insesgado.
En especial, qu significa exactamente insesgado? Por qu 2 es
sesgado si una variable importante ha sido omitida en el modelo?
8. Explicar el significado de la frase variabilidad muestral
9. Explicar cmo los factores 2, (xi x)2 y N afectan la precisin
con la cual podemos estimar el parmetro desconocido 2.
10. Establecer y explicar el teorema de Gauss-Markov

2.1 Introduccin

El anlisis de regresin se puede definir como la aplicacin de un


conjunto de tcnicas cuantitativas, derivadas de la teora estadstica,
destinadas a estimar modelos que relacionan en forma funcional
variables de inters en el anlisis de fenmenos econmicos (Gujarati,
2009). Por ejemplo, la atencin podra centrarse en estimar un modelo
que relacione la productividad agrcola con aquellos factores que la
influencian, como pueden ser el uso de fertilizantes, calidad de las
semillas, o, el indicador de innovacin, etc.
En la Figura 2-1 se ilustra un modelo de regresin lineal simple (observe
que Xo denota en esta figura un valor especfico de la variable
independiente X). La ordenada al origen o y la pendiente 1 se
denominan parmetros de regresin. Como no conocemos los valores
verdaderos de estos parmetros, es necesario utilizar los datos de una
muestra para estimarlos.

Figura 2-1. El modelo de regresin lineal simple


(1>0)

Un valor observado de
Y cuando x = xo Recta definida por la
ecuacin: Y= o + 1x

Trmino
error

Valor medio de Y
Pendiente cuando x igual a xo
= 1

Cambio de una
unidad de x
o

Ordenada al origen

xo
Un valor especfico de la
variable independiente x

En los proyectos de inversin, en la planeacin y en el anlisis histrico


de fenmenos econmicos, la regresin lineal ha sido un instrumento
complementario a otras tcnicas y teoras para establecer relaciones
cuantitativas entre variables de inters.

Con el modelo de regresin lineal simple se quieren conocer las


interrelaciones entre dos variables, de las cuales por lo menos una es una
variable aleatoria (normalmente es la variable dependiente). Con este fin,
se recoge una serie de observaciones para medirlas. Cada observacin
consiste en un par de medidas (X,Y) que pueden ser representadas
grficamente por medio del llamado "diagrama de dispersin". Ver
Figura 2-2.
9

5
Y

0
0 5 10 15 20 25 30 35
X

Figura 2.2. Diagrama de dispersin.

En general, el modelo de regresin lineal simple se puede representar de


la siguiente forma general:

Y = f(X, )
Que debe leerse como que Y est en funcin de X y de un trmino error
aleatorio )

Normalmente a Y se le conoce como la variable aleatoria dependiente, o


simplemente "variable dependiente", puesto que depende de la variable
independiente X, que puede o no ser aleatoria. En la teora de la
regresin, X no debe ser una variable aleatoria, aunque en la
representacin de los fenmenos econmicos casi siempre lo es. Estas dos
variables (Y, X) son conocidas tambin con otras denominaciones como
las que aparecen en el cuadro 2.1.
Cuadro 2.1. Diferentes denominaciones de las variables en un
modelo de regresin lineal simple.

Y X

Variable dependiente Variable independiente

Variable explicada Variable explicativa

Variable de respuesta Variable de control

Variable predicha Variable predictora

Variable regresada Variable regresor


Fuente: Wooldrige, pag 23.

Los siguientes ejemplos ilustran aquellas situaciones en que X es una


variable aleatoria y cuando no lo es. Ntese que en los problemas de
economa es muy raro disponer de informacin experimental para alguna
variable o factor, por lo que generalmente se trabajar con variables
explicativas aleatorias.

X como variable no
aleatoria

Y X
Ganancia en peso Consumo de caloras
(Fijado por el experimentador)
Tasa de crecimiento de Temperatura controlada
las plantas

X como variable aleatoria

Y X
Tasa de inflacin Tasa dedesempleo
Cantidad demandada Precio del maz
de maz
Calificaciones promedios Calificaciones promedios
en la universidad en la preparatoria

Es importante tener presente que la relacin de causa y efecto puede o


no estar presente en el modelo. Es muy probable que X y Y estn
relacionadas porque ambas tienen un efecto comn. Por ejemplo, el
promedio de calificaciones en la universidad y en la preparatoria estn
relacionadas por un efecto comn: la inteligencia del alumno. Si no existe
una teora que explique la relacin de causalidad entre las variables, se
corre el riesgo de estimar una relacin espuria o sin sentido.

Regresiones espurias

Este tipo de regresiones se obtienen cuando an no existiendo relacin real alguna entre las variables
involucradas en el modelo propuesto (generalmente series temporales), la correlacin obtenida entre ellas
aparece como alta, de forma que las pruebas estadsticas y el R 2 del ajuste indican, equivocadamente, que el
modelo es estadsticamente correcto. El problema de las regresiones esprias fue analizado por primera vez
por Granger y Newbold (1974) y puede sintetizarse diciendo que cuando se llevan a cabo regresiones entre
series temporales econmicas expresadas en niveles, es muy probable encontrar relaciones con un valor
elevado del coeficiente de determinacin y valor pequeo del estadstico Durbin-Watson, lo que puede
invalidar la relacin estimada en el modelo. Ante esta situacin los estimadores mnimo cuadrticos de los
coeficientes del modelo pueden ser ineficientes y los estimadores de los errores estndar pueden resultar
inconsistentes. Si las variables de un modeo son estacionarias, se refuerza bastante la estabilidad del mismo.
Lo mismo ocurre si las variables estn excentas de estacionalidad. Por tanto convienen variables
desestacionalizadas y estacionarias en los modelos para que sean estables. (Prez, 2008).

El modelo de regresin lineal simple es uno de los modelos ms verstiles


y utilizados en el anlisis economtrico. Segn Gujarati (2010) el modelo
lineal simple, a pesar de sus limitaciones, es muy popular como
herramienta economtrica, porque:

Proporciona una aproximacin til y razonable para muchas


situaciones.
Las matemticas y los clculos involucrados no son difciles.
Conociendo la teora y prctica de la regresin lineal simple, se hace
ms fcil comprender modelos de regresin ms complejos.

NOTA HISTORICA

Parece que Sir Francis Dalton (1822-1911), conocido antroplogo y meteorlogo britnico
fue el responsable de la introduccin de la palabra "regresin". Originalmente Dalton
emple el trmino "reversin" en su carta no publicada "Leyes tpicas de la herencia en el
hombre" dirigida a la Institucin Real el 9 de febrero de 1877. El trmino regresin aparece
en su intervencin presidencial ante la Seccin H de la Asociacin Britnica en Aberdeen,
en 1885, publicada en Nature, Septiembre de 1885, 507-510 y tambin en su trabajo
"Regresin hacia la media en la herencia de la estatura" aparecido en el Journal of the
Anthropological Institute, 15, 1885, 246-263.

Sin embargo, el mtodo de los mnimos cuadrados era conocido mucho antes de la poca de
Dalton. Existe una controversia en torno a quin fue el primero que descubri el mtodo de
los mnimos cuadrados. Parece que fue descubierto independientemente por Carl Friedrich
Gauss (1777-1855) y Adrien Marie Legendre (1752-1833) y que Gauss comenz a usarlo
antes de 1803 (el alega que fue alrededor de 1795, pero no hay corroboracin de esta fecha
tan antigua) y que el primer reporte fue hecho por Legendre en 1805. Cuando Gauss
escribi en 1809 de que el haba utilizado el mtodo antes de la fecha de la publicacin de
Legendre, comenz la discusin.

Artculos recomendados:

R. L. Plackett. Studies in the History of Probability and Statistics. XXIX. The discovery of
the method of least squares.

Biometrika, 59, 1972, 239-251. C. Eisenhart The Meaning of "Least" in Least Squares.
Journal of the Washington Academy of Sciences. 54, 1964, 24-33.

2.1.1. El modelo econmico

En la literatura econmica se pueden encontrar numerosas discusiones


sobre las relaciones entre pares de variables: cantidad y precios; consumo
e ingreso; demanda de dinero y tasa de inters; balanza comercial y tipo
de cambio; educacin e ingreso; desempleo y tasa de inflacin; entre
muchas otras.

En especial, los analistas e investigadores, estn interesados en estudiar


la relacin entre variables, por ejemplo, la relacin entre Y = gasto
semanal por persona en alimentos y X = ingreso semanal de las familias.
En primer lugar, hay que recurrir a la teora econmica para establecer
una relacin: la teora nos dice que el gasto en alimentos depende del
ingreso. Por lo tanto, podemos llamar a Y la variable dependiente y a X
como la variable independiente o variable explicativa.

En econometra suponemos que el gasto en alimentos en el mundo real es


una variable aleatoria, y vamos a utilizar una base de datos para analizar
esta relacin. El anlisis economtrico de las relaciones de los gastos
puede proporcionar respuestas a importantes preguntas tales como Si el
ingreso semanal se incrementa en $100, cunto crecer en promedio el
gasto en alimentos? O esta otra, Puede el gasto en alimentos bajar
mientras el ingreso sube? Cunto podra ser el gasto semanal por
persona en alimentos para una familia cuyos ingresos son de $10,000?
Las respuestas a estas preguntas proporcionarn informacin valiosa
para la toma de decisiones.

Utilizando la informacin sobre el gasto en alimentos por persona, se


puede determinar las semejanzas y disparidades en los hbitos de
consumo de hogares de diferentes tamaos, razas, ingresos, reas
geogrficas y otras caractersticas socioeconmicas y demogrficas. Esta
informacin es valiosa para evaluar las condiciones existentes de
mercado. Combinadas con proyecciones demogrficas y de ingresos, esta
informacin puede servir para conocer tendencias futuras.

La informacin tambin es til para definir canastas bsicas tpicas de


alimentos para grupos especiales de poblacin, por ejemplo para los de
la tercera edad o para los consumidores rurales. Estas canastas de
mercado pueden, a su vez, ser utilizadas para desarrollar ndices de
precios ajustados a los patrones de consumo de estos grupos de
poblacin.

En la mayora de los textos de economa las funciones del consumo o


gasto que relacionan el consumo con el ingreso se representan por
medio de relaciones lineales, y comenzaremos suponiendo lo mismo. La
representacin matemtica de nuestro modelo econmico del gasto en
alimento de los hogares, ilustrado en la figura 2.2 es:

(|) = / = + (2.1)

E(Y/X)

(|) = 1 + 2
Gasto en
alimentos
(/)
(/) (/)
2 = =

X
Ingresos

Figura 2.3. El modelo econmico: relacin lineal entre el promedio del consumo en alimentos por
persona y los ingresos.

La media condicional E(Y/X)1 se denomina una funcin de regresin


simple. Se llama as no porque sea una funcin fcil, sino porque hay una
sola variable explicativa X en el lado derecho de la ecuacin. Los
parmetros desconocidos 1 y 2 son el intercepto y la pendiente de la
funcin de regresin respectivamente (2.1). En nuestro ejemplo del gasto
en alimentos el intercepto 1 representa el gasto promedio semanal en
alimentos de aquellas familias que no tienen ingresos X = $0. Si los
ingresos se miden en pesos mexicanos, entonces la pendiente 2
representa el cambio en E(X/Y) dado el cambio en $1 en el ingreso
semanal; se puede llamar la propensin marginal al consumo de
alimentos.

Algebraicamente:

(/) (/)
= =

En donde d denota el cambio en Y y dE(Y/X) = dX denota la derivada de


E(Y/X) con respecto a X.

El modelo econmico resume lo que la teora nos dice acerca de la


relacin entre el ingreso familiar semanal (X) y el gasto esperado en
alimentos, E(Y/X). Los parmetros del modelo son cantidades que ayudan
a caracterizar el comportamiento econmico de la poblacin que estamos
considerando y se denominan parmetros poblacionales2. Con el objeto
de utilizar los datos debemos a continuacin especificar un modelo

1 Se lee: la esperanza de Y dado X o el valor esperado de Y dado X


2 Se trata de parmetros del modelo poblacional que queremos estimar.
economtrico que describa cmo se obtienen los datos del ingreso de los
hogares y los gastos, lo cual gua el anlisis economtrico.

2.1.2. El modelo economtrico

Los modelos economtricos pueden ser lineales o no lineales. Los


primeros modelos economtricos, y muchos en la actualidad, son lineales
en el sentido de que pueden ser expresados como modelos lineales en los
parmetros. Este supuesto de linealidad ha sido muy importante para
probar teoremas matemticos y estadsticos con relacin a los modelos
economtricos, para la estimacin de parmetros y para utilizar los
modelos estimados para el anlisis estructural, pronosticacin y
evaluacin de polticas. El supuesto de linealidad se ha fundamentado de
diferentes maneras:
Primero, muchas relaciones econmicas son lineales por naturaleza, tales como
las definiciones de gastos, ingresos, costos y utilidades.

Segundo, El supuesto de linealidad se aplica solamente a los parmetros, no a


las variables del modelo. De esta manera, la funcin cuadrtica de costos de la
forma:
= + +

En donde C es el costo, q es el producto y a, b y c son los parmetros, mientras


que q es no lineal, es lineal en a, b y c.

Tercero, los modelos no lineales pueden en ocasiones ser transformados en


modelos lineales, a travs de una transformacin logartmica. Por ejemplo, la
funcin de produccin de Cobb-Douglas:

En donde Y es el producto, K el capital y L la mano de obra (trabajo) y A, y son


parmetros puede ser transformada en forma de log lineal:

= + + ( = )

Cuarto, cualquier funcin suave puede ser razonablemente ajustada en un rango


apropiado a una funcin lineal, por ejemplo va la aproximacin del teorema de
Taylor.
Finalmente, los modelos lineales son mucho ms apropiados y convenientes y
ms fciles de manejar que los modelos no lineales. Por lo tanto, los supuestos de
linealidad se hacen frecuentemente en los modelos economtricos

El modelo (|) = / = + describe el comportamiento


econmico, pero es una abstraccin de la realidad. Si tomamos una
muestra aleatoria de hogares con ingreso semanal de X = 1,000, sabemos
que el valor real de los gastos estarn dispersos alrededor del valor
medio E(y/x =1000) = Y/X =1000 = 1 + 2 (1000), como se muestra en
la figura 2.2. Si furamos a muestrear los gastos de hogares con otros
niveles de ingresos, esperaramos que los valores muestrales se
distribuyeran alrededor del valor medio (Y|X) = Y/X = 1 + 2 X. En el
figura 2.3 hemos arreglado la presentacin en una figura con forma de
campana, mostrando las pdf3 del gasto en alimentos f(y/x) a lo largo de la
lnea de regresin para cada nivel de ingresos

La figura 2.4 muestra que a cualquier nivel del ingreso, la media, o


promedio, del gasto familiar est dado por la funcin de regresin
E(Y|X) = 1 + 2 X. Tambin asumimos que los valores de los gastos de
los hogares en alimentos estarn distribuidos alrededor del valor medio
E(Y|X) = 1 + 2 X en cada nivel del ingreso. Esta ecuacin de regresin
es la funcin de un modelo economtrico para el gasto en alimentos de los
hogares. Con el objeto de completar el modelo economtrico tenemos que
hacer algunos supuestos adicionales.
P(Y)
Y

X
Figura 2-4. Distribucin homocedstica de los errores.

Recuadro 2.1. Sobre los supuestos en econometra


3 Pdf este texto p
En= Probability (Y)econometra
Density
de Function, oustedes
funcin de densidad
leern con de probabilidad.
mucha frecuencia el hecho de hacer
supuestos. Los supuestos son la parte de si en un argumento tipo si entonces. Si los
supuestos que hacemos son verdaderos, entonces se cumplen ciertas cosas. Es muy importante,
si los supuestos no se cumplen, entonces las conclusiones que saquemos es probable que no se
cumplan. Parte importante del anlisis economtrico es establecer supuestos realistas y despus
2.1.3. Otros modelos econmicos

Hemos utilizado la relacin entre el gasto en alimentos de los hogares y


sus ingresos como un ejemplo para introducir las ideas de la regresin
simple. El modelo de regresin simple puede aplicarse para estimar los
parmetros de muchas relaciones econmicas, en los negocios y en las
ciencias sociales. Las aplicaciones del anlisis de regresin son
fascinantes y muy tiles. Por ejemplo:

Si se incrementa un 10% el precio de la tonelada de maz, cunto


se incrementar la produccin el prximo ao?

Si se incrementa el impuesto a los refrescos un 20% en cunto


disminuir la demanda de este producto?

Si el Banco Central de Mxico incrementa la tasa de inters en un


punto porcentual, en cunto disminuir la demanda de prstamos
por parte de los consumidores en seis meses? Cunto caer dentro
de un ao? Qu pasar con la tasa de desempleo en los meses que
siguen a este incremento?.

Si el Gobierno de Mxico incrementa en 20% el gasto pblico


destinado al sector agrcola, Qu crecimiento del PIB agrcola se
espera para los prximos aos?

Si las importaciones de jarabe de maz de alta fructosa se


incrementan un 15% cunto se afectar el precio interno de la
azcar en Mxico el prximo ao?

2.1.4. Incorporacin del trmino error en el modelo


Es conveniente describir los supuestos del modelo de regresin lineal
simple en trminos de Y, que en general se le denomina la variable
dependiente en el modelo de regresin. Sin embargo, con propsitos
estadsticos es til caracterizar los supuestos de otra manera.

La esencia del anlisis de regresin es que cualquier observacin de la


variable dependiente Y puede descomponerse en dos partes: una
componente sistemtica y una componente aleatoria.

La componente sistemtica de Y es su media

E(Y|X) = 1 + 2 X Que en s mismo no es aleatoria ya que es una


esperanza matemtica. La componente aleatoria de Y es la diferencia
entre Y y su valor medio condicional E(Y/X). A esto se le denomina
trmino aleatorio y se define como:

e = y E(y/x) = y 1 2 x

Si arreglamos esta ecuacin nos queda el modelo lineal simple:

y = (1 + 2 X) + e
Componente sistemtica Componente aleatoria

La variable dependiente Y es explicada por un componente que vara


sistemticamente con la variable independiente X y por el error aleatorio
e. La ecuacin muestra que la variable Y y el error aleatorio slo difieren
en el trmino E(Y|X) = 1 + 2 X que no es aleatorio. Dado que Y es
aleatoria, igual es el trmino error e. A partir de lo que hemos asumido
respecto a Y, las propiedades del error aleatorio e pueden derivarse
directamente de la ecuacin. El valor esperado del trmino error, dado X
es:

(/) = (|) =
Marschak (1950) ampla los temas de Haavelmo en su introduccin de la
Cowles Commission Monograph 10 y 14 observando que:
Las numerosas causas que determinan la inclusin del trmino error - no estn
enlistadas por separado, sino que su efecto conjunto est presentado por la
distribucin de probabilidad del error, una variable aleatoria que se denomina
disturbances o shocks y que puede entenderse como el efecto conjunto de numerosas
variables insignificantes que no podemos o no queremos especificar, pero suponemos
que son independientes de la variable exgena observada.

2.1.4.1. La media del valor del trmino error, dado X, es cero

Dado que Y y e slo difieren por una constante (es decir por la
componente que no es aleatoria), sus varianzas deben ser idnticas e
igual a 2. Por lo tanto, las funciones de densidad de Y y e son idnticas
excepto por su ubicacin. Ntese que el centro de la funcin de densidad
del trmino error es cero, que es el valor esperado E(e/X) = 0.

2.1.4.2. Qu comprende el error aleatorio e?

El error aleatorio e representa a todos aquellos factores que afectan a Y y


que no fueron incluidos como variables explicativas. Estos factores
causan que las observaciones individuales Y difieran del valor de la media
E(Y) = 1 + 2 X En el ejemplo del gasto en alimentos, qu factores
pueden resultar en una diferencia entre el gasto por persona de los
hogares y su media E(Y)?

1. Hemos incluido el ingreso como la nica variable explicativa en el


modelo. Cualquier otro factor econmico que afecta el consumo de
alimentos estar contenido en el trmino error. Naturalmente, que
en cualquier modelo econmico, queremos incluir en el modelo
todas las variables explicativas importantes y relevantes, de modo
que el trmino error es el cajn de almacenamiento para factores
no observados o no importantes que afectan los gastos en alimentos
de los hogares. De hecho, el trmino error aade ruido que
enmascara la relacin entre X y Y.

2. El trmino error captura cualquier error de aproximacin que surja


debido a la relacin lineal que hemos supuesto como la nica
aproximacin a la realidad. En realidad la relacin podra por
ejemplo, representarse mejor como una funcin cuadrtica.
3. El trmino error captura cualquier comportamiento aleatorio que
pueda estar presente en cada individuo. Conocer todas las variables
que afectan el gasto en alimentos de los hogares puede no ser
suficiente para predecir perfectamente el gasto. Aspectos
impredecibles del comportamiento humano estn tambin
contenido en e.

Finalmente, si omitimos algn factor importante, o cometemos otro serio


error de especificacin, entonces el supuesto de que la media de los
errores es cero es violado, lo que tendr serias consecuencias.

2.1.5. El supuesto de que la X no es aleatoria.

Podemos ahora discutir un poco ms sobre el supuesto de que la X no es


aleatoria. El supuesto de que la X no es aleatoria significa que su valor es
conocido. En estadstica tales valores de X se dicen que son fijos en
muestras repetidas Si pudisemos realizar experimentos controlados, el
mismo conjunto de datos puede ser usado una y otra vez, de modo que
slo los valores de Y son aleatorios.

Como ejemplo suponga que estamos interesados en cmo afecta el precio


de los fertilizantes en su aplicacin en la produccin de caa de azcar. El
distribuidor del fertilizante puede fijar el precio en $1,200 la tonelada y
registrar las cantidades compradas por los productores. La prxima
semana el distribuidor puede fijar el precio en $1,300 la tonelada y
registrar las ventas. En este caso X = precio del fertilizante no es aleatorio
si no es un valor fijado de antemano.

El nmero de situaciones en las cuales los valores de X son fijos es muy


pequeo en el mundo de los negocios y en la economa. Cuando
muestreamos hogares obtenemos los datos de variables como gasto en
alimentos por persona y registramos el ingreso al mismo tiempo. De
modo que tanto el gasto en alimentos como los ingresos son variables
aleatorias, sus valores son desconocidos hasta que sean realmente
observados.

Sin embargo, suponiendo que X est dado, y no es aleatoria, no cambia los


resultados que analizaremos posteriormente en este texto. El beneficio
adicional que se deriva del supuesto es la simplicidad de la notacin. Dado
que X es tratada como una variable constante no aleatoria, no
necesitamos la notacin condicional, de modo que en vez de E(e/X) = 0
slo veremos ms adelante que basta con E(e) = 0.

2.2. Descripcin del modelo.

El modelo de regresin lineal simple puede formalizarse de la siguiente


manera:

Yi = 0 + 1Xi + i (2.2)

En donde Yi es la variable dependiente, Xi es la variable independiente o


explicativa, 0 es la interseccin de la recta con el eje de las Y,
comnmente llamado tambin el "intercepto" y 1, la pendiente de la
recta y finalmente i es el trmino error aleatorio.

El modelo supone que para cada valor de X existe una poblacin de Y's,
cuyas medias estn linealmente relacionadas a X. Por esta razn el
modelo tambin se puede escribir:

Yi = y/x = 0 + 1Xi + i (2.3)

Ms adelante se ver en detalle que la poblacin de Y's y el trmino error


i se distribuyen igual, es decir, normalmente y con la misma varianza.
Aunque la media de i es cero y la de Y es y/x

Cuando el modelo hace referencia a observaciones en el mismo momento


en el tiempo, tambin llamadas observaciones cruzadas (en ingls cross
section), se utiliza el subndice i para denotar cada par (Xi , Yi ) donde i = 1,
2, ... , n , siendo n el tamao de la muestra. Para series temporales, es
decir, observaciones en el tiempo, se utiliza el subndice t (Xt , Yt ) para t =
1, 2, ... , T, siendo T el tamao de la muestra.

2.2.1. Supuestos del modelo:

i. La relacin entre Y y X es lineal.


ii. Las Xi son variables no estocsticas cuyos valores son fijos (o
controlados por el experimentador).
2.3. Estimacin de los parmetros por mnimos cuadrados
ordinarios.

Puesto que la relacin funcional que se propone entre Y y X es una lnea


recta de la forma Yi = 0 + 1Xi + i, el paso siguiente es encontrar los
estimadores para 0 (la interseccin) y 1 (la pendiente). Se pueden
disear diversos mtodos algebraicos para realizar esta estimacin.

Por ejemplo, se puede aplicar el principio de que la suma de los residuos


sea igual a cero, es decir ei = 0. Este criterio asegurara que aquellos
residuos iguales en magnitud y signo tendran la misma importancia. Sin
embargo, este procedimiento tiene la desventaja de que aquellos errores
de igual magnitud, pero distinto signo, se cancelan mutuamente.

Tambin es posible aplicar el criterio de minimizar la suma de los valores


absolutos de los errores, pero como el lector puede comprobar, los
clculos son sumamente engorrosos y lgicamente la importancia de los
errores estar en funcin de su magnitud y por lo tanto, una prediccin
con un error igual a dos unidades, ser considerada peor que una
prediccin con dos errores de una unidad cada uno.

Se ha desarrollado un mtodo algebraico, relativamente fcil de


computar, que penaliza ms los errores grandes que los pequeos y
tambin asegura que habr igual nmero de errores positivos que
negativos, este es el mtodo conocido con el nombre de mnimos
cuadrados ordinarios (MCO) o bien Ordinary Least Squared (OLS por
sus siglas en ingls).

El criterio con que trabaja este mtodo es encontrar los estimadores de 0


y 1 que minimicen la suma del cuadrado de los residuos, sin depender
del comportamiento del trmino error. Cada residuo (o error) es la
distancia que existe entre los valores observados de Y y los predichos por
el modelo. La Figura 2.2 proporciona una idea grfica de los conceptos
anteriores.

En lo que sigue adoptaremos convencionalmente la notacin de letras


maysculas para denotar variables y minsculas para indicar estimadores
y las letras griegas para denotar los parmetros. La flecha indica
"estima a..". De esta manera podemos decir que b0 0 (se lee b cero
estima a beta cero); b1 1; ei i y que Y
i Yi para un Xi dado.

e4 e7
e5

Y e1
e6
e2
e3

Figura 2.5. Grfica de residuos.

Entonces:

Yi = 0 + 1Xi + i (2.4)

Es el modelo y
= +
(2.5)

Es la ecuacin de la recta de mejor ajuste, cuyos coeficientes han sido


estimados por medio del mtodo de los mnimos cuadrados ordinarios.
Ntese que en la ecuacin de la recta ajustada ya no aparece el trmino
error (Porqu?)

Si definimos ( ) = como un residuo, diferencia entre el valor


observado y el estimado de Y, entonces la sumatoria de estas desviaciones
ser igual a cero, por lo que hay que elevarlas al cuadrado para que la
suma sea diferente de cero, especficamente mayor que cero:

) = =
=( (2.6)

n es el tamao de la muestra
La sumatoria del cuadrado de estos residuos, es la funcin que hay que
minimizar para asegurar que la suma de cuadrados del error sea un
mnimo. Si reemplazamos por b0 + b1Xi en esta expresin (2.6), nos
queda:

( ) =
= =

La sumatoria va de 1 a n, el tamao de la muestra. Sabemos por anlisis


matemtico que esta suma de cuadrados depende de los valores de b0 y
b1, por tanto, para encontrar su valor mnimo hay que derivarla
parcialmente con respecto a cada uno de estos estimadores e igualar cada
ecuacin resultante a cero.


= ( )() =


= ( )( ) =

Arreglando trminos se obtienen las llamadas ecuaciones normales:

Yi = nb0 + b1Xi

YiXi = b0Xi + b1Xi2

Como se puede apreciar, se trata de un sistema de dos ecuaciones y dos


incgnitas. Una manera de resolver estas ecuaciones, para despejar b0 y
b1, es multiplicar la primera ecuacin por Xi y la segunda por n y
restamos la primera a la segunda, nos queda:

nYiXi = nb0Xi + nb1Xi2

XiYi = nb0Xi + b1(Xi)2


__________________________________
nYiXi - XiYi = nb1Xi2 - b1(Xi)2

Despejando b1 de esta ltima ecuacin nos queda:

b1 = [nYiXi - XiYi]/[nXi2 - (Xi)2]

O en forma ms conocida, dividiendo entre n el numerador y el


denominador:



=
( )


Y la interseccin b0 se puede obtener conociendo b1 y dividiendo por n la
primera ecuacin normal, lo que de paso demuestra que la recta de
regresin pasa por el punto medio de las observaciones en X y en Y:

= +

En donde
Yy
X son las medias de Y y de X respectivamente. Por tanto:

b0 = - b1

De esta manera se obtiene la ecuacin de ajuste que nos permite obtener


cualquier valor de Y dado un X y resolviendo de acuerdo a los coeficientes
estimados:

=
b0 + b1Xi

A veces se define esta ecuacin como la ecuacin de prediccin.

Ejemplo 2.1
Modelo de regresin lineal simple que relaciona el costo de
mantenimiento de una casa con el valor de la misma.

Para ilustrar la estimacin de un modelo de regresin lineal simple se


aplicar la metodologa de mnimos cuadraos ordinarios a estimar la
relacin entre el mantenimiento de una casa en relacin al valor de la
misma. Se dispone de la siguiente base de datos de una muestra de 40
casas.

Cuadro 2.2. Base de datos


Gastos de Gastos de
Valor de la Valor de la
casa mantenimiento casa mantenimiento
(x 1000 pesos) (pesos) (x 1000 pesos) (pesos)
237 1412.08 153.4 849.14
153.08 797.2 232.18 1313.84
184.86 872.48 125.44 602.06
222.06 1003.42 169.82 642.14
160.68 852.9 177.28 1038.8
99.68 288.48 162.82 697
229.04 1288.46 120.44 324.34
101.78 423.08 191.1 965.1
257.86 1351.74 158.78 920.14
96.28 378.04 178.5 950.9
171 918.08 272.2 1670.32
231.02 1627.24 48.9 125.4
228.32 1204.76 104.56 479.78
205.9 857.04 286.18 2010.64
185.72 775 83.72 368.36
168.78 869.26 86.2 425.6
247.06 1396 133.58 626.9
155.54 711.5 212.86 1316.94
224.2 1475.18 122.02 390.16
202.04 1413.32 198.02 1090.84

El diagrama de dispersin de este conjunto de datos sugire una relacin


positiva, es decir, a medida que el valorde la casa aumenta tambin crece
el costo de mantenimieno, por lo que se espera que b1 tenga signo
positivo.
2500

2000
Mantenimiento en pesos

1500

1000

500

0
0 50 100 150 200 250 300 350
Valor de la casa (Miles de pesos)
Figura 2.6. Diagrama de dispersin

Al ajustar estos datos a una recta de regresin por medio del mtodo de
mnimos cuadrados, se obtiene la siguiente ecuacin:

= 348.578 + 7.258955 X

Puesto que b1 = 7.258955 se estima que el gasto medio de mantenimiento


al ao aumenta 7.258955 pesos por cada incremento de 1000 pesos en el
valor de la casa.

Ejemplo 2.2
Capacidad de ahorro en funcin del ingreso de las personas

Suponga que se quiere conocer la relacin existente entre el ingreso de


las personas y su capacidad de ahorro. La relacin que se quiere estimar
es de qu porcentaje del ingreso se destina al ahorro a medida que se
incrementa el ingreso de las personas. Para ello se cuenta con una
muestra de 10 personas a las cuales se les registra sus ingresos y el
porcentaje que destinan al ahorro, la base de datos y los clculos para
estimar los parmetros de la interseccin (b0) y la pendiente (b1) con la
ayuda de la hoja de clculo de Excel es la siguiente:

Cuadro 2.3. Propensin al ahorro en una muestra de 10 personas.


Y X
Ahorro (%) Ingreso XY X2
10,1 18,000 181,800 324,000,000
8,3 17,500 145,250 306,250,000
7,9 17,200 135,880 295,840,000
6,8 16,850 114,580 283,922,500
6,4 15,930 101,952 253,764,900
6,0 14,980 89,880 224,400,400
5,9 13,500 79,650 182,250,000
5,8 12,420 72,036 154,256,400
5,2 11,960 62,192 143,041,600

4,0 10,000 40,000 100,000,000

Sumatorias 66,4 148,340 1,023,220 2,267,725,800

Medias 6,64 14,834

Aplicando las ecuaciones normales para calcular b1 se tiene:

Numerador Denominador b1
382,424 672,502,400 0.00056866

Y aprovechando el hecho de que la lnea de regresin ajustada pasa por la


media de X y la media de Y:

bo = 6.64 14834*0.000568666 = -1,79547564

De modo que la ecuacin estimada se puede escribir:

= . + .

Este ejercicio tuvo como nico objetivo aplicar las ecuaciones normales
para estimar los parmetros intercepto y pendiente de la recta que
vincula el nivel de ingreso con el porcentaje que destinan las personas al
ahorro.

2.4. Supuestos con relacin al trmino error.

En primer lugar hay que mencionar que la inclusin del trmino error en
el modelo obedece a la necesidad de dar cuenta de la aleatoriedad de la
relacin entre X y Y. No se trata de una relacin determinstica. El trmino
error es una magnitud que encierra los efectos de por lo menos tres
grandes causas:
Puesto que el modelo es una abstraccin de la realidad, hay que
contabilizar el efecto de variables importantes no incluidas.
La forma funcional especificada puede no ser la correcta, y
Error de medida o error puro.

En toda la teora de la regresin, el trmino error tiene una gran


importancia. Los esfuerzos de los econometristas estn dirigidos a
minimizar esta componente. De su comportamiento dependen
propiedades muy importantes de los estimadores.

Los supuestos en relacin al trmino error son los siguientes:

a. Tienen una media igual a cero. No existe razn para esperar que los
errores estn inclinados hacia un valor positivo o negativo.
Matemticamente esto se escribe as:

E(i) = 0

b. Tienen varianza constante. Es decir, para cada nivel de las X, o para


cada Xi, existe una poblacin de i con la misma varianza. Vale decir que la
varianza es la misma cualquiera sea el nivel de las Xs. Formalmente este
supuesto se denota:

E(i) = 2

Esta condicin se conoce como el supuesto de homocedasticidad y se


ilustra en la Figura 2.3.

p(Y)

X
Figura 2.7. Distribucin homocedstica de los errores

c. Los errores son independientes. Es decir, no estn relacionados


tomados de dos en dos. Formalmente:

E(ij) = Cov(i,j) = 0 para todo i diferente de j

En resumen se puede decir que los errores se distribuyen en forma


normal e independiente, con media cero y varianza constante:

i ~ N(0,2)

Resumen de los supuestos con relacin al modelo de regresin


lineal simple

1. El valor de y para cada valor de x es:

= + +

2. El valor esperado del error aleatorio es: E() = 0. Que es


equivalente al supuesto de que:

() = +

3. La varianza del error aleatorio es:

Var() = 2 = Var(y)

Las variables aleatorias y y tienen la misma varianza porque


solamente difieren por una constante.

4. La covarianza de cualquier par de errores aleatorios i y j es:

Cov(i,j) = Cov(yi,yj) = 0

La versin robusta de este supuesto es que los errores aleatorios son


estadsticamente independientes, en cuyo caso los valores de la variable
dependiente Y son tambin estadsticamente independientes.
5. La variable x no es aleatoria y debe tomar al menos dos valores
diferentes

6. (Opcional) Los valores de estn normalmente distribuidos


alrededor de su media

~ N(0 , 2)

Si los valores de Y estn normalmente distribuidos y viceversa

2.5. Propiedades de los estimadores mnimo-cuadrticos.

De acuerdo a lo visto hasta aqu, los estimadores mnimo-cuadrticos


dependen de un conjunto especfico de valores muestrales en X y en Y. Si
los estimadores obtenidos por MCO se acercan o no a los verdaderos
valores de 0 y 1 es una cuestin discutible, porque la respuesta requiere
de conocer a los verdaderos parmetros. Sin embargo, si reconocemos
que diferentes muestras de tamao n pueden dar diferentes estimadores
de los parmetros porque los valores muestrales obtenidos son
resultados especficos de las variables aleatorias Y y de las X. As, para
evaluar el criterio mnimo-cuadrtico, escribimos los estimadores en
funcin de X y de Y para todas las muestras posibles de tamao n.

Definiciones importantes
Estadistico: Funcin de una o ms variables aleatorias que no depende de ningn
parmetro desconocido. Es tambin una variable aleatoria.

Estimador: Estadstico utilizado para estimar un parmetro cuya funcin de densidad se


llama funcin de densidad muestral.

Valor estimado: Cuando las variables aleatorias observables son reemplazadas por valores
muestrales observados se generan valores estimados de los parmetros.

Es importante tener presente que los valores estimados en particular, no pueden ser
evaluados como "buenos" ni como "malos".

Necesitamos una regla de estimacin que nos proporcione estimadores lo


ms cercano posible a los valores verdaderos de los parmetros, sin
importar la muestra especfica y el verdadero valor del parmetro. En
trminos probabilsticos queremos que la funcin de densidad del
estimador se concentre tanto como sea posible alrededor del verdadero
valor del parmetro, porque ello garantiza que el valor estimado estar
tan cerca como sea posible del valor verdadero del parmetro en una alta
proporcin de las muestras. Esto implica que debemos evaluar la regla de
estimacin en el contexto de muestras repetidas del mismo tamao.

Al respecto se han desarrollado dos criterios: insesgamiento y


eficiencia.

Supongamos que bi i entonces se dice que bi es un "estimador


insesgado" de i si

E(bi) = i

Por otro lado, bi ser "eficiente" si su varianza es al menos tan pequea


como la varianza de cualquier otro estimador insesgado. Un estimador
eficiente tiene su densidad de probabilidad ms concentrada en torno al
verdadero valor del parmetro que cualquier otro estimador insesgado.
Ver Figura 2.4.

p()

2
3

Figura 2.8. Distribucin de los estimadores

Teorema de Gauss-Markov.

Formulacin: Sea el modelo de regresin lineal simple Yi = 0 + 1Xi + i y si se


cumplen los supuestos en torno a i, entonces los estimadores mnimo-cuadrticos de 0 y
1 son los estimadores lineales insesgados y de la mnima varianza (eficientes).Tambin se
puede decir que los estimadores son MELI, es decir, los mejores estimadores lineales
insesgados. En ingls Best Linear Unbiased Estimator (BLUE)

Definicin: Un estimador lineal es aquel que puede escribirse como una funcin lineal de
las variables X y Y del modelo.

Otra propiedad de los estimadores MCO es la consistencia4. En este caso,


un estimador consistente es aquel que se va acercando al parmetro a
medida que la muestra incrementa su tamao. Esto se puede escribir
formalmente:

Sea un estimador de , entonces se dice que es consistente si

lim () =
nN

Es decir, el esimador se acerca al parmetro a medida que se incrementa


el tamao de la muestra, y el lmite se encuentra cuando se cubre el
universo (N) y el estimador se hace igual al parmetro. Esta caracterstica
de los estimadores se denomina una propiedad asimpttica, que tiene
que ver con el incremento del tamao de la muestra.

2.6. Anlisis de varianza en el modelo de regresin lineal simple.

Uno de los problemas en la construccin de modelos economtricos es


poder evaluar la capacidad que stos tienen de representar la realidad
contenida en la estructura sugerida por las observaciones muestrales
disponibles. Para ello existen numerosas tcnicas, revisaremos aqu una
de las ms populares denominada anlisis de varianza (ANOVA, por sus
siglas en ingls).

Nos interesa saber si X es un buen predictor de Y, para ello hay que


probar la hiptesis nula de que el parmetro 1 = 0 (o sea que la
pendiente es cero) versus la alternativa de que es diferente de cero. El
lector debe reflexionar sobre las consecuencias que tiene rechazar o no
rechazar esta hiptesis (si la pendiente es cero, entonces la X no tiene
capacidad explicativa de la variacin de Y).

4 Esta es una propiedad asimpttica de los estimadores.


La tcnica de anlisis de varianza parte del hecho de que la suma de
cuadrados totales (SCT) se puede particionar en porciones a las cuales se
les puede asignar un significado preciso: una parte debida a la media
(SCM), otra debida al modelo de regresin (SCR) y una ltima no
explicada y que es la suma de cuadrados de los residuos o errores (SCE).

SCT = SCM + SCR + SCE

Suma de Suma de Suma de Suma de


cuadrados cuadrados cuadrados cuadrados
totales debido a la debido a la debido a los
media regresin errores

Est claro que la variacin total de la variable dependiente se ha


particionado en porciones a las cuales se les puede asignar un significado
especfico. Esta particin es slo un truco algebraico que parte de una
identidad, es decir, no nos comprometemos a asignarles ningn
significado estadstico.

Esta identidad fundamental es la base para el anlisis de varianza. Para


cualquier observacin Yij se puede escribir:

+ (
=
) + (
)

Esta identidad est fuera de dudas porque si eliminamos los parntesis


nos queda

Elevando al cuadrado ambos trminos de la ecuacin, nos queda:


2
2 = ..2 + (. .. )2 + ( . ) + 2.. (. .. ) + 2.. ( . ) + 2( . )(. .. )

Suma de cuadrados Suma de productos cruzados

Si aplicamos doble sumatorias nos queda:



2
2 = ..2 + (. .. )2 + ( . ) + 0
=1 =1

La sumatoria de los productos cruzados es igual a cero porque:

2.. (. .. ) = 2.. (. .. )

Entonces:

2
2 = ..2 + (. .. )2 + ( . )
=1 =1 =1

Suma de SC SC debido a la SC debido a los


cuadrados debido a regresin residuos
totales la media

El clculo para cada una de estas sumas de cuadrados es:

Suma de Cuadrados Totales 2

( )2
Suma de cuadrados debidos a la media

2
[ ]

Suma de Cuadrados Debidos a la Regresin 2
( )
2

Suma de Cuadrados Debidos a los Residuos 2

Grados de libertad de estas sumas de cuadrados:

SCT tiene n grados de libertad, es el total de observaciones.


SCM tiene 1 grado de libertad, siempre.
SCR tiene 1 grado de libertad, porque slo hay una variable explicativa.
SCE Tiene los grados de libertad restantes, o sea n - 2.

Si se dividen las sumas de cuadrados por sus respectivos grados de


libertad obtendremos las sumas de cuadrados medios que pueden
considerarse como estimaciones de varianzas. Los nicos que nos
interesan son las sumas de los cuadrados medios de la regresin y los del
error. Gracias al teorema de Cochrane sabemos que estos cuadrados
medios se distribuyen como ji-cuadradas independientes las que
divididas por sus propios grados de libertad se distribuyen como una F
con los grados de libertad en el numerador correspondientes a los grados
de libertad de la regresin y con los grados de libertad en el denominador
correspondientes a los del cuadrado medio del error.

De este modo ya se tiene una prueba estadstica para probar la hiptesis


conjunta respecto a 1. Los resultados se presentan comnmente en la
llamada Tabla de Anlisis de Varianza o Tabla ANOVA por sus siglas en
ingls.

Tabla ANOVA

Suma de
Fuente de Grados de Suma de cuadrados F
variacin libertad Cuadrados medios Calculada
Total n SCT
Media 1 SCM

Regresin 1 SCR SCR/1 /


SCR/1 SCE/n-2
Error n-2 SCE SCE/n-2

Ntese que la SCE/n-2 constituye una estimacin de la varianza de la


regresin. Es la varianza estimada de los errores que es tambin la
varianza estimada de Y. Su notacin es la siguiente:

Para probar la hiptesis de que H0: 1 = 0 versus la alternativa Ha: 1 0


aprovechamos el hecho de que

Sigue una distribucin F con 1 grado de libertad en el numerador y n-2


grados de libertad en el denominador.
Si la F calculada en la tabla ANOVA es superior a la dada por las tablas
para un determinado (1- es la significancia) se rechaza la hiptesis
nula y se concluye que el parmetro 1 es diferente de cero, indicando con
ello que X s tiene capacidad predictiva sobre Y.

2.7 Factores que afectan la precisin de los estimadores MCO de 1 y


2

Se parte del hecho de que para estimadores insesgados se prefieren


aquellos con la mnima varianza. Para analizar este principio
consideremos los factores que afectan la varianza y covarianza de estos
estimadores.

Se parte de las siguientes definiciones:



( ) = [ ]

( )


( ) = [ ]

( )


( , ) = [ ]

( )

La varianza del trmino error aparece en cada una de estas expresiones.


Como sabemos, refleja la dispersin de los valores de Y alrededor de su
valor esperado E(Y). Cuanto ms grande sea esta varianza ms grande
ser la dispersin alrededor del valor esperado, y ms grande ser la
incertidumbre acerca de dnde caer el valor de Y en relacin a su media
E(Y). Mientras ms grande sea el trmino 2, ms grande es la
incertidumbre del modelo estadstico y por tanto ms grande las
varianzas y covarianzas de los estimadores MCO.

La suma de cuadrados de las desviaciones de X con relacin a su media


muestral ( )2 aparece en cada varianza de los estimadores y en la
covarianza. Esta expresin mide cun dispersas estn los valores de X, la
variable independiente o explicativa, con relacin a la media muestral.
Mientras ms dispersa, mayor ser la suma de cuadrados. Mientras
menos dispersa, menor ser la suma de cuadrados
Mientras ms grade sea el tamao de la muestra N, ms pequeas sern
las varianzas y covarianzas de los estimadores MCO; por lo que es
preferible tener muestras ms grandes que pequeas. El tamao de la
muestra N aparece en cada una de las varianzas y covarianza porque cada
una de las sumas consiste de N trminos.

Tambin N aparece explcitamente en la var(b1). El trmino suma de


cuadrados (xi x) 2 se incrementa cuando N aumenta porque cada
trmino en la suma es positivo o cero (es cero si sucede que una
observacin x es igual a la media muestral), tanto var(b2) y la cov(b1,b2)
son ms pequeas ya que la suma de cuadrados aparece en el
denominador. Las sumas en el numerador y denominador de la var(b1)
ambos se incrementan cuando N crece y se balancean unas con otras,
dejando la N en el denominador como el trmino dominante, asegurando
que var(b1) tambin disminuya cuando N se hace grande.

Resumen de factores qaue afectan la precisin de los estimadores

Factor Consecuencias

La varianza de la regresin aparece en todas las


definiciones de las varianzas de los estimadores, por tanto
si aumernta esta varianza tambin aumenta la varianza de
los estimadores, bajando su precisin.

( )2 Esta dispersin en torno a la media muestral si aumenta


tambin aumenta la precisin porque se encuentra en el
denominador de la definicin.

N El tamao de muestra afecta de forma inversa a la


precisin de los estimadores: si aumenta se obtienen
estimadores con menor varianza e igualmente se obtienen
valores de covarianza menores

2.8 El clculo de elasticidades


La elasticidad ingreso es una manera muy til para caracterizar el
comportamiento de los consumidores ante cambios en sus ingresos. La
elasticidad de una variable con relacin a otra variable se puede definir
como:


= = =

En un modelo economtrico lineal E(Y/X) = y/x = 1 + 2 x se puede


demostrar que:

()
= =

De manera que la elasticidad del gasto medio en alimentos con respecto al
ingreso es:
()/() ()
/ = = =
/ () ()

Para estimar esta elasticidad reemplazamos 2 por 10.21 (un ejemplo),


tambin tenemos que reemplazar x y E(Y) por algo dado que en modelo
lineal la elasticidad ingreso es diferente en cada punto de la lnea de
regresin. Es muy frecuente que para calcular la elasticidad se calcule en
el punto medio de X y de Y (x, y) = (19.6, 283.57) porque es un punto
representativo en la lnea de regresin. Si calculamos la elasticidad en
este punto de la lnea de regresin tenemos:


.
= = . = .

.

Este valor calculado de la elasticidad ingreso tiene la interpretacin


convencional. Se estima que un 1% de incremento en el ingreso semanal
conducir, en promedio, a un incremento de 0.71% de incremento en el
consumo semanal de alimentos, cuando X y Y toman los valores
muestrales promedios. Dado que la elasticidad ingreso calculada es
menor que 1, se puede clasificar a los alimentos como consumo necesario
y no como consumo de lujo, lo cual es consistente con lo se podra esperar
para el consumo alimentario de una familia.
Cuadro 2.4. Elasticidades ingresos para grupos de bienes y servicios (ERS, 2003)

Alimentos Renta, Gastos


bebidas y Ropa y combustible del Transporte y
Pas tabaco zapatos electricidad hogar Salud Educacin comunicaciones Recreacin Otros

Nigeria 0.786 0.927 1.328 1.319 2.166 1.088 1.363 4.030 2.038
Mongolia 0.770 0.926 1.297 1.290 1.854 1.086 1.326 3.024 1.783
Senegal 0.736 0.922 1.254 1.249 1.575 1.082 1.275 1.943 1.542
Vietnam 0.734 0.922 1.253 1.248 1.568 1.082 1.274 1.923 1.536
Paraguay 0.715 0.921 1.238 1.233 1.497 1.080 1.256 1.748 1.472
Bolivia 0.707 0.920 1.232 1.228 1.473 1.080 1.250 1.697 1.451
Ecuador 0.705 0.920 1.231 1.227 1.470 1.079 1.248 1.689 1.447
Armenia 0.701 0.920 1.229 1.225 1.460 1.079 1.246 1.668 1.439
Jordan 0.696 0.919 1.226 1.222 1.448 1.079 1.242 1.643 1.428
Indonesia 0.686 0.919 1.221 1.217 1.429 1.078 1.237 1.605 1.410
Syria 0.677 0.918 1.217 1.213 1.412 1.078 1.232 1.572 1.395
Philippines 0.658 0.917 1.209 1.205 1.386 1.077 1.223 1.522 1.371
Peru 0.655 0.917 1.208 1.204 1.382 1.076 1.222 1.515 1.367
Venezuela 0.649 0.916 1.206 1.202 1.374 1.076 1.219 1.501 1.360
Belize 0.643 0.916 1.204 1.200 1.367 1.076 1.217 1.489 1.354
Egypt 0.643 0.916 1.203 1.200 1.367 1.076 1.217 1.489 1.354
Lebanon 0.632 0.916 1.200 1.197 1.357 1.075 1.213 1.471 1.344
Brazil 0.622 0.915 1.197 1.194 1.348 1.075 1.210 1.455 1.335
Bulgaria 0.621 0.915 1.197 1.194 1.347 1.075 1.209 1.453 1.335
Russia 0.617 0.915 1.196 1.193 1.343 1.075 1.208 1.447 1.331
Fiji 0.612 0.914 1.195 1.191 1.339 1.075 1.207 1.441 1.328
Turkey 0.609 0.914 1.194 1.191 1.337 1.075 1.206 1.437 1.326
Iran 0.595 0.914 1.191 1.188 1.328 1.074 1.202 1.421 1.317
Mxico 0.592 0.914 1.190 1.187 1.326 1.074 1.201 1.418 1.315
Chile 0.586 0.913 1.189 1.186 1.322 1.074 1.200 1.412 1.311
Poland 0.580 0.913 1.187 1.184 1.318 1.074 1.199 1.406 1.308
Uruguay 0.560 0.912 1.184 1.181 1.308 1.073 1.194 1.389 1.298
Argentina 0.517 0.911 1.177 1.175 1.290 1.072 1.187 1.361 1.281
Greece 0.456 0.909 1.170 1.168 1.272 1.071 1.179 1.333 1.264
Portugal 0.444 0.908 1.169 1.167 1.269 1.071 1.178 1.328 1.261
Spain 0.442 0.908 1.169 1.166 1.268 1.071 1.178 1.328 1.261
Israel 0.399 0.907 1.165 1.163 1.259 1.070 1.174 1.315 1.252
New Zealand 0.394 0.907 1.165 1.163 1.258 1.070 1.173 1.313 1.252
Finland 0.393 0.907 1.165 1.163 1.258 1.070 1.173 1.313 1.251
Sweden 0.361 0.906 1.163 1.160 1.253 1.069 1.171 1.305 1.246
Netherlands 0.356 0.906 1.162 1.160 1.252 1.069 1.171 1.304 1.245
France 0.332 0.906 1.161 1.159 1.249 1.069 1.169 1.299 1.242
United Kingdom 0.330 0.906 1.161 1.159 1.248 1.069 1.169 1.298 1.242
Belgium 0.325 0.906 1.160 1.158 1.248 1.069 1.169 1.297 1.241
Norway 0.324 0.906 1.160 1.158 1.247 1.069 1.168 1.297 1.241
Italy 0.320 0.906 1.160 1.158 1.247 1.069 1.168 1.296 1.241
Austria 0.311 0.905 1.160 1.157 1.246 1.069 1.168 1.295 1.239
Germany 0.309 0.905 1.160 1.157 1.245 1.069 1.168 1.294 1.239
Australia 0.300 0.905 1.159 1.157 1.244 1.069 1.167 1.293 1.238
Japan 0.293 0.905 1.159 1.157 1.244 1.069 1.167 1.292 1.237
Canada 0.284 0.905 1.158 1.156 1.243 1.069 1.166 1.290 1.236
Switzerland 0.257 0.904 1.157 1.155 1.240 1.068 1.165 1.286 1.234
Iceland 0.252 0.904 1.157 1.155 1.239 1.068 1.165 1.285 1.233
United States 0.103 0.902 1.152 1.150 1.227 1.067 1.159 1.268 1.222
Fuente: USDA, Economic Research Service, 2003.

Las elasticidades ms altas en alimentos, bebidas y tabaco se


encuentran en los pases como Nigeria, Mongolia, Senegal, Vietnam,
Paraguay, Bolivia, Ecuador, Armenia, con valores por arriba de 0.7. Los
pases con menores elasticidades son Australia, Japn, Canad, Suiza,
Islandia y los Estados Unidos, por debajo de 0.3.

La tendencia clara es que las elasticidades para todos los rubros van de
mayor a menor de pases en desarrollo a pases desarrollados y van
creciendo de alimentos hasta bienes y servicios ms sofisticados.

Lo sorprendente es que el orden de todas las elasticidades sigue el orden


de las elasticidades para alimentos, bebidas y tabaco.

El lector con una buena formacin en clculo notar que d(ln X)/dX = 1/X
o d(ln X) = dX/X, es decir, para cambios infinitesimalmente pequeos
(observe el operador diferencial d), un cambio en ln X es igual al cambio
relativo o proporcional en X. En la prctica, sin embargo, si el cambio en X
es pequeo, esta relacin se escribe como: cambio en ln X _ cambio
relativo en X, donde _ significa aproximadamente igual. As, para cambios
pequeos, (ln Xt ln Xt1) _ . (Xt Xt1)/Xt1 _ cambio relativo en X.

A propsito, el lector debe observar estos trminos, a los que se hace


referencia frecuentemente:

1) cambio absoluto, As, (Xt Xt1) representa un cambio absoluto

2) cambio relativo o proporcional (Xt Xt1)/Xt1 = (Xt/Xt1 1) es un


cambio relativo o proporcional
3) cambio porcentual o tasa de crecimiento porcentual. [(Xt Xt1)/Xt

1]*100 es el cambio porcentual, o la tasa de crecimiento. Xt y Xt1 son los


valores actual y anterior de la variable X, respectivamente

La funcin Cobb-Douglas es un modelo de elasticidad constante que


permite obtener un cambio constante en el ingreso total ante un cambio
porcentual dado en precios sin importar el nivel absoluto del precio. Los
lectores deben contrastar este resultado con las condiciones de
elasticidad que implica una funcin de demanda lineal simple, Yi = 1 +
2Xi + ui. Sin embargo, una funcin lineal simple permite obtener un
cambio constante en la cantidad generada por un cambio unitario en el
precio. Confronte esto con lo que implica el modelo log-lineal para un
cambio nominal en los precios.

Otro ejemplo de elasticidades:

Utilizando la base de datos sobre elasticidades proporcionado por el ERS


de la USDA, se puede tener una visin ms cercana de la aplicacin de las
elasticidades en el estudio y pronstico de la estructura de la demanda de
bienes agroalimentarios. Tomemos por ejemplo las elasticidades de la
demanda de carne para algunos pases reportados por el ERS.

Cuadro 2.5. Elasticidades ingreso y precio de la demanda de carne de


res.

Carne
Pas Ingreso Precio
Argentina 0,5490 -0,4440
Brasil 0,6628 -0,5360
Chile 0,6246 -0,5051
Venezuela 0,6912 -0,5590
Mxico 0,6302 -0,5096
Estados Unidos 0,1097 -0,0887
Canada 0,3024 -0,2445
Alemania 0,3279 -0,2652
Espaa 0,4696 -0,3798
Reino Unido 0,3508 -0,2837
Nigeria 0,8434 -0,6821
Egipto 0,6848 -0,5538
Australia 0,3181 -0,2573
Vietnam 0,7840 -0,6335
China 0,4620 -0,5040
Fuente: ERS - USDA

En este ejemplo se advierte que la elasticidad en el consumo de carne de


res vara notoriamente entre los diferentes pases. Estas diferencias
pueden deberse a cuestiones culturales como a los niveles de ingresos y
precios. Por ejemplo, la elasticidad ingreso de la demanda de carne de res
es ms baja en los pases de altos ingresos y muy alta en los pases de
bajos ingresos per cpita. En Estados Unidos la elasticidad ingreso de la
demanda de carne es de 0.1, es decir, un incremento del 1% en los
ingresos solamente implica un incremento del 0.1% en la demanda de
carne. Por el contrario, en el caso de Mxico un incremento del 1% en los
ingresos implica un incremento del 0.6% en la demanda de carne.

En cuanto a la elasticidad demanda precio de la carne, se observa que


siempre es negativa. En Estados Unidos la elasticidad demanda precio de
la carne es de -0.0887, es decir, un incremento del 1% en los precios de la
carne implica un decremento del 0.088% en la demanda de este producto.
En Mxico, un aumento del 1% en el precio de la carne implica un
decremento del 0.5% en la demanda de carne.

Estos valores de las elasticidades constituyen informacin muy valiosa


para conocer de antemano los cambios que acaecern en la estructura de
la demanda de alimentos al cambiar los ingresos de las personas y los
niveles de precios de los productos agroalimentarios. En general, los
pases que han avanzado en su desarrollo econmico y que han
incrementado sus ingresos, como es el caso de China y la India, las
demandas de productos agroalimentarios de mayor calidad se han
incrementado.

2.9. Coeficiente de determinacin R2.

La bondad de ajuste del modelo con relacin a la muestra utilizada, puede


medirse tambin a travs del llamado coeficiente de determinacin R2.
Este coeficiente mide la proporcin de la suma de cuadrados explicada
por la variable independiente, una vez descontado el efecto de la media.
El resto lo constituye la suma de cuadrados debida al error, no explicada
por X.

Una forma econmica de calcular el R2 es utilizando las sumas de


cuadrados proporcionadas por la tabla ANOVA, de esta manera se define
R2 como:


=
+
De esta expresin se puede colegir que si la suma de cuadrados del error
es cero, o sea si el ajuste es perfecto, entonces R2 tomar el valor de 1.
Por el contrario, si la SCR decrece en relacin a la SCE entonces el R2 se
acerca a cero como lmite inferior.

No existe una regla bien demarcada para definir cuando un R2 es bueno o


malo, pero en econometra, de acuerdo al tipo de modelo que se utiliza y
la calidad de la informacin disponible, generalmente se acepta que un R 2
arriba de 0.8 es bueno. Sin embargo, valores entre 0.6 y 0.8 todava
pueden considerarse aceptables en no pocas ocasiones.

2.9.1 El coeficiente de determinacin ajustado o R2 ajustado

SSE
Hasta aqu hemos definido el coeficiente de determinacin R2 = 1
SST
como una medida de bondad de ajuste. Este coeficiente mide la
proporcin de la variacin en la variable dependiente explicada por la
variacin en la variable explicativa. Ya que es deseable tener un modelo
que se ajuste bien a los datos, puede haber una tendencia a pensar que el
mejor modelo es el que tiene un R2 ms alto. Aunque esta lnea de
pensamiento es legtima si estamos comparando modelos con el mismo
nmero de variables explicativas, no es correcto pensar as cuando se
sacan o se meten nuevas variables. El problema es que el R2 puede crecer
al aadir ms y ms variables, incluso si las variables aadidas no tienen
ninguna justificacin. Algebraicamente, es un hecho de que a medida que
se aaden variables la suma de cuadrados del error SCE tiende a bajar, y
por lo tanto R2 tiende a crecer. Si el modelo contiene N-1 variables
entonces el R2 es igual a 1.

Una medida alternativa de la bondad de ajuste es el llamado R2 ajustado,


denotado por R 2 ha sido sugerido para superar este problema. Se define
de la siguiente manera:
( )
=

( )

Esta medida no siempre crece cuando se le aade una variable, debido al


trmino de grados de libertad N-K en el numerador. A medida que el
nmero de variables k crece, SCE baja, pero tambin lo hace N-K. El efecto
sobre R 2 depende de la cantidad en que cae SCE. Mientras se resuelve un
problema, esta medida de correccin de la bondad de ajuste
desgraciadamente introduce otro problema. Pierde su interpretacin, R 2
ya no es la proporcin de la variacin explicada. Adems, se puede
demostrar que si se aade una variable a una ecuacin, digamos con el
2 se incrementar si el valor de t para probar la
coeficiente k , entonces R
hiptesis Ho: k = 0 es mayor que uno.

Por lo tanto, utilizar R 2 como un mecanismo para seleccionar el conjunto


apropiado de variables explicativas es como usar una prueba de hiptesis
para la significancia de un coeficiente con el valor crtico de uno, un valor
mucho menor de aquel tpicamente usado con niveles de significancia del
5% y 10%. Debido a esta complicacin, preferimos reportar el R 2 no
ajustado como una medida de bondad de ajuste, pero se debe tener
precaucin si el R 2 se utiliza para seleccionar el modelo. Sin embargo,
debemos familiarizarnos con el R 2 . Esto se ver en los reportes de
investigacin y en la salida de paquetes de software.

2.9.2 Anlisis de correlacin y R2 en el modelo de regresin lineal


simple

Existen dos relaciones importantes entre R2 y rxy (correlacin simple


entre X y Y) en el modelo de regresin lineal simple:

La primera es que rxy


2
= R2 . Es decir, en el modelo de regresin lineal
simple el cuadrado del coeficiente de correlacin muestral entre los
valores muestrales de Xi y Yi es algebraicamente igual al R2
Intuitivamente, esta relacin tiene sentido: rxy
2
toma valores entre 0 y 1 y
mide la fuerza de la relacin entre X y Y. Esta interpretacin no es
totalmente ajena a la de R2: la proporcin de la variacin en Y alrededor
de su media explicada por la variable X en el modelo de regresin lineal.

La segunda relacin, y ms importante, es que R2 puede tambin ser


computado como el cuadrado del coeficiente de correlacin muestral
entre yi y yi = b1 + b2 xi . Es decir, rxy
2
= R2 . Como tal, mide la asociacin
lineal, o bondad de ajuste, entre los datos muestrales y sus valores
predichos. Por consecuencia, al R2 es frecuente que se le llame una
medida de la bondad de ajuste. Este resultado es vlido no slo en el
modelo de regresin lineal simple sino que tambin en los modelos de
regresin mltiple. Adems, el concepto de obtener una medida de
bondad de ajuste para predecir Y tan bien como podamos y encontrar el
coeficiente de correlacin al cuadrado entre esta prediccin y el valor
muestral de Y puede ser extendida a situaciones en las cuales el R2
convencional estrictamente no se aplica.

Ejemplo 2.3
Ejemplo numrico para ilustrar la estimacin de parmetros en el
modelo de regresin lineal simple

Con un elemental ejemplo numrico mostraremos cmo funcionan los


conceptos y relaciones definidos hasta aqu. Supongamos que tenemos las
siguientes observaciones:

Cuadro 2.6. Ejemplo numrico

OBSERVACIONES CALCULOS
X Y XY X2 Y2
3 2 6 9 4
2 3 6 4 9
2 5 10 4 25
5 10 50 25 100
12 20 72 42 138
Fuente: autores
10
9
8
7
6
5
Y

4
3
2
1
0
0 1 2 3 4 5
X

Figura 2-9. Diagrama de dispersin de las observaciones.

Cuyo diagrama de dispersin se muestra en la Figura 2-9. Como se puede


apreciar, se trata de una muestra de 4 observaciones, o sea que n = 4. Las
sumatorias son las siguientes:

Yi = 20 Xi = 12

YiXi = 72 Xi2 = 42 Yi2 = 138

Para estimar la pendiente aplicamos la siguiente expresin:



=
( )


Remplazando valores:



=



72-60 12
b1 = = =2
42-36 6
Aprovechando que la recta de ajuste pasa por los puntos medios de las
variables:

Dado que las medias son:


Y = 20/4 = 5 X = 12/4 = 3

b0 = 5 - 2*3 = 5-6 = -1

La ecuacin de la recta de ajuste es entonces:

= +

Para construir la tabla ANOVA debemos calcular las sumas de cuadrados:

SCT = Yi2 = 138


SCM = (Yi)2/n = (20)2/4 = 400/4 = 100
SCR = (12)2/6 = 144/6 = 24
SCE = 138 - 100 - 24 = 14 (se calcula por diferencia)

Pongamos todo esto formalmente en una tabla ANOVA

Tabla ANOVA

Suma de
Fuente de Grados de Suma de cuadrados F
variacin libertad Cuadrados medios Calculada
Total 4 138
Media 1 100
Regresin 1 34 34 3.43
Error 2 14 7

Con esta tabla podemos saber que la varianza de toda la regresin es 2 =


7 y para probar la hiptesis de que 1 = 0 versus la alternativa de que es
diferente de cero, buscamos en la tabla F un valor para = 0.05, con 1
grado de libertad en el numerador y 2 grados de libertad en el
denominador:

Ft (0.05, 1 , 2) = 18.5
No rechazo Rechazo

3.43 18.5

Y como el Fc (F calculado en tabla ANOVA) es menor, no se rechaza la


hiptesis concluyendo que los datos muestrales no apoyan la hiptesis de
que X es un buen predictor de Y.

Adicionalmente se puede calcular el coeficiente de determinacin


R2 = SCR/(SCR+SCE) = 24/(24+14) = 24/38 = 0.631 que puede
considerarse como menos que regular.

2.10. Coeficiente de correlacin simple.

En los modelos de regresin lineal simple se supone que existe una


relacin entre X y Y, porque Y depende de X. Sin embargo, a menudo no es
correcto afirmar que el valor de Y depende o es causado por el valor de X.
En estos casos se dice que las variables estn correlacionadas. El
coeficiente de correlacin r mide este tipo de correlacin entre dos
variables. Este coeficiente puede variar de -1 (que indica correlacin
perfecta inversa) pasando por 0 (que indica ausencia de correlacin) a +1
(que indica correlacin perfecta positiva). Cuando el coeficiente de
correlacin es mayor que 0, se dice que ambas variables estn
positivamente correlacionadas, si es menor que cero, estn
negativamente correlacionadas. En la regresin simple, el signo del
coeficiente de correlacin es siempre el mismo que el del coeficiente de
regresin.

Para comprender el significado del coeficiente de correlacin, veamos la


Figura 2.6 en donde se ha agregado la lnea que representa el valor de la
media de Y. Segn esta grfica, el coeficiente de correlacin r es
simplemente la raz cuadrada de la variacin explicada por Y dividida
entre la variacin total de Y. Esto se puede escribir como:
8

4
Y

0
0 1 2 3 4 5
X

Figura 2-10. Desviaciones para computar el coeficiente de correlacin

2
( )
= =
( )2

La variacin total para cada observacin se muestra en la Figura 2.10


como la diferencia entre el valor observado Yi y la media de Y. Para
obtener la variacin total de la muestra se eleva al cuadrado cada
diferencia y se suman:

(1 )2 + (2 )2 + + (3 )2 +

La variacin explicada es la cantidad de la variacin total explicada por la


lnea de regresin. Corresponde al valor computado de Y. Esta variacin
debe ser elevada al cuadrado y sumada para obtener la variacin total
explicada de la muestra.

Para la Figura 2.10, estos valores se pueden representar como sigue:

Valor Variacin Variacin Variacin


Obs. Estimado Total Explicada No explicada
Y1 1 (Y1-)2 (Y1-)2 (1-)2
Y2 2 (Y2-)2 (Y2-)2 (2-)2
Y3 3 (Y3-)2 (Y3-)2 (3-)2
Y4 4 (Y4-)2 (Y4-)2 (4-)2
TOTALES (Yi-)2 (Yi-)2 (i-))2

Se denomina variacin "explicada" porque mejora (es decir, reduce) la


variacin del error usando la alternativa de la lnea de regresin, usando
la media de Y como predictor. La cantidad de "mejoramiento", es decir, Yi-
es la variacin explicada de la regresin, una vez descontado el efecto
de la media.

El coeficiente de correlacin ser igual a cero slo cuando los valores


calculados igualan a la media de Y. Esto ocurrir cuando la variacin
explicada es cero. Por el contrario, el coeficiente de correlacin ser igual
a 1 (o a -1) slo cuando la variacin explicada iguala a la variacin total o
en otras palabras, cuando el valor calculado de i iguala al valor
observado Yi en cada observacin.

2.11. Pruebas de significancia e intervalos de confianza para los


parmetros.

Los estimadores que nos interesan son b0, b1 y i para un X dado. Como
todo estimador, constituyen variables aleatorias con sus respectivas
varianzas. A continuacin se proporcionan las varianzas de estos
estimadores:

Parmetro Estimador Varianza_______________________

1
1 b1 2
1 = 2 [( )2 ]

2 2
o b0 = 2 [ (

)2
]

)2
0 + 1Xi 1 (
Yi = b0 + b1Xi 2y/x = e2 [ + 2]
()
______________________________________________________________________

No lo probaremos aqu, pero s los estimadores b1, b0 y se distribuyen


normalmente, cada uno tendr una distribucin "t" de la forma:

Para b0 (b0 - 0)/b0 = tn-2,


Para b1 (b1 - 1)/b1 = tn-2,

Para Yi/x (Yi/x - i/x)/y/x = tn-2,

En trminos verbales cualquier estimador menos su parmetro dividido


entre su error estndar se distribuye como una t con n-2 grados de libertad
y una alfa definido

Con estos estadsticos de t podemos realizar pruebas de hiptesis y


construir intervalos de confianza para los parmetros.

Generalmente la prueba que se realiza para cada parmetro es demostrar


que son diferentes de cero porque ello tiene implicaciones muy
importantes para el modelo postulado. Por ejemplo, para el parmetro 1
la prueba se establece de la siguiente manera.

H0: 1 = 0 vs Ha: 1 0

(1 0)
=
1

(Por hiptesis se reemplaza 1 por cero)

Luego se compara este valor de t calculado con el dado por las tablas para
un valor de alfa determinado. Como se trata de una prueba de dos colas,
para rechazar la hiptesis nula el valor calculado de t debe ser mayor, en
trminos absolutos, al valor dado por la tabla. Si se rechaza la hiptesis,
entonces se puede concluir que la variable explicativa X es un buen
predictor de Y. Lo mismo se puede hacer con el parmetro b0.

Ejemplo 2.4
Relacin entre el salario mensual en miles de pesos y la edad de las
personas.
Se plantea la hiptesis de que el salario tiene una relacin directa con la
edad de las personas. La base de datos es la siguiente:

Cuadro 2.7. Salarios y edad de las personas.

Salario Salario
Mensual Edad Mensual Edad
M$ Aos M$ Aos
14.3 28 33.7 40
15.8 27 34.0 41
17.8 28 34.6 43
20.1 29 34.9 44
23.4 31 38.0 43
25.6 32 38.4 45
26.0 30 38.9 44
27.1 29 39.0 43
28.4 32 39.5 56
28.9 33 39.8 57
30.1 31 40.0 54
31.0 36 40.6 56
32.0 37
Fuente: Autores
60
50
Salario mensual

40
30
20
10
0
0 10 20 30 40 50
Edad
Figura 2-11. Diagrama de dispersin de salarios segn edad.

Se corri en SAS el modelo SALi = o + 1 EDADi + i y los resultados


fueron:

Tabla ANOVA

Sum of Mean
Fuente DF Squares Square F Value Pr > F
Modelo 1 1197.82946 1197.82946 80.47 < 0.0001
Error 23 342.35614 14.88505
Total Corr 24 1540.18560
Root MSE 3.85811 R-cuadrado 0.7777
Media dependiente 30.87600 Adj. R-Sq 0.7681
Coeff. Var. 12.49551

Segn los resultados de la tabla ANOVA, se rechaza la hiptesis Ho de que


el parmetro 1 = 0, lo cual indica que la variable independiente EDAD s
explica el salario mensual de las personas. El R2 es bastante aceptable y es
coherente con el rechazo de Ho.

Estimacin de parmetros

Error
Variable DF Estimate Estandar Valor t Pr > t
Intercepto 1 2.31829 3.27565 0.71 0.1862
Edad 1 0.73678 0.08213 8.97 < 0.0001

Con relacin a los parmetros vemos que el intercepto no es significativo


porque el valor de t es menor que dos5. Por otro lado, el estimador del
parmetro de la EDAD resulta significativo, es decir, se rechaza la Ho de
que este parmetro es igual a cero.

El grfico de dispersin sugiere ms bien un ajuste curvilneo con la


siguiente funcin

= + 1 + 2 +

Tabla ANOVA

Sum of Mean
Fuente DF Squares Square F Value Pr > F
Modelo 2 1391.2801 695.64005 102.78 < 0.0001
Error 22 148.9055 14.88505
Total Corr 24 1540.1856

Root MSE 2.60162 R-cuadrado 0.9933


Media dependiente 30.876 Adj. R-Sq 0.8945
Coeff. Var. 8.42603

5Una regla general para rechazar la hiptesis nula de que el parmetro es igual a 0 es que el valor del
estimador sea mayor que el doble de su error estndar, o lo que es lo mismo que el valor de t calculado
sea ms de dos.
Ntese las diferencias entre el modelo lineal y el modelo cuadrtico
ajustados. Este ltimo es mucho mejor porque el lineal con base en el R2
que es mucho ms alto. El diagrama de dispersin lo refleja.

Estimacin de parmetros

Error
Variable DF Estimate Estandar Valor t Pr > t
Intercepto 1 -5334493 10.64356 -5.01 < 0.0001
EDAD 1 3.57553 0.53387 6.7 < 0.0001
EDAD2 1 -0.03418 0.00639 -5.35 < 0.0001

Tambin se observa que la significancia de los estimadores es mucho


mejor que en el modelo lineal. Todos los estimadores son significativos, es
decir se rechaza Ho de que son iguales a cero. El signo del coeficiente de
EDAD2 tambin es el correcto.

Ejemplo 2.5
Ejercicio modelo de regresin lineal simple

La ENIGH 2014 report la tabla de Ingresos y Gastos corriente monetario


promedio trimestral por deciles de hogares, 2010-20:

Cuadro 2.8. Ingreso y gasto de los hogares 2014 ($ corrientes)

Ingreso Gasto
31602 26467
4740 8005
8797 11261
12151 13832
15078 16132
18766 18726
22711 21065
28603 24696
36173 30010
50954 39905
118051 81034
Fuente: ENIGH 2014
Con esta informacin se intenta estimar el modelo Yi = 0 + 1 Xi + i en
donde:

Yi = Gasto
Xi = Ingreso
0 1 son los parmetros intercepto y pendiente a estimar
= error aleatorio

Con este modelo se quiere estimar la propensin marginal al consumo, es


decir, estimar el parmetro 1 que corresponde a la pendiente de la recta
ajustada. Con este fin se utiliz el paquete EViews siguiendo el men
apropiado para estimar ecuaciones, los resultados se muestran en el
siguiente cuadro de salida:
Dependent Variable: Gasto
Method: Least Squares
Date: 07/19/16 Time: 12:46
Sample: 1 10
Included observations: 10

Variable Coefficient Std. Error t-Statistic Prob.

C 6253.446 334.2586 18.70841 0.0000


Ingreso 0.639608 0.007474 85.57868 0.0000

R-squared 0.998909 Mean dependent var 26466.60


Adjusted R-squared 0.998772 S.D. dependent var 21347.53
S.E. of regression 747.9392 Akaike info criterion 16.24938
Sum squared resid 4475305. Schwarz criterion 16.30989
Log likelihood -79.24688 Hannan-Quinn criter. 16.18299
F-statistic 7323.710 Durbin-Watson stat 1.009889
Prob(F-statistic) 0.000000

Segn estos resultados, el modelo resulta tener un buen ajuste a juzgar


por el valor del R2 que alcanza a 0.998909 y la Prob(F-statistic) es
altamente significativa, rechazando la hiptesis nula de que el parmetro
1 = 0 La conclusin inmediata de este resultado es que el nivel de
ingresos si determina en gran medida el gasto de las familias, ceteris
paribus. La ecuacin ajustada es la siguiente:
i = 6253.446 + 0.639608Xi
Y

Ambos estimadores son significativamente diferentes de cero puesto que


sus valores de t son mucho mayores que 2, y por tanto se rechazan las
hiptesis nulas de que son iguales a cero, lo que es coherente con el
rechazo de H0 en la tabla ANOVA.

La conclusin es que la estimacin de la propensin marginal al gasto es


de 0.639608 lo que quiere decir que un aumento del 1% en los ingresos
significa un incremento del 0.64% en el gasto (porcentaje redondeado).

Nota tcnica para el proceso en EViews

Para comenzar se abre la opcin File en el men principal y se selecciona


New/Workfile y en la ventada de estructura de la base de datos se
selecciona Unstructured/Undated y luego en la ventanita derecha Data
Range se registra el nmero de observaciones, en nuestro caso se pone
10. Inmediatamente se abre otra ventana Workfile Untitled quiere decir
que se trata de un workfile al cual no se le ha dado nombre. No importa
esto por el momento. A continuacin nos vamos al men principal (el que
est en la parte superior de la pantalla) y seleccionamos Quick y
seleccionamos Empty Group (Edit Series) se despliega entonces una
ventana con un arreglo parecido a la hoja de clculo de Excel y en la
columna de la izquierda aparecen los nmeros del 1 al 10 que fue el
nmero de observaciones que declaramos anteriormente en Data Range.

A continuacin se copia la base de datos que est en Excel y se pega


(paste) en la nueva ventana de EViews ocupando las dos primeras
columnas. Las columnas tienen los nombres de SER01 y SER02, pero
nosotros sabemos que SER01 es el ingreso y que SER02 es el gasto.
Tambin se pueden cambiar estos nombres, pero por el momento
dejmoslo as.

Una vez que se ha pegado la base de datos, nos vamos al men principal y
seleccionamos Quick en la opcin Estimate Equation. Se abre una nueva
ventana y en el mdulo de Equation Specification se escribe la ecuacin
que se quiere estimar, en nuestro caso se escribe:

SER02 C SER01
En donde SER01 es el ingreso y SER02 es el gasto, la C indica que se
quiere el intercepto. Antes de aceptar hay que elegir el mtodo de
estimacin en Estimation setting, en nuestro caso se elige el LS Least
Square (NLS and ARMA). Finalmente al pulsar aceptar se despliega el
cuadro de salida tpico de EViews.

2.12. Uso del modelo para pronosticacin.

Para estimar una proyeccin de punto de Y se utiliza la recta de ajuste:

= b0 + b1Xt

Valorada para un X0 determinado. Estos son los valores predichos


cuando los X0 se encuentran dentro del rango de los X observados.
Tambin se puede estimar un valor de Y que est fuera del rango de las
observaciones. Si se trata de una serie de tiempo, entonces el estimador
tendr la categora de pronstico.

A menudo es de inters no slo obtener un pronstico de punto sino que


disponer de un intervalo de confianza para el verdadero valor futuro. Este
intervalo de confianza se construye sumndole y restndole a la
estimacin de punto una cantidad que resulta de multiplicar el valor de t
para un determinado por el error estndar de la proyeccin de punto.

Dado que el error estndar de la proyeccin de punto se incrementa a


medida que X0 se aleja de la media de X (ver expresin de la varianza de Y
para un X0 dado), entonces esta cantidad que se suma y se resta a la
proyeccin de punto se ir incrementando, haciendo que la longitud del
intervalo sea cada vez ms grande. Por esta razn, aun cuando el modelo
haya proporcionado un muy buen ajuste, los intervalos de confianza se
van abriendo rpidamente a medida que la proyeccin se aleja de la
media de los datos.

Las curvas que marcan los lmites superiores e inferiores de los intervalos
de confianza se denominan bandas de confianza y se pueden apreciar en
la Figura 2-7.

Banda superior

Y Lmite superior
Recta de ajuste

Banda inferior

Lmite inferior

Xo X

Figura 2.12. Bandas y lmites de confianza

_________________________________________________________________

Ejemplo 2.6
Inferencia estadstica sobre los parmetros y proyecciones.

Con los datos del Ejemplo 2.2 haremos inferencia estadstica sobre los
parmetros estimados y las proyecciones de Y. Lo primero que hay que
calcular son los errores estndar de los estimadores de los parmetros.
Los errores estndar de los estimadores b0 y b1 son los siguientes:


= [ ]
( )
Remplazando valores:


= [ ] = .

Y dado que el error estndar es la raz cuadrada de la varianza, por lo
tanto su error estndar es 3.5. Para calcular el error estndar de la
pendiente b1 se aplica la frmula ya vista anteriormente:


2
1 = [ ]= = .
)
(

Por lo tanto su error estndar es 1.08

Para probar la Ho que b0 es diferente de cero se divide el estimador b0


entre su error estndar y se obtiene la t calculada:
tc = -1/3.5 = -0.2857

Luego este valor se compara con el proporcionado por la tabla de t para


= 0.05 para n-2 grados de libertad (los grados de libertad de la suma de
cuadrados del error). Este valor es de 4.303. Puesto que la tc es inferior en
trminos absolutos a este valor, no se rechaza la hiptesis nula respecto a
que el parmetro de interseccin pasa por el origen, o sea que es igual a
cero.

Para la pendiente, el valor de t calculado es el siguiente:

tc = 2/1.08 = 1.8

Que es tambin menor al valor de tabla de 4.303 y por tanto no se rechaza


la hiptesis nula y se concluye que X no tiene capacidad predictiva sobre
Y.

Supngase ahora que se quiere realizar una proyeccin para X0 = 6, para


ello valoramos la funcin estimada para X0 = 6:

Y = -1 + 2(6) = 11

Si se quiere un intervalo de confianza para esta proyeccin entonces


debemos calcular su error estndar:

)
( ( )
2
/ = [ + ]=[ + ] = .
)
(

Luego su error estndar ser 3.5. El valor de t para = 0.05 y 2 grados de


libertad es de 4.303, luego la cantidad a sumar y restar a 11 ser de 15.06.
El intervalo de confianza del 95% para el verdadero valor de Y cuando X
sea igual a 6 ser el siguiente:

[-4.06, 26.06].

Es decir, este intervalo contendr al verdadero valor de Y, cuando X=6,


con un 95% de probabilidad. Se trata de un IC demasiado amplio que no
tiene aplicacin prctica. Esto es as probablemente por la mala
significacin estadstica del modelo y por el bajo R2 obtenido. El lector
podr entretenerse buscando un intervalo para la prediccin de Y cuando
X = 7 y podr observar que la longitud del intervalo al 95% es todava ms
grande.

Ejemplo 2.7
Pronsticos con el modelo de regresin lineal simple. El modelo de
tendencia.

Un tema recurrente entre los macroeconomistas es la medicin y


pronstico de crecimiento del PIB en cualquier pas. Este pronstico es
importante en la toma de decisiones para muchos otros aspectos de la
economa puesto que el crecimiento del PIB es una informacin de la cual
se desprenden los ingresos, el empleo, la captacin de impuestos, etc.
Para el caso de Mxico se dispone de una serie de tiempo del PIB nacional
de 1950 a 2011, una muestra de 62 observaciones. La fuente de esta
informacin es PWT 8.1. La base de datos es la siguiente:

Cuadro 2.9. PIB mexicano de 1950 a 2011, en millones de dlares de


2005.

Ao PIB Ao PIB Ao PIB


1950 109477.711 1971 377822.813 1992 829811
1951 118392.492 1972 409562.906 1993 853273.1875
1952 124054.25 1973 443263.781 1994 894762.125
1953 120811.516 1974 471731.094 1995 821396
1954 134268.375 1975 498138.906 1996 863098.5
1955 145440.484 1976 525722.25 1997 926465
1956 155177.313 1977 543908.5 1998 968926.9375
1957 166450.859 1978 594238.25 1999 1020309.063
1958 174476.344 1979 657275 2000 1098260.875
1959 179678.188 1980 735074.875 2001 1106399.125
1960 192240.266 1981 794662.625 2002 1120154
1961 198144.953 1982 785868.313 2003 1148513.625
1962 206182.609 1983 739662.125 2004 1209508.625
1963 225580.766 1984 751142.063 2005 1282210.25
1964 255792.156 1985 757384 2006 1362215.75
1965 269801.563 1986 704290.563 2007 1416707.125
1966 287183.75 1987 719519.313 2008 1441547.25
1967 301692.969 1988 705749.313 2009 1344539.5
1968 327757.563 1989 729675.125 2010 1413105.75
1969 340227.688 1990 769903.063 2011 1465172
1970 360737.406 1991 798159.438
Fuente: Penn World Table, consultadas en lnea en www.ggdc.net/pwt

Lo primero es correr el modelo de tendencia en EViews en donde el PIB


est en funcin del tiempo en aos:
= +

La estimacin se lleva a cabo utilizando el EViews y los resultados son los


siguientes:
Dependent Variable: PIB
Method: Least Squares
Date: 08/14/16 Time: 12:44
Sample: 1 62
Included observations: 62

Variable Coefficient Std. Error t-Statistic Prob.

C -43294978 1122707. -38.56302 0.0000


Ao 22190.40 566.8576 39.14634 0.0000

R-squared 0.962322 Mean dependent var 653108.1


Adjusted R-squared 0.961694 S.D. dependent var 408113.0
S.E. of regression 79875.64 Akaike info criterion 25.44606
Sum squared resid 3.83E+11 Schwarz criterion 25.51467
Log likelihood -786.8277 Hannan-Quinn criter. 25.47300
F-statistic 1532.436 Durbin-Watson stat 0.171589
Prob(F-statistic) 0.000000

Claramente se observa que el modelo ajustado es bastante bueno en


trminos de la prueba F, el R2 es muy alto y los coeficientes estimados son
diferentes de cero al 1% de significancia. El D-W sugiere una
autocorrelacin positiva.

Los mismos resultados se obtienen con el SAS. Para obtener los


pronsticos en SAS, a la base de datos se le aaden simplemente los aos
que se quieren pronosticar:
2010 1413105.75
2011 1465172
2012 *
2013 *
2014 *

Y los resultados de los pronsticos se ponen a continuacin


Cuadro 2.10. Pronsticos e intervalos de confianza para el PIB de Mxico
Lmite inferior del Lmite superior del
Valor Error Longitud del
Ao intervalo de intervalo de
predicho estndar intervalo
confianza al 95% confianza al 95%

329,943
2012 1,352,106 20,536 1,187,134 1,517,077

330,442
2013 1,374,296 21,031 1,209,075 1,539,517

330,955
2014 1,396,486 21,529 1,231,009 1,561,964

La longitud del intervalo va creciendo a medida que los pronsticos se


alejan del punto medio de las observaciones (ms aos).

1,600,000
Forecast: SER02F
Actual: SER02
1,200,000 Forecast sample: 1 62
Included observations: 62
Root Mean Squared Error 78576.77
800,000 Mean Absolute Error 64916.77
Mean Abs. Percent Error 16.60560
Theil Inequality Coefficient 0.051265
400,000
Bias Proportion 0.000000
Variance Proportion 0.009601
0
Covariance Proportion 0.990399

-400,000
5 10 15 20 25 30 35 40 45 50 55 60

SER02F 2 S.E.

Figura 2-13. Bandas de confianza

Ejemplo 2.8
Anlisis de la relacin entre el ingreso de las familias y el gasto en el
consumo de alimentos

Se dispone de informacin sobre el ingreso de las familias promedio en


cada pas, como porcentaje del ingreso promedio en Estados Unidos, as
como el gasto promedio del ingreso como porcentaje en el consumo de
alimentos. Los datos se refieren a 20036. Los pases se dividen en de bajos
ingresos (38), de ingresos medios (44) y de altos ingresos (32), para un
total de 114 pases. Este anlisis podra ser til para saber cmo afectar
el incremento de ingresos la estructura de la demanda de alimentos?

Definicin de las variables:

El ingreso de las familias (X) consiste en un porcentaje del ingreso


promedio de las familias en los Estados Unidos, o sea se trata de un
porcentaje.
El gasto en alimentos (Y) se trata de un porcentaje que se destina a la
adquisicin de alimentos, se trata tambin de un porcentaje.

La relacin entre todos los pases del mundo (114)

El modelo que se va a estimar es el siguiente:

= + +

En donde Y es el porcentaje del ingreso que se gasta en alimentos y X es el


ingreso de las familias como porcentaje del ingreso en Estados Unidos; los
betas son los parmetros a estimar y es el error aleatorio. La primera
estimacin se refiere a tomar la base de datos de los 114 pases, es el
modelo global, los resultados al estimar el modelo en E-Views son los
siguientes:

Dependent variable Y
Method: Least Squares
Date: 02/07/16 Time: 12:07
Sample: 1 114
Included observations: 114

Coefficien
Variable t Std. Error t-Statistic Prob.

C 52.80091 143.7561 36.72951 0.0000


X -0.548965 0.035850 -15.31267 0.0000

R-squared 0.676747 Mean dependent var 3567.860

6 Source: Seale and Regmi, 2009, table 12.2, pp. 158-59.


Adjusted R-
squared 0.673861 S.D. dependent var 1689.134
S.E. of regression 964.6408 Akaike info criterion 16.59878
Sum squared resid 1.04E+08 Schwarz criterion 16.64678
Log likelihood -944.1303 Hannan-Quinn criter. 16.61826
F-statistic 234.4778 Durbin-Watson stat 1.363291
Prob(F-statistic) 0.000000

Segn estos resultados, se rechaza la Ho de que el parmetro 1 = 0 con


Pr F =0.0000. El R2 es muy aceptable de 0.676 (el R2 ajustado no difiere
mucho). El Durbin Watson sugiere una zona de no definicin en cuanto a
la presencia de autocorrelacin.

= . .
La recta ajustada es la siguiente:

Con relacin a los estimadores de la interseccin y de la pendiente. Las


pruebas t rechazan la H0 de que son iguales a cero, por tanto se concluye
que la X si tiene influencia sobre Y, o sea, la X explica a la Y. El signo
negativo de la pendiente seala que a medida que crece el ingreso, una
menor proporcin del mismo se destina al gasto alimentario (Ley de
Engel). Por cada incremento del 1% en los ingresos, el porcentaje en el
gasto alimentario decrece -0.67. El grfico se vera de la siguiente manera:

60
Gasto alimentos por ingreso
Porcentaje en alimentos

50
40
30
20
10
0
0 20 40 60
Nivel de ingresos

Figura 2-14. Gastos en alimentos segn nivel de ingresos.

La relacin entre pases de bajos ingresos

Se aplica el mismo modelo del punto anterior pero solamente con la base
de datos de pases de bajos ingresos. El resultado obtenido con E-Views es
el siguiente:
Dependent Variable: Y
Method: Least Squares
Date: 02/03/16 Time: 12:56
Sample (adjusted): 1 37
Included observations: 37 after adjustments

Coefficien
Variable t Std. Error t-Statistic Prob.

C 66.30934 475.9832 13.93102 0.0000


X -1.751210 0.539446 -3.246313 0.0026

R-squared 0.231420 Mean dependent var 5201.946


Adjusted R-
squared 0.209461 S.D. dependent var 1238.912
S.E. of regression 1101.544 Akaike info criterion 16.89935
Sum squared resid 42469009 Schwarz criterion 16.98643
Log likelihood -310.6380 Hannan-Quinn criter. 16.93005
F-statistic 10.53855 Durbin-Watson stat 1.941745
Prob(F-statistic) 0.002578

La relacin entre pases de ingresos medios.

Dependent Variable: Y
Method: Least Squares
Date: 02/03/16 Time: 13:00
Sample: 1 44
Included observations: 44

Coefficien
Variable t Std. Error t-Statistic Prob.

C 48.41506 414.2135 11.68843 0.0000


X -0.550742 0.159849 -3.445393 0.0013

R-squared 0.220356 Mean dependent var 3469.432


Adjusted R-
squared 0.201793 S.D. dependent var 845.9472
S.E. of regression 755.7898 Akaike info criterion 16.13779
Sum squared resid 23991167 Schwarz criterion 16.21889
Log likelihood -353.0314 Hannan-Quinn criter. 16.16787
F-statistic 11.87074 Durbin-Watson stat 1.765101
Prob(F-statistic) 0.001306

La relacin entre pases de ingresos altos


Dependent Variable Y
Method: Least Squares
Date: 02/03/16 Time: 13:03
Sample: 1 32
Included observations: 32

Coefficien
Variable t Std. Error t-Statistic Prob.

C 33.29110 459.9112 7.238592 0.0000


X -0.242383 0.066980 -3.618751 0.0011

R-squared 0.303869 Mean dependent var 1696.406


Adjusted R-
squared 0.280665 S.D. dependent var 594.9181
S.E. of regression 504.5716 Akaike info criterion 15.34576
Sum squared resid 7637774. Schwarz criterion 15.43737
Log likelihood -243.5321 Hannan-Quinn criter. 15.37612
F-statistic 13.09536 Durbin-Watson stat 2.278636
Prob(F-statistic) 0.001076

Resumen

N Intercepto Pendiente R2
Todos los pases 114 52,8 -54,8965 0.67674
Bajos ingresos 37 66,3 -1,7512 0,23142
Ingresos medios 44 48,4 -0,5507 0,22036
Altos ingresos 32 33,3 -0,2424 0,30387

Como ejercicio se pide al lector que analice estos resultados tomando en


cuenta el grupo de pases que se trata

Cuadro 2.10. Ingreso per cpita real normalizado y participacin del


presupuesto en alimentos (IPC 1996)

Pases de bajos ingresos Pases de ingresos medios Pases de ingresos altos


Ingres Ingres Ingres
o Real Consumo o Real Consumo o Real Consumo
per alimentari per alimentari per alimentari
Cpita o como % Cpita o como % Cpita o como %
US=10 del total de US=10 del total de US=10 del total de
Pas 0 gastos Pas 0 gastos Pas 0 gastos
Repblica
Tanzania 2,04 73,24 Ucrania 15,28 45,03 Checa 45,08 25,00
Nigeria 2,88 72,97 Filipinas 16,32 48,35 Grecia 48,48 21,17
Tayikistn 3,37 68,94 Per 16,76 30,31 Corea 49,45 31,64
Zambia 3,46 60,81 Botsuana 16,81 32,80 Portugal 50,54 23,23
Yemen 3,47 61,13 Tailandia 17,03 28,56 Espaa 50,84 17,52
Malawi 3,81 53,35 Marruecos 17,56 45,61 Irlanda 52,19 16,59
Madagascar 3,81 65,88 Venezuela 17,71 29,47 Singapur 53,64 13,04
Mali 3,91 53,27 Macedonia 18,51 34,73 Mauricio 55,77 28,12
Mongolia 3,94 58,74 Belice 18,55 31,17 Israel 57,78 17,70
Nueva
Benn 4,88 55,40 Egipto 18,58 48,08 Zelanda 58,54 15,19
San Vicente &
Kenia 5,35 45,82 Granadinas 18,70 35,87 Finlandia 58,72 14,67
Sierra Leona 5,80 62,09 Suazilandia 19,67 27,48 Bahamas 59,35 35,73
Nepal 5,81 57,88 Lbano 20,07 39,33 Suecia 63,82 13,26
Turkmenist
n 6,04 50,82 Bielorrusia 20,25 50,45 Holanda 64,58 13,29
Congo 6,51 46,92 Kazakstn 20,33 51,82 Francia 68,20 15,34
Senegal 6,94 53,35 Dominica 20,33 38,27 Reino Unido 68,55 16,37
Vietnam 7,10 64,75 Lavita 21,43 41,76 Blgica 69,32 14,36
Bangladesh 7,16 56,05 Sta Lucia 21,55 46,62 Noruega 69,51 15,98
Pakistn 8,23 46,99 Brasil 21,68 22,71 Italia 70,07 16,59
Azerbaiyan 8,76 73,51 Bulgaria 21,80 30,70 Austria 71,51 13,53
Costa de
Marfil 8,99 44,32 Rusia 22,47 34,35 Alemania 71,79 13,09
Paraguay 9,14 27,27 Fiji 23,25 36,28 Australia 73,17 15,07
Uzbekistn 9,54 48,33 Granada 23,26 40,99 Japn 74,12 14,88
Kyrgyzstan 9,57 47,15 Turqua 23,65 32,60 Canada 75,41 11,58
Camern 9,64 43,80 Lituania 24,31 40,42 Bermuda 78,21 14,23
Moldavia 9,65 43,45 Rumania 24,80 45,26 Suiza 79,36 14,57
Bolivia 10,10 42,52 Irn 25,80 32,55 Barbados 79,55 11,10
Ecuador 10,27 29,09 Mxico 26,31 26,63 Hong Kong 79,86 10,28
Armenia 10,74 69,66 Bahrin 26,91 28,55 Islandia 80,11 18,90
Sri Lanka 10,79 63,55 Chile 27,25 22,96 Dinamarca 80,85 14,02
Jordania 11,37 37,67 Antigua&Barbudas 27,34 36,12 Luxemburgo 97,17 17,08
Estados
Albania 12,25 69,26 Polonia 28,27 30,65 Unidos 100,00 9,73
Indonesia 12,56 50,62 Trinidad&Tobago 29,06 22,06
Jamaica 12,63 34,78 Estonia 29,87 33,45
Zimbabue 12,71 25,58 Gabn 30,07 47,94
Guinea 13,03 43,69 Tnez 30,72 35,95
Siria 13,79 47,92 St Kits&Nevis 31,11 36,33
Georgia 13,92 47,39 Uruguay 31,38 25,25
Eslovaquia 31,87 32,06
Hungra 34,57 22,54
Argentina 38,49 32,79
Omn 40,26 24,14
Qatar 42,57 26,22
Eslovenia 43,67 21,34
Bajos Altos
ingresos 0,08 52,58 Ingresos medios 0,25 34,69 ingresos 0,67 16,97
Fuente: ERS-USDA

2.13. Regresin a travs del origen

En contadas ocasiones, nos interesa que nuestra linea de ajuste pase por
el origen, vale decir, cuando X = 0, el valor esperado de Y sea tambin
cero. Esto paece razonable como en el caso de que el ingreso de las
personas sea cero y el impuesto ISR sea tambin cero. Formalmente la
funcin a estimar sera:

En este caso, para estimar la pendiente se recurre a MCO de la siguiente


manera:


)
(
=

Luego: ) =
=(

Resolviendo esta tima ecuacin nos queda:


=
=

=

Ejemplo 2.9.
Regresin a travs del origen

Este es un ejemplo de cmo manejar la regresin a travs del origen


utilizando el paquete EViews. Simplemente en la ecuacin se registra
solamente la variable dependiente (Impuesto) en funcin de la variable
independiente (Ingreso) sin poner la C de la constante y el resultado es el
siguiente:
Dependent Variable: Impuestos
Method: Least Squares
Date: 08/11/16 Time: 12:21
Sample: 1 15
Included observations: 15

Variable Coefficient Std. Error t-Statistic Prob.

Ingreso 0.304314 0.018779 16.20462 0.0000

R-squared 0.771057 Mean dependent var 108.7833


Adjusted R-squared 0.771057 S.D. dependent var 59.99039
S.E. of regression 28.70421 Akaike info criterion 9.616305
Sum squared resid 11535.05 Schwarz criterion 9.663509
Log likelihood -71.12229 Hannan-Quinn criter. 9.615802
Durbin-Watson stat 0.126412

Ntese que no aparece la constante C indicado con ello que la recta de


regresin ajustada pasa por el origen. Cuando se pasa obligadamente a
travs del origen la salida del EViews no reporta la prueba F (porqu?).
A continuacin se reporta la salida del mismo ejercicio pero inluyendo la
constante C, es decir sin la restriccin de pasar por el origen. El resultado
muestra mejor significancia del modelo estimado, buenos niveles de R2 y
la prueba F, as como la significancia de los estimadores. Ntese que la
pendiente es ms pronunciada que en el caso de pasar por el origen,
aunque muestran el mismo signo.

Dependent Variable: Impuestos


Method: Least Squares
Date: 08/11/16 Time: 13:06
Sample: 1 15
Included observations: 15

Variable Coefficient Std. Error t-Statistic Prob.

C -78.37590 16.05466 -4.881816 0.0003


Ingreso 0.494694 0.040680 12.16054 0.0000

R-squared 0.919194 Mean dependent var 108.7833


Adjusted R-squared 0.912978 S.D. dependent var 59.99039
S.E. of regression 17.69686 Akaike info criterion 8.708217
Sum squared resid 4071.325 Schwarz criterion 8.802624
Log likelihood -63.31163 Hannan-Quinn criter. 8.707212
F-statistic 147.8788 Durbin-Watson stat 0.571894
Prob(F-statistic) 0.000000

En el paquete SAS tambin se puede forzar a que la lnea de regresin


pase por el origen, solamente hay que incluir en el rengln del modelo
despus del punto y coma la instruccin noint.

Model Y = X; noint;
Bibliografa del capitulo 2

Christ, Carl F. (1974) Modelos y Mtodos Economtricos. Limusa.


Mxico.
Gujarati, Damodar N. y Dawn C. Porter. (2010). Econometra. McGraw
Hill. Quinta Edicin. Impreso en Mxico.
Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), "The
Next Generation of the Penn World Table" forthcoming in
American Economic Review, available for download at
www.ggdc.net/pwt
Wooldridge, J. M. (2009) Introductory Econometrics. A Modern
Approach. South Western Cengage Learning. USA
Johnston, J. (1972) Econometric Methods. 2nd edition. McGraw Hill
Company. New York.
Koopmans (Ed.). In: Statistical Inference in Dynamic Economic
Models. Koopmans. New York John Wiley.
Marschak, J. (1950) Statistical Inference in Economics: An
Introduction. P 1-50. T. C.
Martnez Garza, Angel (1974). Mtodos economtricos. Proyecto de
investigacin. Escuela Nacional de Agricultura. Chapingo.

Carter Hill R, William E. Griffiths y Guay C. Lim. (2011). Principles of


Econometrics. Fourth Edition. John Wiley & Sons, Inc. Printed in
USA.

Theil, H. (1978). Introduction to Econometrics. Prentice-Hall,


Englewood Cliffs, NJ

Temas para reflexionar


Factores que influyen en la calidad de ajuste de un modelo de regresin
simple y de pronsticos de buena calidad.
Modelos empricos y modelos tericos, Siempre se requiere una teora al
formular un modelo?

Anda mungkin juga menyukai