Anlisis de regresin
I have no data yet. It is a capital mistake to theorize
before one has data. Insensibly one begins to twist
facts to suit theories, instead of theories to suit facts.
Todava no tengo datos. Es un error grave teorizar
antes de tener la informacin. Sin darse cuenta, uno
empieza a acomodar los hechos a las teoras en lugar
de ajustar la teora a los hechos.
Sherlock Holmes
relaciones causales entre una variable dependiente (la que se supone que es el resultado de
Antes de realizar cualquier anlisis se debe examinar si existe una relacin lgica
importante. Lo relacionado con los clculos es muy fcil porque existen herramientas
computacionales para hacerlos. Encontrar las posibles relaciones lgicas entre las variables
salario mnimo. Cree usted que hay relacin entre ellas? La tasa de inflacin depender
del aumento del salario mnimo o viceversa? Para responder este tipo de preguntas se debe
conocer cmo ocurren ambos fenmenos. As mismo, si los fenmenos son actos de Dios o
conoce como el ndice de Precios al Consumidor (IPC) y mide el cambio de precio de una
2
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
canasta de bienes que consumen los hogares. Esto quiere decir que hay mltiples
componentes no es producto de una decisin de una sola persona sino de miles de personas.
Por otro lado, el aumento en el salario mnimo es una decisin que toma un pequeo
grupo que negocia ese valor o en el peor de los casos es una decisin de una persona (un
la inflacin.
Observemos una serie de valores para cada una de estas variables. Esto se puede
1
Estimada en enero de 2002.
3
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Se puede observar alguna relacin entre las dos variables? En este caso en que
analizamos dos variables esa posible relacin se puede observar mejor por medio de una
grfica.
40%
35%
30%
25% Tasa de inflacin
20%
%
40%
Aumento de salario mnimo
35%
30%
25%
20%
15%
10%
5%
0%
0% 5% 10% 15% 20% 25% 30% 35%
Inflacin
4
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
imaginarnos una relacin matemtica entre esos valores tal y como se muestran en la figura
2? Imaginemos que esa relacin o tendencia se puede representar con una lnea recta. Habr
muchas lneas rectas que a ojo nos parecen aceptables, por ejemplo, tal y como se
45%
Aumento de salario mnimo
40%
35%
30%
25%
20%
15%
10%
5%
0%
0% 5% 10% 15% 20% 25% 30% 35%
Inflacin
El lector quedar ms satisfecho con unas que con otras y hasta este momento la
seleccin se hara por gusto. Tenemos que encontrar una forma objetiva con base en un
criterio definido y preciso que nos permita encontrar cul es la recta que mejor se ajusta a
los datos. El lector con seguridad tendra muy claro que la recta inferior en esa grfica no
sera adecuada. Inclusive la superior le puede parecer inapropiada. La duda surge de las
rectas intermedias (y de una cantidad infinita de posibilidades que habra con diferentes
Un criterio que se puede examinar con la intuicin sera el de escoger una recta que
fuera equidistante de alguna manera de todos los puntos. O que por ejemplo, la suma de las
diferencias entre los puntos reales y la recta sea mnima o sea cero. La recta horizontal, que
5
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
es el promedio de los aumentos de salario mnimo cumple esta ltima condicin. El lector
quedara satisfecho con esa lnea como la que seala la relacin entre la inflacin y el
aumento de salario mnimo? Con seguridad no. El lector podr verificar que la suma de las
Por ltimo podemos pensar que la lnea que refleje la relacin entre las dos variables
minimice la suma de los cuadrados de las diferencias (que en el prrafo anterior veamos
que se cancelaban entre s). Esta lnea se conoce como la recta de mnimos cuadrados. Los
cuadrados de las diferencias sern siempre positivos porque una cifra negativa o positiva
elevada al cuadrado ser siempre positiva. Es fcil imaginar que la recta que est ms arriba
esta condicin.
Yest = a + bX (1)
Yobser = a + bX + (2)
donde representa el error, o sea la diferencia entre el valor que toma la variable
6
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
En realidad lo que debemos encontrar es los valores de a y b que hacen que el valor
de la anterior expresin sea mnimo. Esto se puede lograr hallando la derivada del cuadrado
(Yobser bX a)2
mnimo) se obtiene
a Yobser + bX = 0 (8)
na Yobser + bX = 0 (9)
a=
Y obser b X
= Y bX (10)
n
tiene,
dividiendo por 2,
Despejando a
7
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
a=
Y obser X - b X 2
(16)
X
Reemplazando a (16) en la derivada con respecto a a en (10), se tiene
a=
Y obser b X
= Y bX (17)
n
Y obser X - b X 2
=
Y obser b X
(18)
X n
Y obser X b X 2
=
Yobser b X
(19)
X n
- b X 2 + Yobser X =
X Y obser
b
( X )2 (20)
n n
b
- b X 2 +( X )2 = X Yobser Yobser X (21)
n n
X Yobser Y X
n
obser
b= (22)
( X )2
X n
2
b=
X Yobser n Yobser X (23)
n X 2 ( X )
2
n Yobser X X Yobser
b= (24)
( X ) 2
n X 2
aparatosas no se requieren.
8
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
activa (se hace clic) la grfica el Men de texto cambia y aparece una nueva opcin que se
llama Grfico, as
40%
Aumento de salario mnimo
35%
30%
25%
20%
15%
10%
5%
0%
0% 5% 10% 15% 20% 25% 30% 35%
Inflacin
9
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Si se activan los puntos haciendo clic sobre ellos entonces se puede solicitar que el
10
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
11
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
40%
Aumento de salario mnimo
utilizando la frmula deducida arriba para cada coeficiente. La recta Y = 0,0595 + 0,7834
Hay otras formas de llegar a los mismos resultados. Por ejemplo, si se usan las
La funcin Pendiente calcula el valor de b cuando se introducen los datos para las
13
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
valor de a.
14
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
nmero de decimales.
frmulas de Excel. En este caso se utiliza la funcin Tendencia. Esta funcin arroja los
valores para la variable independiente (en el ejemplo, la inflacin). Para este caso se deja al
Anlisis de varianza
Hay otra posibilidad que nos brinda Excel y adems proporciona mucha ms
informacin acerca del modelo. Se trata de una herramienta para regresin que se encuentra
15
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
16
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,843963616
Coeficiente de determinacin R^2 0,712274586
R^2 ajustado 0,697888315
Error tpico 0,036018272
Observaciones 22
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
17
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
con el modelo. Por el momento, el lector puede observar los coeficientes a y b obtenidos
Tambin arroja los siguientes valores conocidos como Anlisis de los residuales.
Esta tabla indica el valor del aumento del salario mnimo si se hubiera comportado
exactamente como indica el modelo. As mismo, muestra los residuos, o sea, como vimos
arriba, la diferencia entre el valor real que ocurri y el valor calculado por el modelo.
18
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Tambin arroja la grfica que hemos mostrado arriba con la lnea de ajuste. No se
reproduce aqu por razones obvias. (Puede producir otros informes y grficas a solicitud del
usuario).
La desventaja de esta opcin radica en que los valores calculados en las tablas son
nmeros y no frmulas. Es decir que si se hace un cambio en los datos es necesario repetir
toda la operacin. Por otro lado, la ventaja radica en que ofrece los resultados en una forma
Varios de los datos que produce esta opcin Anlisis de datos tambin los produce
la funcin Estimacin.lineal. La tabla que se produce con esta funcin arroja los siguientes
obtienen los mismos datos bsicos (como el lector habr observado). Para obtener toda la
19
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
puede utilizar, por ejemplo, para determinar la relacin entre dos variables, en nuestro
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,843963616
Coeficiente de determinacin R^2 0,712274586
R^2 ajustado 0,697888315
Error tpico 0,036018272
Observaciones 22
Cov(X, Y )
r=
xY
Cov(X, Yobser )
r=
x Yobser
las variables.
1 r 1
y:
20
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
1
Cov(X, Y ) =
n
(X X )(Y Y )
El signo del coeficiente de correlacin indica el sentido de la relacin de la misma
manera que la covarianza nos indica con su signo si la variacin de las dos variables es en
valor absoluto, ms relacin podremos suponer que existe entre las variables.
1. La suma total de los cuadrados STC, (en la tabla de Anlisis de varianza que
produce Excel se titula como Total, est ubicada bajo la columna Suma de
sea, STC = Total = (Yobser Yobser ) . Este valor mide la variacin total de
2
los cuadrados SEC, (en la tabla de Anlisis de varianza que produce Excel se
21
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
3. Una tercera es la suma del cuadrado de los residuos SCR, que es el cuadrado
SCR, (en la tabla de Anlisis de varianza que produce Excel se titula como
Para entender la idea de las diferencias miremos la siguiente grfica con valores
40%
35%
30%
Valores del aumento
25% Observado
20% Pronstico
15% Promedio
10%
5%
0%
0% 5% 10% 15% 20% 25% 30% 35%
Inflacion
22
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
diferencias.
25,0%
24,0%
23,0% Error
Observado
Total
Valores
20,0%
19,0%
20,5% 21,0% 21,5% 22,0%
Inflacion
Con los datos de la tabla Anlisis de los residuales podemos comprobar la siguiente
relacin
Redondeando STC
23
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
STC, se explica con el modelo y que parte no se puede explicar (los errores que habamos
definido arriba). Fcilmente podemos calcular la fraccin correspondiente a cada uno de los
(SCR).
Suma de cuadrados
Regresin 0,064231041
Residuos 0,025946318
Total 0,090177359
24
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,843963616
Coeficiente de determinacin R^2 0,712274586
R^2 ajustado 0,697888315
Error tpico 0,036018272
Observaciones 22
Esto quiere decir que el R2 es exactamente SEC/STC. Este valor estar siempre
entre 0 y 1 simplemente porque SEC nunca podr ser mayor que STC (SEC es un
componente de STC).
los puntos observados estuvieran en la lnea de regresin, R2 sera igual a 1. Esto quiere
decir que hay un ajuste perfecto. Por lo tanto, un R2 cercano a 1 indica buen ajuste y un R2
cercano a cero indica un mal ajuste. Entonces R2 mide la bondad del ajuste.
encontramos la proporcin de SEC sobre el total. Es decir, dividimos (26) por STC
SEC SCR
1= + (27)
STC STC
SEC SCR
R2 = = 1- (28)
STC STC
25
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
SEC SCR n
R2 = = 1- (29)
STC STC n
dividido ambos elementos del quebrado por n. Pero sabemos que por definicin la varianza
es la suma de los cuadrados de las diferencias con la media dividida por n, es decir que
SCR/n y STC/n son la varianza de los residuos y la varianza total. Sin embargo, por razones
que no estn al alcance de estos apuntes, esas varianzas no son las verdaderas porque son
insesgada, hay que dividir no por n, sino por el nmero de grados de libertad de cada
elemento. Los grados de libertad se calculan para los residuos como (n k 1) donde n es
para las cuales se desea estimar el coeficiente; en el caso de la STC los grados de libertad
son (n 1). Estos grados de libertad estn en la tabla y son respectivamente 20 y 21.
Entonces al usar los grados de libertad en (29) obtenemos el verdadero valor de R2 es decir,
el R2 ajustado.
26
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
0,025946318 20
R 22ajust = 1 - = 0,697888315
0,090177359 21
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,843963616
Coeficiente de determinacin R^2 0,712274586
R^2 ajustado 0,697888315
Error tpico 0,036018272
Observaciones 22
suma de los cuadrados de los residuos y el nmero de grados de libertad de los mismos.
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
27
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
En nuestro ejemplo
0,025946318
Error tpico de los residuos = = 0,001297316 = 0,036018272
20
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,843963616
Coeficiente de determinacin R^2 0,712274586
R^2 ajustado 0,697888315
Error tpico 0,036018272
Observaciones 22
variables independientes, SCR disminuye pero a la vez los grados de libertad aumentan y a
menos que la disminucin de SCR sea realmente significativa, sta se ver compensada con
variable independiente. La pregunta que nos hacemos ahora es si esos valores son o no
ciertos. Ms aun, lo que nos interesa saber es si son estadsticamente diferentes de cero.
Una manera de determinarlo es planteando lo que se conoce como una prueba de hiptesis.
28
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
SCR
(n 2)n i
x2
Var (a ) = (31)
(x )
2
i x
SCR
Var (b) =
(n 2)2 (32)
(x )2
i x
(x x ) x
2 2
En nuestro ejemplo tenemos que i es igual a 0,104651175 y i es igual
SCR
a 0,99919074. Adems, es lo que en nuestra tabla se llama Promedio de los
(n 2)
0,025946318
cuadrados y en nmeros es = 0,001297316 .
20
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,843963616
Coeficiente de determinacin R^2 0,712274586
R^2 ajustado 0,697888315
Error tpico 0,036018272
Observaciones 22
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
29
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
0,001297316
0,99919074
Var (a ) = 22 = 0,000563025
0,104651175
entonces
a = 0,023728139
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
0,001297316
Var (b) = 20 = 0,012396573
0,104651175
b = 0,111339897
Esta es la cifra que aparece enfrente del estimado del coeficiente de la variable
30
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
x
t=
s
n
0,783430411
tb = = 7,036385261
0,111339897
aleatoria.
31
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
Mientras ese valor sea ms grande ser mejor, pero hay que hacer un clculo con la
negativo o positivo, le indicamos a la funcin que haga el clculo con dos colas. Los grados
de libertad son n 2 (es decir 20) y el valor de t es el que acabamos de calcular. De modo
arroja esta funcin es 7,97608E-07 (es decir 7,97608 dividido por 10 millones). Este
resultado mide la probabilidad de que el valor obtenido para t ocurra por azar, dentro de
una situacin en que el verdadero valor de b sea cero y se le conoce como valor p o p-
value en ingls. En nuestro ejemplo esta probabilidad es muy baja y muchsimo menor que
32
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
ejemplo
0,059502091
ta = = 2,507659433
0,023728139
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
Aqu la conclusin de este anlisis es la misma que para b: que no podemos
porque la suma del doble de la probabilidad (dos colas) es menor que 5%..
33
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
En este sentido, entonces, decimos que los coeficientes estimados hallados por la
nos parecen altos. Pero esto es un juicio subjetivo. Debemos hallar la forma de examinar
continuacin
SEC
Promedio de la suma explicada de los cuadrados k1
F= =
Promedio de la suma no explicada SCR
k2
donde k1 y k2 son los grados de libertad de cada uno, tendramos para nuestro
ejemplo
0,064231041
F= 1 = 0,064231041 = 49,51071754
0,025946318 0,001297316
20
34
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
En el caso de una sola variable independiente, este valor es el mismo que se obtiene
ejemplo diremos que el modelo es adecuado desde el punto de vista estadstico. Esta prueba
Intervalos de confianza
Hemos establecido un valor puntual estimado de a y de b. Nos interesa establecer
un rango de valores posibles entre los cuales se puede encontrar los valores verdaderos de
esos estimados a y b.
tpico o usual es el de 95%. Como hemos establecido un estadstico t de dos colas, entonces
a c(error tpico de a)
b c(error tpico de b)
35
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
c =DISTR.T.INV(0,05;20) = 2,08596248
a c(error tpico de a)
b c(error tpico de b)
Promedio de
Grados de Suma de los Valor crtico
libertad cuadrados cuadrados F de F
Regresin 1 0,064231041 0,064231041 49,51071754 7,97608E-07
Residuos 20 0,025946318 0,001297316
Total 21 0,090177359
Inferior Superior
Coeficientes Error tpico Estadstico t Probabilidad 95% 95%
Intercepcin 0,059502091 0,023728139 2,507659433 0,020888923 0,010006084 0,108998099
Tasa de
inflacin 0,783430411 0,111339897 7,036385261 7,97608E-07 0,551179564 1,015681259
Las diferencias radican en que se aaden ms lneas inferiores, una para cada variable
importante en nuestro anlisis del aumento del salario mnimo. Nuestro modelo sera
36
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,910928644
Coeficiente de determinacin R^2 0,829790994
R^2 ajustado 0,811874257
Error tpico 0,028422562
Observaciones 22
Anlisis de varianza
Grados de Suma de Promedio de Valor crtico
libertad cuadrados los cuadrados F de F
Regresin 2 0,07482836 0,03741418 46,31373293 4,94691E-08
Residuos 19 0,015348999 0,000807842
Total 21 0,090177359
Superior
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% 95%
Intercepcin 9,170898574 2,515719334 3,645437888 0,001720922 3,905435859 14,43636129
Ao -0,00454765 0,001255603 -3,621886091 0,001815722 -0,00717566 -0,00191964
Tasa de inflacin 0,511899903 0,115497985 4,432111105 0,000286055 0,270159766 0,753640039
ajustado aumentan, as
37
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Se debe observar que el error tpico ha disminuido, mientras los coeficientes R2 que
F Valor crtico de F
Una variable 49,51071754 7,97608E-07
Dos variables 46,31373293 4,94691E-08
coeficientes son
explicacin.
Los grados de libertad tambin nos han cambiado porque ahora son dos variables
independientes, as
Esto significa que al calcular los valores de F y de t debemos tener en cuenta que
para F los grados de libertad son 2 para el numerador y 19 para denominador. En el caso de
38
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Al calcular los valores t debemos utilizar 19 grados de libertad para dos variables
Relaciones espurias
Al inicio de esta nota prevenamos al lector sobre el cuidado que se debe tener de
establecer relaciones lgicas entre variables. El mayor esfuerzo que se debe dedicar al
anlisis de datos es ste. Como ya se vio hay programas como Excel y muchos otros
especializados para hacer lo que algunos llaman el trabajo sucio de los clculos.
que no tienen ninguna relacin entre s. El lector creera que mientras ms crece la
poblacin de los Estados Unidos la inflacin en Colombia baja? Con toda seguridad
39
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
35%
30%
25%
Inflacin
20%
15%
10%
5%
0%
245 250 255 260 265 270 275 280 285
Poblacin USA
Tanto la tabla como la grfica nos indican una relacin estrecha entre las variables.
siguiente:
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,94986527
Coeficiente de determinacin R^2 0,90224403
R^2 ajustado 0,89138226
Error tpico 0,0231768
Observaciones 11
Anlisis de varianza
Grados de Suma de Promedio de FValor crtico
libertad cuadrados los cuadrados de F
Regresin 1 0,04462007 0,04462007 83,0659923 7,7014E-06
Residuos 9 0,00483448 0,00053716
Total 10 0,04945455
40
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Si nos atenemos a las cifras que resultan del anlisis de varianza deberamos
Colombia disminuye. Podemos ver que los R2 son altos, que los coeficientes a y b son
esto que s hay una relacin entre la variable independiente (poblacin de los Estados
lgicas entre las variables. No cabe la menor duda que en este ejemplo la variable
independiente no tiene nada que ver con la variable dependiente a pesar de que los
A manera de conclusin
En esta nota pedaggica hemos explicado paso a paso los diversos procedimientos
para hacer un anlisis de regresin. As mismo, hemos explicado en detalle cmo leer una
tabla ANOVA. Se espera que el lector pueda, con esta gua elaborar modelos de regresin
estadstico.
Hay que advertir que este campo de la estadstica pertenece a lo que se conoce como
apuntes. Hay pruebas (cuya informacin provee en gran medida Excel) que se deben
realizar para verificar que los supuestos bsicos (ver Apndice) del anlisis de regresin se
cumplen.
El mensaje que deja esta nota es el siguiente: los recursos de cmputo hacen ms
fcil la tarea sucia de calcular indicadores, tablas, etc.; esto deja tiempo para dedicar la
41
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Referencias
Bowker, Albert H. y Gerald J. Lieberman, Engineering Statistics, Prentice-Hall, 1959.
Wonnacott, Thomas H., Ronald J. Wonnacot, Introductory Statistics for Business and
la edicin de 2000).
42
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
Apndice
2. Muestra aleatoria. Se supone que se cuenta con una muestra aleatoria de un universo
errores es cero.
43
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
44