Anda di halaman 1dari 14

Modelo de Regresin lineal simple

Es una tcnica estadstica para investigar la relacin lineal entre una variable independiente
x (variable explicativa regresora) y una variable dependiente y (variable respuesta
variable explicada), a partir de una muestra.
Los modelos de regresin lineal tienen muchas aplicaciones en el campo de las ciencias
econmicas, entre estas tenemos la estimacin de funciones de consumo, de demanda, las
ventas etc. La metodologa regresin lineal parte de la informacin de una muestra aleatoria
tomada de una poblacin, con variables cuantitativas bien definidas, para construir un
modelo cuantitativo que describa las relaciones existentes entre esas variable.
En los modelos de regresin lineal simple solo se incluyen dos parmetros a
y
1 0
| |
.
los cuales aparecen en el modelo para la poblacin de la forma:
c | | + + = X
1 0
Y

Anlisis
Dado el modelo de regresin lineal simple, indicado anteriormente si se calcula la esperanza
(valor esperado) del valor Y, se obtiene:
) E( X) ( ) ( ) / (
1 0
c | | + + = E E x Y E

X ) / (
1 0
| | + = = Y x Y E

Cada
) , (
i i
y x

en la muestra satisface
i i i
Y x Y E c | | + + = =
i 1 0
X ) / (

Donde es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que
(media cero, varianza constante e igual a un
2
)
Luego con los datos de la muestra se obtiene la ecuacin estimada de regresin:
X

1 0
| | + = Y

Cada
) , (
i i
y x
en la muestra satisface
i i
e Y + + =
i 1 0
X

| |




1 1 0 1

X Y | | + =
-
-
-










Figura 1: Funcin de regresin poblacional y funcin de regresin muestral

Calculando y . Para esto se buscan dichos parmetros de tal forma que minimicen
2
i 1
n
1 i
0
1 1
2 2
) x

( ) ( | |

= = =
= =
i
n
i
n
i
i i i
y y y e

Derivando respecto a y e igualando a cero, se obtiene:
0 ) )( ( 2
)

(
0 ) ( 2
)

(
1 0
1
1
1
2
1 0
1 0
1
0
1
2
1 0
= =
c
|
.
|

\
|
c
= =
c
|
.
|

\
|
c

=
=
=
=
i i i
n
i
n
i
i i
i i
n
i
n
i
i i
x x y
x y
x y
x y
| |
|
| |
| |
|
| |




1
u
1
u
1
X
1
Y
i
X
i
Y
) , (
1 1
Y X
i i
X Y E
1 0
) ( | | + =
i i
X Y
1 0

| | + =
1 1 0 1
) ( X Y E | | + =


Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente
solucin para ambos parmetros:




Donde la sumatoria se realiza desde 1 hasta n
El anlisis de regresin es una tcnica estadstica para la investigacin de la relacin entre
dos o mas variables, puede emplearse para construir un modelo que permita predecir el
comportamiento de una variable y (dependiente, respuesta) en funcin de una o mas
variables (independientes, predictivas) x.
Los comportamientos de estas variables pueden estar definidos de antemano lo cual nos
remite a un modelo terico, o bien, se tiene el caso de que no exista una relacin establecida
entre estas y sea necesario establecer una primera aproximacin del comportamiento de las
mismas.
Lo anterior se puede lograr usando una herramienta grfica denominada diagrama de
dispersin lo que nos conducira a desarrollar un modelo emprico de la relacin que
mantienen las variables en estudio.












EJEMPLO DE REGRESION LINEAL SIMPLE
En la tabla siguiente se muestran los gastos publicitarios xi (*$10,000) y el volumen de
ventas yi (*$10,000)
yi xi - - -
2
=46.48+52.57 -
2
-
2
(yi-
2

101 1,2 1,326 0,0676 109,564 186,704896 26,01 73,342096
92 0,8 0,546 0,0196 88,536 54,228496 15,21 11,999296
110 1 0,846 0,0036 99,05 9,9225 198,81 119,9025
120 1,3 8,676 0,1296 114,821 358,004241 580,81 26,822041
90 0,7 1,416 0,0576 83,279 159,289641 34,81 45,171841
82 0,8 1,946 0,0196 88,536 54,228496 193,21 42,719296
93 1 -0,174 0,0036 99,05 9,9225 8,41 36,6025
75 0,6 7,106 0,1156 78,022 319,622884 436,81 9,132484
91 0,9 0,196 0,0016 93,793 4,439449 24,01 7,800849
105 1,1 1,456 0,0256 104,307 70,677649 82,81 0,480249
Totales 959 9,4 23,34 0,444 1227,04075 1600,9 373,973152

a) Representar la informacin en un diagrama de dispersin
b) Determinar la ecuacin estimada de regresin
c) Si se ha pronosticado $15,000 para publicidad este mes Cul es el volumen medio
de ventas pronosticado para este mes?
d) Determine e interprete el coeficiente de correlacin ( r ) y el coeficiente de
determinacin ( r
2

)
e) De una estimacin del error estndar. Interprete












PUBLICID
1,4 1,2 1,0 ,8 ,6 ,4 ,2 0,0
V
E
N
T
A
S
140
120
100
80
60
40
20
0

0,2 0,4 0,6 0,8 1,0 1,2
publicid
0,00
20,00
40,00
60,00
80,00
100,00
120,00
v
e
n
t
a
s

1ventas = 46, 49 + 52, 57 * publ ici d


R-cuadrado = 0,77


Para obtener la ecuacin estimada de regresin determinamos las estimaciones de los
parmetros:

49 . 46 ) 94 . 0 ( 57 . 52 9 . 95
57 . 52
4444 . 0
34 . 23
) (
) ( ) (
1 0
10
1
2
10
1
1
= = =
= =

x y
x x
y y x x
i
i i
| |
|


Luego la ecuacin estimada de regresin es:

i
x y 57 . 52 49 . 46 + =


Luego debemos calcular e interpretar, el coeficiente de determinacin, el coeficiente de
correlacin y la estimacin del error estndar segn la muestra

84 . 6
8
973152 . 373
2
) (
2
88 . 0 77 . 0
77 . 0
9 . 1600
04075 . 1227
) (
) (
10
1
2
2
10
1
2
10
1
2
2
r r
r
= =

= = = =
= =

= = =

=
=
n
y y
n
SSE
S y Luego
y y
y y
total s decuadrado Suma
regresion de s decuadrado Suma
SST
SSR
i i
yx
i
i
i
i




MODELO DE REGRESIN LINEAL MLTIPLE (METODO DE MNIMOS CUADRADOS)

Para estimar los k + 1 parmetros |
0
, |
1
, |
2
, ..., |
k
se usar un procedimiento similar al
modelo de regresin lineal simple con el mtodo de mnimos cuadrados

k k
x x y | | | |

+ + + + = ... x
2 2 1 1 0


Sea
i i i
y y e =

Donde
i
y
: valor observado en la muestra

i
y
: Valor obtenido con el modelo de mnimos cuadrados:
Criterio de mnimos cuadrados
Minimizar

= = =
= = =
n
i
i i i
n
i
i i
n
i
i
x x x y y y e SCE
1
2
2 2 1 1 0
1
2
1
2
) ... ( ) ( | | | |



Utilizando 0 =
c
c
i
SCE
|
, i=0, 1, 2, ..., n, se obtienen las ecuaciones normales para encontrar
los estimadores ,
1 0
, | |

...,
i
|



Consideremos el caso especfico i=2

Y depende de 2 variables x
1
, x
2


Modelo terico probabilista propuesto:

Y = |
0
+ |
1
x
1
+ |
2
x
2
+ e .

Modelo de regresin lineal mltiple de mnimos cuadrados;


2 2 1 1 0
x x y | + | + | =



Para encontrar ,
1 0
, | |


2
|



0
i
SCE
=
| c
c
, i=0, 1, 2
Se obtienen las ecuaciones normales





= = = =
= = = =
= = =
= + +
= + +
= + +
n
i
n
i
n
i
n
i
n
i
n
i
n
i
n
i
n
i
n
i
n
i
y x x x x x
y x x x x x
y x x n
1
2
1
2
2 2
1
1 2 1
1
2 0
1
1
1
2 1 2
1
2
1 1
1
1 0
1 1
2 2
1
1 1 0
| | |
| | |
| | |





EJEMPLO DE REGRESION LINEAL MULTIPLE
Una empresa que elabora productos de consumo, esta interesada en medir el efecto que
tienen distintos tipos de medios publicitarios respecto de las ventas de sus productos. La
empresa se interesa especficamente en la influencia de la publicidad en la radio y en los
peridicos. Se selecciona una muestra de 22 ciudades con poblaciones con caractersticas
similares para estudiarlas durante un periodo de prueba de un mes. A cada ciudad se le
asigna una cantidad de gastos especficos para publicidad en radio y peridicos. Se registran
las ventas del producto en ese mismo periodo segn se detalla en la tabla siguiente:







x1 x2 yi =156.425+13.0811+16.7952 -
2
-
2
(x1)
2
(x2)
2
x1*x2 x1*yi x2*yi
0 40 973 828,225 157538,342 63572,5625 0 1600 0 0 38920
0 40 1119 828,225 157538,342 11264,8505 0 1600 0 0 44760
25 25 875 903,325 103562,32 122595,218 625 625 625 21875 21875
25 25 625 903,325 103562,32 360163,218 625 625 625 15625 15625
30 30 910 1052,705 29732,4498 99310,6985 900 900 900 27300 27300
30 30 971 1052,705 29732,4498 64585,1065 900 900 900 29130 29130
35 35 931 1202,085 531,348601 86515,9865 1225 1225 1225 32585 32585
35 35 1177 1202,085 531,348601 2317,0745 1225 1225 1225 41195 41195
40 25 882 1099,54 15774,3552 117742,314 1600 625 1000 35280 22050
40 25 982 1099,54 15774,3552 59115,1145 1600 625 1000 39280 24550
45 45 1628 1500,845 76015,4527 162299,402 2025 2025 2025 73260 73260
45 45 1577 1500,845 76015,4527 123808,274 2025 2025 2025 70965 70965
50 0 1044 810,475 171943,745 32810,2505 2500 0 0 52200 0
50 0 914 810,475 171943,745 96805,6105 2500 0 0 45700 0
55 25 1329 1295,755 4987,04316 10787,7305 3025 625 1375 73095 33225
55 25 1330 1295,755 4987,04316 10996,4585 3025 625 1375 73150 33250
60 30 1405 1445,135 48399,56 32351,0585 3600 900 1800 84300 42150
60 30 1436 1445,135 48399,56 44463,6265 3600 900 1800 86160 43080
65 35 1521 1594,515 136440,846 87535,5065 4225 1225 2275 98865 53235
65 35 1741 1594,515 136440,846 266115,666 4225 1225 2275 113165 60935
70 40 1866 1743,895 269110,9 410706,666 4900 1600 2800 130620 74640
70 40 1717 1743,895 269110,9 241930,194 4900 1600 2800 120190 68680
Totales 950 660 26953 2028072,72 2507792,59 49250 22700 28050 1263940 851410

Veamos a continuacin el diagrama de dispersin:


El sistema de ecuaciones nos queda de la forma:
851410 22700 28050 660
1263940 28050 49250 950
26953 660 950 22
2 1 0
2 1 0
2 1 0
= + +
= + +
= + +
| | |
| | |
| | |







1
2
11
12
13
14
20
21
ventas1 = 156, 43 + 13, 08 * aradi o + 16,80 * aperi odi
R-cuadrado = 0,81

3
4
5
6
7
8
9
10
15 16
17
18
19
22
Al resolver el sistema obtenemos los resultados:
80 . 16 , 13.08 , 156.43
2 1 0
= = = | | |


90 . 0 81 . 0
81 . 0
59 . 2507792
72 . 2028072
) (
) (
2
10
1
2
10
1
2
2
r r
r
= = =
= =

= = =

=
=
Luego
y y
y y
total s decuadrado Suma
regresion de s decuadrado Suma
SST
SSR
i
i
i
i


PRUEBAS DE SIGNIFICANCIA EN LOS MODELOS DE REGREASION LNEAL

1) PRUEBA F

Se usa para determinar si hay una relacin significativa entre la variable dependiente y el
conjunto de todas las variables independientes. En tal sentido se le llama prueba de
significancia global.
El modelo de regresin lineal mltiple en consideracin es:
e x x y
k k
+ + + + + = | | | |

... x
2 2 1 1 0

Las hiptesis para la prueba F involucra los parmetros del modelo de la forma siguiente:
cero a esigual no parametros los de mas Uno H
H
a
k
:
0 .......... :
2 1 0
= = = = | | |

Si se rechaza
0
H
tendremos suficiente evidencia estadstica para concluir que uno mas
de los parmetros no es igual a cero y que la relacin general entre la variable dependiente
el conjunto de varables ndependentes
k
x x x ,....... ,
2 1
es significativa.



0
H


Para entender la prueba F necesitamos definir el concepto de cuadrado medio.
Un cuadrado medio es la suma de cuadrados dividida con sus grados de libertad.

a) Suma de cuadrados total (SST) tiene n-1 grados de libertad
b) Suma de cuadrados debido a la regresin (SCR tene p grados de lbertad donde
p es el numero de variables independientes)
c) Suma de cuadrados de los errores (SCE) tiene n-(p+1) grados de libertad

As :
El cuadrado medio debido a la regresin esta dado por
p
SCR
MSR =


El cuadrado medio debido al error esta dado por
) 1 ( +
=
p n
SCE
MSE


Si

es verdadera y los supuestos son validos entonces:
MSE
MSR
F =


Tiene un distribucin F con p grados de libertad en el numerador y n-(p+1) grados de
libertad en el denominador.







RESUMEN
Prueba F de significancia global
cero a esigual no parametros los de mas Uno H
H
a
k
:
0 .......... :
2 1 0
= = = = | | |

Estadstico de prueba
MSE
MSR
F =


Regla de rechazo: Rechazar si F > F
o
Con el valor p : Rechazar H
0
si el valor p < o
Donde F
o
se basa en la distribucin F

con p grados de libertad en el numerador y n-(p+1) grados de libertad en el
denominador.



2) PRUEBA t
La prueba t se aplica para determinar si cada una de las variables independientes es
significativa ( tiene significancia). Se hace una prueba t por separado para cada variable
independiente en el modelo. A cada una de esas pruebas t se les llama prueba de
significancia individual.
Con otras palabras se hace una prueba t para determinar la significancia de cada uno de
los parmetros individuales.




k
S
t
k
|
|

=

RESUMEN
Para cualquier parmetro |
k
0 :
0 :
0
=
=
k a
k
H
H
|
|

Estadstico de prueba

Donde


Regla de rechazo: Rechazar
0
H
si
2 / 2 / o o
t t t t >


Con el valor p: Rechazar H
0
si el valor p < o
Donde
se b asa en la distribucin t con n-(p+1) grados de libertad


2 / o
t


=
2

) ( x x
S
S
i
k
|