Anda di halaman 1dari 11

Tema 3.

Regresin lineal simple


FUENTES BIBLIOGRFICAS:
Etxeberria, J. (1999). Regresin mltiple. Madrid: La Muralla.
Hair, J. F., Anderson, R. E., Tatham, R. L., y Black, W. C. (2001). Anlisis
Multivariante (5 ed.). Madrid: Prentice Hall.
Kleinbaum, D. G., Kupper, L. L., Muller, K. A., y Nizam, A. (1998). Applied
Regression Analysis and Other Multivariable Methods. Pacific Grove: Duxbury
Press.
Martnez-Arias, R. (1999). El anlisis multivariante en la investigacin cientfica.
Madrid: La Muralla.
Pardo, A., y Ruiz, M. A. (2002). SPSS 11. Gua para el anlisis de datos. Madrid:
McGraw-Hill.
I) Introduccin
El objetivo del anlisis de regresin lineal simple es predecir o explicar una variable
dependiente (Y) a partir de una variable independiente (X). Por ejemplo, predecir el
rendimiento laboral (Y) a partir de las puntuaciones en un test de seleccin de personal
(X).
Y: variable dependiente o criterio. Es la variable que se desea predecir o explicar. Debe
ser una variable cuantitativa.
X: variable independiente o predictora.
En el anlisis de regresin lineal, la relacin entre X e Y se representa a travs de una
funcin lineal, es decir, a travs de una lnea o recta.
Hay otros tipos de regresin apropiados para funciones no lineales (p.e., regresin
curvilnea).
En este tema, se aborda la regresin lineal simple, es decir, con una sla variable
predictora (X). La regresin lineal mltiple trata de explicar o predecir Y a partir de ms
de una variable predictora (X1, X2, ..., Xp).
Es importante sealar que el anlisis de regresin no permite afirmar que las relaciones
detectadas sean de tipo causal: nicamente se puede hablar de relacin o asociacin
entre variables. Si dos variables estn muy correlacionadas, podremos predecir una a

partir de otra (con cierto grado de error), pero (al igual que la correlacin) la regresin
no implica necesariamente causalidad.
II) Formulacin del modelo
El anlisis de regresin lineal simple permite predecir la puntuacin del caso i-simo en
la variable Y a partir de su puntuacin en X, mediante la ecuacin o recta de regresin:
Yi = b0 +b1 X i

donde,
Yi :

Puntuacin pronosticada en la variable Y para el caso i-simo

b0 :

Constante o intercepto del modelo de regresin. Tambin se denomina ordenada

en el origen porque es la ordenada (el valor de Y o la altura) de la recta cuando X es


igual a cero (origen).
b1 :

Pendiente de la recta de regresin. Adems de la inclinacin de la recta, tambin

indica el cambio que se produce en Y por cada cambio de una unidad en X.


X i : Puntuacin del caso i-simo en la variable predictora.

Normalmente, la prediccin a travs de esa recta de regresin no es perfecta, sino que se


producen errores de estimacin, es decir, los puntos del diagrama de dispersin no
coinciden todos con la recta. Un error de estimacin, tambin denominado residuo, se
define como:
ei =Yi Yi

Grficamente se representa como la distancia (vertical) entre la puntuacin real obtenida


por el caso i-simo en la variable Y, y la pronosticada con la recta de regresin. Los
errores pueden ser positivos cuando el valor observado ( Yi ) est por encima de la recta
de regresin ( Yi ); o negativos cuando el punto est por debajo de la recta.
Esto significa, que la puntuacin obtenida por una persona cualquiera (la i-sima) en la
variable Y es igual a:
Yi = Yi + ei

O, lo que es lo mismo:
Yi = b0 + b1 X i + ei

Este es el modelo matemtico con el que se representa la puntuacin Yi en el anlisis de


regresin lineal simple, y se puede denotar de forma abreviada como [X], la nica
variable predictora que incluye el modelo.
III) Estimacin de los parmetros
En el anlisis de regresin lineal, debemos buscar la recta que ms se aproxima a la
nube de puntos entre X e Y, o, lo que es lo mismo, la que (en conjunto) tiene menos
errores de prediccin. Este procedimiento se denomina de mnimos cuadrados
(minimiza los errores de prediccin al cuadrado), y llega a las siguientes soluciones para
los coeficientes:
A) Coeficientes no estandarizados

b1 = rXY

SY
SX

b0 = Y b1 X

Como se ha comentado anteriormente, b0 es la constante del modelo de regresin. Sin


embargo, el coeficiente que ms inters tiene es b1 (la pendiente de la recta de
regresin) ya que nos indica el cambio que se produce en Y al aumentar una unidad en
X.
Ntese que si X e Y son independientes, es decir, si rxy = 0 , entonces la pendiente de la
recta (b1) es 0, y la constante b0 es igual a Y . Esto significa que si no hay ninguna
relacin entre X e Y, a cualquier caso le pronosticaremos el valor medio de Y:
Yi = b0 +b1 X i = Y + 0( X i )

Este modelo se denomina modelo nulo, se denota como [1], y grficamente se


representa como una recta horizontal (pendiente cero) con altura (b 0) igual a la media de
Y. En el modelo nulo, la variable X no nos sirve para predecir el valor de Y.

B) Coeficientes estandarizados
Los coeficientes de regresin estandarizados son los coeficientes que definen la
ecuacin de regresin cuando sta se obtiene tras estandarizar las variables originales,
es decir, tras convertir las puntuaciones directas de X e Y en puntuaciones tpicas. En
ese caso, la recta de regresin se formula a travs de esta ecuacin:
Z Y = 1 Z X

El coeficiente estandarizado ( 1 ) corresponde a la nica variable predictora y se


obtiene calculando el coeficiente de correlacin de Pearson:

1 = b1

SX
= rXY
SY

Indica la cantidad de cambio que se produce en Y (en puntuaciones tpicas) por cada
cambio de una unidad en X (tambin en tpicas).
En regresin simple, este coeficiente no tiene demasiada importancia. Sin embargo, en
regresin mltiple los coeficientes de regresin estandarizados permiten valorar la
importancia relativa de cada variable predictora independientemente de su escala de
medida.
IV) Bondad de ajuste del modelo
Con el procedimiento anterior, hemos visto cmo predecir el valor de una variable (Y) a
partir de otra variable (X) con el mnimo error posible. En cualquier caso, hace falta
conocer cunto error estamos cometiendo con nuestra recta de regresin. Lgicamente,
cunto ms estrecha sea la relacin entre X e Y, ms se acercar la recta a los datos
observados (nube de puntos). Por tanto, mejor ser el ajuste del modelo a los datos, o, lo
que es lo mismo, menos errores estaremos cometiendo. En este apartado, se presentan
diferentes medidas que indican cunto se ajusta o aproxima el modelo (nuestra recta de
regresin) a los datos observados.
A) Significacin de los coeficientes de regresin
El peso de la variable X a la hora de predecir Y viene dado por la pendiente de la recta
de regresin (b1). Dicho peso o coeficiente de regresin indica la contribucin de la

variable X a la bondad de ajuste del modelo. El estadstico t y su nivel de significacin


estadstica (Sig.) permite contrastar la hiptesis nula de que el coeficiente de regresin
vale cero en la poblacin:
H 0 : 1 = 0

H1 : 1 0

vs

(*Nota: las hiptesis se plantean en trminos poblacionales. Por eso, el coeficiente de


regresin se denota con la letra griega beta).
Este estadstico t se obtiene dividiendo el coeficiente de regresin no estandarizado
entre su correspondiente error tpico:
t b1 =

b1
S b1

siendo:
Sb1 =

Se

( X

X )2

Si la probabilidad de rechazar la hiptesis nula siendo verdadera es baja (sign. 0,05),


entonces la rechazaremos sabiendo que es poco probable haber tomado una decisin
equivocada (error de tipo I: rechazar la hiptesis nula siendo verdadera).
Por el contrario, si la probabilidad de rechazar la hiptesis nula siendo verdadera es alta
(sign. >0,05) no la rechazaremos, ya que es probable cometer un error de tipo I
(rechazar la hiptesis nula siendo verdadera)
Sign. 0,05
Sign. > 0,05

Se rechaza la hiptesis nula a un NC=95%


No se rechaza la hiptesis nula a un NC=95%

Por tanto, si la significacin del estadstico t correspondiente al coeficiente b1 es 0,05,


podemos afirmar que el peso de la variable X1 a la hora de predecir Y es
estadsticamente significativo (ya que es diferente de cero a nivel poblacional).
Tambin se puede contrastar la hiptesis nula de que la constante (b 0) es igual a cero en
la poblacin, pero generalmente carece de utilidad.

B) Intervalos de confianza para el coeficiente de regresin


Alternativamente, se pueden establecer los lmites entre los que se encuentra el
coeficiente de regresin, a un nivel de confianza del 95%:
IC = b1 t n2 ,1( / 2 ) Sb1

= b1 (1,96) Sb1

Si dentro del intervalo de confianza no se encuentra el valor cero, esto significa que el
coeficiente de regresin b1 es diferente de cero a nivel poblacional. Es decir, el peso de
X a la hora de predecir Y es estadsticamente significativo.
C) Anlisis de la varianza asociado
La tabla resumen del ANOVA tambin informa sobre si existe o no relacin
significativa entre la variable predictora (X) y el criterio.
Fuente de

Suma de

Grados de

Medias

Estadstico

Variacin

Cuadrados

libertad

Cuadrticas

SCR
MCR =
gl R = p
p
SCE
glE = n p 1 MCE =
n p 1

Regresin

SCR = (Yi Y ) 2

Residual

SCE = (Yi Yi ) 2

Total

SCT = (Yi Y ) 2 glT = n 1

MCT =

F=

MCR
MCE

SCT
n 1

nmero de observaciones

nmero de variables predictoras (en regresin lineal simple, p =1 )

Veamos qu significan las sumas de cuadrados para cada una de las tres fuentes de
variacin. Como ya se coment anteriormente, un error de estimacin o residuo es la
diferencia entre la puntuacin observada para el caso i-simo en la variable Y ( Yi ) y el
valor que se pronostica con el modelo ( Yi ):
ei =Yi Yi

En regresin lineal simple podemos comparar dos posibles modelos:

- El modelo nulo [1] donde Y es independiente de X, por lo que a cualquier caso le


pronosticamos el valor Y .
-

El modelo [X] que incluye la variable predictora:


Yi = b0 +b1 X i

En cada modelo, se producen errores de estimacin:


Yi Y

Error cometido con el modelo nulo [1],


tambin denominado error inicial.

Yi Yi

Error cometido con el modelo [X].

Para el caso i-simo, la diferencia entre el error cometido con el modelo [1] y el modelo
[X] es igual a:
(Yi Y ) (Yi Yi ) = Yi Y

Por tanto,

Yi Y

se puede considerar como una medida de la reduccin del error

inicial.
Sumando los errores de toda la nube de puntos, y elevndolos al cuadrado (para
prescindir del signo) obtendramos las sumas cuadrticas. En cada modelo, podemos
sumar los errores (al cuadrado) lo que nos da una idea de las diferencias o desviaciones
entre el modelo y los datos observados. Por ello,
- Suma cuadrtica total
SCT = (Yi Y ) 2 Indica la suma de los errores iniciales (al cuadrado), es decir, los

que se cometen con el modelo

[1]. La SCT tambin se denomina desvianza (no

escalada) del modelo nulo, ya que indica cunto se desva el modelo [1] del conjunto de
datos observados:
SCT = D[1]

- Suma cuadrtica error o residual

SCE = (Yi Yi ) 2 Indica la suma de los errores (al cuadrado) cometidos con el

modelo [X], es decir su desvianza:


SCE = D[ X ]

- Suma cuadrtica de la regresin


SCR = (Yi Y ) 2

Indica cunto se reduce el error inicial (cometido con el modelo

nulo) al predecir Y a travs de X. La SCR compara la desvianza del modelo nulo y del
modelo [X].
SCR = SCT SCE = D[1] D[ X ]

Por tanto, la SCR supone la ganancia o mejora del modelo [X] respecto del modelo
nulo.
En la tabla del ANOVA, la prueba de la razn F permite comparar las desvianzas entre
los dos modelos:

F =

D[1] D[ X ] /( gl[1] gl[ X ] )


D[ X ] / gl[ X ]

Donde,
gl[1] = glT = n 1

grados de libertad del modelo [1]

gl[ X ] = gl E = n p 1 = n 2

grados de libertad del modelo [X]

En general, los grados de libertad de un modelo son iguales al nmero de observaciones


(n) menos el nmero de parmetros del modelo. El modelo nulo slo tiene un
parmetro, el coeficiente b0 (que se iguala a la media de Y). El modelo [X] tiene dos
parmetros, los dos coeficientes de regresin: el intercepto ( b0 ) y el peso de la variable
X ( b1 ).
Como ya se ha visto anteriormente,
D[1] D[ X ] = SCR

Y, adems,
gl[1] gl[ X ] = glT gl E = gl R

As pues,
F=

SCR / glR MCR


=
SCE / gl E MCE

El nico parmetro que diferencia el modelo [1] del modelo [X] es el coeficiente b1 .
Por ello, en regresin lineal simple, la prueba de la razn F equivale a contrastar la
hiptesis de que la pendiente de la recta de regresin (b1) vale cero en la poblacin. De
hecho, la significacin del estadstico t correspondiente a b1 es igual a la significacin
del estadstico F del ANOVA.
H 0 : 1 = 0

vs

H1 : 1 0

Si la significacin del estadstico F es menor de 0,05, se rechaza la hiptesis nula a un


nivel de confianza del 95%. Esto significa que el coeficiente de regresin (b1) es
significativamente distinto de cero a nivel poblacional; lo que indica que el modelo que
incluye la variable X, tiene un ajuste a los datos mejor que el modelo nulo.
D) Coeficiente de determinacin: R cuadrado
El coeficiente de determinacin se calcula elevando al cuadrado el coeficiente de
2
correlacin de Pearson entre X e Y ( rxy
). Por tanto, sus valores estn comprendidos

entre cero y uno:


0 R2 1

Interpretacin del coeficiente de determinacin.


El coeficiente de determinacin se puede interpretar de dos formas:
1) Como proporcin de reduccin en el error inicial. O, en otros trminos, es la
proporcin de mejora en los pronsticos realizados con el modelo de regresin
respecto del modelo nulo. Esta interpretacin puede entenderse mejor sabiendo
que,
R2 =

D[1] D[ X ] SCR
=
D[1]
SCT

Por tanto, R2 es una medida de ajuste relativo, ya que valora la reduccin del error
inicial en trminos proporcionales. Si el ajuste del modelo [X] a los datos
observados es perfecto, es decir, no hay errores de estimacin, entonces la desvianza
D[ X ] = 0 . En ese caso, el coeficiente de determinacin alcanza su valor mximo,

R 2 = 1 . En el caso opuesto, si la desvianza del modelo [X] es igual que la desvianza

del modelo nulo, D[1] D[ X ] = 0 , entonces el coeficiente de determinacin toma


el valor mnimo, R 2 = 0 . En este sentido, R2 se interpreta de una forma parecida a la
prueba de la razn F que vimos anteriormente. De hecho, se puede comprobar la
relacin entre los dos estadsticos, que viene definida por:

F =

R2 / p
(1 R 2 ) /( n p 1)

2) Como proporcin (o porcentaje si lo multiplicamos por cien) de la varianza de Y


que se puede explicar a partir del modelo de regresin. Esta interpretacin puede
entenderse mejor si sabemos que,
R2 =

SCR
SCT

Dividiendo numerador y denominador entre n,


R2 =

SCR / n
SCT / n

El denominador es la varianza de Y,
SCT
=
n

(Yi Y )2
n

= SY2

Y el numerador es la varianza de los pronsticos realizados con el modelo.

SCR
=
n

(Yi Y ) 2
n

= SY2

En consecuencia,
2

R =

SY2
SY2

10

Por ejemplo, si el coeficiente de correlacin de Pearson entre X e Y, rxy = 0,8 , entonces


el coeficiente de determinacin R2=0,64. Este valor puede interpretarse de dos formas
complementarias:
1) Con el modelo de regresin [X], los errores iniciales se han reducido en un 64%.
Por lo que queda un 36% del error inicial que no se ha eliminado.
2) El 64% de la varianza de Y se puede explicar o predecir a partir del modelo de
regresin (es decir, a partir de X). Por lo que queda un 36% de la varianza de Y
que no est explicada por X.
E) Coeficiente de determinacin ajustado: R cuadrado corregida
Es una correccin a la baja de R cuadrado que se basa en el nmero de casos (n)
y de variables predictoras (p):
2
Rcorregida
= R2

p (1 R 2 )
n p 1

En una situacin con pocos casos y muchas variables predictoras, R cuadrado es


un estimador algo optimista (artificialmente alto) del verdadero coeficiente de
correlacin poblacional. En tal caso, el valor de R cuadrado corregida ser
sensiblemente ms bajo. En cambio, si hay muchos casos y pocas variables predictoras
los dos valores de R 2 sern muy parecidos.
V) Supuestos del modelo de regresin lineal
El modelo matemtico en el que se basa el anlisis de regresin lineal establece una
serie de supuestos o condiciones que deben darse para poder aplicarlo. Estos supuestos
se exponen en el siguiente tema de regresin lineal mltiple.

11

Anda mungkin juga menyukai