partir de otra (con cierto grado de error), pero (al igual que la correlacin) la regresin
no implica necesariamente causalidad.
II) Formulacin del modelo
El anlisis de regresin lineal simple permite predecir la puntuacin del caso i-simo en
la variable Y a partir de su puntuacin en X, mediante la ecuacin o recta de regresin:
Yi = b0 +b1 X i
donde,
Yi :
b0 :
O, lo que es lo mismo:
Yi = b0 + b1 X i + ei
b1 = rXY
SY
SX
b0 = Y b1 X
B) Coeficientes estandarizados
Los coeficientes de regresin estandarizados son los coeficientes que definen la
ecuacin de regresin cuando sta se obtiene tras estandarizar las variables originales,
es decir, tras convertir las puntuaciones directas de X e Y en puntuaciones tpicas. En
ese caso, la recta de regresin se formula a travs de esta ecuacin:
Z Y = 1 Z X
1 = b1
SX
= rXY
SY
Indica la cantidad de cambio que se produce en Y (en puntuaciones tpicas) por cada
cambio de una unidad en X (tambin en tpicas).
En regresin simple, este coeficiente no tiene demasiada importancia. Sin embargo, en
regresin mltiple los coeficientes de regresin estandarizados permiten valorar la
importancia relativa de cada variable predictora independientemente de su escala de
medida.
IV) Bondad de ajuste del modelo
Con el procedimiento anterior, hemos visto cmo predecir el valor de una variable (Y) a
partir de otra variable (X) con el mnimo error posible. En cualquier caso, hace falta
conocer cunto error estamos cometiendo con nuestra recta de regresin. Lgicamente,
cunto ms estrecha sea la relacin entre X e Y, ms se acercar la recta a los datos
observados (nube de puntos). Por tanto, mejor ser el ajuste del modelo a los datos, o, lo
que es lo mismo, menos errores estaremos cometiendo. En este apartado, se presentan
diferentes medidas que indican cunto se ajusta o aproxima el modelo (nuestra recta de
regresin) a los datos observados.
A) Significacin de los coeficientes de regresin
El peso de la variable X a la hora de predecir Y viene dado por la pendiente de la recta
de regresin (b1). Dicho peso o coeficiente de regresin indica la contribucin de la
H1 : 1 0
vs
b1
S b1
siendo:
Sb1 =
Se
( X
X )2
= b1 (1,96) Sb1
Si dentro del intervalo de confianza no se encuentra el valor cero, esto significa que el
coeficiente de regresin b1 es diferente de cero a nivel poblacional. Es decir, el peso de
X a la hora de predecir Y es estadsticamente significativo.
C) Anlisis de la varianza asociado
La tabla resumen del ANOVA tambin informa sobre si existe o no relacin
significativa entre la variable predictora (X) y el criterio.
Fuente de
Suma de
Grados de
Medias
Estadstico
Variacin
Cuadrados
libertad
Cuadrticas
SCR
MCR =
gl R = p
p
SCE
glE = n p 1 MCE =
n p 1
Regresin
SCR = (Yi Y ) 2
Residual
SCE = (Yi Yi ) 2
Total
MCT =
F=
MCR
MCE
SCT
n 1
nmero de observaciones
Veamos qu significan las sumas de cuadrados para cada una de las tres fuentes de
variacin. Como ya se coment anteriormente, un error de estimacin o residuo es la
diferencia entre la puntuacin observada para el caso i-simo en la variable Y ( Yi ) y el
valor que se pronostica con el modelo ( Yi ):
ei =Yi Yi
Yi Yi
Para el caso i-simo, la diferencia entre el error cometido con el modelo [1] y el modelo
[X] es igual a:
(Yi Y ) (Yi Yi ) = Yi Y
Por tanto,
Yi Y
inicial.
Sumando los errores de toda la nube de puntos, y elevndolos al cuadrado (para
prescindir del signo) obtendramos las sumas cuadrticas. En cada modelo, podemos
sumar los errores (al cuadrado) lo que nos da una idea de las diferencias o desviaciones
entre el modelo y los datos observados. Por ello,
- Suma cuadrtica total
SCT = (Yi Y ) 2 Indica la suma de los errores iniciales (al cuadrado), es decir, los
escalada) del modelo nulo, ya que indica cunto se desva el modelo [1] del conjunto de
datos observados:
SCT = D[1]
SCE = (Yi Yi ) 2 Indica la suma de los errores (al cuadrado) cometidos con el
nulo) al predecir Y a travs de X. La SCR compara la desvianza del modelo nulo y del
modelo [X].
SCR = SCT SCE = D[1] D[ X ]
Por tanto, la SCR supone la ganancia o mejora del modelo [X] respecto del modelo
nulo.
En la tabla del ANOVA, la prueba de la razn F permite comparar las desvianzas entre
los dos modelos:
F =
Donde,
gl[1] = glT = n 1
gl[ X ] = gl E = n p 1 = n 2
Y, adems,
gl[1] gl[ X ] = glT gl E = gl R
As pues,
F=
El nico parmetro que diferencia el modelo [1] del modelo [X] es el coeficiente b1 .
Por ello, en regresin lineal simple, la prueba de la razn F equivale a contrastar la
hiptesis de que la pendiente de la recta de regresin (b1) vale cero en la poblacin. De
hecho, la significacin del estadstico t correspondiente a b1 es igual a la significacin
del estadstico F del ANOVA.
H 0 : 1 = 0
vs
H1 : 1 0
D[1] D[ X ] SCR
=
D[1]
SCT
Por tanto, R2 es una medida de ajuste relativo, ya que valora la reduccin del error
inicial en trminos proporcionales. Si el ajuste del modelo [X] a los datos
observados es perfecto, es decir, no hay errores de estimacin, entonces la desvianza
D[ X ] = 0 . En ese caso, el coeficiente de determinacin alcanza su valor mximo,
F =
R2 / p
(1 R 2 ) /( n p 1)
SCR
SCT
SCR / n
SCT / n
El denominador es la varianza de Y,
SCT
=
n
(Yi Y )2
n
= SY2
SCR
=
n
(Yi Y ) 2
n
= SY2
En consecuencia,
2
R =
SY2
SY2
10
p (1 R 2 )
n p 1
11