Tema 3 Regresi N Lineal Simple

Tema 3.
Regresin lineal simple

FUENTES BIBLIOGRFICAS:
Etxeberria, J. (1999). Regresin mltiple. Madrid: La Muralla.
Hair, J. F., Anderson, R. E., Tatham, R. L., y Black, W. C. (2001). Anlisis
Multivariante (5 ed.). Madrid: Prentice Hall.
Kleinbaum, D. G., Kupper, L. L., Muller, K. A., y Nizam, A. (1998). Applied
Regression Analysis and Other Multivariable Methods. Pacific Grove: Duxbury
Press.
Martnez-Arias, R. (1999). El anlisis multivariante en la investigacin cientfica.
Madrid: La Muralla.
Pardo, A., y Ruiz, M. A. (2002). SPSS 11. Gua para el anlisis de datos. Madrid:
McGraw-Hill.
I) Introduccin
El objetivo del anlisis de regresin lineal simple es predecir o explicar una variable
dependiente (Y) a partir de una variable independiente (X). Por ejemplo, predecir el
rendimiento laboral (Y) a partir de las puntuaciones en un test de seleccin de personal
(X).
Y: variable dependiente o criterio. Es la variable que se desea predecir o explicar. Debe
ser una variable cuantitativa.
X: variable independiente o predictora.
En el anlisis de regresin lineal, la relacin entre X e Y se representa a travs de una
funcin lineal, es decir, a travs de una lnea o recta.
Hay otros tipos de regresin apropiados para funciones no lineales (p.e., regresin
curvilnea).
En este tema, se aborda la regresin lineal simple, es decir, con una sla variable
predictora (X). La regresin lineal mltiple trata de explicar o predecir Y a partir de ms
de una variable predictora (X1, X2, ..., Xp).
Es importante sealar que el anlisis de regresin no permite afirmar que las relaciones
detectadas sean de tipo causal: nicamente se puede hablar de relacin o asociacin
entre variables. Si dos variables estn muy correlacionadas, podremos predecir una a
partir de otra (con cierto grado de error), pero (al igual que la correlacin) la regresin
no implica necesariamente causalidad.
II) Formulacin del modelo
El anlisis de regresin lineal simple permite predecir la puntuacin del caso i-simo en
la variable Y a partir de su puntuacin en X, mediante la ecuacin o recta de regresin:
Yi = b0 +b1 X i
donde,
Yi :
Puntuacin pronosticada en la variable Y para el caso i-simo
b0 :
Constante o intercepto del modelo de regresin. Tambin se denomina ordenada
en el origen porque es la ordenada (el valor de Y o la altura) de la recta cuando X es

igual a cero (origen).
b1 :
Pendiente de la recta de regresin. Adems de la inclinacin de la recta, tambin
indica el cambio que se produce en Y por cada cambio de una unidad en X.

X i : Puntuacin del caso i-simo en la variable predictora.
Normalmente, la prediccin a travs de esa recta de regresin no es perfecta, sino que se

producen errores de estimacin, es decir, los puntos del diagrama de dispersin no
coinciden todos con la recta. Un error de estimacin, tambin denominado residuo, se
define como:
ei =Yi Yi
Grficamente se representa como la distancia (vertical) entre la puntuacin real obtenida

por el caso i-simo en la variable Y, y la pronosticada con la recta de regresin. Los
errores pueden ser positivos cuando el valor observado ( Yi ) est por encima de la recta
de regresin ( Yi ); o negativos cuando el punto est por debajo de la recta.
Esto significa, que la puntuacin obtenida por una persona cualquiera (la i-sima) en la
variable Y es igual a:
Yi = Yi + ei
O, lo que es lo mismo:
Yi = b0 + b1 X i + ei
Este es el modelo matemtico con el que se representa la puntuacin Yi en el anlisis de

regresin lineal simple, y se puede denotar de forma abreviada como [X], la nica
variable predictora que incluye el modelo.
III) Estimacin de los parmetros
En el anlisis de regresin lineal, debemos buscar la recta que ms se aproxima a la
nube de puntos entre X e Y, o, lo que es lo mismo, la que (en conjunto) tiene menos
errores de prediccin. Este procedimiento se denomina de mnimos cuadrados
(minimiza los errores de prediccin al cuadrado), y llega a las siguientes soluciones para
los coeficientes:
A) Coeficientes no estandarizados
b1 = rXY
SY
SX
b0 = Y b1 X
Como se ha comentado anteriormente, b0 es la constante del modelo de regresin. Sin

embargo, el coeficiente que ms inters tiene es b1 (la pendiente de la recta de
regresin) ya que nos indica el cambio que se produce en Y al aumentar una unidad en
X.
Ntese que si X e Y son independientes, es decir, si rxy = 0 , entonces la pendiente de la
recta (b1) es 0, y la constante b0 es igual a Y . Esto significa que si no hay ninguna
relacin entre X e Y, a cualquier caso le pronosticaremos el valor medio de Y:
Yi = b0 +b1 X i = Y + 0( X i )
Este modelo se denomina modelo nulo, se denota como [1], y grficamente se

representa como una recta horizontal (pendiente cero) con altura (b 0) igual a la media de
Y. En el modelo nulo, la variable X no nos sirve para predecir el valor de Y.
B) Coeficientes estandarizados
Los coeficientes de regresin estandarizados son los coeficientes que definen la
ecuacin de regresin cuando sta se obtiene tras estandarizar las variables originales,
es decir, tras convertir las puntuaciones directas de X e Y en puntuaciones tpicas. En
ese caso, la recta de regresin se formula a travs de esta ecuacin:
Z Y = 1 Z X
El coeficiente estandarizado ( 1 ) corresponde a la nica variable predictora y se

obtiene calculando el coeficiente de correlacin de Pearson:
1 = b1
SX
= rXY
SY
Indica la cantidad de cambio que se produce en Y (en puntuaciones tpicas) por cada
cambio de una unidad en X (tambin en tpicas).
En regresin simple, este coeficiente no tiene demasiada importancia. Sin embargo, en
regresin mltiple los coeficientes de regresin estandarizados permiten valorar la
importancia relativa de cada variable predictora independientemente de su escala de
medida.
IV) Bondad de ajuste del modelo
Con el procedimiento anterior, hemos visto cmo predecir el valor de una variable (Y) a
partir de otra variable (X) con el mnimo error posible. En cualquier caso, hace falta
conocer cunto error estamos cometiendo con nuestra recta de regresin. Lgicamente,
cunto ms estrecha sea la relacin entre X e Y, ms se acercar la recta a los datos
observados (nube de puntos). Por tanto, mejor ser el ajuste del modelo a los datos, o, lo
que es lo mismo, menos errores estaremos cometiendo. En este apartado, se presentan
diferentes medidas que indican cunto se ajusta o aproxima el modelo (nuestra recta de
regresin) a los datos observados.
A) Significacin de los coeficientes de regresin
El peso de la variable X a la hora de predecir Y viene dado por la pendiente de la recta
de regresin (b1). Dicho peso o coeficiente de regresin indica la contribucin de la
variable X a la bondad de ajuste del modelo. El estadstico t y su nivel de significacin

estadstica (Sig.) permite contrastar la hiptesis nula de que el coeficiente de regresin
vale cero en la poblacin:
H 0 : 1 = 0
H1 : 1 0
vs
(*Nota: las hiptesis se plantean en trminos poblacionales. Por eso, el coeficiente de

regresin se denota con la letra griega beta).
Este estadstico t se obtiene dividiendo el coeficiente de regresin no estandarizado
entre su correspondiente error tpico:
t b1 =
b1
S b1
siendo:
Sb1 =
Se
( X
X )2
Si la probabilidad de rechazar la hiptesis nula siendo verdadera es baja (sign. 0,05),

entonces la rechazaremos sabiendo que es poco probable haber tomado una decisin
equivocada (error de tipo I: rechazar la hiptesis nula siendo verdadera).
Por el contrario, si la probabilidad de rechazar la hiptesis nula siendo verdadera es alta
(sign. >0,05) no la rechazaremos, ya que es probable cometer un error de tipo I
(rechazar la hiptesis nula siendo verdadera)
Sign. 0,05
Sign. > 0,05
Se rechaza la hiptesis nula a un NC=95%

No se rechaza la hiptesis nula a un NC=95%
Por tanto, si la significacin del estadstico t correspondiente al coeficiente b1 es 0,05,

podemos afirmar que el peso de la variable X1 a la hora de predecir Y es
estadsticamente significativo (ya que es diferente de cero a nivel poblacional).
Tambin se puede contrastar la hiptesis nula de que la constante (b 0) es igual a cero en
la poblacin, pero generalmente carece de utilidad.
B) Intervalos de confianza para el coeficiente de regresin

Alternativamente, se pueden establecer los lmites entre los que se encuentra el
coeficiente de regresin, a un nivel de confianza del 95%:
IC = b1 t n2 ,1( / 2 ) Sb1
= b1 (1,96) Sb1
Si dentro del intervalo de confianza no se encuentra el valor cero, esto significa que el
coeficiente de regresin b1 es diferente de cero a nivel poblacional. Es decir, el peso de
X a la hora de predecir Y es estadsticamente significativo.
C) Anlisis de la varianza asociado
La tabla resumen del ANOVA tambin informa sobre si existe o no relacin
significativa entre la variable predictora (X) y el criterio.
Fuente de
Suma de
Grados de
Medias
Estadstico
Variacin
Cuadrados
libertad
Cuadrticas
SCR
MCR =
gl R = p
p
SCE
glE = n p 1 MCE =
n p 1
Regresin
SCR = (Yi Y ) 2
Residual
SCE = (Yi Yi ) 2
Total
SCT = (Yi Y ) 2 glT = n 1
MCT =
F=
MCR
MCE
SCT
n 1
nmero de observaciones
nmero de variables predictoras (en regresin lineal simple, p =1 )
Veamos qu significan las sumas de cuadrados para cada una de las tres fuentes de
variacin. Como ya se coment anteriormente, un error de estimacin o residuo es la
diferencia entre la puntuacin observada para el caso i-simo en la variable Y ( Yi ) y el
valor que se pronostica con el modelo ( Yi ):
ei =Yi Yi
En regresin lineal simple podemos comparar dos posibles modelos:
- El modelo nulo [1] donde Y es independiente de X, por lo que a cualquier caso le

pronosticamos el valor Y .
-
El modelo [X] que incluye la variable predictora:

Yi = b0 +b1 X i
En cada modelo, se producen errores de estimacin:

Yi Y
Error cometido con el modelo nulo [1],

tambin denominado error inicial.
Yi Yi
Error cometido con el modelo [X].
Para el caso i-simo, la diferencia entre el error cometido con el modelo [1] y el modelo
[X] es igual a:
(Yi Y ) (Yi Yi ) = Yi Y
Por tanto,
Yi Y
se puede considerar como una medida de la reduccin del error
inicial.
Sumando los errores de toda la nube de puntos, y elevndolos al cuadrado (para
prescindir del signo) obtendramos las sumas cuadrticas. En cada modelo, podemos
sumar los errores (al cuadrado) lo que nos da una idea de las diferencias o desviaciones
entre el modelo y los datos observados. Por ello,
- Suma cuadrtica total
SCT = (Yi Y ) 2 Indica la suma de los errores iniciales (al cuadrado), es decir, los
que se cometen con el modelo
[1]. La SCT tambin se denomina desvianza (no
escalada) del modelo nulo, ya que indica cunto se desva el modelo [1] del conjunto de
datos observados:
SCT = D[1]
- Suma cuadrtica error o residual
SCE = (Yi Yi ) 2 Indica la suma de los errores (al cuadrado) cometidos con el
modelo [X], es decir su desvianza:

SCE = D[ X ]
- Suma cuadrtica de la regresin

SCR = (Yi Y ) 2
Indica cunto se reduce el error inicial (cometido con el modelo
nulo) al predecir Y a travs de X. La SCR compara la desvianza del modelo nulo y del
modelo [X].
SCR = SCT SCE = D[1] D[ X ]
Por tanto, la SCR supone la ganancia o mejora del modelo [X] respecto del modelo
nulo.
En la tabla del ANOVA, la prueba de la razn F permite comparar las desvianzas entre
los dos modelos:
F =
D[1] D[ X ] /( gl[1] gl[ X ] )

D[ X ] / gl[ X ]
Donde,
gl[1] = glT = n 1
grados de libertad del modelo [1]
gl[ X ] = gl E = n p 1 = n 2
grados de libertad del modelo [X]
En general, los grados de libertad de un modelo son iguales al nmero de observaciones

(n) menos el nmero de parmetros del modelo. El modelo nulo slo tiene un
parmetro, el coeficiente b0 (que se iguala a la media de Y). El modelo [X] tiene dos
parmetros, los dos coeficientes de regresin: el intercepto ( b0 ) y el peso de la variable
X ( b1 ).
Como ya se ha visto anteriormente,
D[1] D[ X ] = SCR
Y, adems,
gl[1] gl[ X ] = glT gl E = gl R
As pues,
F=
SCR / glR MCR

=
SCE / gl E MCE
El nico parmetro que diferencia el modelo [1] del modelo [X] es el coeficiente b1 .
Por ello, en regresin lineal simple, la prueba de la razn F equivale a contrastar la
hiptesis de que la pendiente de la recta de regresin (b1) vale cero en la poblacin. De
hecho, la significacin del estadstico t correspondiente a b1 es igual a la significacin
del estadstico F del ANOVA.
H 0 : 1 = 0
vs
H1 : 1 0
Si la significacin del estadstico F es menor de 0,05, se rechaza la hiptesis nula a un

nivel de confianza del 95%. Esto significa que el coeficiente de regresin (b1) es
significativamente distinto de cero a nivel poblacional; lo que indica que el modelo que
incluye la variable X, tiene un ajuste a los datos mejor que el modelo nulo.
D) Coeficiente de determinacin: R cuadrado
El coeficiente de determinacin se calcula elevando al cuadrado el coeficiente de
2
correlacin de Pearson entre X e Y ( rxy
). Por tanto, sus valores estn comprendidos
entre cero y uno:

0 R2 1
Interpretacin del coeficiente de determinacin.

El coeficiente de determinacin se puede interpretar de dos formas:
1) Como proporcin de reduccin en el error inicial. O, en otros trminos, es la
proporcin de mejora en los pronsticos realizados con el modelo de regresin
respecto del modelo nulo. Esta interpretacin puede entenderse mejor sabiendo
que,
R2 =
D[1] D[ X ] SCR
=
D[1]
SCT
Por tanto, R2 es una medida de ajuste relativo, ya que valora la reduccin del error
inicial en trminos proporcionales. Si el ajuste del modelo [X] a los datos
observados es perfecto, es decir, no hay errores de estimacin, entonces la desvianza
D[ X ] = 0 . En ese caso, el coeficiente de determinacin alcanza su valor mximo,
R 2 = 1 . En el caso opuesto, si la desvianza del modelo [X] es igual que la desvianza
del modelo nulo, D[1] D[ X ] = 0 , entonces el coeficiente de determinacin toma

el valor mnimo, R 2 = 0 . En este sentido, R2 se interpreta de una forma parecida a la
prueba de la razn F que vimos anteriormente. De hecho, se puede comprobar la
relacin entre los dos estadsticos, que viene definida por:
F =
R2 / p
(1 R 2 ) /( n p 1)
2) Como proporcin (o porcentaje si lo multiplicamos por cien) de la varianza de Y

que se puede explicar a partir del modelo de regresin. Esta interpretacin puede
entenderse mejor si sabemos que,
R2 =
SCR
SCT
Dividiendo numerador y denominador entre n,

R2 =
SCR / n
SCT / n
El denominador es la varianza de Y,
SCT
=
n
(Yi Y )2
n
= SY2
Y el numerador es la varianza de los pronsticos realizados con el modelo.
SCR
=
n
(Yi Y ) 2
n
= SY2
En consecuencia,
2
R =
SY2
SY2
10
Por ejemplo, si el coeficiente de correlacin de Pearson entre X e Y, rxy = 0,8 , entonces

el coeficiente de determinacin R2=0,64. Este valor puede interpretarse de dos formas
complementarias:
1) Con el modelo de regresin [X], los errores iniciales se han reducido en un 64%.
Por lo que queda un 36% del error inicial que no se ha eliminado.
2) El 64% de la varianza de Y se puede explicar o predecir a partir del modelo de
regresin (es decir, a partir de X). Por lo que queda un 36% de la varianza de Y
que no est explicada por X.
E) Coeficiente de determinacin ajustado: R cuadrado corregida
Es una correccin a la baja de R cuadrado que se basa en el nmero de casos (n)
y de variables predictoras (p):
2
Rcorregida
= R2
p (1 R 2 )
n p 1
En una situacin con pocos casos y muchas variables predictoras, R cuadrado es

un estimador algo optimista (artificialmente alto) del verdadero coeficiente de
correlacin poblacional. En tal caso, el valor de R cuadrado corregida ser
sensiblemente ms bajo. En cambio, si hay muchos casos y pocas variables predictoras
los dos valores de R 2 sern muy parecidos.
V) Supuestos del modelo de regresin lineal
El modelo matemtico en el que se basa el anlisis de regresin lineal establece una
serie de supuestos o condiciones que deben darse para poder aplicarlo. Estos supuestos
se exponen en el siguiente tema de regresin lineal mltiple.
11

Tema 3 Regresi N Lineal Simple

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tema 3 Regresi N Lineal Simple

Diunggah oleh

Hak Cipta:

Format Tersedia

Tema 3.

Regresin lineal simple

Puntuacin pronosticada en la variable Y para el caso i-simo

Constante o intercepto del modelo de regresin. Tambin se denomina ordenada

en el origen porque es la ordenada (el valor de Y o la altura) de la recta cuando X es

Pendiente de la recta de regresin. Adems de la inclinacin de la recta, tambin

indica el cambio que se produce en Y por cada cambio de una unidad en X.

Normalmente, la prediccin a travs de esa recta de regresin no es perfecta, sino que se

Grficamente se representa como la distancia (vertical) entre la puntuacin real obtenida

Este es el modelo matemtico con el que se representa la puntuacin Yi en el anlisis de

Como se ha comentado anteriormente, b0 es la constante del modelo de regresin. Sin

Este modelo se denomina modelo nulo, se denota como [1], y grficamente se

El coeficiente estandarizado ( 1 ) corresponde a la nica variable predictora y se

variable X a la bondad de ajuste del modelo. El estadstico t y su nivel de significacin

(*Nota: las hiptesis se plantean en trminos poblacionales. Por eso, el coeficiente de

Si la probabilidad de rechazar la hiptesis nula siendo verdadera es baja (sign. 0,05),

Se rechaza la hiptesis nula a un NC=95%

Por tanto, si la significacin del estadstico t correspondiente al coeficiente b1 es 0,05,

B) Intervalos de confianza para el coeficiente de regresin

SCT = (Yi Y ) 2 glT = n 1

nmero de variables predictoras (en regresin lineal simple, p =1 )

En regresin lineal simple podemos comparar dos posibles modelos:

- El modelo nulo [1] donde Y es independiente de X, por lo que a cualquier caso le

El modelo [X] que incluye la variable predictora:

En cada modelo, se producen errores de estimacin:

Error cometido con el modelo nulo [1],

Error cometido con el modelo [X].

se puede considerar como una medida de la reduccin del error

que se cometen con el modelo

[1]. La SCT tambin se denomina desvianza (no

- Suma cuadrtica error o residual

modelo [X], es decir su desvianza:

- Suma cuadrtica de la regresin

Indica cunto se reduce el error inicial (cometido con el modelo

D[1] D[ X ] /( gl[1] gl[ X ] )

grados de libertad del modelo [1]

grados de libertad del modelo [X]

En general, los grados de libertad de un modelo son iguales al nmero de observaciones

SCR / glR MCR

Si la significacin del estadstico F es menor de 0,05, se rechaza la hiptesis nula a un

entre cero y uno:

Interpretacin del coeficiente de determinacin.

R 2 = 1 . En el caso opuesto, si la desvianza del modelo [X] es igual que la desvianza

del modelo nulo, D[1] D[ X ] = 0 , entonces el coeficiente de determinacin toma

2) Como proporcin (o porcentaje si lo multiplicamos por cien) de la varianza de Y

Dividiendo numerador y denominador entre n,

Y el numerador es la varianza de los pronsticos realizados con el modelo.

Por ejemplo, si el coeficiente de correlacin de Pearson entre X e Y, rxy = 0,8 , entonces

En una situacin con pocos casos y muchas variables predictoras, R cuadrado es

Anda mungkin juga menyukai