Anda di halaman 1dari 27

Tema 6: Regresin lineal. 1. Introduccin. 2. La ecuacin de la recta. 3. El criterio de mnimos cuadrados. 4. Representacin grfica. 5. Coeficientes de regresin estandarizados. 6.

El coeficiente de determinacin. 7. Introduccin a la regresin mltiple.

Concepto

El establecimiento de una correlacin entre dos variables es importante, pero esto se considera un primer paso para predecir una variable a partir de la otra. (U otras, en el caso de la regresin mltiple.)
Claro est, si sabemos que la variable X est muy relacionada con Y, ello quiere decir que podemos predecir Y a partir de X. Estamos ya en el terreno de la prediccin. (Evidentemente si, X no est relacionada con Y, X no sirve como predictor de Y.)

Nota: Emplearemos los trminos regresin y prediccin como casi sinnimos. (La razn del uso del trmino regresin es antigua, y se ha mantenido como tal.)

Concepto (2)
El tema bsico en regresin (con 2 variables) es ajustar los puntos del diagrama de dispersin de las variables X e Y. Para simplificar, nos centraremos especialmente (por simplicidad) en el caso de que la relacin entre X e Y sea lineal. rendimiento

inteligencia

Claro est, el tema ahora es cmo conseguir cul es la mejor lnea que parece unir los puntos. Necesitamos para ello un criterio. Si bien hay otros criterios, el ms empleado comnmente, y el que veremos aqu, es el criterio de mnimos cuadrados.

Criterio de mnimos cuadrados: Es aquel que minimiza las distancias cuadrticas de los puntos con la lnea.

Repaso de la ecuacin de una recta


Y=A+BX

A es la ordenada en el origen (es donde la recta corta el eje Y) rendimiento B es la pendiente (observad que en el caso de las relaciones positivas, B ser positivo; en el caso de las relacin negativas, B ser negativo; si no hay relacin, B ser aproximadamente 0) inteligencia Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de relacin lineal) la recta de regresin de Y sobre (a partir de) X.

Clculo de la ecuacin de regresin lineal (de Y sobre X)

Y Rendimiento (Y)

El criterio de mnimos cuadrados nos proporciona un valor de A y uno de B, tal que

Y Y
n ' i 1 i i
Inteligencia (X)

2
sea mnimo

Clculo de la ecuacin de regresin lineal (de Y sobre X)


CI (X) 120 100 90 110 Rendim (Y) 10 9 4 6

11 10

9 8

6 5

RENDIM

4 3 80 90 100 110 120 130

INTELIG

Clculo de la ecuacin de regresin lineal (de Y sobre X)


La recta por mnimos cuadrados es:
Y=-85+015X
' Y Y i i n i 1 2

es mnimo

Esa expresin vale 11.5 en nuestro caso Observa....

-Cada unidad de CI hace aumentar 015 la nota. -Aunque en este caso, lo siguiente no tiene sentido, una persona con CI de 0, sacara un -8.5

Clculo de la ecuacin de regresin lineal (de Y sobre X)

Las frmulas.... En puntuaciones directas

Ordenada origen

A Y BX
XY nXY B X nX
2 2

Pendiente

Nota: Tanto A como B se pueden obtener fcilmente en cualquier calculadora con opcin LR (Linear Regression)

Clculo de la ecuacin de regresin lineal (de Y sobre X)


suj1 suj2 suj3 suj4 X 120 100 90 110 4 PROMEDIO PROMEDIO 105 7.25 N 4 Y 10 9 4 6 XY 1200 900 360 660 SUMA 3120 X2 14400 10000 8100 12100 SUMA 44600

3120 4 105 7 '25 0'15 2 44600 4 105

Luego Y=-85+015X

A 7'25 0'15 105 8'5

Clculo de la ecuacin de regresin lineal (de Y sobre X)

Las frmulas en puntuaciones diferenciales

Ordenada origen

a0
xy b x
2

Fijaros que la media de X y la media de Y sern 0 en puntuacin tpicas

IMPORTANTE: B=b Es decir, la pendiente en puntuaciones diferenciales es la MISMA que en puntuaciones directas

Pendiente

Por tanto, la recta de regresin en puntuaciones diferenciales es en nuestro caso: y=015x

Clculo de la ecuacin de regresin lineal (de Y sobre X)

Las frmulas en puntuaciones tpicas

Ordenada origen

a 0

Al igual que en las puntuaciones diferenciales

Pendiente

z z z
x 2 x

zy

IMPORTANTE: Como veremos, la pendiente en puntuaciones tpicas COINCIDE con el ndice de correlacin de Pearson

Por tanto, la recta de regresin en puntuaciones tpicas es en nuestro caso: zy =0703zx

Clculo de la ecuacin de regresin lineal (de Y sobre X)


OUTPUT DEL ORDENADOR
b Resumen del modelo

Modelo 1

R R cuadrado a .703 .495

R cuadrado corregida .242

Error tp. de la estimacin 2.398

a. Variables predictoras: (Constante), INTELIG b. Variable dependiente: RENDIM

Ord. y pendiente (punt.directas)

Ord. y pendiente
Coeficientesa Coeficientes no estandarizados B Error tp. -8.500 11.324 .150 .107 Coeficientes estandarizad os Beta .703

(punt.tpicas)

Modelo 1

(Constante) INTELIG

t -.751 1.399

Sig. .531 .297

a. Variable dependiente: RENDIM

Observad que el ndice de corr.Pearson coincide con la pendiente expresada en puntuaciones tpicas.

Clculo de la ecuacin de regresin lineal (de Y sobre X)

Sabemos que

xy Bb x
2

Y por el tema anterior

sxy

xy n
2 x

rxy

sxy sx s y

Y por el tema de variabilidad

2 sx

Se deduce que

xy Bb x x
2

xy

n sxy rxy sx s y r s y xy 2 2 2 sx sx sx n

Clculo de la ecuacin de regresin lineal (de Y sobre X)

En definitiva,

B b rxy

sy sx

1 b rxy rxy rxy sx 1


y

sy

A Y rxy

sy sx

Evidentemente, la ordenada en el origen de la recta de regresin de Y sobre X ser 0 para puntuaciones diferenciales y tpicas (dado que las medias para las respectivas puntuaciones tanto en X como en Y sern 0 en tales casos).

Los errores de prediccin en la recta de regresin de Y sobre X

Puntuaciones observadas
Puntuaciones predichas

Yi

Yi
Yi Yi

Error de prediccin con la recta de regresin de Y sobre X

La cuestin ahora en cunto se reduce la varianza al emplear la recta de regresin de Y sobre X (es decir, teniendo X como predictor) en comparacin con el caso en que no tuviramos la recta de regresin
2 sy 2 ( Y Y )

Los errores de prediccin en la recta de regresin de Y sobre X


Si no tuviramos el predictor X, qu puntuacin prediramos para las puntuaciones de Y?

En tal caso, dado el criterio de mnimos cuadrados, si tenemos datos en Y y carecemos de datos en X, nuestra mejor estimacin de Y ser su media

Recordemos que la media minimiza el sumatorio de las diferencias


Cuadrticas
2 ( Y Y )

es mnimo

Si empleamos la media como predictor, la varianza de las predicciones ser


2 ( Y Y )

2 sy

Los errores de prediccin en la recta de regresin de Y sobre X

Pero si tenemos un predictor X, la varianza ser


2 ( Y Y ) i i

2 sy .x

Esta es la varianza de Y no explicada por X


2 2 2 sy s (1 r .x y xy )

Se puede demostrar que

Que despejando sale

2 rxy 1

2 sy .x 2 sy

Cun buena es la prediccin de la recta de regresin? El coeficiente de determinacin como ndice de la bondad de ajuste de nuestro modelo (la recta de regresin)
Acabamos de mostrar que
2 rxy 1 2 sy .x 2 sy

2 rxy

Es el llamado coeficiente de determinacin y permite conocer cun bueno es el ajuste de la recta de regresin (o en general del modelo lineal). Est acotado entre 0 y 1.

Si todos los puntos del diagrama de dispersin estn sobre la recta (con pendiente 2 diferente de 0), entonces ser 0, y el coeficiente de determinacin ser 1 sy .x Cuanto ms se alejen los puntos de la recta de regresin, mayor ser el valor de 2 el valor del sy . x coeficiente de determinacin ser menor y menor.

El coeficiente de determinacin y la proporcin de varianza asociada/explicada/comn (1)


Empecemos con una tautologa

Yi Yi (Yi Yi )
Esta expresin indica que la puntuacin observada por el sujeto i-simo es igual a la puntuacin predicha para dicho sujeto ms un error de prediccin.

Se puede demostrar que las puntuaciones predichas y los errores de prediccin son independientes, con lo que podemos sealar
2 2 2 sy sy s ' y. x

2 y

Varianza total de Y Varianza de las puntuaciones de Y predichas por el predictor X Varianza de los errores de prediccin (varianza no explicada por X)

2 sy '
2 sy .x

El coeficiente de determinacin y la proporcin de varianza asociada/explicada/comn (2)


De la transparencia anterior, tenemos
2 sy .x 2 sy
2 sy 2 sy
2 2 2 sy sy s ' y. x

Y sabamos que

2 rxy 1

luego

2 rxy

2 2 sy sy .x

2 y

En definitiva, el coeficiente de determinacin mide la proporcin de la varianza de Y que est asociada/explicada por el predictor X

Introduccin a la regresin lineal mltiple (1)

Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta de regresin de Y sobre X por el procedimiento de mnimos cuadrados.

Dada la naturaleza del comportamiento humano, en el que cada conducta observada puede ser influida por diferentes variables, resulta ms ecolgico examinar no ya cun bueno es un predictor X para predecir Y, sino ms bien tendremos varios predictores X1, X2, ...., para predecir Y (o si se quiere, varios predictores, X2, X3,...., para predecir X1). Es el caso de la regresin mltiple. Hasta ahora tenamos

Y ' A BX
X1
criterio, variable a predecir, variable dependiente Variables predictoras

Ahora tendremos k predictores:

X 1 ' A B2 X 2 B3 X 3 ... Bk X k

X 2 , X 3 ,...

Introduccin a la regresin lineal mltiple (2)

sy Recta B rxy regresin sx

Es importante que os deis cuenta que las ponderaciones B2, B3, ..., son anlogas a las que vimos en el caso de la recta de regresin.

X 1 ' A B2 X 2 B3 X 3 ... Bk X k

Por ejemplo

B2 r12.3

s1.3 s2.3

Tales coeficientes representan cun importante es la respectiva variable predictora en la ecuacin de regresin.

Al igual que ocurra en la recta de regresin (fijaros que el caso de 1 predictor es un caso particular de la regresin mltiple), A representa el lugar donde el hiperplano de regresin mltiple corta el eje de la variable predicha. Por simplicidad, y dado que normalmente todo el proceso se hace mediante ordenador, no veremos las frmulas (ver el texto de Botella y otros, en el que est todo bien explicado)...pero ahora veremos unas puntualizaciones.

Introduccin a la regresin lineal mltiple (3)

En puntuaciones directas, la ecuacin de regresin es la que sabemos

X 1 ' A B2 X 2 B3 X 3 ... Bk X k
En puntuaciones diferenciales, recordad que A vala 0 en la recta de regresin; lo mismo se aplica en la ecuacin de regresin.

x1 ' b2 x2 b3 x3 ... bk xk
Y aplicando la misma lgica, el valor de los pesos es el mismo que el que tenamos en puntuaciones directas

b2 B2

b3 B3

etctera

Introduccin a la regresin lineal mltiple (4)


Datos (N=5)
Rendim Ansied Neurot 9 3 5 3 12 15 6 8 8 2 9 7 7 7 6
Resumen del modelo Modelo 1 R R cuadrado .904 a .817 R cuadrado corregida .634 Error tp. de la estimacin 1.744

R1.23 0 '904
Como en el caso de 1 predictor:

a. Variables predictoras: (Constante), NEURO, ANSIE

Coeficientesa Coeficientes no estandarizados B Error tp. 11.288 2.221 -1.139 .510 .365 .421 Coeficientes estandarizad os Beta -1.293 .502

R1.23
2
t 5.082 -2.233 .868 Sig. .037 .155 .477

s s

Modelo 1

(Constante) ANSIED NEUROT

2 ' x1 2 x1

a. Variable dependiente: RENDIM

El modelo lineal general


El modelo lineal general subyace a buena parte de las pruebas estadsticas que se efectan en psicologa y en otras ciencias sociales. Por decir unas pocas -Anlisis de regresin (ya vistos) -Anlisis de Varianza (se vern 2 cuatrimestre) -Pruebas t (se vern 2 cuatrimestre) -Anlisis de covarianza -Anlisis de conglomerados (cluster analysis) -Anlisis factorial -Escalamiento multidimensional -Correlacin cannica -Anlisis discriminante y ms....

El modelo lineal general (2)


Claramente, los anlisis de regresin que hemos visto son un caso particular del modelo lineal general, en el caso de 2 variables: una acta como predictor y una variable predicha.

Y ' A BX
O si se quiere expresar as

Y A BX (Y Y ')

Y A BX e
Observado = Predicho + Error estimacin

en trminos generales

Y B0 B1 X 1 e

El modelo lineal general (3)

La expresin general es

Y B0 B1 X 1 ... Bk X k e
Y: Variable dependiente X1, X2, ..., variables independientes (predictoras de Y) e: error aleatorio B1, B2, ..., son los pesos que determinan la contribucin de cada variable independiente.

El caso en el modelo lineal general es que en la parte izquierda de la ecuacin podemos tener no slo una variable dependiente, sino varias.