Regresión: Finalidad
• Analizar la relación entre una variable dependiente o criterio y un
conjunto de variables independientes o predictores. Cumple 3 objetivos
básicos
• Encontrar la mejor ecuación de predicción para un conjunto de variables. Dados
los valores de X (predictores) ¿cuál es el valor de Y (criterio)?
• Para controlar factores y así evaluar la contribución específica de una o varias
variables: identificar relaciones independientes.
• Encontrar relaciones estructurales y proporcionar explicaciones a relaciones
multivariadas: path analysis.
Regresión: Finalidad
• Necesitamos:
• Variables métricas (cuantitativas) o apropiadamente transformadas
• Decidir qué variable será predictora (VI) y cual será el criterio (VD)
Correlación
Correlación
• La rxy indica el grado y la dirección en que dos variables varían
conjuntamente.
• la rxy 2 (Coef. de determinación) indica el porcentaje de varianza que
comparten x e y (Varianza conjunta explicada).
X
Y
Correlación
Regresión Lineal Simple
Supuestos del modelo de regresión lineal
simple
• Linealidad de la relación entre VD y VI con gráfico de dispersión o prueba de
linealidad
• Normalidad de la variable dependiente
Regresión lineal simple: Ej. Edad y Altura
• Rxy = 0.962, confirma que hay relación, a mayor edad, mayor altura.
• Esta relación nos es útil para hacer predicciones. Si nos preguntan por su altura
de alguien, le preguntaríamos lógicamente por su edad:
• Si ese dato fuera desconocido, entonces responderíamos con la media
global de altura (110 cm)
• Si supiéramos que la edad del niño fuera 16 años, mejoraríamos la
predicción diciendo que la altura del chico estaría en torno a la altura de los
chicos de 16 años (165cm)
• Si además supiéramos el número de zapato que calza, el peso y el sexo del
niño podríamos afinar aún más nuestra predicción.
• Es decir que la mejora de la predicción de la altura del niño tiene que ver con el
mayor conocimiento de las características que tienen que ver con la edad.
Regresión lineal simple
• Tenemos la necesidad de explicar/estudiar una variable,
denominada DEPENDIENTE, CRITERIO o EXPLICADA (altura)
• Y contamos con otras variables denominadas
INDEPENDIENTES, PREDICTORAS o EXPLICATIVAS (sexo,
número de zapato o edad).
• Sólo una variable independiente, hablamos de regresión
simple y varias variables independientes entonces hablamos
de regresión múltiple.
• La VD debe ser cuantitativa, mientras que las VI pueden ser
cuantitativas y cualitativas (dicotómicas y politómicas.
Regresión lineal simple
• La relación entre variables no es exacta:
• no existe una función que de manera exacta permita
relacionar la VD (altura) con la VI (edad).
• al hablar de la relación entre ambas variables y relacionar la
altura de un sujeto i, (Yi) con su edad (Xi):
Resultado = Modelo + error
Yi = b0 + b1(Xi) + ei
Regresión lineal simple: Pasos
• Encontrar la mejor recta, la que mejor se ajuste al
criterio de los mínimos cuadrados, para expresar la
relación entre variables
• Determinar la calidad de la recta, a través de R2
• Efectuar pronósticos en la VD a partir de la/s VI
• Un diagrama de dispersión o nube de puntos nos ofrece
una primera idea sobre el tipo de relación de dos
variables cuantitativas.
Regresión lineal simple
Relación Independencia
Yi= B0 + B1X1
Regresión lineal simple: Ejemplo
Yi= B0 + B1X1
Variable que queremos pronosticar: Variable a partir de la que hacemos el
El nº de calorías pronóstico:
El % de alcohol
B0 Es el punto en que la recta corta al eje
vertical
En
nuestro Es el número medio de calorías que corresponde a una
ejemplo cerveza con % de alcohol 0
B1 Es la pendiente de la recta
En Es el cambio medio que se pronostica en el nº de
nuestro
ejemplo
calorías (Yi) por cada unidad de cambio que se produce
en el % de alcohol (Xi)
Regresión lineal simple
Altura
*
*
*
* * Pendiente (b1)
* ei
P. Corte (b0)
Horas estudio
Regresión lineal simple
Regresión lineal simple
• Conociendo estos valores, podemos reproducir la recta y describir
con ella la relación existente entre el contenido de alcohol y el nº
de calorías.
Uniendo los
puntos se
obtendría la recta
con el mejor ajuste
posible
Regresión lineal simple
¿Cuál es el problema?
• Que una distribución más realista presenta una nube de puntos más
dispersa
¿Cómo hacerlo?
• Existen diferentes procedimientos para ajustar una función simple
• Todos ellos intentan minimizar una medida diferente del grado del ajuste
¿Por qué
las
distancias
se elevan al
cuadrado?
• De todas las rectas posibles, existe una (y solo una) que consigue que
las distancias verticales entre cada punto y la recta sean mínimas)
Regresión lineal simple: Ajuste
• Interpretación de R2
• Representa el grado de ganancia que se obtiene al
predecir una variable a partir del conocimiento o que se
tiene de otra (s) variables
• En el ejemplo de las cervezas (pronosticar las calorías a
partir del % de alcohol), obtener una R2 de 0,83 indica
que si se conoce el % de alcohol de una cerveza, el
pronostico sobre su contenido calórico mejora en un
83% en comparación con hacer el pronóstico sólo con el
nº medio de calorías
Regresión lineal simple: Ajuste
• Sin embargo, en el caso de querer pronosticar el contenido calórico
a partir del precio, la R2 obtenida es de 0,06
Variables Variables
Modelo introducidas eliminadas Método
1 Salario iniciala . Introducir
Tabla 1 a. Todas las variables solicitadas introducidas
b. Variable dependiente: Salario actual
ANOVAb
Media
Modelo Suma de cuadrados gl cuadrática F Sig.
1 Regresión 106831048750,124 1 106831048750 1622,118 ,000a
Residual 31085446686,216 472 65858997,217
Total 137916495436,340 473
a. Variables predictoras: (Constante), Salario inicial
b. Variable dependiente: Salario actual
Coeficientesa
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1928,206 888,680 2,170 ,031
Salario inicial 1,909 ,047 ,880 40,276 ,000
a. Variable dependiente: Salario actual
Prueba de significación
Regresión lineal simple: Ejemplo con SPSS
C o e fi c i e n t e
e s t a n d a riz
Yi= B0 + B1X1
B0
Yi Salario actual ??? B0 Los obtenemos de la
tabla de coeficientes B1
X1 Salario inicial 1500$ B1 no estandarizados
Regresión lineal simple: Ejemplo con SPSS
Yi= B0 + B1X1
Salario actual = 1928,206 + 1,909* 1500 =
4791,706$
Regresión lineal simple: Ejemplo con SPSS
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1928,206 888,680 2,170 ,031
Salario inicial 1,909 ,047 ,880 40,276 ,000
a. Variable dependiente: Salario actual
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 7,884 1 7,884 11,216 ,001a
Residual 229,867 327 ,703
Total 237,751 328
a. Variables predictoras : (Constante), Cantidad de libros de que dis pone el niño
b. Variable dependiente: Desarrollo cognitivo
Coeficientes a
Coeficientes no Coeficientes
es tandarizados es tandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) 4,657 ,196 23,750 ,000
Cantidad de libros de
,150 ,045 ,182 3,349 ,001
que dis pone el niño Covadonga Ruiz de Miguel
Curso 2009/2010
a. Variable dependiente: Desarrollo cognitivo
Regresión lineal simple: Ejemplo con SPSS
• Con las tablas de resultados anteriores contesta a las siguientes
preguntas
• Identifica cuál es la variable criterio y cual el predictor en este análisis.
• ¿Ha mejorado la predicción respecto de utilizar la media? ¿Cuánto?
• ¿Qué valor tiene el coeficiente de determinación? Valora el ajuste del modelo.
• ¿Qué significa en la práctica la constante del modelo? ¿Y la pendiente?
• Construye la ecuación de regresión. Calcula la puntuación en desarrollo
cognitivo que se le predice a un alumno que dispone en su casa de 150 libros.
• ¿Qué valor tiene la correlación entre la VD y la VI?
• ¿Considerar que el predictor que se ha utilizado es adecuado? ¿Por qué?
• ¿Cómo interpretas el valor del coeficiente estandarizado beta?
• ¿Es adecuado realizar la predicción con la VI utilizada? ¿Por qué?