Regresión Simple

Regresión Lineal
Regresión: Finalidad
• Analizar la relación entre una variable dependiente o criterio y un
conjunto de variables independientes o predictores. Cumple 3 objetivos
básicos
• Encontrar la mejor ecuación de predicción para un conjunto de variables. Dados
los valores de X (predictores) ¿cuál es el valor de Y (criterio)?
• Para controlar factores y así evaluar la contribución específica de una o varias
variables: identificar relaciones independientes.
• Encontrar relaciones estructurales y proporcionar explicaciones a relaciones
multivariadas: path analysis.
Regresión: Finalidad
• Necesitamos:
• Variables métricas (cuantitativas) o apropiadamente transformadas
• Decidir qué variable será predictora (VI) y cual será el criterio (VD)
Correlación
Correlación
• La rxy indica el grado y la dirección en que dos variables varían
conjuntamente.
• la rxy 2 (Coef. de determinación) indica el porcentaje de varianza que
comparten x e y (Varianza conjunta explicada).
X
Y
Correlación
Regresión Lineal Simple
Supuestos del modelo de regresión lineal
simple
• Linealidad de la relación entre VD y VI con gráfico de dispersión o prueba de
linealidad
• Normalidad de la variable dependiente
Regresión lineal simple: Ej. Edad y Altura
• Rxy = 0.962, confirma que hay relación, a mayor edad, mayor altura.
• Esta relación nos es útil para hacer predicciones. Si nos preguntan por su altura
de alguien, le preguntaríamos lógicamente por su edad:
• Si ese dato fuera desconocido, entonces responderíamos con la media
global de altura (110 cm)
• Si supiéramos que la edad del niño fuera 16 años, mejoraríamos la
predicción diciendo que la altura del chico estaría en torno a la altura de los
chicos de 16 años (165cm)
• Si además supiéramos el número de zapato que calza, el peso y el sexo del
niño podríamos afinar aún más nuestra predicción.
• Es decir que la mejora de la predicción de la altura del niño tiene que ver con el
mayor conocimiento de las características que tienen que ver con la edad.
Regresión lineal simple
• Tenemos la necesidad de explicar/estudiar una variable,
denominada DEPENDIENTE, CRITERIO o EXPLICADA (altura)
• Y contamos con otras variables denominadas
INDEPENDIENTES, PREDICTORAS o EXPLICATIVAS (sexo,
número de zapato o edad).
• Sólo una variable independiente, hablamos de regresión
simple y varias variables independientes entonces hablamos
de regresión múltiple.
• La VD debe ser cuantitativa, mientras que las VI pueden ser
cuantitativas y cualitativas (dicotómicas y politómicas.
• La relación entre variables no es exacta:
• no existe una función que de manera exacta permita
relacionar la VD (altura) con la VI (edad).
• al hablar de la relación entre ambas variables y relacionar la
altura de un sujeto i, (Yi) con su edad (Xi):
Resultado = Modelo + error
Yi = b0 + b1(Xi) + ei
Regresión lineal simple: Pasos
• Encontrar la mejor recta, la que mejor se ajuste al
criterio de los mínimos cuadrados, para expresar la
relación entre variables
• Determinar la calidad de la recta, a través de R2
• Efectuar pronósticos en la VD a partir de la/s VI
• Un diagrama de dispersión o nube de puntos nos ofrece
una primera idea sobre el tipo de relación de dos
variables cuantitativas.
Relación Independencia
Sin embargo, la información que nos aporta el diagrama de

dispersión no es suficiente
Regresión lineal simple: Ejemplo
• Tenemos un conjunto de datos con información sobre 35 marcas de
cerveza, y queremos saber si existe relación entre el grado de alcohol
y el contenido calórico.
• Lo primero que podríamos hacer es representar la nube de puntos
A simple
vista, parece
existir una
relación
positiva
entre ambas
variables,
¿no?
• Podríamos decir que un aumento en el % de alcohol va acompañado
de un aumento en el nº de calorías
• es correcto, aunque poco específico
• Para obtener una descripción más concreta, podríamos ofrecer un
listado de los datos concretos de los que se dispone
• más específico, pero no es demasiado informativo
• Lo más útil es describir la nube de puntos a través de una función
matemática muy simple, la de la línea recta
Yi= B0 + B1X1
Yi= B0 + B1X1
Variable que queremos pronosticar: Variable a partir de la que hacemos el
El nº de calorías pronóstico:
El % de alcohol
B0  Es el punto en que la recta corta al eje
vertical
En
nuestro Es el número medio de calorías que corresponde a una
ejemplo cerveza con % de alcohol 0
B1  Es la pendiente de la recta
En Es el cambio medio que se pronostica en el nº de
nuestro
ejemplo
calorías (Yi) por cada unidad de cambio que se produce
en el % de alcohol (Xi)
Altura
*
*
*
* * Pendiente (b1)
* ei
P. Corte (b0)
Horas estudio
• Conociendo estos valores, podemos reproducir la recta y describir
con ella la relación existente entre el contenido de alcohol y el nº
de calorías.
El origen de la recta (B0) sugiere que, una

cerveza sin alcohol (grado de alcohol cero),
podría contener -33,77 calorías
La pendiente de la recta (B1) indica que, en promedio, a cada incremento de una

unidad en el % de alcohol (Xi) se le pronostica un incremento de 37,65 calorías
• Si todos los puntos de un diagrama de dispersión se encontraran
en una línea recta, no habría que preocuparse por encontrar la
recta que mejor resuma los puntos del diagrama
Uniendo los
puntos se
obtendría la recta
con el mejor ajuste
posible
¿Cuál es el problema?
• Que una distribución más realista presenta una nube de puntos más
dispersa
o Que para una

misma nube de
puntos es posible
trazar muchas
rectas diferentes
o Lo que hay que

hacer es buscar
aquella que mejor
represente a todos
los puntos
¿Cómo hacerlo?
• Existen diferentes procedimientos para ajustar una función simple
• Todos ellos intentan minimizar una medida diferente del grado del ajuste
La elección preferida es la recta que hace mínima la

suma de los cuadrados de las distancias verticales
entre cada punto y la recta. Es el criterio de mínimos
cuadrados
Regresión lineal simple: Mínimos Cuadrados
¿Por qué
las
distancias
se elevan al
cuadrado?
• De todas las rectas posibles, existe una (y solo una) que consigue que
las distancias verticales entre cada punto y la recta sean mínimas)
Regresión lineal simple: Ajuste
• Además de acompañar a la recta con su fórmula, sería útil tener

una información precisa acerca del grado en que la recta se ajusta
a la nube de puntos que representa, ya que la mejor recta posible
no tiene por qué ser buena
¿En cual de las dos el ajuste es más pobre?

• Se puede hacer de varias formas, pero la de más aceptación es a través

del coeficiente de determinación R2
𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷 = �(𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚)2
• Es el cuadrado del coeficiente de correlación o en regresión múltiple:

𝑆𝑆𝑆𝑆𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝑅𝑅2 =
𝑆𝑆𝑆𝑆𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
• Es una medida estandarizada que toma valores entre 0 y 1, igual que el

coeficiente de correlación
• Interpretación de R2
• Representa el grado de ganancia que se obtiene al
predecir una variable a partir del conocimiento o que se
tiene de otra (s) variables
• En el ejemplo de las cervezas (pronosticar las calorías a
partir del % de alcohol), obtener una R2 de 0,83 indica
que si se conoce el % de alcohol de una cerveza, el
pronostico sobre su contenido calórico mejora en un
83% en comparación con hacer el pronóstico sólo con el
nº medio de calorías
• Sin embargo, en el caso de querer pronosticar el contenido calórico
a partir del precio, la R2 obtenida es de 0,06
• Lo que significa que el conocimiento del % de alcohol de una

cerveza solo permite mejorar el pronóstico sobre su precio en un
6%, lo que indica un mal ajuste de a recta
• A la vista de esto parece que, el % de alcohol de la cerveza está más
relacionado con el nº de calorías que con el precio
Regresión lineal simple: Ejmplo con SPSS
• Vamos a tratar de predecir el salario actual a partir del salario inicial

• Luego:
• Variable dependiente: Salario actual
• Variable independiente o predictora: Salario inicial
Regresión lineal simple: Ejemplo con SPSS
• Menú – Analizar – Regresión Lineal

b
Variables introducidas/eliminadas
Variables Variables
Modelo introducidas eliminadas Método
1 Salario iniciala . Introducir
Tabla 1 a. Todas las variables solicitadas introducidas
b. Variable dependiente: Salario actual
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 ,880a ,775 ,774 $8,115.356
Tabla 2
a. Variables predictoras: (Constante), Salario inicial
• En la tabla 2 aparece el coeficiente de correlación múltiple, su

cuadrado y el corregido (R2)
• Al estar en Regresión Simple, este coeficiente coincide con Pearson
para esas variables
• Su cuadrado, es el coeficiente de determinación
• Este coeficiente expresa:
• La proporción de varianza de la VD que está explicada por la VI
• O cuánto mejora la predicción si utilizamos sólo el promedio de la VD (salario
actual)
• Utilizar esta VI mejora el pronóstico un 77,4%
• R2 indica que el 77,4% de la variabilidad de salario actual está

explicada por/ depende de / o está asociada al salario inicial
• R2 corregida es una corrección a la baja de R2 que se basa en el nº de
casos y de Vis
[( ) ]
R 2 corregida = R 2 − p 1 − R 2 / (n − p − 1)
• El error típico (Se) de estimación representa la parte de variabilidad de

la VD que no explica la recta de regresión.
• Cuanto mayor es R2 menor es Se
• Informa de que la predicción hecha por el modelo es mejor que

utilizar sólo el promedio en salario actual
ANOVAb
Media
Modelo Suma de cuadrados gl cuadrática F Sig.
1 Regresión 106831048750,124 1 106831048750 1622,118 ,000a
Residual 31085446686,216 472 65858997,217
Total 137916495436,340 473
a. Variables predictoras: (Constante), Salario inicial
b. Variable dependiente: Salario actual
¿Qué ocurriría si este ANOVA no fuese significativo?

• En esta tabla aparecen los coeficientes de la recta de regresión
Coeficientesa
Coeficientes no Coeficientes
estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1928,206 888,680 2,170 ,031
Salario inicial 1,909 ,047 ,880 40,276 ,000
a. Variable dependiente: Salario actual
Prueba de significación
• Son los coeficientes de regresión parcial que definen la ecuación de

regresión en puntuaciones directas
• El coeficiente no tipificado correspondiente a la constante del modelo
es el origen de la recta de regresión (β0). Es la constante en el modelo
• El coeficiente no tipificado correspondiente al salario inicial (β1) es la
pendiente de la recta de regresión.
• β1 indica el cambio medio que corresponde a la VD (en nuestro ejemplo
salario actual) por cada unidad de cambio de la VI (en nuestro ejemplo
salario inicial)
• Según esto, la ecuación de regresión queda de la siguiente manera:
Pronóstico en salario = 1928,21 + 1,91 salario inicial
• Es decir, el salario actual se calcularía a partir de un incremento constante de

1928,206 más 1,909 veces el valor del salario inicial
• Los pronósticos se realizan a partir de los coeficientes NO ESTANDARIZADOS
• PREGUNTA…. ¿Qué salario actual le pronosticamos a un sujeto que entró en la
empresa ganando 1500 $?
C o e f
C o e fi c i e n t e
e s t a n d a riz
• Simplemente hay que sustituir en la ecuación M o d e

1 (C o n s ta
B
1 9 2 8 ,
E rro r
8 8 8 ,6
S a la rio 1 ,9 0 ,0 4
a .V a r i a b l e d e p e n d ie n t e : S
Yi= B0 + B1X1
B0
Yi Salario actual ??? B0 Los obtenemos de la
tabla de coeficientes B1
X1 Salario inicial 1500$ B1 no estandarizados
Salario actual ??? B0 Los obtenemos de la

tabla de coeficientes
Salario inicial 1500$ B1 no estandarizados
Yi= B0 + B1X1
Salario actual = 1928,206 + 1,909* 1500 =
4791,706$
• Los coeficientes Beta (coeficientes de regresión tipificados o

estandarizados)
• definen la ecuación de regresión cuando ésta se obtiene tras tipificar las
variables originales. Tras convertir las puntuaciones directas en típicas.
• Se obtiene de la siguiente forma
β1 = B1 / error típico
• En Regresión simple el coeficiente de regresión tipificado
correspondiente coincide exactamente con el coeficiente de
correlación de Pearson.
• En Regresión múltiple no ocurre esto, pero los coeficientes de
regresión tipificados ayudan a valorar la importancia relativa de cada
VI dentro de la ecuación
Coeficientesa
estandarizados estandarizados
1 (Constante) 1928,206 888,680 2,170 ,031
Salario inicial 1,909 ,047 ,880 40,276 ,000
a. Variable dependiente: Salario actual
• IMPORTANTE: Estos coeficientes estandarizados sirven para valorar el

peso relativo de cada predictor en la ecuación
• En ARM el predictor que más pese en la ecuación será el que tenga
un coeficiente mayor
• Pruebas de significación de los coeficientes:
• Prueba t para contrastar si cada VI está significativamente relacionada
con la VD
• Como en Regresión Simple tenemos una sola VI, los resultados de la
prueba t serán equivalentes a los de ANOVA (ya que t2 = F)
• Indica si las VI explican o no a la VD.
¿Qué habría que hacer con las VI que no

resultaran significativas?
Regresión lineal simple: ejercicio
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida es timación
1 ,182a ,033 ,030 ,83843
a. Variables predictoras : (Constante), Cantidad de libros de
que dis pone el niño
ANOVA b
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regres ión 7,884 1 7,884 11,216 ,001a
Residual 229,867 327 ,703
Total 237,751 328
a. Variables predictoras : (Constante), Cantidad de libros de que dis pone el niño
b. Variable dependiente: Desarrollo cognitivo
Coeficientes a
es tandarizados es tandarizados
1 (Constante) 4,657 ,196 23,750 ,000
Cantidad de libros de
,150 ,045 ,182 3,349 ,001
que dis pone el niño Covadonga Ruiz de Miguel
Curso 2009/2010
a. Variable dependiente: Desarrollo cognitivo
• Con las tablas de resultados anteriores contesta a las siguientes
preguntas
• Identifica cuál es la variable criterio y cual el predictor en este análisis.
• ¿Ha mejorado la predicción respecto de utilizar la media? ¿Cuánto?
• ¿Qué valor tiene el coeficiente de determinación? Valora el ajuste del modelo.
• ¿Qué significa en la práctica la constante del modelo? ¿Y la pendiente?
• Construye la ecuación de regresión. Calcula la puntuación en desarrollo
cognitivo que se le predice a un alumno que dispone en su casa de 150 libros.
• ¿Qué valor tiene la correlación entre la VD y la VI?
• ¿Considerar que el predictor que se ha utilizado es adecuado? ¿Por qué?
• ¿Cómo interpretas el valor del coeficiente estandarizado beta?
• ¿Es adecuado realizar la predicción con la VI utilizada? ¿Por qué?

Regresión Simple

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Regresión Simple

Diunggah oleh

Hak Cipta:

Format Tersedia

Regresión Lineal

Sin embargo, la información que nos aporta el diagrama de

El origen de la recta (B0) sugiere que, una

La pendiente de la recta (B1) indica que, en promedio, a cada incremento de una

o Que para una

o Lo que hay que

La elección preferida es la recta que hace mínima la

• Además de acompañar a la recta con su fórmula, sería útil tener

¿En cual de las dos el ajuste es más pobre?

• Se puede hacer de varias formas, pero la de más aceptación es a través

• Es el cuadrado del coeficiente de correlación o en regresión múltiple:

• Es una medida estandarizada que toma valores entre 0 y 1, igual que el

• Lo que significa que el conocimiento del % de alcohol de una

• Vamos a tratar de predecir el salario actual a partir del salario inicial

• Menú – Analizar – Regresión Lineal

Resumen del modelo

R cuadrado Error típ. de la

• En la tabla 2 aparece el coeficiente de correlación múltiple, su

• R2 indica que el 77,4% de la variabilidad de salario actual está

• El error típico (Se) de estimación representa la parte de variabilidad de

• Informa de que la predicción hecha por el modelo es mejor que

¿Qué ocurriría si este ANOVA no fuese significativo?

• En esta tabla aparecen los coeficientes de la recta de regresión

• Son los coeficientes de regresión parcial que definen la ecuación de

Pronóstico en salario = 1928,21 + 1,91 salario inicial

• Es decir, el salario actual se calcularía a partir de un incremento constante de

• Simplemente hay que sustituir en la ecuación M o d e

Salario actual ??? B0 Los obtenemos de la

• Los coeficientes Beta (coeficientes de regresión tipificados o

• IMPORTANTE: Estos coeficientes estandarizados sirven para valorar el

¿Qué habría que hacer con las VI que no

R cuadrado Error típ. de la

Anda mungkin juga menyukai