Análisis Cuantitativo
Guía de estudio de la
Unidad 7
Regresión y correlación
lineal
1. Introducción
2. Objetivos
3. Caso de estudio
Los miembros de un club gastronómico han sido valorados tomando como baremos
el sentido del humor y la obesidad y sus resultados han sido representados en la
siguiente gráfica donde cada punto representa una persona:
a.) Trata de reconocer en algunos puntos en la gráfica a
b.) Salvo las dos excepciones del apartado anterior, observa que, entre los miembros de este
club hay una cierta tendencia a tener tanto mejor humor cuanto más gordos sean. Si tuvieras
que concretar esa tendencia con una recta, ¿te parece adecuada la de ecuación
y = 1 + 3/5 (x – 1)?
Represéntala y si no te parece adecuada, dibuja la recta que, según tu opinión, marca la
tendencia de esa población.
c.) Va a ingresar un nuevo socio en este club. Sabemos que su obesidad es de +1. ¿Entre qué
valores te parece más probable que oscile su humor?
d.) ¿Será razonable escribir una fórmula que proporcione directamente el valor del humor en
función de la obesidad?
4. Contenidos
7.1- Análisis de regresión. Modelo de regresión lineal simple. Ajuste por el método de los
mínimos cuadrados.
7.2- Correlación. Diagrama de dispersión.
7.3- Correlación lineal. Coeficiente r de Pearson.
7.4- Coeficiente de asociación por rangos. Coeficiente Rs de Spearman
Todos los días se toman decisiones basadas en predicciones de sucesos futuros. Para
hacer estas predicciones nos basamos en la relación entre lo que ya se sabe y lo que se debe
estimar. Si podemos determinar cómo lo conocido se relaciona con el evento futuro, nos
ayudaría a tomar la decisión. Este es el objetivo del análisis de regresión y de correlación:
cómo determinar la relación entre las variables.
ANÁLISIS DE REGRESIÓN
Ejemplos:
Los economistas pueden predecir el PBN (producto bruto nacional anual), basados en el
"consumo final". En este caso la variable "consumo final" es la variable independiente
(o variable de predicción) y el PBN es la variable dependiente (o variable respuesta)
El interés recae en determinar una función matemática sencilla, que describa de manera
razonable el comportamiento de la variable respuesta Y , dados los valores de la variable de
predicción X , llamada ecuación de estimación, esto es, una fórmula matemática que
relacione las variables conocidas X con la variable desconocida Y .
Ejemplo:
SUPUESTOS:
2- Los datos que se observan son comunes, es decir constituyen una muestra representativa
de la población.
3- Se supone que cada valor observado está constituido por un valor real y una
componente aleatoria. Es decir, si se toman muestras con los mismos valores de x ,
podemos esperar que varíen los valores de y .
DIAGRAMA DE DISPERSIÓN
El diagrama de dispersión es una gráfica en la que se trazan cada uno de los puntos que
representan un par de valores observados para las variables independiente y dependiente. El
valor de la variable independiente se gráfica en el eje horizontal y la variable dependiente en
el eje vertical.
Ejemplo:
Los datos que se proporcionan en la siguiente tabla, representan las utilidades por acción
correspondiente a una compañía durante 10 años. Por simplicidad, se codificó el tiempo
llamando año 1 a 1989, 2 a 1990, 3 a 1991,....., 10 a 1999.
Año 1 2 3 4 5 6 7 8 9 10
Utilidad 1,38 1,50 1,61 1,68 1,87 2,17 2,62 2,66 2,29 2,90
La ecuación lineal que representa el modelo de regresión lineal simple (poblacional) es:
Yi xi i
yˆ a bx
Una vez seleccionado el modelo, hay que obtener estimaciones para los parámetros y
, que intervienen en el mismo. Una técnica muy aceptada para este propósito es el método
de los mínimos cuadrados.
Este método proporciona lo que comúnmente se conoce como la recta de "mejor ajuste".
Minimiza la suma de los cuadrados de las desviaciones verticales con respecto a la recta.
yˆ a bx
donde
n n n
n xy x y
b i 1 i 1 i 1
2 y
2
n n
n x x
i 1 i 1
n n
yi b x
i 1 i 1
a y bx
n
x y xy x2
1 1,38 1,38 1
2 1,5 3 4
3 1,61 4,83 9
4 1,68 6,72 16
5 1,87 9,35 25
6 2,17 13,02 36
7 2,62 18,34 49
8 2,66 21,28 64
9 2,29 20,61 81
10 2,9 29 100
55
x y 20, 68 xy 127, 53 2
x 385
Podríamos utilizar esta ecuación de regresión para estimar el valor esperado (o estimado) en
el 2000, para lo cual le damos a x el valor codificado 11
Nota:
La diferencia entre el valor real (representado por los puntos) y el valor estimado por
la recta de regresión se llama residuo ei yi yˆ i , y describe el error en el ajuste
del modelo en el i-ésimo punto.
10
9 yi
8
ei yi yˆ i
7
6
5
ŷ i
4
3
2
1
0
0 2 4 6 8 10
ACTIVIDAD 1:
ANÁLISIS DE CORRELACIÓN.
Hasta aquí hemos supuesto que la variable X no es una variable aleatoria (es decir que se
mide con poco error). En muchas aplicaciones de las técnicas de regresión es más realista
suponer que X e Y son ambas variables aleatorias, por lo que consideraremos el problema de
medir la intensidad de la relación lineal entre esas dos variables.
La correlación también se puede utilizar sola para medir el grado de asociación entre dos
variables.
n n n
n xy x y
r i 1 i 1 i 1
n n n
2
n
2
2 2
n x x n y y
i 1 i 1 i 1 i 1
Ejemplo:
Una empresa decide pasar anuncios publicitarios durante la semana e distintos medios de
comunicación y desea saber si hay relación entre las ventas de fin de semana y la cantidad de
anuncios publicitarios. Los datos son:
Nº anuncios 4 2 5 6 3
x y xy x2 y2
4 1500 6000 16 2250000
2 800 1600 4 640000
5 2100 10500 25 4410000
6 2400 14400 36 5760000
3 1700 5100 9 2890000
x 20 y 8500 xy 37600 x 2 90 y 2 15950000
5( 37600) 20(8500
r 0,93
5(90) (20) 5(15950000) (8500)
2 2
El diagrama de dispersión indica una relación lineal positiva entre las variables, lo que
significa que al aumentar el número de anuncios publicitarios aumentan también las
ventas
COEFICIENTE DE DETERMINACIÓN:
COEFICIENTE DE DETERMINACIÓN r2 :
COEFICIENTE DE NO DETERMINACIÓN 1 - r2 :
ACTIVIDAD 2:
Estudia en cuáles de los siguientes casos los resultados ofrecidos son compatibles entre sí:
a) La recta de regresión es: y = 4x + 5, y que el coeficiente de correlación: rxy = -0.3
b) y = 9 x - 4; rxy = 3
c) y = 5x + 8; rxy = 0.2
d) y = -0.3x + 9; rxy = - 0.2
CORRELACIÓN DE RANGOS
Charles Spearman, estadístico británico, ideó una medida de correlación para datos de nivel
ordinal o de rangos, es decir para datos que pueden clasificarse de menor a mayor, o
viceversa. A esta medida se la conoce como coeficiente de rango de Spearman y se lo
denota rS.
n
6 di
i 1
rs 1 2
n ( n 1)
Ejemplo:
Empleado 1 2 3 4 5 6 7 8 9 10
Ventas 319 150 175 460 348 300 280 200 190 300
RE 3 9 6 1 4 10 5 2 7 8
A la menor venta se le asigna el rango 1, a la que sigue el rango 2 y así siguiendo. Cuando
se presenta un empate (vemos que los representantes 6 y 10 realizaron ventas por $300), el
rango que se les otorga es el promedio entre el 6º y 7º lugar, es decir (6+7)/2= 6,5
6( 245,5)
rS 1 0, 49
10(100 1)
rS = - 0,49 ( hay una relación negativa moderada entre los dos ranking)
Si hacemos un diagrama de dispersión con los dos ranking vemos que hay una
moderada relación lineal negativa entre los dos ranking
12
Rango de entrenamiento
10
8
6
4
2
0
0 2 4 6 8 10 12
Rango de ventas
ACTIVIDAD 3:
Los entrenadores de fútbol califican el desempeño de los jugadores en una escala de 0 a 100,
tanto en las prácticas semanales como en el juego. Una muestra de jugadores que participó
en un campeonato reveló las siguientes calificaciones:
PUNTUACIÓN
ACTIVIDAD 4:
PREGUNTAS DE COMPRENSIÓN:
1. El análisis de regresión lineal se usa para describir qué tan bien la ecuación de una recta
describe la relación que se está estudiando.
2. Dado que la ecuación para una línea es Y = 26 - 24X, podemos decir que la relación de Y
con X es positiva y lineal.
12. Un valor r2 mide sólo la fuerza de una relación lineal entre las dos variables X e Y.
RESUMEN DE LA UNIDAD
n n n
n xy x y n n
b i 1 i 1 i 1 yi b x
2 y i 1 i 1
n
2
n a y bx
n x x n
i 1 i 1
n n n
n xy x y
r i 1 i 1 i 1
n n n
2
n
2
2 2
n x x n y y
i 1 i 1 i 1 i 1
COEFICIENTE DE DETERMINACIÓN r2
COEFICIENTE DE RANGO DE SPEARMAN
n
6 di
i 1
rs 1 2
n ( n 1)
BIBLIOGRAFÍA
Trabajo práctico Nº 7:
REGRESIÓN Y CORRELACIÓN LINEAL
1- Los ejercicios que siguen se basan en el siguiente diagrama de dispersión:
Precio
D) Gráfica lineal
E) Tiene otro nombre
b) La ecuación de la recta que pasa por los puntos tiene como expresión:
A) Y = a + b + c B) Y = a + bx
2
C) Y = a + bx D) Y = x – 1
E) Y = a + b
c) En este problema el investigador intenta pronosticar:
A) La cantidad pedida con base en el precio
B) El precio con base a la cantidad solicitada
C) Tanto el precio como las cantidades solicitadas
D) Ninguna de las opciones es correcta
d) Si se calcula el signo de b en la ecuación resulta
A) positivo
B) negativo
C) no se puede conocer de antemano
e) Cualquier pronóstico realizado con la línea de regresión de este gráfico
resulta
A) Sin error
B) De poca o ninguna utilidad
C) Ninguna opción es correcta
f) A la variable que se utiliza para pronosticar otra variable se la denomina
A) variable independiente
B) variable dependiente
C) variable de correlación
D) Ninguna de estas opciones es correcta
g) El método empleado para llegar a la recta de “mejor ajuste” en el análisis de
regresión se denomina:
A) método de dibujo a mano libre
B) método de no determinación
C) método de mínimos cuadrados
D) método de correlación
2- En Economía, la función demanda de un producto se estima a menudo calculando la
regresión de la cantidad vendida (Q) sobre el precio (P). Una empresa que produce
perfumes muy finos lanza al mercado un nuevo producto, con diferentes estrategias
publicitarias y precios, según los lugares de venta. Obtiene los siguientes datos:
precio 100 47 85 80 45 40 30 20
unitario($)
cantidad vendida 1000 1500 1280 1200 1620 1700 1800 2000
a) Dibuje un diagrama de dispersión.
b) Calcule el coeficiente de correlación y la ecuación de la recta de regresión.
c) Interprete el significado de los coeficientes de la ecuación de la recta de regresión para
este problema.
d) Calcule la cantidad esperada en las ventas cuando el precio es de $60.
AÑO 1985 1986 1987 1988 1989 1990 1991 1992 1993
ALIMENTACIÓN 1.75 1.81 1.92 2.11 2.35 2.55 2.75 2.86 2.92
ASISTENCIA 1.69 1.85 2.02 2.19 2.40 2.66 2.95 3.29 3.57
SANITARIA
a) Dibujar diagramas de dispersión (nube de puntos) que vinculen:
1) el año y el índice de consumo de alimentos
2) el año y el índice de asistencia sanitaria
3) el índice de consumo y el índice de asistencia sanitaria
b) Determinar la ecuación de la recta de regresión en los 3 casos
c) Representar la recta de regresión sobre la nube de puntos en los 3 casos
d) Usar la recta para pronosticar el índice correspondiente a la asistencia sanitaria cuando el
de alimentación vale 3.51.
e) Estimar un valor aproximado para el coeficiente de correlación lineal observando el
gráfico 3)
f) Calcular el coeficiente de correlación lineal entre los índices.
g) Hallar el coeficiente de determinación e interpretar
h) ¿Cuánto han subido los alimentos durante el período analizado?
i) ¿Cuánto ha subido la asistencia para la salud durante el período analizado?
superficie (m2) 100 135 145 145 128 120 100 153 170 135 120
precio (miles de 40 49 54 51 48 46 41 56 62 50 45
$)
a) Dibuje un diagrama de dispersión. ¿Le sugiere el diagrama una asociación lineal entre las
variables?
b) Halle la ecuación de la recta de regresión del precio sobre la superficie de las casas.
c) Dibuje la recta de regresión en el gráfico del punto a).
d) Interprete, en términos del problema, el significado de los coeficientes de la ecuación de
la recta de regresión.
e) Calcule el valor esperado de una casa de 150 m2.
f) En términos generales, ¿puede estimar en cuántos pesos aumenta el precio de una casa
por cada metro cuadrado adicional?
g) Calcule el coeficiente de correlación y el coeficiente de determinación e interprete
a) Asigne los valores 0,95; 0,4; -0,7 y -1 a los coeficientes de correlación de cada uno de los
gráficos siguientes.