Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares del copyright.
© FUOC • PID_00212762 Regresión lineal
Índice
AUTOR:
Josep�Gibergans�Bàguena
Después de estudiar cómo hay que organizar, representar gráficamente y ana- Origen de los modelos de
lizar un conjunto de datos a partir de algunos parámetros, nos proponemos regresión
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces
podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.
Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos.
1)�Funcionales (o deterministas): cuando hay una fórmula matemática que Ejemplo de relación
permite calcular los valores de una de las variables a partir de los valores que funcional
Terminología
El diagrama�de�dispersión se obtiene representando cada observación
(xi, yi) como un punto en el plano cartesiano XY. El diagrama de dispersión tam-
bién se conoce como nube de
puntos.
En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En el
primer caso, con pendiente negativa, que nos indica que a medida que X aumenta, la Y
es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es positiva.
En estos dos casos los puntos se ajustan perfectamente sobre la recta, de manera que
tenemos una relación funcional entre las dos variables dada por la ecuación de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se
sitúan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola).
En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de puntos
no presenta una forma “tubular” bien determinada; los puntos se encuentran absoluta-
mente dispersos.
En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las
dos variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente
negativa, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos
no están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar
en una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67
El diagrama de dispersión también nos puede ayudar a encontrar algún valor Definición y ejemplo de
atípico entre los datos de la muestra que pueda tener su origen en una mala valor atípico
observación o en el hecho de ser una observación correspondiente a un indi- Por valor atípico entendemos
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, un valor muy diferente de los
otros y que muy posiblemente
debemos controlar las influencias que pueda tener en el análisis. es erróneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagra-
ma de dispersión saldrá como
un punto solitario alejado de
los otros.
© FUOC • PID_00212762 8 Regresión lineal
y = a + bx
y i – (a + bx i)
Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados.
Terminología
Ved también
Nota
en las que:
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados
de los residuos.
obtenida al determinar a y b.
a)�Interpretación�de�la�ordenada�en�el�origen, : Nota
b)�Interpretación�de�lapendiente�de�la�recta,
© FUOC • PID_00212762 11 Regresión lineal
Este parámetro representa la estimación del incremento que experimenta la Pendiente en el ejemplo
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de de los pesos y las alturas
cómo están relacionadas las dos variables en el sentido de que nos indica en En el ejemplo de los pesos y las
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían alturas, en el diagrama de dis-
persión habíamos observado
los valores de la X en una unidad. que, en general, aumenta el
peso de las personas a medida
que aumenta su altura.
1.1.5. Construcción de la tabla para determinar los parámetros
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral sxy, la varianza
muestral y las medias y .
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.
En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
© FUOC • PID_00212762 13 Regresión lineal
Si queremos saber el peso de un bebé que sólo mide cuarenta centímetros, no podremos
utilizar la recta de regresión obtenida. Las características biológicas del bebé, muy dife-
rentes de las que presentan las personas adultas, harán que la relación entre el peso y la
altura sea diferente. Deberíamos efectuar un análisis de regresión a partir de una muestra
de bebés.
2) Es posible que no tenga sentido la extrapolación que queremos hacer. Antes Sentido de la
de utilizar el modelo de regresión, debemos preguntarnos por lo que estamos extrapolación
Curva en un modelo
exponencial
El modelo�exponencial es del tipo:
En el modelo lineal hemos
x ajustado la nube de puntos a
y = ka con a > 0, k > 0
una recta de ecuación:
y = a + bx
donde k y a son valores constantes.
En el modelo exponencial que-
remos ajustar a los puntos una
curva de ecuación:
x
y = ka con a > 0 y k > 0
© FUOC • PID_00212762 14 Regresión lineal
Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
lineal entre las variables a partir del diagrama de dispersión, en el caso expo-
nencial es un poco más difícil.
Las relaciones entre la variable tiempo (X) y otras variables (Y) como la población, el
número de ordenadores infectados por un virus en los primeros días de contaminación,
los precios de algunos productos, etc., son exponenciales.
ln y = ln k + x ln a Propiedades de los
logaritmos
Esta última ecuación nos muestra un modelo lineal entre las variables X y ln ln ab = ln a + ln b
Y. Así, si representamos el diagrama de dispersión de los puntos (xi, ln yi) y la x
ln a = x ln a
nube de puntos presenta una estructura lineal, podemos pensar que entre las
variables X e Y hay una relación exponencial.
La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país.
1 255 5,5413
2 1.500 7,3132
4 2.105 7,6521
5 5.050 8,5271
8 16.300 9,6989
10 45.320 10,7215
11 58.570 10,9780
14 375.800 12,8368
16 1.525.640 14,2379
20 2.577.000 14,7621
Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial.
Obtenemos: , es decir, .
Para x = 12: .
Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido
de 111.748 unidades.
1.1.8. Resumen
recta. También hemos visto cómo debemos utilizar la recta de regresión para
hacer interpolaciones. Finalmente, hemos comentado una relación no lineal
tan importante como la relación exponencial y la manera en que podemos
transformarla en una lineal.
Ejercicio�1
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
c) Qué ganancia de velocidad podemos esperar de una persona que hace siete
semanas que va a clase?
Ejercicio�2
Ejercicio�1
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de
regresión. A partir de la tabla de cálculos siguiente:
© FUOC • PID_00212762 18 Regresión lineal
Medias muestrales:
Varianza muestral:
Covarianza muestral:
Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x = 7:
Ejercicio�2
a) Para encontrar la recta de regresión, antes tenemos que encontrar las medias
y covarianzas muestrales de las variables X e Y, así como la varianza muestral
de X. A partir de los datos que nos da el enunciado:
• Medias muestrales:
Para calcular la varianza muestral a partir de los datos del enunciado, uti-
lizaremos la expresión equivalente:
© FUOC • PID_00212762 20 Regresión lineal
De manera que:
De manera que:
1.1.11. Anexos
Anexo�1
Resolución�del�sistema�de�ecuaciones�normales
Dividiendo por n:
y aislando la :
entonces
Aislando β1:
Anexo�2
Varianza�muestral
De manera que:
© FUOC • PID_00212762 23 Regresión lineal
Anexo�3
Covarianza�muestral
De manera que:
Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas.
© FUOC • PID_00212762 24 Regresión lineal
Notación
La medida más importante de la bondad del ajuste es el coeficiente
La varianza explicada por la
de�determinación�R2. Este coeficiente nos indica el grado de ajuste de recta de regresión es la varian-
la recta de regresión a los valores de la muestra, y se define como la za de los valores estimados .
proporción de varianza explicada por la recta de regresión, es decir: La varianza total de los datos
es la varianza de los valores
observados yi.
podemos escribir:
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media de las observaciones con las desviaciones con respecto a
la media de los valores estimados.
Elevando al cuadrado y sumando todos los valores, se puede demostrar que: Ved también
Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión:
•
Suma de cuadrados totales
•
Suma de cuadrados de la regresión
•
Suma de cuadrados de los errores
o también,
Observando estas expresiones, es fácil apreciar las características de este coefi- Observación
2
ciente. Siempre será: 0 ≤ R ≤ 1, de manera que:
Un coeficiente de determina-
ción diferente de cero no sig-
nifica que haya relación lineal
• R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se entre las variables. Por ejem-
2
plo, R = 0,5 sólo nos dice que
encuentran sobre la recta de regresión. En este caso los residuos son cero
el 50% de la varianza de las
y la suma de sus cuadrados también y, por tanto, SCR = SCT. observaciones queda explicado
por el modelo lineal.
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
Individuos (i) 1 2 3 4 5 6 7 8 9 10
Altura (xi) 161 152 167 153 161 168 167 153 159 173
Peso (yi ) 63 56 77 49 72 62 68 48 57 67
podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación:
Tenemos que:
SCR = 456,61
SCT = 812,90
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de
los residuos:
SCE = 356,29
A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y.
© FUOC • PID_00212762 28 Regresión lineal
nos puede servir para medir estas relaciones positivas y negativas entre las
variables X e Y.
a) Si tenemos una relación positiva, entonces la mayoría de los puntos de Ved también
coordenadas ( ) estarán en el primer y tercer cuadrante en que
Observad la figura de los ejem-
plos de diagramas de disper-
, de manera que contribuirán de forma positiva a la suma. sión en el apartado 3 de la se-
sión “El modelo de regresión
simple” de este módulo.
b) Si tenemos una relación negativa, entonces la mayoría de los puntos de
coordenadas ( ) estarán en el segundo y cuarto cuadrante, en
Esquema de relaciones
entre X i Y
los que , de manera que contribuirán de forma negativa a
la suma.
• –1 < r < 1cuando la relación entre las variables no sea lineal de forma
exacta.
El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es
r = 0,749, que nos informa de la existencia de una moderada relación entre estas dos
variables, así como de que, a medida que la altura crece, el peso también lo hace (ya que
es positivo).
2 2
No obstante, en la regresión lineal simple tenemos que R = r , como fácilmen- Observación
te podemos comprobar.
En la regresión lineal múltiple
ya no tendremos la igualdad
2 2
Comprobación de que en regresión lineal simple R2 = r2 R =r
Esta relación nos ayuda a comprender por qué antes considerábamos que un
valor de r = 0,5 era débil. Este valor representará un R2 = 0,25, es decir, el
modelo de regresión sólo nos explica un 25% de la variabilidad total de las
observaciones.
2
También es importante tener presente que r nos da más información que R .
El signo de r nos informa de si la relación es positiva o negativa. Así pues,
con el valor de r siempre podremos calcular el valor de R2, pero al revés siem-
pre nos quedará indeterminado el valor del signo a menos que conozcamos
la pendiente de la recta. Por ejemplo, dado un R2 = 0,81, si sabemos que la
pendiente de la recta de regresión es negativa, entonces podremos afirmar que
el coeficiente de correlación será r = –0,9.
Caso (a) Caso (b) Caso (c) Caso (d) Lectura complementaria
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d) Encontraréis el ejemplo de
Anscombe en el artículo si-
10 8,04 10 9,14 10 7,46 8 6,58 guiente:
T.W.�Anscombe (1973).
8 6,95 8 8,14 8 6,77 8 5,76 “Graphs in Statistical Analy-
sis”. The American Statistician
(núm. 27, pág. 17-21).
13 7,58 13 8,74 13 12,74 8 7,71
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes,
tenemos la representación de los siguientes diagramas de residuos:
Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a).
Ejemplo�de�las�alturas�y�los�pesos
1.2.5. Resumen
Ejercicio�1
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Y la recta de regresión: .
Ejercicio�2
© FUOC • PID_00212762 37 Regresión lineal
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
Ejercicio�1
De manera que:
2 2
R =r
Ejercicio�2
b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica.
1.2.8. Anexos
Anexo�1
Descomposición�de�la�suma�de�cuadrados�total
donde:
Podemos escribir:
© FUOC • PID_00212762 41 Regresión lineal
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados:
Y, por tanto:
Si denominamos:
•
Suma de cuadrados de la regresión
Modelo�de�regresión�lineal
Es muy importante tener presente que, para un mismo valor de la variable X, El peso depende de la
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada altura y de otros factores
valor de X no hay un único valor de Y, sino una distribución de frecuencias de En el ejemplo de la relación
Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de otros entre el peso y la altura de las
personas, es evidente que exis-
factores difícilmente cuantificables o simplemente desconocidos. La influen- ten muchos factores, como
pueden ser aspectos genéti-
cia de este conjunto de factores es la que determina que la relación entre X e cos, la actividad física, la ali-
mentación, etc., que hacen
Y sea estadística y no determinista. Todos estos factores son los responsables que una persona de una deter-
de los errores o residuos. minada altura tenga un peso
u otro. Para una altura fija, de
por ejemplo 170 cm, no todas
las personas tienen el mismo
Dada una muestra de observaciones (xi, yi), y = 1, ... , n de individuos de una peso.
población, ya sabemos encontrar la recta de regresión lineal .
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes:
Muestra j = 1
Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9 i=
10
Altura( xij ) 161 152 167 153 161 168 167 153 159 173
Peso( yij ) 63 56 77 49 72 62 68 48 57 67
Muestra j = 2
Altura (xij) 161 152 167 153 161 168 167 153
Peso (yij) 63 56 77 49 72 62 68 48
Muestra j = 3
Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9
Altura (xij) 161 152 167 153 161 168 167 153 159
Peso (yij)> 63 56 77 49 72 62 68 48 57
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos.
Notación
Llamamos modelo de regresión lineal para la población a:
No ponemos los “sombreros”
sobre los parámetros para in-
dicar que ahora se trata de la
recta de regresión para la po-
blación.
Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que Distribución de los errores
en la realidad
deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística. La distribución de los errores
es diferente para diferentes
valores de X. Por ejemplo, las
personas que miden cerca de
Antes de continuar, tenemos que hacer dos suposiciones muy importantes: 160 cm varían menos su pe-
so que las personas que mi-
den 185 cm. De todos modos,
1) Los errores se distribuyen según una distribución normal de media cero y aceptaremos la suposición de
que siempre son iguales.
varianza σ2.
2
Cada distribución de valores de Y tiene la misma varianza σ , que es la varianza
de los residuos.
El primer resultado nos dice que estas medias se encuentran situadas sobre una recta.
De manera que son los valores estimados (o “estimadores”) de los pa- Valor medio
rámetros de la población. Y la recta que mejor se ajusta a los datos es: Debemos interpretar:
2
Todavía nos falta estimar la varianza de los errores aleatorios, σ . Este término
refleja la variación aleatoria en torno a la auténtica recta de regresión.
Hemos dividido la suma de las desviaciones al cuadrado por n – 2, no por n – Pérdida de grados de
1. Esto se debe a que estimamos la media de Y para un valor dado de X con libertad
una fórmula que contiene dos parámetros estimados a partir de los datos de El razonamiento es el mismo
que el que hacemos al justifi-
la muestra ( ). Diremos que “hemos perdido dos grados de libertad”. car la división por (n – 1) en la
fórmula de la varianza mues-
tral:
Ejemplo de las alturas y los pesos
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
Lo hacemos porque hemos
Individuos�(i) 1 2 3 4 5 6 7 8 9 10 perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
Altura (xi) 161 152 167 153 161 168 167 153 159 173
Peso (yi) 63 56 77 49 72 62 68 48 57 67
Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación.
Ved también
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 = 8, obtenemos
la varianza de los residuos:
a) Valor esperado de :
b) Varianza de :
Acabamos de ver que las suposiciones del modelo de regresión lineal simple
implican que el parámetro es una variable aleatoria distribuida normalmen-
te con:
• Media: β1
•
Varianza:
2
Dado que esta varianza σ es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente:
Dado que sigue una distribución normal con varianza desconocida (ya que
(1)
Intervalo de confianza por la
1
Con todo esto, tenemos que un intervalo�de� confianza de 100 (1 – α)% pendiente con un nivel significati-
vo α.
por la pendiente β1 de la recta de regresión poblacional viene dado por:
ya que:
Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: , de manera que
.
donde:
© FUOC • PID_00212762 50 Regresión lineal
De manera que:
Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo.
No rechazar la hipótesis nula significa que no se puede considerar el paráme- Interpretación geométrica
tro β1 significativamente diferente de cero. Es decir, la variable X no tiene in-
No rechazar H0 significa que la
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre recta estimada tiene una pen-
las dos variables. diente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
a) A partir del p-valor. Este valor es: p = 2 P(tn–2 > | t|). Recordad
• Si |t| > tα/2, n–2, se rechaza la hipótesis nula H0; por tanto, hay una relación
lineal entre las variables X e Y.
• Si |t| ≤ tα/2, n–2, no se rechaza la hipótesis nula H0; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa.
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero.
a) A partir del p-valor: P(| t| > 3,202) = 2 P(t > 3,202) = 2 · 0,0063 = 0,0126 < 0,05; por
tanto, rechazamos la hipótesis nula.
b) A partir del valor crítico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a
la misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable
altura es explicativa del peso de las personas con un 95% de confianza.
1.3.5. Resumen
Ejercicio�1
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
Ejercicio�2
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Y la recta de regresión: .
Ejercicio�1
a) Intervalo de confianza:
Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema:
© FUOC • PID_00212762 54 Regresión lineal
donde
Por tanto,
Es decir:
[22,092; 28,545]
© FUOC • PID_00212762 55 Regresión lineal
Ejercicio�2
Primero calculamos:
de manera que:
2) Un intervalo de confianza del 95% con n = 10, tenemos unos valores crí-
ticos:
t0,025;8 = ±2,3060
Es decir:
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una
confianza del 95%.
1.3.8. Anexos
Anexo�1
a) Valor esperado de :
Si hacemos:
podemos escribir:
© FUOC • PID_00212762 57 Regresión lineal
La propiedad de la linealidad
de la esperanza de una varia-
ble es:
E(kX) = kE(X).
Vemos que:
Observación
y que
Puesto que:
Ya que:
De manera que:
© FUOC • PID_00212762 58 Regresión lineal
Así pues:
2
Var(kX) = k Var (X)
AUTOR:
Josep�Gibergans�Bàguena
La regresión lineal simple nos proporciona un modelo para explicar la relación El peso no sólo depende
entre dos variables: la variable Y, que llamamos variable dependiente o explicada, de la altura
y la variable X, que recibe el nombre de variable independiente o explicativa. Sabemos que el peso (Y) está
relacionado linealmente con la
altura (X1). Pero también sabe-
En este módulo tendremos en cuenta que en la realidad casi siempre son más mos que puede estar relacio-
nado con la edad (X2), el nú-
de uno los factores o variables que influyen en los valores de otra variable y mero semanal de horas de de-
definiremos un nuevo modelo. porte (X3), la cantidad de calo-
rías totales de las comidas (X4),
etc.
Ejemplos de variables afectadas por más de una variable
El sueldo de un titulado por la UOC depende de la edad, de los años que hace que acabó
los estudios, de los años de experiencia en la empresa, etc.
Notación
El modelo�de�regresión�lineal�múltiple es una generalización del mo-
delo de regresión lineal simple, en el que relacionamos la variable que La variable Y se denomina va-
riable dependiente o explica-
queremos explicar, Y, con las k variables explicativas X1, X2, ..., Xk. Lo da. Las variables X i reciben el
nombre de variables indepen-
encontraremos a partir de los valores (xi, yi) que toman estas variables dientes o explicativas.
sobre los elementos de una muestra y mediante la expresión siguiente:
donde:
Supongamos que estamos interesados en explicar los gastos (en decenas de euros/año)
de los ordenadores de un departamento comercial a partir de su edad (en años) y del
número de horas diarias que trabajan (horas/día).
Hemos tomado una muestra de cinco ordenadores y hemos obtenido los resultados si-
guientes:
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
1. Fijando unos valores x1, x2, ..., xk de las variables X1, X2, ..., Xk y tomando Recordad
valores esperados sobre la ecuación del modelo, tenemos que:
En el modelo de regresión li-
neal simple la recta de regre-
sión pasa por (xi, E(y)).
En el caso del modelo lineal simple resulta claro que si tenemos más paráme-
tros que datos, tenemos un único dato. Es imposible encontrar cuál es la recta
que mejor se ajusta a un único punto, ya que tenemos infinitas rectas que
pasan por este punto.
En el caso del modelo lineal múltiple, en el que tenemos dos variables expli-
cativas, el número de parámetros que hay que estimar es tres. Si resulta que
tenemos dos o menos datos, es decir, como mucho dos puntos, tampoco tiene
sentido buscar un modelo de regresión, ya que tenemos un número infinito
de planos que pasan por dos puntos fijados.
Para determinar los parámetros de la recta de regresión en el modelo lineal Residuo en el modelode
simple, utilizamos el método de los mínimos cuadrados. Este método consiste regresión lineal simple
en encontrar la recta que hace mínima la suma de los residuos al cuadrado. En el modelo de regresión li-
neal simple el residuo es la di-
ferencia entre el valor obser-
En el caso que ahora nos ocupa, procederemos de una forma muy similar. vado de la variable Y y el valor
estimado sobre una recta.
Buscaremos la suma de los residuos al cuadrado y después determinaremos los
parámetros del modelo que hacen que esta suma tenga un valor mínimo.
donde x1i y x2i son dos observaciones de las variables X1 y X2, respectivamente.
Para calcular la suma de los cuadrados de los elementos de un vector, hay que
hacer el producto escalar del vector por sí mismo, o lo que es lo mismo, el
producto matricial del vector transpuesto por el mismo vector.
Para encontrar los valores de los parámetros que hacen mínima esta suma,
debemos derivar parcialmente con respecto a los parámetros:
Tenemos:
© FUOC • PID_00212762 66 Regresión lineal
De manera que:
1) Interpretación de :
2) Interpretación de :
Nos indica los gastos en decenas de euros de un ordenador con cero años de antigüedad
y cero horas semanales de trabajo. Es evidente que este ejemplo no tiene nigún sentido.
Nos indica el incremento de los gastos en decenas de euros por cada año de antigüedad
del ordenador, sin tener en cuenta el número de horas diarias de uso. Así pues, por cada
año que pase, tendremos 2,6 · 10 = 26 euros más en los gastos de mantenimiento de un
ordenador.
Nos indica el incremento en los gastos en decenas de euros por cada hora diaria de uso
sin tener en cuenta la antigüedad del ordenador. Tenemos que por cada hora de más de
trabajo, tendremos 2,4 · 10 = 24 euros más en los gastos anuales de mantenimiento de
un ordenador.
2.1.4. Resumen
parámetros del modelo por el método de los mínimos cuadrados, así como
la comodidad que puede suponer el uso de la notación matricial a la hora de
expresar y realizar los cálculos.
Ejercicio�1
Y 5,3 7,8 7,4 9,8 10,8 9,1 8,1 7,2 6,5 12,6
X1�(horas) 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
Os pedimos lo siguiente:
Ejercicio�2
Ejercicio�1
a) Ahora tenemos:
© FUOC • PID_00212762 69 Regresión lineal
Número de observaciones: n = 10
Número de parámetros: k = 2 + 1 = 3
Según el número de cifras decimales que cojáis a partir de aquí, los resultados
pueden ser un poco diferentes, sin que esto signifique que sean incorrectos.
Obtenemos:
Ejercicio�2
Una vez encontrado el modelo de regresión lineal múltiple a partir de los da-
tos de una muestra, queremos utilizarlo para hacer inferencias a toda la po-
blación. Sin embargo, antes es necesario llevar a cabo una comprobación de
la idoneidad del modelo obtenido.
Terminología
De la misma manera que en la regresión lineal simple, también pode-
R también se conoce como
mos definir ahora el coeficiente�de�determinación�R2 como la propor- coeficiente de correlación múlti-
ción de variabilidad explicada por el modelo con respecto a la variabi- ple.
donde:
a)�Suma�de�los�cuadrados�totales
© FUOC • PID_00212762 73 Regresión lineal
b)�Suma�de�los�cuadrados�de�la�regresión:
y, por tanto,
c)�Suma�de�los�cuadrados�de�los�errores
2
1)�R = 1 se tiene cuando SCT = SCR, es decir, cuando toda la variabilidad de
Y se explica por el modelo de regresión. En este caso tenemos que los valores
estimados por el modelo son exactamente iguales a los observados.
2
2)�R = 0 se tiene cuando SCR = 0, es decir, cuando el modelo no explica ab-
solutamente nada de Y.
2
3) Cuanto mayor sea R , mayor será la proporción de variabilidad de Y expli-
cada por el modelo y, por tanto, mayor será la bondad del ajuste.
La diferencia entre los valores observados y los valores estimados nos permite obtener
los residuos:
Este resultado nos dice que el modelo de regresión múltiple obtenido explica el 98,5%
de la variabilidad de los gastos de los ordenadores. Dado que está muy cerca del 100%,
en principio es un buen modelo.
De la misma manera que en la regresión lineal simple, los residuos del modelo
de regresión lineal múltiple tienen un papel importante a la hora de determi-
nar la adecuación del modelo.
Siempre que el modelo sea correcto, ningún gráfico de residuos debe mostrar
ningún tipo de estructura. Los residuos siempre deben estar distribuidos al azar
alrededor del cero.
No observamos ningún tipo de estructura organizada de los residuos que nos haga pensar
en una falta de linealidad del modelo. Tampoco observamos ningún dato atípico.
Considerando una vez más el problema de los ordenadores, si queremos calcular el gasto
correspondiente a un ordenador que tiene dos años de antigüedad y trabaja catorce horas
diarias, utilizaremos la ecuación encontrada:
con x1 = 2 y x2 = 14:
Por tanto, podemos esperar un gasto de mantenimiento de 340 euros anuales para este
ordenador.
Ejemplo de resultado
A la hora de aplicar la ecuación de regresión encontrada, siempre debe- irreal
mos mirar si los valores de las variables Xi para los que queremos estimar
Si queremos utilizar nuestro
el valor de la variable Y se encuentran dentro del conjunto de valores modelo para calcular el gas-
to de mantenimiento de nues-
que hemos utilizado para construir el modelo. Si no es así, debemos ir tro ordenador cuando tenga
con mucha cautela, ya que puede ser que el resultado que nos dé el mo- una antigüedad de cincuenta
años, es evidente que no tiene
delo no tenga ningún sentido. El peligro de la extrapolación también ningún sentido utilizar la ecua-
ción encontrada: ni el ordena-
está presente en la regresión lineal múltiple. dor existirá de aquí a cincuen-
ta años (y si existe estará en un
museo), ni los precios de man-
tenimiento tendrán nada que
2.2.4. Resumen ver con los de ahora, etc.
Ejercicio�1
Y 5,3 7,8 7,4 9,8 10,8 9,1 8,1 7,2 6,5 12,6
X1�(horas) 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
Ejercicio�2
Peso�final�(kg) 95 77 80 100 97 70 50 80 92 84
Peso�inicial�(kg) 42 33 33 45 39 36 32 41 40 38
Alimento�(kg) 272 226 259 292 311 183 173 236 230 235
Ejercicio�1
Para llevar a cabo un análisis de residuos, debemos construir dos tipos de grá-
ficos:
Y los residuos:
Ejercicio�2
Deberemos tener en cuenta que, si lo calculamos de las dos formas, los resul-
tados serán ligeramente diferentes a causa del error de redondeo asociado a
los cálculos.
•
© FUOC • PID_00212762 82 Regresión lineal
Contenido
complementario
Residuos no independientes
2.3.2. Distribuciones probabilísticas de los parámetros de la Se divide por:
n – (k + 1) = n – k – 1
regresión
porque los n residuos no son
independientes (están relacio-
nados por las (k + 1) ecuacio-
En primer lugar, debe quedar muy claro que cada muestra determina una re- nes normales de la regresión).
gresión lineal múltiple y, por tanto, un conjunto de coeficientes:
El primer subíndice nos indica el parámetro y el segundo, que se trata de una observación de éste
obtenida a partir de la muestra.
Así, β0, β1, ... β k, son unas variables aleatorias que habrá que estudiar para
poder inferir nuestros resultados a la población de la que hemos extraído las
muestras. Primero las caracterizaremos calculando sus valores esperados y las
desviaciones estándar:
© FUOC • PID_00212762 84 Regresión lineal
b)�Varianza�de� . Las varianzas de las son los elementos de la diagonal de Ved también
De manera que:
forma siguiente:
Es decir:
Continuamos con el caso en el que queríamos explicar los gastos (en decenas de eu-
ros/año) de los ordenadores de un departamento comercial a partir de su edad (en años) y
del número de horas diarias que trabajan (horas/día). Con esta finalidad se había tomado
una muestra de cinco ordenadores y se habían obtenido los resultados siguientes:
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
De manera que:
•
© FUOC • PID_00212762 86 Regresión lineal
Calculemos ahora los intervalos de confianza para los parámetros de nuestro ejem-
plo:
a) Intervalo de confianza para con un nivel de confianza del 95%. Observando la tabla
de la distribución t de Student con n – k – 1 = 5 – 2 – 1 = 2 grados de libertad, el valor crítico
correspondiente para α/2 = 0,025 es: t0,025;2 = 4,3027. El intervalo de confianza será:
© FUOC • PID_00212762 87 Regresión lineal
b) Intervalo de confianza para con un nivel de confianza del 95%. Ahora el intervalo
de confianza será:
En caso de que no rechacemos la hipótesis nula, esto querrá decir que la va-
riable Xj no es una variable explicativa y que, por tanto, podemos eliminarla
del modelo.
• Si |t| > tα/2;n–k–1, se rechaza la hipótesis nula H0; por tanto, la variable Xj es
una variable explicativa de la variable Y y, por tanto, no podemos elimi-
narla del modelo.
Volvemos a nuestro ejemplo para hacer un contraste de hipótesis sobre los parámetros
de la regresión y enterarnos de si las variables son explicativas de los gastos anuales de
mantenimiento de los ordenadores o no. Utilizaremos un nivel de significación α = 0,05.
a) Contraste por β1
Dado que 0,1588 > 0,05, no rechazamos H0. Por tanto, la variable X1 no es una variable
explicativa y, por tanto, podemos eliminarla del modelo.
b) Contraste por β2
Dado que 0,2188 > 0,05, no rechazamos H0. Por tanto, la variable X2 tampoco es una
variable explicativa y, por tanto, podemos eliminarla del modelo.
© FUOC • PID_00212762 89 Regresión lineal
En este modelo de regresión lineal múltiple ninguna de las dos variables nos explica la
variable “gasto en mantenimiento”.
Hemos visto cómo hay que hacer el contraste de hipótesis para ver si cada una Otras formas de expresar
de las variables Xi, individualmente, contribuye a explicar la variable Y. las hipótesis
Recordad
2) Calculamos el estadístico de contraste.
• SCE: es la suma de los cuadrados de los errores, que como ya hemos co-
mentado en más de una ocasión, tiene (n – k + 1) grados de libertad.
• 2
SCE tiene una distribución χ con n – k – 1 grados de libertad.
2
El cociente de dos variables χ divididas por sus grados de libertad da una va-
riable F de Snedecor con los grados de libertad correspondientes al numerador
y denominador del cociente.
Los cálculos necesarios se pueden resumir en la tabla siguiente, conocida como Tabla de análisis de la
tabla�de�análisis�de�la�varianza: varianza
Haremos un contraste conjunto del modelo obtenido anteriormente para los ordenado-
res. Tomaremos α = 0,05.
y SCT 5–1=4
Tenemos que: .
Puesto que 67,5 > 19,0, entonces rechazamos la hipótesis nula, de manera que el modelo
en conjunto es bueno para explicar la variable Y.
Con el p-valor tenemos que: p = P(F2;2 > 67,5) = 0,0146 < 0,05; por tanto, rechazamos
la hipótesis nula.
Llegados a este punto, nos hacemos la pregunta siguiente: ¿cómo puede ser
que el modelo en conjunto sea bueno para explicar la variable Y y, en cambio,
el contraste por separado para cada una de las variables X1 y X2 nos haya dado
© FUOC • PID_00212762 92 Regresión lineal
que ninguna de las dos era explicativa de la variable Y? A primera vista parece
que sean resultados contradictorios. Esto se debe a la presencia de multicoli-
nealidad en nuestro problema. Lo trataremos en el apartado siguiente.
Variables explicativas
En caso de que haya algún tipo de dependencia entre las variables, di- independientes
remos que existe multicolinealidad. La multicolinealidad puede tener
En las hipótesis estructurales
efectos muy importantes en las estimaciones de los coeficientes de la básicas del modelo de regre-
sión lineal múltiple ya hemos
regresión y, por tanto, sobre las posteriores aplicaciones del modelo es- pedido que las variables X1,
timado. X2, ... , Xk sean independien-
tes.
Por otra parte, el contraste conjunto indica que al menos una de las dos va-
riables contribuye a la predicción de Y (es decir, uno de los parámetros o los
dos son diferentes de cero). De hecho, es muy probable que las dos variables
contribuyan a ello, pero la contribución de la una encubre la de la otra.
Así pues, en estos casos en los que tenemos variables independientes muy co-
rrelacionadas en un modelo de regresión, los resultados pueden ser confusos.
Habitualmente, lo que se hace es incluir sólo una de estas variables en el mo-
delo.
© FUOC • PID_00212762 93 Regresión lineal
2.3.7. Resumen
Para acabar hemos visto cómo debemos hacer inferencia sobre los coeficien-
tes de la regresión obtenidos a partir de la muestra, en particular cómo debe-
mos calcular un intervalo de confianza y cómo debemos hacer un contraste
de hipótesis para cada uno de los coeficientes obtenidos para decidir si las va-
riables Xj nos explican realmente el comportamiento de la variable Y o pode-
mos prescindir de algunas de ellas. También hemos visto cómo debemos ha-
cer un contraste conjunto del modelo. Finalmente, hemos presentado los po-
sibles problemas de multicolinealidad que podemos tener y que son debidos a
la relación entre algunas de las variables explicativas que supuestamente son
independientes.
Ejercicio�1
Peso�final�(kg) 95 77 80 100 97 70 50 80 92 84
Peso�inicial�(kg) 42 33 33 45 39 36 32 41 40 38
Alimento�(kg) 272 226 259 292 311 183 173 236 230 235
Ejercicio�2
d) ¿Creéis que este modelo lineal múltiple explica de manera significativa los
ahorros?
Ejercicio�1
a) Para saber si las variables del modelo de regresión son explicativas, debere-
mos hacer un contraste de hipótesis sobre los parámetros obtenidos.
Variable�X1:
t0,025;7 = 2,3646
Dado que 2,3943 > 2,3646, rechazamos H0. La variable X1 es significativa, aun-
que por muy poco.
Variable�X2:
• Hipótesis nula: β2 = 0.
• Hipótesis alternativa: β2 ≠ 0.
4) Dado que 3,7663 > 2,3646, rechazamos H0. La variable X2 (cantidad de ali-
mento) es significativa del peso final de los animales.
Estadístico de contraste:
4) De las tablas tenemos un valor crítico de F0,05;2;7 = 4,74. Puesto que 24,07 >
4,74, rechazamos H0 con una confianza del 95%. Entonces el modelo explica
de forma significativa el peso final de los animales.
Ejercicio�2
Matricialmente:
Ahora tenemos:
© FUOC • PID_00212762 97 Regresión lineal
Según el número de cifras decimales que cojáis a partir de aquí, los resultados
pueden ser un poco diferentes, sin que ello signifique que sean incorrectos.
Tenemos:
Sin embargo, antes debemos hacer algunos cálculos más. Primero calculare-
mos las varianzas de los parámetros estimados. Vienen dadas por los términos
de la diagonal de la matriz:
© FUOC • PID_00212762 98 Regresión lineal
2
donde s es la varianza de los errores:
Variable�X1:
4) Si miramos las tablas, tenemos para un valor crítico: t0,025;2 = 4,3027. Dado
que 8,96041 > 4,3027, rechazamos H0. La variable X1 (ingresos) es explicativa
de los ahorros.
• Hipótesis nula: β2 = 0
• Hipótesis alternativa: β2 ≠ 0
4) De las tablas teníamos un valor crítico: t0,025;2 = 4,3027. Puesto que 6,46705
> 4,3027, rechazamos H0. La variable X2 (capital) también es explicativa de
los ahorros.
• la media de las yi = .
Estadístico de contraste:
4) De las tablas tenemos un valor crítico de F0,05;2;2 = 19,0. Dado que 62,12
> > 19,0, rechazamos H0. Así pues, este modelo de regresión múltiple explica
de forma significativa los ahorros de las familias a partir de los ingresos y del
capital.
2.3.10. Anexos
Anexo�1
Valor�esperado�de� :
donde hemos considerado que E(e) = 0, tal como supusimos en la sesión ante- Linealidad
rior en las hipótesis estructurales básicas del modelo de regresión lineal múl-
Hemos utilizado la propiedad
tiple. de linealidad de la esperanza
matemática:
E(aX) = aE(X)
En resumen, hemos obtenido que: , es decir:
© FUOC • PID_00212762 102 Regresión lineal
Anexo�2
Varianza�de� :
Para calcular esta varianza, utilizaremos una vez más la notación y el cálculo
matricial.
Por otra parte, hemos visto antes que de manera que podemos es-
cribir: y, por tanto:
Combinando estos resultados, tenemos que las varianzas de las son los va- Producto de matrices
t
lores esperados de los elementos de la diagonal de la matriz (Ce)(Ce) , es decir: Recordemos la importante
propiedad del producto de
matrices:
t t t
(AB) = B A
donde hemos tenido en cuenta que E[ee ] = β2I para las hipótesis estructurales
t
Finalmente tenemos que las varianzas de las son los elementos de la diago-