Pid 00212753-3 PDF

Regresión lineal
Josep Gibergans Bàguena

PID_00212762
© FUOC • PID_00212762 Regresión lineal
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,
químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
de los titulares del copyright.
Índice
1. Regresión lineal simple.................................................................... 5

1.1. El modelo de regresión simple ................................................... 5
1.1.1. Relaciones entre dos variables ....................................... 5
1.1.2. Diagramas de dispersión y curvas de regresión ............. 6
1.1.3. Recta de regresión .......................................................... 8
1.1.4. Interpretación de los parámetros de la recta de
regresión ......................................................................... 10
1.1.5. Construcción de la tabla para determinar los
parámetros ..................................................................... 11
1.1.6. Interpolación y extrapolación ....................................... 12
1.1.7. Modelos de regresión no lineales .................................. 13
1.1.8. Resumen ......................................................................... 15
1.1.9. Ejercicios de autoevaluación ......................................... 16
1.1.10. Solucionario ejercicios autoevaluación ......................... 17
1.1.11. Anexos ............................................................................ 20
1.2. La calidad del ajuste ................................................................... 23
1.2.1. 2
El coeficiente de determinación, R ............................... 23
1.2.2. El coeficiente de correlación muestral, r........................ 27
1.2.3. 2
Relación entre R y r....................................................... 30
1.2.4. Diagnóstico de la regresión: análisis de los residuos ..... 31
1.2.5. Resumen ......................................................................... 35
1.2.8. Anexos ............................................................................ 40
1.3. Inferencia en la regresión ........................................................... 42
1.3.1. El modelo de regresión en la población ........................ 42
1.3.2. Distribución probabilística de la pendiente .................. 47
1.3.3. El intervalo de confianza para la pendiente .................. 48
1.3.4. El contraste de hipótesis sobre la pendiente ................. 50
1.3.5. Resumen ......................................................................... 51
1.3.8. Anexos ............................................................................ 56
2. Regresión lineal múltiple................................................................ 59

2.1. El modelo de regresión múltiple ................................................ 59
2.1.1. El modelo de regresión lineal múltiple ......................... 59
2.1.2. Ajuste del modelo: método de los mínimos
cuadrados ....................................................................... 63
2.1.3. Interpretación de los parámetros .................................. 66
2.1.4. Resumen ......................................................................... 67

2.2. La calidad del ajuste ................................................................... 71
2.2.1. Calidad del ajuste. El coeficiente de determinación R ..
2
71
2.2.2. El análisis de los residuos .............................................. 75
2.2.3. Aplicaciones a la predicción .......................................... 76
2.2.4. Resumen ......................................................................... 77
2.3. Inferencia en la regresión lineal múltiple ................................... 82
2.3.1. Estimación de la varianza de los errores ....................... 82
2.3.2. Distribuciones probabilísticas de los parámetros de
la regresión .................................................................... 83
2.3.3. Intervalos de confianza de los parámetros del
modelo ........................................................................... 86
2.3.4. Contraste de hipótesis sobre los parámetros del
modelo ........................................................................... 87
2.3.5. Contrastación conjunta del modelo ............................. 89
2.3.6. El problema de la multicolinealidad ............................. 92
2.3.7. Resumen ......................................................................... 93
2.3.10. Anexos ............................................................................ 101
© FUOC • PID_00212762 5 Regresión lineal
1. Regresión lineal simple
AUTOR:
Josep�Gibergans�Bàguena
1.1. El modelo de regresión simple
Después de estudiar cómo hay que organizar, representar gráficamente y ana- Origen de los modelos de
lizar un conjunto de datos a partir de algunos parámetros, nos proponemos regresión
estudiar las relaciones entre variables. Estos modelos fueron utiliza-

dos por Laplace y Gauss en sus
trabajos de astronomía y física
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas desarrollados durante el siglo
XVIII, pero el nombre de mode-
de un conjunto de personas por separado. Ahora el objetivo es determinar si los de regresión tiene su origen
en los trabajos de Galton en
existe alguna relación entre estas variables.
biología de finales del siglo XIX.
La expresión de Galton “re-
gression towards mediocrity”dio
Queremos construir modelos que describan la relación entre las variables con nombre a la regresión.
el propósito, principalmente, de predecir los valores de una variable a partir
de los valores de la otra. Lo haremos con el modelo de regresión lineal simple.
1.1.1. Relaciones entre dos variables
El modelo de regresión lineal simple nos permite construir un modelo para

explicar la relación entre dos variables.
El objetivo es explicar el comportamiento de una variable Y, que deno-

minaremos variable�explicada (o dependiente o endógena), a partir
de otra variable X, que llamaremos variable�explicativa (o indepen-
diente o exógena).
Ejemplo de relación entre dos variables
Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, entonces
podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.
Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos.
No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la va-

riable explicada. Como veremos más adelante, dependerá en gran medida de
las características de los datos que tengamos.
Las relaciones entre dos variables pueden ser de dos tipos:

1)�Funcionales (o deterministas): cuando hay una fórmula matemática que Ejemplo de relación
permite calcular los valores de una de las variables a partir de los valores que funcional
toma la otra. Podemos conocer el área de

un cuadrado a partir de la lon-
gitud de su lado.
2)�Estadísticas (o estocásticas): cuando no existe una expresión matemática
que las relacione de forma exacta.
Ejemplo de relación
estadística
En la relación entre el peso y la altura es evidente que existen muchos factores,
como pueden ser factores genéticos, la actividad física, la alimentación, etc. Sabemos que hay una relación
entre la altura y el peso de las
que hacen que una persona de una determinada altura tenga un peso u otro. personas: en general, cuan-
ta más altura, más peso. Pero
Todos estos factores y otros que no conocemos hacen que la relación entre no existe ninguna fórmula ma-
estas dos variables sea estadística y no funcional. temática que nos dé una en
función de la otra, ya que esto
significaría que todas las perso-
nas que tienen la misma altura
1.1.2. Diagramas de dispersión y curvas de regresión tendrían el mismo peso, y eso
sabemos que no es cierto.
A partir de un conjunto de observaciones de dos variables X e Y sobre una

muestra de individuos, el primer paso en un análisis de regresión es representar
estos datos sobre unos ejes coordenados x-y. Esta representación es el llamado
diagrama de dispersión. Nos puede ayudar mucho en la búsqueda de un modelo
que describa la relación entre las dos variables.
Terminología
El diagrama�de�dispersión se obtiene representando cada observación
(xi, yi) como un punto en el plano cartesiano XY. El diagrama de dispersión tam-
bién se conoce como nube de
puntos.
Ejemplo de diagramas de dispersión
El diagrama de dispersión puede presentar formas diversas:

En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En el
primer caso, con pendiente negativa, que nos indica que a medida que X aumenta, la Y
es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es positiva.
En estos dos casos los puntos se ajustan perfectamente sobre la recta, de manera que
tenemos una relación funcional entre las dos variables dada por la ecuación de la recta.
En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se
sitúan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola).
En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de puntos
no presenta una forma “tubular” bien determinada; los puntos se encuentran absoluta-
mente dispersos.
En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las
dos variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente
negativa, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos
no están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar
en una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior.
Ejemplo de las alturas y los pesos
Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el

individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente:
Individuo 1 2 3 4 5 6 7 8 9 10
X altura (cm) 161 152 167 153 161 168 167 153 159 173
Y peso (kg) 63 56 77 49 72 62 68 48 57 67
El diagrama de dispersión también nos puede ayudar a encontrar algún valor Definición y ejemplo de
atípico entre los datos de la muestra que pueda tener su origen en una mala valor atípico
observación o en el hecho de ser una observación correspondiente a un indi- Por valor atípico entendemos
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, un valor muy diferente de los
otros y que muy posiblemente
debemos controlar las influencias que pueda tener en el análisis. es erróneo. Por ejemplo, una
persona de 150 cm de altura
y 150 kg de peso. En el diagra-
ma de dispersión saldrá como
un punto solitario alejado de
los otros.
1.1.3. Recta de regresión
Una vez que hemos hecho el diagrama de dispersión y después de ob-

servar una posible relación lineal entre las dos variables, nos propone-
mos encontrar la ecuación de la recta que mejor se ajuste a la nube de
puntos. Esta recta se denomina recta�de�regresión.
Estimación de los parámetros: método de los mínimos cuadrados
Una recta queda bien determinada si el valor de su pendiente (b) y de su

ordenada�en�el�origen (a) son conocidos. De esta manera la ecuación de la
recta viene dada por:
y = a + bx
A partir de la fórmula anterior definimos para cada observación (x i, y i) el error

o residuo como la distancia vertical entre el punto (x i, y i) y la recta, es decir:
y i – (a + bx i)
Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados.
Para determinar una recta de regresión, utilizaremos el método de los mínimos

cuadrados.
El método�de�los�mínimos�cuadrados consiste en buscar los valores

de los parámetros a y b de manera que la suma de los cuadrados de los
residuos sea mínima. Esta recta es la recta�de�regresión�por�mínimos
cuadrados.
Siendo la suma de los cuadrados la expresión:
Terminología
La suma de los cuadrados de

los residuos también se deno-
mina suma de los errores cua-
para encontrar los valores de a y b, sólo hay que determinar las derivadas dráticos.
parciales con respecto a los parámetros a y b:
Ved también
La resolución de este sistema

de ecuaciones se encuentra en
el anexo 1.
y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, co-

nocido como sistema de ecuaciones normales:
Las soluciones de este sistema de ecuaciones son:
Nota
En rigor habría que probar

que, efectivamente, estos va-
lores de los parámetros hacen
mínima la suma de los cuadra-
dos de los residuos.
en las que:
es la covarianza�muestral de las observaciones (xi, yi)

es la varianza�muestral de las observaciones xi
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados
de los residuos.
A partir de ahora, la recta�de�regresión la escribiremos de la manera siguiente: Notación
Hemos hecho un cambio en

la notación para distinguir de
manera clara entre una recta
cualquiera:
donde los parámetros�de�la�recta� vienen dados por:

y la recta de regresión por mí-
nimos cuadrados:
obtenida al determinar a y b.
De ahora en adelante, a los residuos�calculados con la recta de regresión los

llamaremos ei, es decir:
donde es el valor�estimado para la recta de regresión.
1.1.4. Interpretación de los parámetros de la recta de regresión
Una vez determinada la recta de regresión, es muy importante interpretar los

parámetros de la ecuación en el contexto del fenómeno que se estudia.
a)�Interpretación�de�la�ordenada�en�el�origen, : Nota
en el ejemplo de los pesos y

Este parámetro representa la estimación del valor de Y cuando X es igual a cero: las alturas.
En el ejemplo de los pesos y las
alturas, el valor de la ordenada
en el origen no tendrá sentido,
ya que correspondería al peso
que tendrían las personas de
altura nula.
No siempre tiene una interpretación práctica. Para que sea posible, es preciso
que:
• realmente sea posible que X tome el valor x = 0

• se tengan suficientes observaciones cercanas al valor x = 0
b)�Interpretación�de�lapendiente�de�la�recta,
Este parámetro representa la estimación del incremento que experimenta la Pendiente en el ejemplo
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de de los pesos y las alturas
cómo están relacionadas las dos variables en el sentido de que nos indica en En el ejemplo de los pesos y las
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían alturas, en el diagrama de dis-
persión habíamos observado
los valores de la X en una unidad. que, en general, aumenta el
peso de las personas a medida
que aumenta su altura.
1.1.5. Construcción de la tabla para determinar los parámetros
Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.

Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.
Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral sxy, la varianza
muestral y las medias y .
Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de

regresión.
Medias muestrales: y
Varianza muestral:
Covarianza muestral:
Los parámetros son:

Tenemos la recta de regresión siguiente:
Podemos representar la recta de regresión en el diagrama de dispersión:
Interpretamos los parámetros obtenidos:
• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una

persona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces
no tiene sentido la interpretación de este parámetro.
• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.
1.1.6. Interpolación y extrapolación
Uno de los objetivos más importantes de la regresión es la aplicación del mo-

delo para el pronóstico del valor de la variable dependiente (Y) para un valor
de la variable independiente (X) no observado en la muestra.
En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:
para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:
Un aspecto importante a la hora de aplicar el modelo de regresión obtenido

es el riesgo�de�la�extrapolación. Es decir, cuando queremos conocer el valor
que presentará la variable Y para un determinado valor de X que se encuentre
fuera del intervalo de valores que toma la muestra. Entonces tenemos que ir
con mucho cuidado:
Extrapolación fuera de rango
Si queremos saber el peso de un bebé que sólo mide cuarenta centímetros, no podremos
utilizar la recta de regresión obtenida. Las características biológicas del bebé, muy dife-
rentes de las que presentan las personas adultas, harán que la relación entre el peso y la
altura sea diferente. Deberíamos efectuar un análisis de regresión a partir de una muestra
de bebés.
1) Hemos determinado el modelo con la información contenida en la muestra,

de manera que no hemos tenido ninguna información del comportamiento
de la variable Y para valores de X de fuera del rango de la muestra.
2) Es posible que no tenga sentido la extrapolación que queremos hacer. Antes Sentido de la
de utilizar el modelo de regresión, debemos preguntarnos por lo que estamos extrapolación
haciendo. No tiene ningún sentido utili-

zar el modelo de regresión pa-
ra calcular el peso de personas
1.1.7. Modelos de regresión no lineales de diez centímetros o tres me-
tros de altura. El modelo nos
dará un resultado numérico
que, en todo caso, hay que in-
Aparte de los modelos lineales, se pueden establecer otros, entre los cuales terpretar.
destaca el exponencial.
Curva en un modelo
exponencial
El modelo�exponencial es del tipo:
En el modelo lineal hemos
x ajustado la nube de puntos a
y = ka con a > 0, k > 0
una recta de ecuación:
y = a + bx
donde k y a son valores constantes.
En el modelo exponencial que-
remos ajustar a los puntos una
curva de ecuación:
x
y = ka con a > 0 y k > 0
Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
lineal entre las variables a partir del diagrama de dispersión, en el caso expo-
nencial es un poco más difícil.
Ejemplos de relaciones exponenciales
Las relaciones entre la variable tiempo (X) y otras variables (Y) como la población, el
número de ordenadores infectados por un virus en los primeros días de contaminación,
los precios de algunos productos, etc., son exponenciales.
Para tratarlo, linealizamos el problema, es decir, transformamos las variables

x
de manera que el problema se convierta en lineal. Si en la ecuación y = ka
x
tomamos logaritmos ln y = ln(ka ), obtenemos, por aplicación de las propie-
dades de los logaritmos:
ln y = ln k + x ln a Propiedades de los
logaritmos
Esta última ecuación nos muestra un modelo lineal entre las variables X y ln ln ab = ln a + ln b
Y. Así, si representamos el diagrama de dispersión de los puntos (xi, ln yi) y la x
ln a = x ln a
nube de puntos presenta una estructura lineal, podemos pensar que entre las
variables X e Y hay una relación exponencial.
Ejemplo de la propagación de un virus informático
La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país.
Número de días Número de orde- Transformación de Y

xi nadores infectados ln yi
yi
1 255 5,5413
2 1.500 7,3132
4 2.105 7,6521
5 5.050 8,5271
8 16.300 9,6989
10 45.320 10,7215
11 58.570 10,9780
14 375.800 12,8368
16 1.525.640 14,2379
20 2.577.000 14,7621
El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de

algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una
relación exponencial.
Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de

dispersión correspondiente.
Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial.
Si calculamos la recta de regresión de ln y sobre x: .
Obtenemos: , es decir, .
De manera que, si queremos estimar el número de ordenadores infectados al cabo de

doce días, haremos lo siguiente:
Para x = 12: .
Y tomando exponenciales, podemos aislar: :
Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido
de 111.748 unidades.
1.1.8. Resumen
Hemos introducido los conceptos de relaciones funcionales y estadísticas, así

como el de variables dependientes (o explicadas) y el de variables indepen-
dientes (o explicativas). A continuación se ha comentado la construcción de
un diagrama de dispersión como paso inicial a la hora de buscar algún tipo de
relación entre dos variables. Si el diagrama nos muestra una estructura lineal,
entonces buscamos la línea recta que mejor se ajusta a nuestras observaciones.
Lo hacemos mediante el método de los mínimos cuadrados. Hemos puesto
de manifesto la importancia de interpretar correctamente los parámetros de la
recta. También hemos visto cómo debemos utilizar la recta de regresión para
hacer interpolaciones. Finalmente, hemos comentado una relación no lineal
tan importante como la relación exponencial y la manera en que podemos
transformarla en una lineal.
1.1.9. Ejercicios de autoevaluación
Ejercicio�1
El departamento de personal de una empresa informática dedicada a la intro-

ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen:
Número de semanas Ganancia en velocidad (p.p.m.)
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer

que existe una relación lineal entre el número de semanas y la ganancia de
velocidad?
b) Buscad la recta de regresión. Interpretad los parámetros obtenidos.
c) Qué ganancia de velocidad podemos esperar de una persona que hace siete
semanas que va a clase?
Ejercicio�2
Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más

caro que los anteriores, pero con unas prestaciones muy superiores, de mane-
ra que la labor de los técnicos de los grandes centros comerciales es muy im-
portante a la hora de presentar este producto al cliente. Con el objetivo de
saber si el “número de técnicos comerciales presentes en una tienda” (X) pue-
de tener alguna incidencia en el “número de aparatos vendidos durante una

semana” (Y), se observaron quince centros comerciales con los resultados que
se muestran a continuación:
a) Buscad la recta de regresión.
b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en

un centro con diecisiete comerciales?
1.1.10. Solucionario ejercicios autoevaluación
Ejercicio�1
Diagrama de dispersión:
El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de
regresión. A partir de la tabla de cálculos siguiente:
Medias muestrales:
Varianza muestral:
Covarianza muestral:
Ya podemos calcular los coeficientes de la recta de regresión:
La recta de regresión obtenida es:

En este caso la ordenada en el origen no tiene ninguna interpretación con

sentido, ya que correspondería a la ganancia de velocidad por cero semanas
de clases. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene
una ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos
da una información útil: por cada semana de clase se tiene una ganancia de
velocidad de aproximadamente 25 p.p.m.
Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x = 7:
Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.
Ejercicio�2
a) Para encontrar la recta de regresión, antes tenemos que encontrar las medias
y covarianzas muestrales de las variables X e Y, así como la varianza muestral
de X. A partir de los datos que nos da el enunciado:
• Medias muestrales:
• Varianza muestral: Nota
La deducción de esta fórmula

se muestra en el anexo 2.
Para calcular la varianza muestral a partir de los datos del enunciado, uti-
lizaremos la expresión equivalente:
De manera que:
• Covarianza muestral: Nota

También ahora utilizaremos una nueva expresión para calcular la cova-
La deducción de esta fórmula
rianza muestral: se muestra en el anexo 3.
De manera que:
Los parámetros de la recta de regresión son:
La recta de regresión obtenida es:
b) Para un centro con diecisiete comerciales, podemos estimar las ventas de

aparatos de DVD mediante la recta de regresión obtenida:
Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi-

madamente unos 135 aparatos.
1.1.11. Anexos
Anexo�1
Resolución�del�sistema�de�ecuaciones�normales
A partir de la primera ecuación del sistema:

Dividiendo por n:
y aislando la :
De la segunda ecuación del sistema:
pero tenemos en cuenta que:
entonces
Aislando β1:
podemos dar una expresión equivalente a partir de la definición de varianza

muestral:
y de la definición de covarianza muestral:
Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme-

tros de la recta de regresión de la manera siguiente:
Anexo�2
Varianza�muestral
Podemos deducir a partir de la fórmula de su definición:
una expresión equivalente desarrollando el cuadrado del numerador:
De manera que:
Anexo�3
Covarianza�muestral
A partir de la definición de la covarianza:
si desarrollamos el producto del sumatorio del numerador:
De manera que:
1.2. La calidad del ajuste
La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra-

dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
Mirando si en el diagrama de dispersión los puntos experimentales quedan
muy cerca de la recta de regresión obtenida, podemos tener una idea de si la
recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos
ayude a precisarlo.
1.2.1. El coeficiente de determinación, R2
Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas.
Notación
La medida más importante de la bondad del ajuste es el coeficiente
La varianza explicada por la
de�determinación�R2. Este coeficiente nos indica el grado de ajuste de recta de regresión es la varian-
la recta de regresión a los valores de la muestra, y se define como la za de los valores estimados .
proporción de varianza explicada por la recta de regresión, es decir: La varianza total de los datos
es la varianza de los valores
observados yi.
Buscaremos una expresión que nos permita calcular el coeficiente de determi-

nación. Veremos que la varianza de las observaciones se puede descomponer
en dos términos: la varianza que queda explicada por el modelo de regresión
lineal y una varianza debida a los residuos.
A partir de la definición de residuos (ei) de la regresión como la diferencia entre Notación

los valores observados (yi) y los valores estimados ( ) por la recta de regresión:
Llamaremos indistintamente
valores estimados o valores pre-
dichos ( ) a los obtenidos me-
diante la recta de regresión.
podemos escribir:
Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media de las observaciones con las desviaciones con respecto a
la media de los valores estimados.
Representaremos gráficamente las desviaciones con respecto a la media, las

observaciones y los valores estimados con la recta de regresión.
Observación: La recta de regressión pasa por .
Elevando al cuadrado y sumando todos los valores, se puede demostrar que: Ved también
Esta deducción matemática se

encuentra desarrollada en el
anexo 1.
Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión:
•
Suma de cuadrados totales
•
Suma de cuadrados de la regresión
•
Suma de cuadrados de los errores
Así, tenemos que:
SCT = SCR + SCE

Podemos interpretar esta última expresión en el sentido de que la varianza

total observada (SCT) en la variable Y se descompone en dos términos: la va-
rianza explicada por el modelo de regresión lineal (SCR) más la varianza que
no queda explicada por el modelo, es decir, la varianza de los residuos (SCE).
Entonces podemos escribir la definición del coeficiente�de�determina-

ción de esta manera:
o también,
Observando estas expresiones, es fácil apreciar las características de este coefi- Observación
2
ciente. Siempre será: 0 ≤ R ≤ 1, de manera que:
Un coeficiente de determina-
ción diferente de cero no sig-
nifica que haya relación lineal
• R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se entre las variables. Por ejem-
2
plo, R = 0,5 sólo nos dice que
encuentran sobre la recta de regresión. En este caso los residuos son cero
el 50% de la varianza de las
y la suma de sus cuadrados también y, por tanto, SCR = SCT. observaciones queda explicado
por el modelo lineal.
• R2 = 0 denota la inexistencia de relación entre las variables X e Y. En este

caso la suma de residuos es máxima y tenemos que SCE = SCT.
• Puesto que R2 nos explica la proporción de variabilidad de los datos que

queda explicada por el modelo de regresión, cuanto más cercano a la uni-
dad esté, mejor es el ajuste.
Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc.
Individuos (i) 1 2 3 4 5 6 7 8 9 10
Altura (xi) 161 152 167 153 161 168 167 153 159 173
Peso (yi ) 63 56 77 49 72 62 68 48 57 67
A partir de la recta de regresión:

podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación:
Tenemos que:
SCR = 456,61
SCT = 812,90
Por tanto, tenemos un coeficiente de determinación:
R2 = 456,61 / 812,90 = 0,5617
Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de
los residuos:
SCE = 356,29
tenemos para el coeficiente de determinación:
R2 = 1 – (356,29 / 812,90) = 1 – 0,4383 = 0,5617
Evidentemente, coinciden los resultados.
Hemos obtenido un coeficiente de determinación R2 = 0,5617 que nos informa de que el

modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones.
1.2.2. El coeficiente de correlación muestral, r
A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y.
Se suele decir que X e Y tienen una relación�positiva si los valores gran-

des de X están aparejados con valores grandes de Y y valores pequeños
de X, con valores pequeños de Y. De manera análoga, se dice que X e
Y tienen una relación�negativa si los valores grandes de X están apare-
jados con los valores pequeños de Y y los pequeños de X, con grandes
de Y.
Ahora queremos medir estas relaciones de forma numérica. La covarianza

muestral entre dos variables X e Y:
nos puede servir para medir estas relaciones positivas y negativas entre las
variables X e Y.
a) Si tenemos una relación positiva, entonces la mayoría de los puntos de Ved también
coordenadas ( ) estarán en el primer y tercer cuadrante en que
Observad la figura de los ejem-
plos de diagramas de disper-
, de manera que contribuirán de forma positiva a la suma. sión en el apartado 3 de la se-
sión “El modelo de regresión
simple” de este módulo.
b) Si tenemos una relación negativa, entonces la mayoría de los puntos de
coordenadas ( ) estarán en el segundo y cuarto cuadrante, en
Esquema de relaciones
entre X i Y
los que , de manera que contribuirán de forma negativa a
la suma.
c) Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la

covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa de
forma aproximada las cantidades positivas y negativas del sumatorio.
La covarianza presenta el gran inconveniente de depender de las unidades de

las variables que estudiamos.
Unidades del coeficiente

Definimos el coeficiente�de�correlación�muestral como: de correlación muestral
Al dividir la covarianza por las

desviaciones típicas de X y de
Y, hemos conseguido una me-
dida adimensional que no de-
pende de las unidades de las
variables.
El coeficiente de correlación se caracteriza por –1 ≤ r ≤ 1, de manera que:
• r = 1 o r = –1 cuando haya una asociación lineal exacta entre las variables

(en el primer caso positiva y en el segundo, negativa).
• –1 < r < 1cuando la relación entre las variables no sea lineal de forma
exacta.
• Para los otros valores siempre se formula la misma pregunta: ¿a partir de

qué valor de r podemos decir que la relación entre las variables es fuerte?
Una regla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte
si 0,8 < | r | < 1, y moderada si tiene otro valor.
Para calcular el coeficiente de correlación muestral, podemos utilizar la misma

tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con
el ejemplo de las alturas y los pesos.
Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente

de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales.
El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es
r = 0,749, que nos informa de la existencia de una moderada relación entre estas dos
variables, así como de que, a medida que la altura crece, el peso también lo hace (ya que
es positivo).
1.2.3. Relación entre R2 y r
Es muy importante tener clara la diferencia entre el coeficiente de correlación

y el coeficiente de determinación:
• R2: mide la proporción de variación de la variable dependiente explicada

por la variable independiente.
• r: mide el grado de asociación entre las dos variables.
2 2
No obstante, en la regresión lineal simple tenemos que R = r , como fácilmen- Observación
te podemos comprobar.
En la regresión lineal múltiple
ya no tendremos la igualdad
2 2
Comprobación de que en regresión lineal simple R2 = r2 R =r
A partir de la ecuación del coeficiente de correlación:
y de la ecuación de la pendiente de la recta de regresión:
tenemos la relación siguiente:
Por otra parte, tenemos el otro parámetro de la recta de regresión: y la ecua-

ción de los valores estimados: . De estas dos expresiones podemos escribir:
Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir

de la definición de varianza muestral, tenemos:
Esta relación nos ayuda a comprender por qué antes considerábamos que un
valor de r = 0,5 era débil. Este valor representará un R2 = 0,25, es decir, el
modelo de regresión sólo nos explica un 25% de la variabilidad total de las
observaciones.
2
También es importante tener presente que r nos da más información que R .
El signo de r nos informa de si la relación es positiva o negativa. Así pues,
con el valor de r siempre podremos calcular el valor de R2, pero al revés siem-
pre nos quedará indeterminado el valor del signo a menos que conozcamos
la pendiente de la recta. Por ejemplo, dado un R2 = 0,81, si sabemos que la
pendiente de la recta de regresión es negativa, entonces podremos afirmar que
el coeficiente de correlación será r = –0,9.
Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de

correlación con los resultados de nuestro ejemplo.
Hemos obtenido: R2 = 0,5617 y r = 0,749.
De manera que r2 = 0,7492 = 0,561.
1.2.4. Diagnóstico de la regresión: análisis de los residuos
Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos

muestrales, hay que efectuar el análisis de los residuos.
Este análisis, que a continuación comentaremos de forma breve y muy intui-

tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión.
El análisis de los residuos consiste en ver la distribución de los residuos. Esto lo

haremos gráficamente representando un diagrama de dispersión de los puntos
( ), es decir, sobre el eje de las abscisas representamos el valor estimado
y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir,
. Veamos un ejemplo:
Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la

nube de puntos ( ) no debe mostrar ningún tipo de estructura.
Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo�de

Anscombe (1973). A partir de las tablas de datos que se muestran a continua-
ción discutiremos cuatro casos:
Caso (a) Caso (b) Caso (c) Caso (d) Lectura complementaria
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d) Encontraréis el ejemplo de
Anscombe en el artículo si-
10 8,04 10 9,14 10 7,46 8 6,58 guiente:
T.W.�Anscombe (1973).
8 6,95 8 8,14 8 6,77 8 5,76 “Graphs in Statistical Analy-
sis”. The American Statistician
(núm. 27, pág. 17-21).
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión

en el ejemplo de Anscombe.
Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma

recta:
El coeficiente de correlación es el mismo para las cuatro con valor r = 0,82.
Si ahora hacemos el estudio de los residuos tal como hemos indicado antes,
tenemos la representación de los siguientes diagramas de residuos:
Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a).
Consideremos a continuación el caso (b) del diagrama de dispersión. En éste

se observa un comportamiento curvilíneo que nos hace pensar que un ajuste
lineal no sería el más conveniente. Esto se manifiesta de forma mucho más
evidente en el diagrama de residuos.
Si consideramos la muestra (c), en el diagrama de dispersión podemos obser-

var la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un mo-
delo erróneo al resto de las observaciones, ya que si lo eliminamos, entonces
obtenemos una recta de regresión diferente:
y un coeficiente de correlación r = 1. Podemos observar todos los puntos sobre

la recta de regresión.
El diagrama de los residuos también nos sugiere un buen modelo de regresión

para la muestra resultante de eliminar el valor atípico. A continuación repre-
sentamos el diagrama de dispersión y el diagrama de residuos.
En la muestra (c) hemos eliminado el valor atípico y hemos representado de

nuevo el diagrama de dispersión y la recta de regresión 1 y el diagrama de
residuos 2.
Finalmente, en la muestra (d) la pendiente está determinada por un único

valor. Tampoco es un modelo demasiado fiable.
Ejemplo�de�las�alturas�y�los�pesos
Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y

pesos. A partir de los datos de la tabla ya vista:
es fácil representar el diagrama de residuos:
No podemos observar ningún tipo de estructura en la representación; por tanto, podemos

concluir que el modelo de regresión obtenido es un buen modelo para explicar la relación
entre las dos variables.
1.2.5. Resumen
Hemos introducido una medida numérica de la bondad del ajuste de la recta

de regresión en las observaciones. Esta medida se obtiene con el coeficiente de
determinación R2. Se ha discutido la interpretación de los valores que puede
tomar. A continuación hemos visto el coeficiente de correlación muestral, r,
que nos mide el grado de asociación entre dos variables. Hemos comprobado
que en la regresión lineal simple R2 y r coinciden. Finalmente, hemos comen-
tado la importancia de analizar los residuos para hacer un diagnóstico del mo-
delo lineal obtenido.
Ejercicio�1
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación

entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos
siguientes:
Gastos en publicidad (× 1.000 €) Ventas (× 100.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión: .
A partir de toda esta información, calculad el coeficiente de determinación y

el coeficiente de correlación.
Ejercicio�2

ducción de datos ha llavado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen:
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
a) Calculad el coeficiente de determinación.
b) Haced un análisis de los residuos y comentadlo.
Ejercicio�1
Calculamos el coeficiente de determinación a partir de la expresión:
El enunciado del problema nos proporciona estos datos, ya que:
La suma de los cuadrados de la regresión es:
Y la suma de los cuadrados totales es:

De manera que:
Resultado que podemos interpretar como que el modelo de regresión lineal

explica el 54,58% de la variabilidad de las ventas.
A partir de este valor podemos calcular el coeficiente de correlación teniendo

en cuenta que:
2 2
R =r
De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente

de determinación con el mismo signo que la pendiente de la recta de regresión.
La recta de regresión es:
La pendiente es positiva, de manera que tenemos una relación positiva entre

los gastos en publicidad y ventas. Cuanto más se invierte en publicidad, más
se vende.
Así pues, el coeficiente de correlación es:
Ejercicio�2
a) Lo primero que haremos será construir la tabla de cálculos:

El modelo de regresión lineal explica el 99,20% de la varianza de la muestra.

Tenemos bondad en el ajuste.
b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica.
Si representamos el valor del residuo frente al valor ajustado, tenemos el dia-

grama de residuos siguiente:
No observamos ningún tipo de forma determinada en los puntos de esta grá-

fica.
Este resultado, junto con el elevado coeficiente de determinación, nos hace

llegar a la conclusión de que el modelo lineal es adecuado para tratar este
problema.
1.2.8. Anexos
Anexo�1
Descomposición�de�la�suma�de�cuadrados�total
A continuación veremos que la suma de cuadrados total de las observaciones

(SCT) se puede expresar de la manera siguiente:
SCT = SCR + SCE
donde:
• SCR es la suma de cuadrados de la regresión.
• SCE es la suma de cuadrados de los residuos.
A partir de la definición de residuos de la regresión como la diferencia entre

los valores observados y los valores estimados por la recta de regresión:
Podemos escribir:
Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados:
Elevando al cuadrado y sumando todos los valores:
Por tanto, es suficiente con ver que:
Observamos que a partir de las ecuaciones normales:
Y, por tanto:
Hemos demostrado así que:

Si denominamos:
•
Suma de cuadrados de la regresión
Tenemos que: SCT = SCR + SCE.
1.3. Inferencia en la regresión
En otras sesiones nos hemos preocupado de estudiar la relación lineal entre

dos variables X e Y a partir de los valores observados en una muestra. Si en
el diagrama de dispersión observábamos una relación lineal, entonces calcu-
lábamos la recta que mejor se ajustaba a nuestros datos haciendo que la suma
de los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión.
Ahora cambiaremos el punto de vista y pensaremos que esta muestra de obser-

vaciones proviene de una población. Nos preguntamos si esta relación lineal
se puede extender de alguna manera a toda la población.
1.3.1. El modelo de regresión en la población
Modelo�de�regresión�lineal
Es muy importante tener presente que, para un mismo valor de la variable X, El peso depende de la
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada altura y de otros factores
valor de X no hay un único valor de Y, sino una distribución de frecuencias de En el ejemplo de la relación
Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de otros entre el peso y la altura de las
personas, es evidente que exis-
factores difícilmente cuantificables o simplemente desconocidos. La influen- ten muchos factores, como
pueden ser aspectos genéti-
cia de este conjunto de factores es la que determina que la relación entre X e cos, la actividad física, la ali-
mentación, etc., que hacen
Y sea estadística y no determinista. Todos estos factores son los responsables que una persona de una deter-
de los errores o residuos. minada altura tenga un peso
u otro. Para una altura fija, de
por ejemplo 170 cm, no todas
las personas tienen el mismo
Dada una muestra de observaciones (xi, yi), y = 1, ... , n de individuos de una peso.
población, ya sabemos encontrar la recta de regresión lineal .
Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el

valor observado y el valor estimado , para una observación yi, pode-
mos escribir: , es decir:
Podemos hacer lo mismo con varias muestras de esta misma población.
Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes:
Muestra j = 1
Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9 i=
10
Altura( xij ) 161 152 167 153 161 168 167 153 159 173
Peso( yij ) 63 56 77 49 72 62 68 48 57 67
La recta de regresión correspondiente es: .
Muestra j = 2
Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8
Altura (xij) 161 152 167 153 161 168 167 153
Peso (yij) 63 56 77 49 72 62 68 48
La recta de regresión correspondiente es: .
Muestra j = 3
Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9
Altura (xij) 161 152 167 153 161 168 167 153 159
Peso (yij)> 63 56 77 49 72 62 68 48 57
La recta de regresión correspondiente es:
Observamos que los valores obtenidos para cada coeficiente son relativamente similares:
Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos.
Ahora el objetivo es dar un modelo para todos los individuos de la población.

Éste vendrá dado por una expresión análoga a las encontradas por las muestras.
Notación
Llamamos modelo de regresión lineal para la población a:
No ponemos los “sombreros”
sobre los parámetros para in-
dicar que ahora se trata de la
recta de regresión para la po-
blación.
Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que Distribución de los errores
en la realidad
deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística. La distribución de los errores
es diferente para diferentes
valores de X. Por ejemplo, las
personas que miden cerca de
Antes de continuar, tenemos que hacer dos suposiciones muy importantes: 160 cm varían menos su pe-
so que las personas que mi-
den 185 cm. De todos modos,
1) Los errores se distribuyen según una distribución normal de media cero y aceptaremos la suposición de
que siempre son iguales.
varianza σ2.
2) Los errores son independientes.
Con estas suposiciones tenemos que:
1) Por cada valor fijo x de X obtenemos una distribución de valores y de la

variable Y. Y podemos calcular la media o la esperanza matemática de cada
una de estas distribuciones:
2) También podemos calcular su varianza:
2
Cada distribución de valores de Y tiene la misma varianza σ , que es la varianza
de los residuos.
En el gráfico vemos la recta de regresión lineal para la población.

El primer resultado nos dice que estas medias se encuentran situadas sobre una recta.
Es importante tener presente que para tener bien determinado el modelo de

regresión para la población, debemos conocer tres parámetros: β0, β1 y σ2.
Estos parámetros desconocidos se tienen que estimar a partir de una muestra

de la población.
Como se ve en el apartado “El modelo de regresión simple”, los parámetros

de la recta se estiman por el método de los mínimos cuadrados. Este método
determina aquellos valores de los parámetros que hacen mínima la suma de
los cuadrados de los residuos:
De manera que son los valores estimados (o “estimadores”) de los pa- Valor medio
rámetros de la población. Y la recta que mejor se ajusta a los datos es: Debemos interpretar:
como la estimación del valor

medio de la distribución Y para
un valor fijo X = xi.
2
Todavía nos falta estimar la varianza de los errores aleatorios, σ . Este término
refleja la variación aleatoria en torno a la auténtica recta de regresión.
Si consideramos los residuos de la regresión como estimaciones de los valores Terminología

de los errores aleatorios, entonces podemos estimar su varianza a partir de la
2
Habitualmente, s se denomi-
varianza de los residuos:
na varianza residual.
Hemos dividido la suma de las desviaciones al cuadrado por n – 2, no por n – Pérdida de grados de
1. Esto se debe a que estimamos la media de Y para un valor dado de X con libertad
una fórmula que contiene dos parámetros estimados a partir de los datos de El razonamiento es el mismo
que el que hacemos al justifi-
la muestra ( ). Diremos que “hemos perdido dos grados de libertad”. car la división por (n – 1) en la
fórmula de la varianza mues-
tral:
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez
personas:
Lo hacemos porque hemos
Individuos�(i) 1 2 3 4 5 6 7 8 9 10 perdido un grado de libertad
al estimar la media a partir de
los datos de la muestra.
Altura (xi) 161 152 167 153 161 168 167 153 159 173
Peso (yi) 63 56 77 49 72 62 68 48 57 67
La recta de regresión correspondiente es:
Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación.
Ved también
En “El modelo de regresión simple” se deduce la recta de regresión correspondiente a

este ejemplo.
La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 = 8, obtenemos
la varianza de los residuos:
1.3.2. Distribución probabilística de la pendiente
La ordenada en el origen β0 nos informa del valor medio de la variable Y para

un valor de X igual a cero. No siempre tiene interpretación realista en el con-
texto del problema: por este motivo, únicamente consideraremos hacer infe-
rencia estadística sobre la pendiente.
Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar

intervalos de confianza), será necesario conocer la distribución de probabili-
dad de .
Del modelo de regresión lineal tenemos que es una combinación lineal de

las observaciones yi; y si éstas tienen una distribución normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresión), en-
tonces también tendrá una distribución normal. Tendremos bien determi-
nada esta distribución cuando conozcamos la esperanza y la varianza.
A partir de la expresión de podemos encontrar el valor esperado y la varian- Ved también
za. Los desarrollos matemáticos se

muestran en el anexo 1.
a) Valor esperado de :
La pendiente estimada de la recta está distribuida según una distribución nor-

mal con una media igual al valor de este parámetro para la población. Aunque
este valor es desconocido, este resultado nos será muy útil para tener informa-
ción de la población haciendo inferencia estadística. Esto lo veremos un poco
más adelante en esta sesión.
b) Varianza de :
A continuación veremos que necesitaremos la información de la muestra, ya

que σ2 es un valor desconocido que tendremos que estimar.
1.3.3. El intervalo de confianza para la pendiente
Acabamos de ver que las suposiciones del modelo de regresión lineal simple
implican que el parámetro es una variable aleatoria distribuida normalmen-
te con:
• Media: β1
•
Varianza:
2
Dado que esta varianza σ es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente:
Definimos el error estándar de la pendiente como:

Dado que sigue una distribución normal con varianza desconocida (ya que
no se conoce σ2), entonces la variable tipificada:
tiene una distribución t de Student con n – 2 grados de libertad.
(1)
Intervalo de confianza por la
1
Con todo esto, tenemos que un intervalo�de� confianza de 100 (1 – α)% pendiente con un nivel significati-
vo α.
por la pendiente β1 de la recta de regresión poblacional viene dado por:
ya que:
Este intervalo está centrado en la estimación puntual del parámetro, es decir,

en , y la cantidad en la que se alarga a cada lado de la estimación depende
del nivel deseado de confianza, α (mediante el valor crítico tα/2, n – 2) y de la
variabilidad del estimador (mediante ).
Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: , de manera que
.
Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto,

α = 0,05 y mirando la tabla de la t de Student tenemos un valor crítico de
.
Para calcular el intervalo de confianza: , antes te-

nemos que calcular:
donde:
Antes ya hemos calculado la varianza de los residuos:
De manera que:
Por tanto, el error estándar de la pendiente será:
Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306].
Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo.
1.3.4. El contraste de hipótesis sobre la pendiente
Observemos que si en el modelo de regresión lineal la pendiente es cero, en-

tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso
diremos que X no es una variable�explicativa del modelo.
En este apartado haremos un contraste de hipótesis sobre la pendiente de la

recta de regresión para saber si podemos afirmar o no que éste es igual a cero.
Como en todos los contrastes de hipótesis, daremos los pasos siguientes:
1) Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H0: β1 = 0, es decir, la variable X no es explicativa
• Hipótesis alternativa: H1: β1 ≠ 0, es decir, la variable X es explicativa
No rechazar la hipótesis nula significa que no se puede considerar el paráme- Interpretación geométrica
tro β1 significativamente diferente de cero. Es decir, la variable X no tiene in-
No rechazar H0 significa que la
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre recta estimada tiene una pen-
las dos variables. diente nula y, por tanto, para
cualquier valor de X la variable
Y toma un mismo valor.
2) Fijamos un nivel significativo α.
3) Bajo el supuesto de la hipótesis nula cierta (β1 = 0) tenemos el estadístico

de�contraste:
que corresponde a una observación de una distribución t de Student con n –

2 grados de libertad.
4) Finalmente, podemos actuar de dos maneras:
a) A partir del p-valor. Este valor es: p = 2 P(tn–2 > | t|). Recordad
El p-valor es la probabilidad del

• Si p ≤ α se rechaza la hipótesis nula H0 resultado observado o de uno
más alejado si la hipótesis nula
es cierta.
• Si p > α no se rechaza la hipótesis nula H0
b) A partir de los valores críticos ± tα/2, n–2, de manera que:
• Si |t| > tα/2, n–2, se rechaza la hipótesis nula H0; por tanto, hay una relación
lineal entre las variables X e Y.
• Si |t| ≤ tα/2, n–2, no se rechaza la hipótesis nula H0; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa.
Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero.
Hipótesis nula: H0: β1 = 0
Hipótesis alternativa: H1: β1 ≠ 0
2) Calculamos el estadístico de contraste:
Sigue una distribución t de Student con n – 2 = 10 – 2 = 8 grados de libertad.
3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco-

gemos un nivel significativo de α = 0,05:
a) A partir del p-valor: P(| t| > 3,202) = 2 P(t > 3,202) = 2 · 0,0063 = 0,0126 < 0,05; por
tanto, rechazamos la hipótesis nula.
b) A partir del valor crítico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a
la misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable
altura es explicativa del peso de las personas con un 95% de confianza.
1.3.5. Resumen
Hemos considerado que nuestras observaciones sobre dos variables X e Y son

una muestra aleatoria de una población y que las utilizamos para extraer al-
gunas conclusiones del comportamiento de las variables sobre la población.
Hemos establecido el modelo de regresión lineal con sus hipótesis básicas más
importantes y hemos visto cómo hacer inferencia sobre la pendiente de la rec-
ta obtenida a partir de la muestra y, en particular, cómo calcular un intervalo

de confianza y cómo hacer un contraste de hipótesis para decidir si la variable
X nos explica realmente el comportamiento de la variable Y.
Ejercicio�1

ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen:
3 87
5 119
2 47
8 195
6 162
9 234
3 72
4 110
La recta de regresión calculada a partir de estos datos es:
a) Calculad un intervalo de confianza del 95% para la pendiente de la recta

de regresión.
b) Haced un contraste de hipótesis con un nivel de significación α = 0,05,

para saber si la variable “número de semanas” es explicativa de la variable
“ganancia de velocidad”.
Ejercicio�2
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación

entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos
siguientes:
Gastos en publicidad (x 1.000 €) Ventas (x 1.000 €)
40 380
25 410
20 390
22 370
31 475
52 450
40 500
20 390
55 575
42 520
Con estos datos se han obtenido las cantidades siguientes:
Y la recta de regresión: .
A partir de toda esta información, calculad un intervalo de confianza del 95%

para la pendiente.
Ejercicio�1
a) Intervalo de confianza:
Queremos un intervalo de confianza del 95%, por tanto, α = 0,05 y observando

la tabla de la t de Student para 6 grados de libertad, tenemos un valor crítico
de tα/2;n–2 = = t0,025;6 = 2,4469.
Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema:
El intervalo de confianza viene dado por:
Y ya estamos en condiciones de calcular cada uno de estos términos:
donde
Por tanto,
Y el intervalo de confianza es:
[25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319]
Es decir:
[22,092; 28,545]
b) Contraste de hipótesis para α = 0,05:
Hipótesis nula: H0: β1 = 0
Hipótesis alternativa: H1: β1 ≠ 0
Sigue una distribución t de Student con n – 2 = 6 grados de libertad.
3) Conclusión: puesto que para α = 0,05 tenemos un valor crítico t0,025;6 =

2,4469 menor que el estadístico de contraste t = 19,200, entonces rechazamos
la hipótesis nula, de manera que la pendiente es diferente de cero y la variable
“número de semanas” es explicativa de la “ganancia de velocidad”.
Ejercicio�2
El intervalo de confianza viene dado por:
Necesitamos calcular el error estándar de la pendiente y encontrar los valores

críticos.
1) Error estándar de la pendiente:
Primero calculamos:
de manera que:
Por tanto, el error estándar de la pendiente vale:

2) Un intervalo de confianza del 95% con n = 10, tenemos unos valores crí-
ticos:
t0,025;8 = ±2,3060
3) Por tanto, el intervalo de confianza es:
[3,953 – 2,3060 · 1,275; 3,953 + 2,3060 · 1,275]
Es decir:
[1,013; 6,894]
Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una
confianza del 95%.
1.3.8. Anexos
Anexo�1
a) Valor esperado de :
Manipulando un poco la expresión que tenemos para :
Si hacemos:
podemos escribir:
Si ahora calculamos el valor esperado: Propiedad de la linealidad
La propiedad de la linealidad
de la esperanza de una varia-
ble es:
E(kX) = kE(X).
Vemos que:
Observación
y que
Puesto que:
es fácil ver que:
Para calcular el término
utilizaremos la igualdad siguiente:
Ya que:
De manera que:
Así pues:
Y, finalmente, tenemos que:
b) Varianza de : Propiedad de la varianza
2
Var(kX) = k Var (X)
Tenemos que la varianza de es:

2. Regresión lineal múltiple
AUTOR:
Josep�Gibergans�Bàguena
2.1. El modelo de regresión múltiple
La regresión lineal simple nos proporciona un modelo para explicar la relación El peso no sólo depende
entre dos variables: la variable Y, que llamamos variable dependiente o explicada, de la altura
y la variable X, que recibe el nombre de variable independiente o explicativa. Sabemos que el peso (Y) está
relacionado linealmente con la
altura (X1). Pero también sabe-
En este módulo tendremos en cuenta que en la realidad casi siempre son más mos que puede estar relacio-
nado con la edad (X2), el nú-
de uno los factores o variables que influyen en los valores de otra variable y mero semanal de horas de de-
definiremos un nuevo modelo. porte (X3), la cantidad de calo-
rías totales de las comidas (X4),
etc.
Ejemplos de variables afectadas por más de una variable
El precio de un ordenador depende de la velocidad del procesador, de la capacidad del

disco duro, de la cantidad de memoria RAM, etc.
El sueldo de un titulado por la UOC depende de la edad, de los años que hace que acabó
los estudios, de los años de experiencia en la empresa, etc.
El precio de alquiler de un piso depende de los metros cuadrados de superficie, de la edad

de la finca, de la proximidad al centro de la ciudad, etc.
El precio de un coche depende de la potencia del motor, del número de puertas y de

multitud de accesorios que puede llevar: air bag, ordenador de viaje, equipo de alta fide-
lidad, volante deportivo, llantas especiales, etc.
El planteamiento del problema es idéntico al realizado para la regresión sim-

ple, con la diferencia de que en este caso no tendremos una variable explica-
tiva, sino varias. En este caso, será muy útil la notación matricial.
2.1.1. El modelo de regresión lineal múltiple
Notación
El modelo�de�regresión�lineal�múltiple es una generalización del mo-
delo de regresión lineal simple, en el que relacionamos la variable que La variable Y se denomina va-
riable dependiente o explica-
queremos explicar, Y, con las k variables explicativas X1, X2, ..., Xk. Lo da. Las variables X i reciben el
nombre de variables indepen-
encontraremos a partir de los valores (xi, yi) que toman estas variables dientes o explicativas.
sobre los elementos de una muestra y mediante la expresión siguiente:
Expresando esta ecuación para cada observación de la muestra, obtenemos el

sistema de ecuaciones siguiente:
Podemos representar este sistema de forma matricial:
De manera que podemos escribir el modelo de la forma siguiente:
donde:
• y: es el vector (n × 1) de observaciones de la variable Y.
• X: es la matriz n × (k + 1) de observaciones. A partir de la segunda columna,

cada columna x i tiene las observaciones correspondientes a cada una de
las variables que consideremos.
• β: es el vector (k + 1) × 1 de los coeficientes de la regresión.
• e: es el vector (n × 1) de los residuos o errores.
Ejemplo de los gastos de los ordenadores según su antigüedad y las horas

diarias de trabajo
Supongamos que estamos interesados en explicar los gastos (en decenas de euros/año)
de los ordenadores de un departamento comercial a partir de su edad (en años) y del
número de horas diarias que trabajan (horas/día).
Hemos tomado una muestra de cinco ordenadores y hemos obtenido los resultados si-
guientes:
Gastos (Y) Antigüedad (X1) (años) Horas de trabajo

(decenas de euros/año) (X2) (horas/día)
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
Queremos encontrar un modelo de regresión de la forma:

Si desarrollamos esta ecuación en todas las observaciones de la muestra, obtenemos el

sistema de ecuaciones siguiente:
Que podemos escribir matricialmente como y = Xβ + e, donde:
En el modelo de regresión lineal múltiple, que hemos expresado matricial-

mente como:
• Xβ es la parte correspondiente a la variación de y que queda explicada por

las variables Xi;
• e es un término que llamamos de los residuos o errores y que de alguna ma-

nera recoge el efecto de todas aquellas variables que también afectan a y
y que no se encuentran incluidas en el modelo porque son desconocidas
o porque no se tienen datos suyos. Sobre este término haremos dos supo-
siciones importantes:
1. Los errores se distribuyen según una distribución normal de media cero y

una varianza σ2.
2. Los errores son independientes.
Con estas dos suposiciones tenemos dos consecuencias importantes:
1. Fijando unos valores x1, x2, ..., xk de las variables X1, X2, ..., Xk y tomando Recordad
valores esperados sobre la ecuación del modelo, tenemos que:
En el modelo de regresión li-
neal simple la recta de regre-
sión pasa por (xi, E(y)).
2. Del mismo modo, la varianza de la distribución de Y es constante:

Añadiremos un par de suposiciones adicionales sobre el modelo:
1. No podemos tener más parámetros por estimar (k + 1) que datos disponibles

(n) y, por tanto, n > k + 1.
En el caso del modelo lineal simple resulta claro que si tenemos más paráme-
tros que datos, tenemos un único dato. Es imposible encontrar cuál es la recta
que mejor se ajusta a un único punto, ya que tenemos infinitas rectas que
pasan por este punto.
Se podría aplicar este mismo razonamiento si tuviéramos más variables expli-

cativas, aunque sería difícil de visualizar.
En el caso del modelo lineal múltiple, en el que tenemos dos variables expli-
cativas, el número de parámetros que hay que estimar es tres. Si resulta que
tenemos dos o menos datos, es decir, como mucho dos puntos, tampoco tiene
sentido buscar un modelo de regresión, ya que tenemos un número infinito
de planos que pasan por dos puntos fijados.
a) Modelo de regresión lineal simple con una observación

b) Modelo de regresión múltiple con dos variables explicativas y dos observaciones
2. Ninguna de las variables explicativas puede ser combinación lineal de las

otras, ya que no tendríamos un modelo de k variables, sino de k –1 variables
(queremos que las variables Xi sean independientes):
Por ejemplo, si: X2 = a + b X1, entonces:

Tenemos sólo k – 1 variables.
2.1.2. Ajuste del modelo: método de los mínimos cuadrados
Para determinar los parámetros de la recta de regresión en el modelo lineal Residuo en el modelode
simple, utilizamos el método de los mínimos cuadrados. Este método consiste regresión lineal simple
en encontrar la recta que hace mínima la suma de los residuos al cuadrado. En el modelo de regresión li-
neal simple el residuo es la di-
ferencia entre el valor obser-
En el caso que ahora nos ocupa, procederemos de una forma muy similar. vado de la variable Y y el valor
estimado sobre una recta.
Buscaremos la suma de los residuos al cuadrado y después determinaremos los
parámetros del modelo que hacen que esta suma tenga un valor mínimo.
Definiremos los residuos como la diferencia entre los valores observados en la

muestra (yi) y los valores estimados por el modelo ( ):
donde x1i y x2i son dos observaciones de las variables X1 y X2, respectivamente.
Si consideramos un modelo de regresión lineal múltiple con dos variables ex-

plicativas X1 y X2, los residuos vendrán dados por:
Geométricamente, podemos interpretarlo como la diferencia entre el valor ob-

servado y el valor estimado sobre un plano. Los parámetros del modelo se de-
terminan encontrando el plano que hace mínima la suma de los residuos al
cuadrado. Este plano se conoce como plano de regresión por mínimos cuadrados.
Representamos el residuo para un modelo de regresión múltiple con dos va-

riables explicativas.
En un modelo de regresión múltiple con k variables explicativas tenemos la

siguiente expresión para los residuos:
que matricialmente podemos escribir:
donde e es el vector de los residuos, es el vector de las estimaciones de y y β

es el vector de los parámetros de la regresión.
Para calcular la suma de los cuadrados de los elementos de un vector, hay que
hacer el producto escalar del vector por sí mismo, o lo que es lo mismo, el
producto matricial del vector transpuesto por el mismo vector.
Si lo hacemos con el vector de los residuos e:
Haciendo ahora los productos y utilizando algunas propiedades del cálculo

matricial, obtenemos la suma de los cuadrados de los residuos:
Para encontrar los valores de los parámetros que hacen mínima esta suma,
debemos derivar parcialmente con respecto a los parámetros:
Y encontrar aquellos valores que hacen nulas estas derivadas parciales:
Simplificando un poco, tenemos . Notación
Los estimadores de los pará-

Podemos aislar el vector de parámetros incógnita: metros de la regresión que
buscamos son las soluciones
de esta ecuación matricial, así
que ponemos el “sombrero”,
que nos indica que se trata de
estimadores.
El vector es el vector de los estimadores mínimos cuadráticos de los

parámetros.
Finalmente, sólo queda por comentar que, si en la ecuación efec-

tuamos la multiplicación matricial, obtenemos el sistema de ecuaciones si-
guiente, llamado sistema de ecuaciones normales de la regresión:

diarias de trabajo
Tenemos:
La matriz transpuesta de la matriz X es:
De manera que:
Si calculamos la inversa de esta matriz:
Por otro lado, tenemos:
Y el vector de los parámetros estimados de la regresión es:
La ecuación de regresión es, pues:
2.1.3. Interpretación de los parámetros
De la misma manera que en la regresión lineal, una vez obtenido el modelo de

regresión lineal múltiple, es muy importante hacer una buena interpretación
de los resultados obtenidos. De momento, sólo hemos obtenido los parámetros
estimados del modelo de regresión:
Para interpretarlos correctamente, debemos tener presente el fenómeno que

estudiamos.
1) Interpretación de :
Este parámetro representa la estimación del valor de Y cuando todas las Xj

toman valor cero. No siempre tiene una interpretación vinculada al contexto
(geométrica, física, económica, etc.). Para que sea posible interpretarlo, nece-
sitamos lo siguiente:
a) Que sea realmente posible que las Xj = 0.
b) Que se tengan suficientes observaciones cerca de los valores Xj = 0.
2) Interpretación de :
Representa la estimación del incremento que experimenta la variable Y cuan-

do Xj aumenta su valor en una unidad y las demás variables se mantienen
constantes.

diarias de trabajo
Continuando con el ejemplo de los ordenadores y a partir de los resultados obtenidos

en el ajuste:
1.� (por docenas de euros)
Nos indica los gastos en decenas de euros de un ordenador con cero años de antigüedad
y cero horas semanales de trabajo. Es evidente que este ejemplo no tiene nigún sentido.
2.� (por decenas de euros/año de antigüedad)
Nos indica el incremento de los gastos en decenas de euros por cada año de antigüedad
del ordenador, sin tener en cuenta el número de horas diarias de uso. Así pues, por cada
año que pase, tendremos 2,6 · 10 = 26 euros más en los gastos de mantenimiento de un
ordenador.
3.� (en decenas de euros/horas diarias de trabajo)
Nos indica el incremento en los gastos en decenas de euros por cada hora diaria de uso
sin tener en cuenta la antigüedad del ordenador. Tenemos que por cada hora de más de
trabajo, tendremos 2,4 · 10 = 24 euros más en los gastos anuales de mantenimiento de
un ordenador.
2.1.4. Resumen
Se ha presentado el modelo de regresión lineal múltiple como una generali-

zación del modelo de regresión lineal simple en aquellos casos en los que se
tiene más de una variable explicativa. Hemos visto la manera de buscar los
parámetros del modelo por el método de los mínimos cuadrados, así como
la comodidad que puede suponer el uso de la notación matricial a la hora de
expresar y realizar los cálculos.
Ejercicio�1
Los datos siguientes se han obtenido experimentalmente para determinar la

relación entre la ganancia de corriente (y), el tiempo de difusión (x1) y la re-
sistencia (x2) en la fabricación de un determinado tipo de transistor:
Y 5,3 7,8 7,4 9,8 10,8 9,1 8,1 7,2 6,5 12,6
X1�(horas) 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
X2�(ohmios-cm) 66 87 69 141 93 105 111 78 66 123
Os pedimos lo siguiente:
a) Especificad un modelo lineal múltiple para expresar la ganancia de corriente

en términos del tiempo de difusión y de la resistencia.
b) Estimad los parámetros del modelo de regresión lineal múltiple.
Ejercicio�2
Se realiza un experimento para ver si es posible determinar el peso de un ani-

mal después de un periodo de tiempo determinado a partir de su peso inicial
y de la cantidad de alimento que se le suministra. A partir los resultados obte-
nidos para una muestra de n = 10:
Encontrad la ecuación del modelo de regresión lineal múltiple correspondien-

te.
Ejercicio�1
a) Ahora tenemos:
Número de observaciones: n = 10
Número de variables independientes: 2
Número de parámetros: k = 2 + 1 = 3
El modelo lineal múltiple: y = β0+β1x1+β2x2+e
b) Estimaremos los parámetros mediante el método de los mínimos cuadrados:
donde (X X)-1 es la matriz inversa de la matriz (X X):

t t
Según el número de cifras decimales que cojáis a partir de aquí, los resultados
pueden ser un poco diferentes, sin que esto signifique que sean incorrectos.
Ya podemos calcular los coeficientes:

Obtenemos:
El modelo de regresión lineal múltiple obtenido es:
Ejercicio�2
A partir de las ecuaciones normales de la regresión múltiple:
Aislando el vector de parámetros estimados:
Primero debemos calcular la matriz inversa:

Finalmente, tenemos que:
El modelo de regresión lineal múltiple que obtenemos es:
2.2. La calidad del ajuste
Una vez encontrado el modelo de regresión lineal múltiple a partir de los da-
tos de una muestra, queremos utilizarlo para hacer inferencias a toda la po-
blación. Sin embargo, antes es necesario llevar a cabo una comprobación de
la idoneidad del modelo obtenido.
En esta sesión estudiaremos el coeficiente de determinación para la regresión

múltiple como indicador de la calidad del ajuste. También utilizaremos los
gráficos de los residuos como una importante herramienta de diagnóstico del
modelo.
2.2.1. Calidad del ajuste. El coeficiente de determinación R2
Terminología
De la misma manera que en la regresión lineal simple, también pode-
R también se conoce como
mos definir ahora el coeficiente�de�determinación�R2 como la propor- coeficiente de correlación múlti-
ción de variabilidad explicada por el modelo con respecto a la variabi- ple.
lidad total, es decir:

Si consideramos que la varianza total observada en la variable Y se descompo-

ne en dos términos, la varianza explicada por el modelo de regresión lineal
más la varianza que no queda explicada por el modelo, es decir, la varianza
de los residuos:
podemos expresar el coeficiente de determinación así:
Y a partir de las fórmulas de las varianzas:
donde:
Se puede demostrar que: SCT = SCR + SCE.
Y teniendo en cuenta que hemos definido el coeficiente de determinación

como , finalmente podemos escribirlo como:
Para calcular las sumas de cuadrados, podemos utilizar el cálculo matricial.
a)�Suma�de�los�cuadrados�totales
Siendo D el vector de desviaciones de las yi con respecto a la media :
Podemos escribir la suma de los cuadrados totales de la forma siguiente:
b)�Suma�de�los�cuadrados�de�la�regresión:
A partir de los valores estimados:
podemos calcular el vector de las desviaciones de los valores estimados con

respecto a la media :
y, por tanto,
c)�Suma�de�los�cuadrados�de�los�errores
A partir de los residuos:

es fácil calcular la suma de sus cuadrados:
De la misma manera que en la regresión lineal simple, tenemos que el valor

del coeficiente de determinación está siempre entre 0 y 1: 0 ≤ R2 ≤ 1.
2
1)�R = 1 se tiene cuando SCT = SCR, es decir, cuando toda la variabilidad de
Y se explica por el modelo de regresión. En este caso tenemos que los valores
estimados por el modelo son exactamente iguales a los observados.
2
2)�R = 0 se tiene cuando SCR = 0, es decir, cuando el modelo no explica ab-
solutamente nada de Y.
2
3) Cuanto mayor sea R , mayor será la proporción de variabilidad de Y expli-
cada por el modelo y, por tanto, mayor será la bondad del ajuste.

diarias de trabajo
Consideremos de nuevo el ejemplo de los gastos anuales en el mantenimiento de un

ordenador. Teníamos que , de manera que la suma de cuadrados totales vale:
Los valores estimados por el modelo de regresión múltiple son:
De manera que la suma de cuadrados de la regresión es:

La diferencia entre los valores observados y los valores estimados nos permite obtener
los residuos:
Así, la suma de los cuadrados de los residuos es:
El coeficiente de determinación es:
También se puede calcular haciendo:
Este resultado nos dice que el modelo de regresión múltiple obtenido explica el 98,5%
de la variabilidad de los gastos de los ordenadores. Dado que está muy cerca del 100%,
en principio es un buen modelo.
2.2.2. El análisis de los residuos
De la misma manera que en la regresión lineal simple, los residuos del modelo
de regresión lineal múltiple tienen un papel importante a la hora de determi-
nar la adecuación del modelo.
En el caso de regresión lineal múltiple es habitual construir dos tipos de grá-

ficos:
1) Gráfico de residuos frente a valores estimados: representamos en el eje de or-

denadas los valores de los residuos y en el eje de abscisas, los valores estima-
dos, de manera que la nube de puntos no debe tener ningún tipo de

estructura y es cercano al eje de abscisas.
2) Gráfico de residuos frente a variables explicativas: representamos sobre el eje

de ordenadas los valores de los residuos y sobre el eje de abscisas, los valores
observados de la variable explicativa. Tenemos un gráfico de este tipo para
cada una de las variables explicativas.
Siempre que el modelo sea correcto, ningún gráfico de residuos debe mostrar
ningún tipo de estructura. Los residuos siempre deben estar distribuidos al azar
alrededor del cero.

diarias de trabajo
En el caso de los ordenadores y sus gastos en mantenimiento, tenemos los gráficos de

representación de los residuos siguientes:
Los tres gráficos representan:
a) residuos frente a valores estimados por el modelo;
b) residuos frente a valores de la variable X1: horas diarias de trabajo;
c) residuos frente a valores de la variable X2: antigüedad de los ordenadores en años.
No observamos ningún tipo de estructura organizada de los residuos que nos haga pensar
en una falta de linealidad del modelo. Tampoco observamos ningún dato atípico.
2.2.3. Aplicaciones a la predicción
La aplicación básica de un modelo de regresión lineal múltiple es predecir

(estimar) el valor de la variable Y a partir de un conjuntos de valores de las
variables independientes Xj.
Sólo hay que sustituir estos valores xi en la ecuación de regresión obtenida:


diarias de trabajo
Considerando una vez más el problema de los ordenadores, si queremos calcular el gasto
correspondiente a un ordenador que tiene dos años de antigüedad y trabaja catorce horas
diarias, utilizaremos la ecuación encontrada:
con x1 = 2 y x2 = 14:
Por tanto, podemos esperar un gasto de mantenimiento de 340 euros anuales para este
ordenador.
Ejemplo de resultado
A la hora de aplicar la ecuación de regresión encontrada, siempre debe- irreal
mos mirar si los valores de las variables Xi para los que queremos estimar
Si queremos utilizar nuestro
el valor de la variable Y se encuentran dentro del conjunto de valores modelo para calcular el gas-
to de mantenimiento de nues-
que hemos utilizado para construir el modelo. Si no es así, debemos ir tro ordenador cuando tenga
con mucha cautela, ya que puede ser que el resultado que nos dé el mo- una antigüedad de cincuenta
años, es evidente que no tiene
delo no tenga ningún sentido. El peligro de la extrapolación también ningún sentido utilizar la ecua-
ción encontrada: ni el ordena-
está presente en la regresión lineal múltiple. dor existirá de aquí a cincuen-
ta años (y si existe estará en un
museo), ni los precios de man-
tenimiento tendrán nada que
2.2.4. Resumen ver con los de ahora, etc.
Hemos estudiado el coeficiente de determinación como una medida de la bon-

dad del ajuste del modelo a los datos de la muestra. A continuación se ha
comentado la importancia de efectuar un análisis de los residuos para tener
un diagnóstico del modelo lineal obtenido. Hemos acabado la sesión con la
aplicación de la regresión a la predicción, que pone de manifiesto el peligro
de la extrapolación.
Ejercicio�1
Los datos siguientes se han obtenido de forma experimental para determinar

la relación entre la ganancia de corriente (Y), el tiempo de difusión (X1) y la
resistencia (X2) en la fabricación de un determinado tipo de transistor:
Y 5,3 7,8 7,4 9,8 10,8 9,1 8,1 7,2 6,5 12,6
X1�(horas) 1,5 2,5 0,5 1,2 2,6 0,3 2,4 2,0 0,7 1,6
X2�(ohmios-cm) 66 87 69 141 93 105 111 78 66 123
Si el modelo de regresión obtenido a partir de estos datos es:

Haced un análisis de los residuos y comentad los resultados obtenidos.
Ejercicio�2
Se lleva a cabo un experimento para ver si es posible determinar el peso de

un animal después de un periodo de tiempo determinado a partir de su peso
inicial y de la cantidad de alimento que se le suministra. A partir de los resul-
tados obtenidos para una muestra de n = 10:
Peso�final�(kg) 95 77 80 100 97 70 50 80 92 84
Peso�inicial�(kg) 42 33 33 45 39 36 32 41 40 38
Alimento�(kg) 272 226 259 292 311 183 173 236 230 235
Se ha obtenido el modelo de regresión lineal:
Calculad el coeficiente de determinación e interpretadlo.
Ejercicio�1
Para llevar a cabo un análisis de residuos, debemos construir dos tipos de grá-
ficos:
a) Gráfico de residuos frente a valores estimados: representaremos en el plano la

nube de puntos: .
Antes deberemos calcular los valores estimados:

Y los residuos:
El gráfico resultante es:
No observamos ningún tipo de estructura en la nube de puntos.
b) Gráficos de residuos frente a variables explicativas: ahora, por cada variable

explicativa tenemos un gráfico. En este gráfico representamos (xii, ei).
En ninguna de estas dos representaciones podemos ver ningún tipo de estruc-

tura en las nubes de puntos.
Ejercicio�2
Podemos calcularlo a partir de cualquiera de las expresiones:
Deberemos tener en cuenta que, si lo calculamos de las dos formas, los resul-
tados serán ligeramente diferentes a causa del error de redondeo asociado a
los cálculos.
Para calcular la suma de cuadrados de la regresión (SCR), tenemos que conocer

la media de y:
Y los valores estimados de yi, :
Y para calcular la suma de cuadrados de los errores (SCE), necesitamos el vector

de errores:
Las sumas de cuadrados son:
•
Por tanto, el coeficiente de determinación es
Puesto que el coeficiente de determinación es la relación entre la varianza

explicada y la varianza total, tenemos que es bastante cercano a 1; por tanto,
significa que tenemos bondad en el ajuste. El modelo de regresión explica el
87,3% de la variabilidad del peso de los animales a partir de su peso inicial y
la cantidad de alimento.
2.3. Inferencia en la regresión lineal múltiple
Una vez estimado el modelo de regresión, estamos interesados en poder apli-

carlo a la población de la que hemos sacado la muestra. Ahora determinare-
mos intervalos de confianza para los parámetros del modelo y haremos con-
trastes de hipótesis para así poder detectar cuáles son las variables realmente
significativas. Finalmente comentaremos cómo podemos detectar y evitar el
problema de la duplicación de información que surge cuando se utilizan va-
riables correlacionadas, conocido con el nombre de multicolinealidad.
2.3.1. Estimación de la varianza de los errores
Dada una muestra de observaciones, el modelo estará totalmente determinado

una vez que se especifiquen los valores estimados de los coeficientes β0, β1, ...
βk y se estime la varianza de los errores σ2. Todavía nos falta determinar esta
última.
Considerando los residuos como estimaciones de los valores del término de

error, entonces podemos estimar la varianza de este término a partir de la
varianza de los residuos:
Si tenemos en cuenta que este sumatorio es la suma de los cuadrados de los

errores, podemos escribirlo de esta manera:
Contenido
complementario
Residuos no independientes
2.3.2. Distribuciones probabilísticas de los parámetros de la Se divide por:
n – (k + 1) = n – k – 1
regresión
porque los n residuos no son
independientes (están relacio-
nados por las (k + 1) ecuacio-
En primer lugar, debe quedar muy claro que cada muestra determina una re- nes normales de la regresión).
gresión lineal múltiple y, por tanto, un conjunto de coeficientes:
De manera que tendríamos para cada coeficiente de la regresión una colección

de valores estimados de los parámetros:
El primer subíndice nos indica el parámetro y el segundo, que se trata de una observación de éste
obtenida a partir de la muestra.
Así, β0, β1, ... β k, son unas variables aleatorias que habrá que estudiar para
poder inferir nuestros resultados a la población de la que hemos extraído las
muestras. Primero las caracterizaremos calculando sus valores esperados y las
desviaciones estándar:
a)�Valor�esperado�de� ; para j = 1, ..., k. Observamos que los valo-

res esperados de estos parámetros son iguales a los valores poblacionales de
éstos. Aunque estos valores sean desconocidos, este resultado nos será de gran
utilidad a la hora de hacer inferencia estadística.
b)�Varianza�de� . Las varianzas de las son los elementos de la diagonal de Ved también
la matriz σ2(X X)–1, es decir:

t
Estos cálculos se muestran de
forma detallada en los anexos
1 y 2.
Ya hemos calculado la media y la varianza de los estimadores . Puesto que
la variable Y se distribuye normalmente y las son combinación lineal de las
observaciones yj, se puede asegurar que las se distribuirán normalmente:
donde qjj es el elemento de la fila j y columna j de la matriz (X X)–1. Dado que la

t
varianza σ2 es desconocida, deberemos utilizar el valor estimado a partir de los

datos de la muestra, algo que ya hemos hecho en el apartado 1 de esta sesión:
De manera que:
Y las desviaciones estándar de los estimadores serán:

Una vez conocidas las estimaciones de los parámetros, , y de sus des-

viaciones estándar, , escribiremos el resultado de la regresión de la
forma siguiente:
Es decir:
1) Escribimos el modelo de regresión lineal obtenido.
2) Bajo cada uno de los parámetros estimados escribimos su desviación típica.
3) Por último, en la línea siguiente escribimos la estimación de la varianza de

los residuos y el coeficiente de determinación.
Ejemplo de los gastos de los ordenadores según su antigüedady las horas

diarias de trabajo
Continuamos con el caso en el que queríamos explicar los gastos (en decenas de eu-
ros/año) de los ordenadores de un departamento comercial a partir de su edad (en años) y
del número de horas diarias que trabajan (horas/día). Con esta finalidad se había tomado
una muestra de cinco ordenadores y se habían obtenido los resultados siguientes:
Gastos (Y) Antigüedad (X1) (años) Horas de trabajo

(decenas de euros/año) (X2) (horas/día)
24,6 1 11
33,0 3 13
36,6 4 13
39,8 4 14
28,6 2 12
El modelo de regresión obtenido era el siguiente: . Habíamos en-

contrado:
De manera que:
•
Podemos escribir los resultados de la manera siguiente:
2.3.3. Intervalos de confianza de los parámetros del modelo
En los modelos de regresión lineal múltiple resulta útil construir estimaciones

de intervalos de confianza para los coeficientes de la regresión . Como hemos
visto en el apartado anterior, los estimadores siguen distribuciones .
Por tanto, se puede demostrar que la variable tipificada:
sigue una distribución�t�de�Student�con�n – k – 1grados�de�libertad. Puesto

que:
Un intervalo�de�confianza con un nivel de confianza de 100(1 – α)%

para el coeficiente de la regresión viene dado por:
donde es el valor estimado del parámetro a partir de la muestra.

diarias de trabajo
Calculemos ahora los intervalos de confianza para los parámetros de nuestro ejem-
plo:
a) Intervalo de confianza para con un nivel de confianza del 95%. Observando la tabla
de la distribución t de Student con n – k – 1 = 5 – 2 – 1 = 2 grados de libertad, el valor crítico
correspondiente para α/2 = 0,025 es: t0,025;2 = 4,3027. El intervalo de confianza será:
b) Intervalo de confianza para con un nivel de confianza del 95%. Ahora el intervalo
de confianza será:
2.3.4. Contraste de hipótesis sobre los parámetros del modelo
Muchas veces es interesante hacer tests de hipótesis sobre los coeficientes de

la regresión. Casi siempre nos interesará saber si un coeficiente βi es igual a
cero, ya que esto querría decir que la variable Xi correspondiente no figura en
el modelo de regresión y, por tanto, no es una variable explicativa del com-
portamiento de la variable Y.
Para hacer este contraste de hipótesis, seguimos el procedimiento que expo-

nemos a continuación:
1) Establecemos las hipótesis. Para cada βj:
• Hipótesis nula: H0: βj: = 0 (la variable X j no es explicativa).
• Hipótesis alternativa: H1: βj: ≠ 0
En caso de que no rechacemos la hipótesis nula, esto querrá decir que la va-
riable Xj no es una variable explicativa y que, por tanto, podemos eliminarla
del modelo.
2) Calculamos el estadístico de contraste: si la hipótesis nula es cierta (βj = 0),

entonces obtenemos el estadístico de contraste:
que es una observación de una distribución t de Student con n – k – 1 grados

de libertad.
3) Finalmente, a partir de un nivel de significación (α) estableceremos un cri-

terio de decisión. Para hacerlo, tenemos dos opciones:
a) A partir del p-valor. El p-valor es la probabilidad del resultado observado o

de otro más alejado si la hipótesis nula es cierta. Es decir:
• Si p ≤ α, se rechaza la hipótesis nula H0.

• Si p > α, no se rechaza la hipótesis nula H0.
b) A partir de los valores críticos ± tα/2;n-k-1, de manera que:
• Si |t| > tα/2;n–k–1, se rechaza la hipótesis nula H0; por tanto, la variable Xj es
una variable explicativa de la variable Y y, por tanto, no podemos elimi-
narla del modelo.
• Si |t| ≤ t α/2,n–k–1, no se rechaza la hipótesis nula H0; por tanto, la variable

X j no es una variable explicativa de la variable Y y, por tanto, podemos
eliminarla del modelo.

diarias de trabajo
Volvemos a nuestro ejemplo para hacer un contraste de hipótesis sobre los parámetros
de la regresión y enterarnos de si las variables son explicativas de los gastos anuales de
mantenimiento de los ordenadores o no. Utilizaremos un nivel de significación α = 0,05.
a) Contraste por β1
1. Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H0: β1 = 0.
• Hipótesis alternativa: H1: β1 ≠ 0.
2. Calculamos el estadístico de contraste:
3. Calculamos el p-valor correspondiente a este estadístico de contraste:
Dado que 0,1588 > 0,05, no rechazamos H0. Por tanto, la variable X1 no es una variable
explicativa y, por tanto, podemos eliminarla del modelo.
b) Contraste por β2
1. Establecemos las hipótesis:
• Hipótesis nula: H0: β2 = 0
• Hipótesis alternativa: H1: β2 ≠ 0
3. Calculamos el p-valor correspondiente a este estadístico de contraste:
Dado que 0,2188 > 0,05, no rechazamos H0. Por tanto, la variable X2 tampoco es una
variable explicativa y, por tanto, podemos eliminarla del modelo.
En este modelo de regresión lineal múltiple ninguna de las dos variables nos explica la
variable “gasto en mantenimiento”.
2.3.5. Contrastación conjunta del modelo
Hemos visto cómo hay que hacer el contraste de hipótesis para ver si cada una Otras formas de expresar
de las variables Xi, individualmente, contribuye a explicar la variable Y. las hipótesis
Otra forma de expresar estas

hipótesis es la siguiente:
Ahora queremos contrastar el modelo de forma global, teniendo en cuenta
Hipótesis nula:
todas las variables Xi que hemos utilizado para encontrarlo. 2
H0: R = 0
Nos indica que la parte de la
1) Establecemos las hipótesis: variación explicada por el mo-
delo es cero, es decir, que no
existe ninguna relación lineal
entre la variable Y y cualquiera
• Hipótesis nula: H0: β1 = β2 = ... = βk = 0. Nos indica que no existe relación de las variables Xi.
lineal entre la variable Y y ninguna de las variables Xi. Hipótesis alternativa:
2
H1: R > 0
• Hipótesis alternativa: H1: al menos una β0 ≠ 0.
Recordad
2) Calculamos el estadístico de contraste.
Esta prueba se basa en un estadístico de contraste que es una observación de

una distribución F cuando H0 es cierta.
Buscaremos una relación entre la variación explicada por el modelo de regre-

sión múltiple y la no explicada por el mismo modelo. Si la proporción de va-
riación explicada en relación con la no explicada es grande, entonces se con-
firmará la utilidad del modelo y no rechazaremos la hipótesis nula H0.
A partir de la descomposición de la suma de cuadrados totales según la suma

de cuadrados de la regresión más la suma de los cuadrados de los errores:
SCT = SCR + SCE
• SCT: es la suma de cuadrados que, dividida por (n – 1), nos da la varianza

muestral de la variable Y. Esta suma tiene n – 1 grados de libertad.
• SCE: es la suma de los cuadrados de los errores, que como ya hemos co-
mentado en más de una ocasión, tiene (n – k + 1) grados de libertad.
• SCR: es la suma de los cuadrados de la regresión. Esta cantidad tiene k

grados de libertad.
Bajo la hipótesis nula, H0: β1 = β2 = ... = βk = 0:
• SCR tiene una distribución χ2 con k grados de libertad.

• 2
SCE tiene una distribución χ con n – k – 1 grados de libertad.
• SCR y SCE son independientes.
2
El cociente de dos variables χ divididas por sus grados de libertad da una va-
riable F de Snedecor con los grados de libertad correspondientes al numerador
y denominador del cociente.
Así pues, podemos definir el estadístico�de�contraste:
Es una observación de una distribución F de Snedecor con k y (n – k –

1) grados de libertad.
Si la hipótesis nula es cierta y, por tanto, no existe ningún tipo de relación

lineal entre Y y las variables Xi, el estadístico tendrá un valor cercano a uno.
Pero cuando existe cierta relación, la suma de los cuadrados de la regresión
(numerador) aumenta y la suma de los cuadrados de los errores (denominador)
disminuye, de manera que el valor del estadístico de contraste aumenta. Si
este valor supera un valor crítico de la distribución F, entonces rechazamos
la hipótesis nula.
3) Establecemos un criterio de decisión a partir de un nivel de significación α:
A partir de este valor crítico de la distribución F de Snedecor:
• Si f > Fα;k;n–k–1, rechazamos H0; por tanto, el modelo explica significativa-

mente la variable Y. Es decir, el modelo sí que contribuye con información
a explicar la variable Y.
• Si f < Fα;k;n–k–1, no rechazamos H0; por tanto, el modelo no explica de forma

significativa la variable Y.
También podemos hacerlo a partir del p-valor: p = P(Fα;k;n–k–1 > f).
• Si p ≤ α, se rechaza la hipótesis nula H0.
• Si p > α, no se rechaza la hipótesis nula H0.

Los cálculos necesarios se pueden resumir en la tabla siguiente, conocida como Tabla de análisis de la
tabla�de�análisis�de�la�varianza: varianza
En la primera columna se po-

ne la fuente de�la�variación, es
Fuente de Suma de cuadrados Grados de liberdad Media de decir, los elementos del mode-
la variación cuadrados lo responsables de variación.
En la segunda columna pone-
x1, x2, ..., xk SCR k SCR/k mos las sumas�de�cuadrados
correspondientes.
e SCE n–k–1 SCE / (n – k – 1) En la tercera columna pone-
mos los grados�de�libertad
y SCT n–1 correspondientes a las sumas
de cuadrados.
En la cuarta columna y bajo
el nombre de media�de�cua-
Es muy importante tener presente el hecho siguiente: que el modelo lineal drados se ponen las sumas de
cuadrados divididas por los
explique de forma significativa la variable Y no implica que todas las variables grados de libertad correspon-
sean explicativas; para saberlo, deberemos contrastarlas de una en una, tal dientes. Sólo para SCR y SCE.
como se ha explicado en el apartado anterior.

diarias de trabajo
Haremos un contraste conjunto del modelo obtenido anteriormente para los ordenado-
res. Tomaremos α = 0,05.
1. Establecemos las hipótesis nula y alternativa:
• Hipótesis nula: H0: β1 = β2 = 0
• Hipótesis alternativa: H1: al menos una β1 ≠ 0, i = 1, 2
Fuente de Suma de Grados de Media de cuadrados

la variación cuadrados liberdad
x1, x2 SCR 2 145,81/2 = 72,9
E SCE 5–2–1=2 2,16/2 = 1,08
y SCT 5–1=4
Tenemos que: .
3. Establecemos un criterio de decisión a partir de un nivel de significación α = 0,05.

Mirando las tablas de la distribución F de Snedecor, tenemos que el valor crítico para α
= 0,05 y 2 grados de libertad en el numerador y 2 en el denominador es F0,05;2;2 = 19,0.
Puesto que 67,5 > 19,0, entonces rechazamos la hipótesis nula, de manera que el modelo
en conjunto es bueno para explicar la variable Y.
Con el p-valor tenemos que: p = P(F2;2 > 67,5) = 0,0146 < 0,05; por tanto, rechazamos
la hipótesis nula.
Llegados a este punto, nos hacemos la pregunta siguiente: ¿cómo puede ser
que el modelo en conjunto sea bueno para explicar la variable Y y, en cambio,
el contraste por separado para cada una de las variables X1 y X2 nos haya dado
que ninguna de las dos era explicativa de la variable Y? A primera vista parece
que sean resultados contradictorios. Esto se debe a la presencia de multicoli-
nealidad en nuestro problema. Lo trataremos en el apartado siguiente.
2.3.6. El problema de la multicolinealidad
En los problemes de regresión lineal múltiple esperamos encontrar dependen-

cia entre la variable Y y las variables explicativas X1, X2, ... , Xk. Pero en algu-
nos problemas de regresión podemos tener también algún tipo de dependen-
cia entre algunas de las variables Xj. En este caso tenemos información redun-
dante en el modelo.
Ejemplo de modelo que puede presentar multicolinealidad
Si queremos construir un modelo para predecir el precio (Y) de un ordenador según la

velocidad del procesador (X1), la capacidad del disco duro (X2) y la cantidad de memoria
RAM (X3), es posible que las variables X1 y X3 estén relacionadas: sería el caso de que el
procesador necesitase un mínimo de memoria RAM para funcionar de manera óptima.
Variables explicativas
En caso de que haya algún tipo de dependencia entre las variables, di- independientes
remos que existe multicolinealidad. La multicolinealidad puede tener
En las hipótesis estructurales
efectos muy importantes en las estimaciones de los coeficientes de la básicas del modelo de regre-
sión lineal múltiple ya hemos
regresión y, por tanto, sobre las posteriores aplicaciones del modelo es- pedido que las variables X1,
timado. X2, ... , Xk sean independien-
tes.
Como ya se ha comentado antes, un efecto de la multicolinealidad lo hemos

sufrido durante esta sesión en nuestro ejemplo de los ordenadores.
Hemos hecho contraste sobre los parámetros de la regresión y sobre el modelo

conjunto y hemos obtenido resultados aparentemente contradictorios, pero
que realmente no lo son.
Los contrastes individuales sobre los parámetros indican que la contribución

de una variable, como por ejemplo antigüedad de los ordenadores, no tiene
significación después de haber descontado el efecto de la variable “número de
horas de funcionamiento”.
Por otra parte, el contraste conjunto indica que al menos una de las dos va-
riables contribuye a la predicción de Y (es decir, uno de los parámetros o los
dos son diferentes de cero). De hecho, es muy probable que las dos variables
contribuyan a ello, pero la contribución de la una encubre la de la otra.
Así pues, en estos casos en los que tenemos variables independientes muy co-
rrelacionadas en un modelo de regresión, los resultados pueden ser confusos.
Habitualmente, lo que se hace es incluir sólo una de estas variables en el mo-
delo.
2.3.7. Resumen
Para acabar hemos visto cómo debemos hacer inferencia sobre los coeficien-
tes de la regresión obtenidos a partir de la muestra, en particular cómo debe-
mos calcular un intervalo de confianza y cómo debemos hacer un contraste
de hipótesis para cada uno de los coeficientes obtenidos para decidir si las va-
riables Xj nos explican realmente el comportamiento de la variable Y o pode-
mos prescindir de algunas de ellas. También hemos visto cómo debemos ha-
cer un contraste conjunto del modelo. Finalmente, hemos presentado los po-
sibles problemas de multicolinealidad que podemos tener y que son debidos a
la relación entre algunas de las variables explicativas que supuestamente son
independientes.
Ejercicio�1
Se realiza un experimento para ver si es posible determinar el peso de un ani-

mal después de un periodo de tiempo determinado a partir de su peso inicial
y de la cantidad de alimento que se le suministra. A partir de los resultados
obtenidos para una muestra de n = 10:
Peso�final�(kg) 95 77 80 100 97 70 50 80 92 84
Peso�inicial�(kg) 42 33 33 45 39 36 32 41 40 38
Alimento�(kg) 272 226 259 292 311 183 173 236 230 235
se ha obtenido el modelo de regresión lineal:
y las sumas de cuadrados siguientes:
a) ¿Podéis afirmar que las variables “peso inicial” y “cantidad de alimento

suministrado” son explicativas del “peso final” del animal?
b) ¿Creéis que este modelo lineal múltiple explica de forma significativa el

peso final de los animales?
Ejercicio�2
Consideremos una muestra aleatoria de cinco familias con las características

siguientes:
Familia Ahorros (euros) Y Ingresos (euros) X1 Capital (euros) X2
A 600 8.000 12.000
B 1.200 11.000 6.000
C 1.000 9.000 6.000
D 700 6.000 3.000
E 300 6.000 18.000
a) Especificad un modelo lineal múltiple para expresar el ahorro de acuerdo

con los ingresos y los capitales.
b) Estimad los parámetros del modelo de regresión lineal múltiple.
c) ¿Podéis afirmar que las variables x1 y x2 son explicativas?
d) ¿Creéis que este modelo lineal múltiple explica de manera significativa los
ahorros?
Ejercicio�1
a) Para saber si las variables del modelo de regresión son explicativas, debere-
mos hacer un contraste de hipótesis sobre los parámetros obtenidos.
Variable�X1:
• Hipótesis nula: β1 = 0. Si este coeficiente es nulo, entonces la variable X1

no participaría en el modelo y, por tanto, no sería explicativa del peso final
de los animales.
• Hipótesis alternativa: β1 ≠ 0. En este caso la variable X1 aporta información

al modelo; por tanto, sí es explicativa del peso final.
2) Determinamos un nivel significativo α = 0,05.

4) El estadístico de contraste calculado es una observación de una distribución

t de Student con 10 – 2 – 1 = 7 grados de libertad. Buscando en las tablas,
encontramos el valor crítico correspondiente:
t0,025;7 = 2,3646
Dado que 2,3943 > 2,3646, rechazamos H0. La variable X1 es significativa, aun-
que por muy poco.
Variable�X2:
1) Establecemos las hipótesis:
• Hipótesis nula: β2 = 0.
• Hipótesis alternativa: β2 ≠ 0.
2) Determinamos un nivel de significación: α = 0,05.
4) Dado que 3,7663 > 2,3646, rechazamos H0. La variable X2 (cantidad de ali-
mento) es significativa del peso final de los animales.
b) Haremos una contrastación conjunta del modelo:
• Hipótesis nula: H0: β1 = β2 = 0
• Hipótesis alternativa: H1: hay un β j ≠ 0
2) Fijamos el nivel de significación: α = 0,05.
3) Calculamos el estadístico de contraste. Sin embargo, primero construimos

la tabla de análisis de la varianza:
Fuente de Suma de cuadrados Grados de libertad Media de

la variación cuadrados
X1, X2 SCR = 1.762,99 k=2 SCR/k = 881,50
e SCE = 256,30 n–k–1=7 SCE/(n – k –

1) = 36,61

Y SCT = 2.020,50 n–1=9 –
Estadístico de contraste:
Es una observación de una distribución F de Snedecor con k = 2 y n – k – 1

= 7 grados de libertad.
4) De las tablas tenemos un valor crítico de F0,05;2;7 = 4,74. Puesto que 24,07 >
4,74, rechazamos H0 con una confianza del 95%. Entonces el modelo explica
de forma significativa el peso final de los animales.
Ejercicio�2
a) En este problema tenemos que el número de observaciones es n = 5 y que

el número de variables independientes es k = 2.
Modelo lineal múltiple: y = β0 + β1x1 + β2x2 +β e
Matricialmente:
b) Los valores estimados del modelo de regresión vienen dados por:
donde es la matriz inversa de la matriz .
Ahora tenemos:
Según el número de cifras decimales que cojáis a partir de aquí, los resultados
pueden ser un poco diferentes, sin que ello signifique que sean incorrectos.
Ya podemos calcular los parámetros:
Tenemos:
El modelo de regresión obtenido es:
c) Para determinar si las variables son explicativas, debemos hacer inferencia

estadística sobre los parámetros del modelo.
Sin embargo, antes debemos hacer algunos cálculos más. Primero calculare-
mos las varianzas de los parámetros estimados. Vienen dadas por los términos
de la diagonal de la matriz:
2
donde s es la varianza de los errores:
En este caso tenemos las varianzas y desviaciones típicas de los estimadores

siguientes:
Ahora ya estamos en condiciones de hacer contrastes de hipótesis sobre los

parámetros del modelo.
Variable�X1:
• Hipótesis nula: β1 = 0. Si el coeficiente β1 que vincula la relación entre X1 e

Y puede ser cero, esto significa que X1 puede no tener ningún efecto sobre
Y; entonces diremos que x1 no es una variable explicativa.
• Hipótesis alternativa: β1 ≠ 0. En este caso diremos que X1 es una variable

explicativa.

Es una observación de una distribución t de Student con n – k – 1 = 2 grados

de libertad.
4) Si miramos las tablas, tenemos para un valor crítico: t0,025;2 = 4,3027. Dado
que 8,96041 > 4,3027, rechazamos H0. La variable X1 (ingresos) es explicativa
de los ahorros.
Variable�X2: haremos lo mismo para la variable X2 (capital).
• Hipótesis nula: β2 = 0
• Hipótesis alternativa: β2 ≠ 0
que es una observación de una distribución t de Student con n – k – 1 = 2

grados de libertad.
4) De las tablas teníamos un valor crítico: t0,025;2 = 4,3027. Puesto que 6,46705
> 4,3027, rechazamos H0. La variable X2 (capital) también es explicativa de
los ahorros.
d) Para determinar si este modelo lineal múltiple explica de forma significativa

los ahorros de las familias, deberemos hacer una contrastación conjunta del
modelo.
• Hipótesis nula: H0: β1 = β2 = 0.
• Hipótesis alternativa: H1: hay al menos un βj ≠ 0
2) Determinamos un nivel significativo, por ejemplo α = 0,05.
3) Calcularemos el estadístico de contraste. Sin embargo, antes deberemos cal-

cular las sumas de cuadrados y construir la tabla del análisis de la varianza.
Para calcular la suma de cuadrados de la regresión (SCR) necesitamos conocer:
• la media de las yi = .
• y los valores estimados de :
Para SCE, antes debemos calcular el vector de los errores:
Así pues, las sumas de cuadrados son:
Podemos construir la tabla de análisis de la varianza:

X1, X2 SCR = 484.206,34 k=2 SCR/k = 242.103,17
e SCE = 7.793,65 n–k–1=2 SCE/(n – k – 1)

= 3.896,825
Y SCT = 492.000 n–1=4 –
Estadístico de contraste:
Es una observación de una distribución F de Snedecor con k = 2 y n – k – 1

= 2 grados de libertad.
4) De las tablas tenemos un valor crítico de F0,05;2;2 = 19,0. Dado que 62,12
> > 19,0, rechazamos H0. Así pues, este modelo de regresión múltiple explica
de forma significativa los ahorros de las familias a partir de los ingresos y del
capital.
2.3.10. Anexos
Anexo�1
Valor�esperado�de� :
Para buscar los valores esperados de , utilizaremos la notación matricial que

ya hemos introducido en el módulo anterior y que nos permitirá cierta como-
didad a la hora de escribir todas las ecuaciones. A partir de la ecuación matricial
que nos permitía encontrar los estimadores de los coeficientes de la regresión:
Para simplificar todavía más los cálculos, llamaremos C = (X X)–1 βX y así

t t
Observad
podremos escribir la última ecuación de la forma: Por otra parte, el t –1 t

CX((X X) βX X)=I es la matriz
modelo de regresión lineal múltiple: identidad.
escrito matricialmente: Y = Xβ + e. De manera que:
Si ahora calculamos el valor esperado:
donde hemos considerado que E(e) = 0, tal como supusimos en la sesión ante- Linealidad
rior en las hipótesis estructurales básicas del modelo de regresión lineal múl-
Hemos utilizado la propiedad
tiple. de linealidad de la esperanza
matemática:
E(aX) = aE(X)
En resumen, hemos obtenido que: , es decir:
Anexo�2
Varianza�de� :
Para una , su varianza vendrá dada como siempre por: Nota
Aquí ya hemos utilizado el re-

sultado anterior:
Para calcular esta varianza, utilizaremos una vez más la notación y el cálculo
matricial.
La matriz anterior recibe el nombre de matriz�de�varianzas-covarianzas, ya La esperanza de una

matriz
que sus elementos de la diagonal son las varianzas de las y los elementos
Hemos dicho que la esperanza
de fuera de la diagonal son las covarianzas de los pares de variables y .A de una matriz es la matriz de
las esperanzas de sus elemen-
nosotros nos interesan las varianzas de las , es decir, los valores esperados de tos.
los elementos de la diagonal de la matriz:

Por otra parte, hemos visto antes que de manera que podemos es-
cribir: y, por tanto:
Combinando estos resultados, tenemos que las varianzas de las son los va- Producto de matrices
t
lores esperados de los elementos de la diagonal de la matriz (Ce)(Ce) , es decir: Recordemos la importante
propiedad del producto de
matrices:
t t t
(AB) = B A
donde hemos tenido en cuenta que E[ee ] = β2I para las hipótesis estructurales
t
básicas del modelo de regresión lineal múltiple que supusimos en la sesión

anterior.
Finalmente tenemos que las varianzas de las son los elementos de la diago-
nal de la matriz: β2(X X)–1, es decir:

t

Pid 00212753-3 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pid 00212753-3 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Regresión lineal

Josep Gibergans Bàguena

1. Regresión lineal simple.................................................................... 5

2. Regresión lineal múltiple................................................................ 59

2.1.6. Solucionario ejercicios autoevaluación ......................... 68

1. Regresión lineal simple

1.1. El modelo de regresión simple

estudiar las relaciones entre variables. Estos modelos fueron utiliza-

1.1.1. Relaciones entre dos variables

El modelo de regresión lineal simple nos permite construir un modelo para

El objetivo es explicar el comportamiento de una variable Y, que deno-

Ejemplo de relación entre dos variables

No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la va-

Las relaciones entre dos variables pueden ser de dos tipos:

toma la otra. Podemos conocer el área de

A partir de un conjunto de observaciones de dos variables X e Y sobre una

Ejemplo de diagramas de dispersión

El diagrama de dispersión puede presentar formas diversas:

Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el

1.1.3. Recta de regresión

Una vez que hemos hecho el diagrama de dispersión y después de ob-

Estimación de los parámetros: método de los mínimos cuadrados

Una recta queda bien determinada si el valor de su pendiente (b) y de su

A partir de la fórmula anterior definimos para cada observación (x i, y i) el error

Para determinar una recta de regresión, utilizaremos el método de los mínimos

El método�de�los�mínimos�cuadrados consiste en buscar los valores

Siendo la suma de los cuadrados la expresión:

La suma de los cuadrados de

parciales con respecto a los parámetros a y b:

La resolución de este sistema

y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, co-

Las soluciones de este sistema de ecuaciones son:

En rigor habría que probar

es la covarianza�muestral de las observaciones (xi, yi)

es la varianza�muestral de las observaciones xi

A partir de ahora, la recta�de�regresión la escribiremos de la manera siguiente: Notación

Hemos hecho un cambio en

donde los parámetros�de�la�recta� vienen dados por:

De ahora en adelante, a los residuos�calculados con la recta de regresión los

donde es el valor�estimado para la recta de regresión.

1.1.4. Interpretación de los parámetros de la recta de regresión

Una vez determinada la recta de regresión, es muy importante interpretar los

en el ejemplo de los pesos y

• realmente sea posible que X tome el valor x = 0

Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.

Ejemplo de las alturas y los pesos

Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de

Los parámetros son:

Tenemos la recta de regresión siguiente:

Podemos representar la recta de regresión en el diagrama de dispersión:

Interpretamos los parámetros obtenidos:

• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una

1.1.6. Interpolación y extrapolación

Uno de los objetivos más importantes de la regresión es la aplicación del mo-

Ejemplo de las alturas y los pesos

Un aspecto importante a la hora de aplicar el modelo de regresión obtenido

Extrapolación fuera de rango

1) Hemos determinado el modelo con la información contenida en la muestra,

haciendo. No tiene ningún sentido utili-

Ejemplos de relaciones exponenciales

Para tratarlo, linealizamos el problema, es decir, transformamos las variables

Ejemplo de la propagación de un virus informático