Anda di halaman 1dari 54

Regresión lineal Regresión lineal

simple simple
Josep Gibergans Bàguena Josep Gibergans Bàguena

P03/75057/01013 P03/75057/01013
 FUOC • P03/75057/01013 Regresión lineal simple  FUOC • P03/75057/01013 Regresión lineal simple

Índice Índice

Sesión 1 Sesión 1
El modelo de regresión simple .............................................................. 5 El modelo de regresión simple .............................................................. 5
1. Introducción ............................................................................................ 5 1. Introducción ............................................................................................ 5
2. Relaciones entre dos variables ................................................................. 5 2. Relaciones entre dos variables ................................................................. 5
3. Diagramas de dispersión y curvas de regresión ....................................... 6 3. Diagramas de dispersión y curvas de regresión ....................................... 6
4. Recta de regresión .................................................................................... 8 4. Recta de regresión .................................................................................... 8
4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 8 4.1. Estimación de los parámetros: método de los mínimos cuadrados ... 8
5. Interpretación de los parámetros de la recta de regresión....................... 10 5. Interpretación de los parámetros de la recta de regresión....................... 10
6. Construcción de la tabla para determinar los parámetros ...................... 10 6. Construcción de la tabla para determinar los parámetros ...................... 10
7. Interpolación y extrapolación ................................................................. 12 7. Interpolación y extrapolación ................................................................. 12
8. Modelos de regresión no lineales ............................................................ 13 8. Modelos de regresión no lineales ............................................................ 13
9. Resumen................................................................................................... 14 9. Resumen................................................................................................... 14
Ejercicios ....................................................................................................... 16 Ejercicios ....................................................................................................... 16
Anexos .......................................................................................................... 20 Anexos .......................................................................................................... 20

Sesión 2 Sesión 2
La calidad del ajuste ................................................................................ 23 La calidad del ajuste ................................................................................ 23
1. Introducción ............................................................................................ 23 1. Introducción ............................................................................................ 23
2
2. El coeficiente de determinación, R ......................................................... 23 2. El coeficiente de determinación, R2......................................................... 23
3. El coeficiente de correlación muestral, r.................................................. 26 3. El coeficiente de correlación muestral, r.................................................. 26
2
4. Relación entre R y r ................................................................................ 28 4. Relación entre R2 y r ................................................................................ 28
5. Diagnóstico de la regresión: análisis de los residuos ............................... 30 5. Diagnóstico de la regresión: análisis de los residuos ............................... 30
6. Resumen................................................................................................... 33 6. Resumen................................................................................................... 33
Ejercicios ....................................................................................................... 34 Ejercicios ....................................................................................................... 34
Anexos .......................................................................................................... 38 Anexos .......................................................................................................... 38

Sesión 3 Sesión 3
Inferencia en la regresión ..................................................................... 40 Inferencia en la regresión ..................................................................... 40
1. Introducción ............................................................................................ 40 1. Introducción ............................................................................................ 40
2. El modelo de regresión en la población .................................................. 40 2. El modelo de regresión en la población .................................................. 40
3. Distribución probabilística de la pendiente ( β̂ 1 ) .................................... 44 3. Distribución probabilística de la pendiente ( β̂ 1 ) .................................... 44
4. El intervalo de confianza para la pendiente ............................................ 45 4. El intervalo de confianza para la pendiente ............................................ 45
5. El contraste de hipótesis sobre la pendiente ........................................... 46 5. El contraste de hipótesis sobre la pendiente ........................................... 46
6. Resumen................................................................................................... 48 6. Resumen................................................................................................... 48
Ejercicios ....................................................................................................... 49 Ejercicios ....................................................................................................... 49
Anexos .......................................................................................................... 53 Anexos .......................................................................................................... 53
 FUOC • P03/75057/01013 5 Regresión lineal simple  FUOC • P03/75057/01013 5 Regresión lineal simple

El modelo de regresión simple El modelo de regresión simple

1. Introducción 1. Introducción

Después de estudiar cómo hay que organizar, representar gráficamente y analizar Después de estudiar cómo hay que organizar, representar gráficamente y analizar
Origen de los modelos Origen de los modelos
un conjunto de datos a partir de algunos parámetros, nos proponemos estu- de regresión un conjunto de datos a partir de algunos parámetros, nos proponemos estu- de regresión
diar las relaciones entre variables. Estos modelos fueron utilizados
diar las relaciones entre variables. Estos modelos fueron utilizados
por Laplace y Gauss en sus tra- por Laplace y Gauss en sus tra-
bajos de astronomía y física de- bajos de astronomía y física de-
Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas sarrollados durante el siglo XVIII, Por ejemplo, podemos estudiar las distribuciones de los pesos y de las alturas sarrollados durante el siglo XVIII,
pero el nombre de modelos de pero el nombre de modelos de
de un conjunto de personas por separado. Ahora el objetivo es determinar si regresión tiene su origen en los
de un conjunto de personas por separado. Ahora el objetivo es determinar si regresión tiene su origen en los
existe alguna relación entre estas variables. trabajos de Galton en biología existe alguna relación entre estas variables. trabajos de Galton en biología
de finales del siglo XIX. La expre- de finales del siglo XIX. La expre-
sión de Galton: sión de Galton:
Queremos construir modelos que describan la relación entre las variables con “regression towards mediocrity” Queremos construir modelos que describan la relación entre las variables con “regression towards mediocrity”
el propósito, principalmente, de predecir los valores de una variable a partir de dio nombre a la regresión. el propósito, principalmente, de predecir los valores de una variable a partir de dio nombre a la regresión.

los valores de la otra. Lo haremos con el modelo de regresión lineal simple. los valores de la otra. Lo haremos con el modelo de regresión lineal simple.

2. Relaciones entre dos variables 2. Relaciones entre dos variables

El modelo de regresión lineal simple nos permite construir un modelo para ex- El modelo de regresión lineal simple nos permite construir un modelo para ex-
plicar la relación entre dos variables. plicar la relación entre dos variables.

El objetivo es explicar el comportamiento de una variable Y, que deno- El objetivo es explicar el comportamiento de una variable Y, que deno-
minaremos variable explicada (o dependiente o endógena), a partir de minaremos variable explicada (o dependiente o endógena), a partir de
otra variable X, que llamaremos variable explicativa (o independiente otra variable X, que llamaremos variable explicativa (o independiente
o exógena). o exógena).

Ejemplo de relación entre dos variables Ejemplo de relación entre dos variables

Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, enton- Si las dos variables son los ingresos mensuales y los gastos en actividades de ocio, enton-
ces podríamos escoger la segunda como variable explicada Y y la primera como variable ces podríamos escoger la segunda como variable explicada Y y la primera como variable
explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos: explicativa X, ya que, en principio, los gastos en ocio dependerán mucho de los ingresos:
cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio. cuanto más dinero ganemos, mayor será la parte que gastaremos en ocio.

Es importante observar que también podríamos escoger las variables a la inversa, es decir, Es importante observar que también podríamos escoger las variables a la inversa, es decir,
los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y. los gastos en ocio como variable explicativa X y los ingresos como variable explicada Y.
Cuanto más dinero gastemos en ocio, más ingresos tendremos. Cuanto más dinero gastemos en ocio, más ingresos tendremos.

No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable No es fácil la decisión de elegir cuál es la variable explicativa y cuál es la variable
explicada. Como veremos más adelante, dependerá en gran medida de las ca- explicada. Como veremos más adelante, dependerá en gran medida de las ca-
racterísticas de los datos que tengamos. racterísticas de los datos que tengamos.

Las relaciones entre dos variables pueden ser de dos tipos: Las relaciones entre dos variables pueden ser de dos tipos:
Ejemplo de relación Ejemplo de relación
funcional funcional
1) Funcionales (o deterministas): cuando hay una fórmula matemática que 1) Funcionales (o deterministas): cuando hay una fórmula matemática que
Podemos conocer el área de Podemos conocer el área de
permite calcular los valores de una de las variables a partir de los valores que un cuadrado a partir de la lon- permite calcular los valores de una de las variables a partir de los valores que un cuadrado a partir de la lon-
gitud de su lado. gitud de su lado.
toma la otra. toma la otra.
 FUOC • P03/75057/01013 6 Regresión lineal simple  FUOC • P03/75057/01013 6 Regresión lineal simple

2) Estadísticas (o estocásticas): cuando no existe una expresión matemática 2) Estadísticas (o estocásticas): cuando no existe una expresión matemática
Ejemplo de relación Ejemplo de relación
que las relacione de forma exacta. estadística que las relacione de forma exacta. estadística

Sabemos que hay una relación Sabemos que hay una relación
entre la altura y el peso de las entre la altura y el peso de las
En la relación entre el peso y la altura es evidente que existen muchos factores, personas: en general, cuanta En la relación entre el peso y la altura es evidente que existen muchos factores, personas: en general, cuanta
más altura, más peso. Pero más altura, más peso. Pero
como pueden ser factores genéticos, la actividad física, la alimentación, etc. no existe ninguna fórmula
como pueden ser factores genéticos, la actividad física, la alimentación, etc. no existe ninguna fórmula
que hacen que una persona de una determinada altura tenga un peso u otro. matemática que nos dé una en que hacen que una persona de una determinada altura tenga un peso u otro. matemática que nos dé una en
función de la otra, ya que esto función de la otra, ya que esto
Todos estos factores y otros que no conocemos hacen que la relación entre es- significaría que todas las perso- Todos estos factores y otros que no conocemos hacen que la relación entre es- significaría que todas las perso-
nas que tienen la misma altura nas que tienen la misma altura
tas dos variables sea estadística y no funcional. tendrían el mismo peso, y eso tas dos variables sea estadística y no funcional. tendrían el mismo peso, y eso
sabemos que no es cierto. sabemos que no es cierto.

3. Diagramas de dispersión y curvas de regresión 3. Diagramas de dispersión y curvas de regresión

A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra A partir de un conjunto de observaciones de dos variables X e Y sobre una muestra
de individuos, el primer paso en un análisis de regresión es representar estos datos de individuos, el primer paso en un análisis de regresión es representar estos datos
sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis- sobre unos ejes coordenados x-y. Esta representación es el llamado diagrama de dis-
persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la persión. Nos puede ayudar mucho en la búsqueda de un modelo que describa la
relación entre las dos variables. relación entre las dos variables.

Terminología Terminología
El diagrama de dispersión se obtiene representando cada observación El diagrama de dispersión se obtiene representando cada observación
(xi, yi) como un punto en el plano cartesiano XY. El diagrama de dispersión tam- (xi, yi) como un punto en el plano cartesiano XY. El diagrama de dispersión tam-
bién se conoce como nube bién se conoce como nube
de puntos. de puntos.

Ejemplo de diagramas de dispersión Ejemplo de diagramas de dispersión

El diagrama de dispersión puede presentar formas diversas: El diagrama de dispersión puede presentar formas diversas:
 FUOC • P03/75057/01013 7 Regresión lineal simple  FUOC • P03/75057/01013 7 Regresión lineal simple

En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En En los casos (a) y (b) tenemos que las observaciones se encuentran sobre una recta. En
el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta, el primer caso, con pendiente negativa, que nos indica que a medida que X aumenta,
la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es la Y es cada vez menor y lo contrario en el segundo caso, en el que la pendiente es
positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de ma- positiva. En estos dos casos los puntos se ajustan perfectamente sobre la recta, de ma-
nera que tenemos una relación funcional entre las dos variables dada por la ecuación nera que tenemos una relación funcional entre las dos variables dada por la ecuación
de la recta. de la recta.

En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene En el caso (c) los puntos se encuentran situados en una franja bastante estrecha que tiene
una forma bien determinada. No será una relación funcional, ya que los puntos no se si- una forma bien determinada. No será una relación funcional, ya que los puntos no se si-
túan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación túan sobre una curva, pero sí que es posible asegurar la existencia de una fuerte relación
entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la entre las dos variables. De todos modos, vemos que no se trata de una relación lineal (la
nube de puntos tiene forma de parábola). nube de puntos tiene forma de parábola).

En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de pun- En el caso (d) no tenemos ningún tipo de relación entre las variables. La nube de pun-
tos no presenta una forma “tubular” bien determinada; los puntos se encuentran ab- tos no presenta una forma “tubular” bien determinada; los puntos se encuentran ab-
solutamente dispersos. solutamente dispersos.

En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos En los casos (e) y (f) podemos observar que sí existe algún tipo de relación entre las dos
variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente nega- variables. En el caso (e) podemos ver un tipo de dependencia lineal con pendiente nega-
tiva, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no tiva, ya que a medida que el valor de X aumenta, el valor de Y disminuye. Los puntos no
están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar en están sobre una línea recta, pero se acercan bastante, de manera que podemos pensar en
una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente una fuerte relación lineal. En el caso (f) observamos una relación lineal con pendiente
positiva, pero no tan fuerte como la anterior. positiva, pero no tan fuerte como la anterior.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el Consideremos las observaciones de los pesos y alturas de un conjunto de 10 personas: el
individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene 152 cm de altura
y 56 kg de peso, etc., tal como se ve en la tabla siguiente: y 56 kg de peso, etc., tal como se ve en la tabla siguiente:

Individuo 1 2 3 4 5 6 7 8 9 10 Individuo 1 2 3 4 5 6 7 8 9 10

X altura (cm) 161 152 167 153 161 168 167 153 159 173 X altura (cm) 161 152 167 153 161 168 167 153 159 173

Y peso (kg) 63 56 77 49 72 62 68 48 57 67 Y peso (kg) 63 56 77 49 72 62 68 48 57 67

Definición y ejemplo Definición y ejemplo


de valor atípico de valor atípico

Por valor atípico entendemos Por valor atípico entendemos


un valor muy diferente de los un valor muy diferente de los
El diagrama de dispersión también nos puede ayudar a encontrar algún valor otros y que muy posiblemente
El diagrama de dispersión también nos puede ayudar a encontrar algún valor otros y que muy posiblemente
atípico entre los datos de la muestra que pueda tener su origen en una mala es erróneo. Por ejemplo, una atípico entre los datos de la muestra que pueda tener su origen en una mala es erróneo. Por ejemplo, una
persona de 150 cm de altura persona de 150 cm de altura
observación o en el hecho de ser una observación correspondiente a un indi- y 150 kg de peso. En el diagra- observación o en el hecho de ser una observación correspondiente a un indi- y 150 kg de peso. En el diagra-
ma de dispersión saldrá como ma de dispersión saldrá como
viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de- un punto solitario alejado de viduo excepcional dentro de la muestra. Cuando tenemos un valor atípico, de- un punto solitario alejado de
los otros. los otros.
bemos controlar las influencias que pueda tener en el análisis. bemos controlar las influencias que pueda tener en el análisis.
 FUOC • P03/75057/01013 8 Regresión lineal simple  FUOC • P03/75057/01013 8 Regresión lineal simple

4. Recta de regresión 4. Recta de regresión

Una vez que hemos hecho el diagrama de dispersión y después de obser- Una vez que hemos hecho el diagrama de dispersión y después de obser-
var una posible relación lineal entre las dos variables, nos proponemos var una posible relación lineal entre las dos variables, nos proponemos
encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos.
Esta recta se denomina recta de regresión. Esta recta se denomina recta de regresión.

4.1. Estimación de los parámetros: método de los mínimos 4.1. Estimación de los parámetros: método de los mínimos
cuadrados cuadrados

Una recta queda bien determinada si el valor de su pendiente (b) y de su or- Una recta queda bien determinada si el valor de su pendiente (b) y de su or-
denada en el origen (a) son conocidos. De esta manera la ecuación de la recta denada en el origen (a) son conocidos. De esta manera la ecuación de la recta
viene dada por: viene dada por:

y = a + bx y = a + bx

A partir de la fórmula anterior definimos para cada observación (xi, yi) el error A partir de la fórmula anterior definimos para cada observación (xi, yi) el error
o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir: o residuo como la distancia vertical entre el punto (xi, yi) y la recta, es decir:

yi – (a + bxi) yi – (a + bxi)

Por cada recta que consideremos, tendremos una colección diferente de resi- Por cada recta que consideremos, tendremos una colección diferente de resi-
duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto duos. Buscaremos la recta que dé lugar a los residuos más pequeños en cuanto
a la suma de los cuadrados. a la suma de los cuadrados.

Para determinar una recta de regresión, utilizaremos el método de los mínimos Para determinar una recta de regresión, utilizaremos el método de los mínimos
cuadrados. cuadrados.

El método de los mínimos cuadrados consiste en buscar los valores de los El método de los mínimos cuadrados consiste en buscar los valores de los
parámetros a y b de manera que la suma de los cuadrados de los residuos parámetros a y b de manera que la suma de los cuadrados de los residuos
sea mínima. Esta recta es la recta de regresión por mínimos cuadrados. sea mínima. Esta recta es la recta de regresión por mínimos cuadrados.
 FUOC • P03/75057/01013 9 Regresión lineal simple  FUOC • P03/75057/01013 9 Regresión lineal simple

Siendo la suma de los cuadrados la expresión: Siendo la suma de los cuadrados la expresión:
Terminología Terminología

n n
2 La suma de los cuadrados de 2 La suma de los cuadrados de
∑ ( y i – a – bxi ) los residuos también se deno- ∑ ( y i – a – bxi ) los residuos también se deno-
i=1 mina suma de los errores cua- i=1 mina suma de los errores cua-
dráticos. dráticos.

para encontrar los valores de a y b, sólo hay que determinar las derivadas par- para encontrar los valores de a y b, sólo hay que determinar las derivadas par-
ciales con respecto a los parámetros a y b: ciales con respecto a los parámetros a y b:

n n n n
∂  ∂ 
( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i ) ( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )
2 2
∂ a  i∑
=1

i=1
∂ a  i∑
=1

i=1

n n n n
∂  ∂ 
( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )x i ( y i – a – bx i )  = – 2 ∑ ( y i – a – bx i )x i
2 2
∂ b  i∑
=1

i=1
La resolución de este sistema de
ecuaciones se encuentra en el anexo ∂ b  i∑
=1

i=1
La resolución de este sistema de
ecuaciones se encuentra en el anexo
1 de esta sesión. 1 de esta sesión.

y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, cono- y las igualamos a cero. Así obtenemos el sistema de ecuaciones siguiente, cono-
cido como sistema de ecuaciones normales: cido como sistema de ecuaciones normales:

 n  n
 
 ∑ ( y i – a – bx i ) = 0
 ∑ ( y i – a – bxi ) = 0
 i=1  i=1
 
 n
 n
 
 ∑ ( y i – a – bxi )xi = 0  ∑ ( y i – a – bxi )xi = 0
 i=1  i=1

Las soluciones de este sistema de ecuaciones son: Las soluciones de este sistema de ecuaciones son:

n n

s xy
∑ ( xi – x ) ( yi – y ) En rigor...
s xy
∑ ( xi – x ) ( yi – y ) En rigor...
=1 =1
b = ------2 = i--------------------------------------------
n
- y a = y – bx b = ------2 = i--------------------------------------------
n
- y a = y – bx
sx 2 ... habría que probar que, efec- sx 2 ... habría que probar que, efec-
∑ i ( x – x ) tivamente, estos valores de los ∑ i ( x – x ) tivamente, estos valores de los
i=1 parámetros hacen mínima la i=1 parámetros hacen mínima la
suma de los cuadrados de los suma de los cuadrados de los
residuos. residuos.
en las que: en las que:

n n

∑ ( xi – x ) ( yi – y ) ∑ ( xi – x ) ( yi – y )
i=1 i=1
• s xy = --------------------------------------------- es la covarianza muestral de las observaciones (xi, yi). • s xy = --------------------------------------------- es la covarianza muestral de las observaciones (xi, yi).
n–1 n–1

n n
2 2
∑ ( xi – x ) ∑ ( xi – x )
2 i=1 2 i=1
• s x = ----------------------------- es la varianza muestral de las observaciones xi. Notación • s x = ----------------------------- es la varianza muestral de las observaciones xi. Notación
n–1 n–1
Hemos hecho un cambio en Hemos hecho un cambio en
Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal la notación para distinguir de Es muy importante obsevar que, de todas las rectas, la recta de regresión lineal la notación para distinguir de
manera clara entre una recta manera clara entre una recta
por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados cualquiera: por mínimos cuadrados es aquella que hace mínima la suma de los cuadrados cualquiera:
y = a + bx y = a + bx
de los residuos. de los residuos.
y la recta de regresión por mí- y la recta de regresión por mí-
nimos cuadrados: nimos cuadrados:
A partir de ahora, la recta de regresión la escribiremos de la manera siguiente: A partir de ahora, la recta de regresión la escribiremos de la manera siguiente:
ŷ = β̂ 0 + β̂ 1 x ŷ = β̂ 0 + β̂ 1 x
obtenida al determinar a y b. obtenida al determinar a y b.
ŷ = β̂ 0 + β̂ 1 x ŷ = β̂ 0 + β̂ 1 x
 FUOC • P03/75057/01013 10 Regresión lineal simple  FUOC • P03/75057/01013 10 Regresión lineal simple

donde los parámetros de la recta β̂ 0 y β̂ 1 vienen dados por: donde los parámetros de la recta β̂ 0 y β̂ 1 vienen dados por:

s xy s xy
β̂ 0 = y – β̂ 1 x y β̂ 1 = ------2 β̂ 0 = y – β̂ 1 x y β̂ 1 = ------2
sx sx

De ahora en adelante, a los residuos calculados con la recta de regresión los De ahora en adelante, a los residuos calculados con la recta de regresión los
llamaremos ei , es decir: llamaremos ei , es decir:

e i = y i – ŷ i e i = y i – ŷ i

donde ŷ i es el valor estimado para la recta de regresión. donde ŷ i es el valor estimado para la recta de regresión.

5. Interpretación de los parámetros de la recta de regresión 5. Interpretación de los parámetros de la recta de regresión

Una vez determinada la recta de regresión, es muy importante interpretar los Una vez determinada la recta de regresión, es muy importante interpretar los
parámetros de la ecuación en el contexto del fenómeno que se estudia. parámetros de la ecuación en el contexto del fenómeno que se estudia.

• Interpretación de la ordenada en el origen, β̂ 0 : • Interpretación de la ordenada en el origen, β̂ 0 :


β̂ 0 en el ejemplo β̂ 0 en el ejemplo
de los pesos y las alturas de los pesos y las alturas
Este parámetro representa la estimación del valor de Y cuando X es igual a cero: Este parámetro representa la estimación del valor de Y cuando X es igual a cero:
En el ejemplo de los pesos y En el ejemplo de los pesos y
las alturas, el valor de la orde- las alturas, el valor de la orde-
nada en el origen no tendrá nada en el origen no tendrá
ŷ = β̂ 0 + β̂ 1 0 = β̂ 0 . sentido, ya que corresponde- ŷ = β̂ 0 + β̂ 1 0 = β̂ 0 . sentido, ya que corresponde-
ría al peso que tendrían las ría al peso que tendrían las
personas de altura nula. personas de altura nula.
No siempre tiene una interpretación práctica. Para que sea posible, es preciso No siempre tiene una interpretación práctica. Para que sea posible, es preciso
que: que:

1. realmente sea posible que X tome el valor x = 0; 1. realmente sea posible que X tome el valor x = 0;
2. se tengan suficientes observaciones cercanas al valor x = 0. 2. se tengan suficientes observaciones cercanas al valor x = 0.

• Interpretación de la pendiente de la recta, β̂ 1 • Interpretación de la pendiente de la recta, β̂ 1


Pendiente en el ejemplo Pendiente en el ejemplo
de los pesos y las alturas de los pesos y las alturas
Este parámetro representa la estimación del incremento que experimenta la En el ejemplo de los pesos
Este parámetro representa la estimación del incremento que experimenta la En el ejemplo de los pesos
variable Y cuando X aumenta en una unidad. Este parámetro nos informa de y las alturas, en el diagrama variable Y cuando X aumenta en una unidad. Este parámetro nos informa de y las alturas, en el diagrama
de dispersión habíamos obser- de dispersión habíamos obser-
cómo están relacionadas las dos variables en el sentido de que nos indica en vado que, en general, aumenta cómo están relacionadas las dos variables en el sentido de que nos indica en vado que, en general, aumenta
el peso de las personas a medi- el peso de las personas a medi-
qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían da que aumenta su altura. qué cantidad (y si es positiva o negativa) varían los valores de Y cuando varían da que aumenta su altura.
los valores de la X en una unidad. los valores de la X en una unidad.

6. Construcción de la tabla para determinar los parámetros 6. Construcción de la tabla para determinar los parámetros

Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión. Veamos ahora cómo debemos determinar, en la práctica, la recta de regresión.
Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas. Lo ilustraremos a partir de los datos del ejemplo de los pesos y las alturas.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas. Continuemos con el anterior ejemplo de las alturas y pesos de un grupo de diez personas.
Para determinar la recta de regresión, calculamos la covarianza muestral sxy, la varianza Para determinar la recta de regresión, calculamos la covarianza muestral sxy, la varianza
2 2
muestral s x y las medias x y y . muestral s x y las medias x y y .
 FUOC • P03/75057/01013 11 Regresión lineal simple  FUOC • P03/75057/01013 11 Regresión lineal simple

Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de re- Podemos calcular todas estas cantidades a partir de la tabla de cálculos de la recta de re-
gresión. gresión.

2 2
i xi yi x – xi y – yi ( x – xi ) ( x – xi ) ( y – yi ) i xi yi x – xi y – yi ( x – xi ) ( x – xi ) ( y – yi )
1 161 63 0,4 –1,1 0,16 –0,44 1 161 63 0,4 –1,1 0,16 –0,44
2 152 56 9,4 5,9 88,36 55,46 2 152 56 9,4 5,9 88,36 55,46
3 167 77 –5,6 –15,1 31,36 84,56 3 167 77 –5,6 –15,1 31,36 84,56
4 153 49 8,4 12,9 70,56 108,36 4 153 49 8,4 12,9 70,56 108,36
5 161 72 0,4 –10,1 0,16 –4,04 5 161 72 0,4 –10,1 0,16 –4,04
6 168 62 –6,6 –0,1 43,56 0,66 6 168 62 –6,6 –0,1 43,56 0,66
7 167 68 –5,6 –6,1 31,36 34,16 7 167 68 –5,6 –6,1 31,36 34,16
8 153 48 8,4 13,9 70,56 116,76 8 153 48 8,4 13,9 70,56 116,76
9 159 57 2,4 4,9 5,76 11,76 9 159 57 2,4 4,9 5,76 11,76
10 173 67 –11,6 –5,1 134,56 59,16 10 173 67 –11,6 –5,1 134,56 59,16
Σ 1614 619 476,40 466,40 Σ 1614 619 476,40 466,40

n n n n
1 1 1 1
Medias muestrales: x = --- ∑ x i = 161,4 y y = --- ∑ y i = 61,9 Medias muestrales: x = --- ∑ x i = 161,4 y y = --- ∑ y i = 61,9
n n n n
i=1 i=1 i=1 i=1

n n

∑ ( xi – x ) ∑ ( xi – x )
2 2

2 =1
- = 476,40
Varianza muestral: s x = i---------------------------- ------------------- = 52,933 2 =1
- = 476,40
Varianza muestral: s x = i---------------------------- ------------------- = 52,933
n–1 10 – 1 n–1 10 – 1

n n

∑ ( xi – x ) ( yi – y ) 466,40
∑ ( xi – x ) ( yi – y ) 466,40
=1 =1
Covarianza muestral: s xy = i--------------------------------------------
- = ------------------- = 51,822 Covarianza muestral: s xy = i--------------------------------------------
- = ------------------- = 51,822
n–1 10 – 1 n–1 10 – 1

Los parámetros son: Los parámetros son:

s xy 51,822 s xy 51,822
β̂ 1 = ------
- = ------------------- = 0,979009 β̂ 1 = ------
- = ------------------- = 0,979009
sx
2 52,933 sx
2 52,933

β̂ 0 = y – β̂ 1 x = 61,9 – 0,979009 ⋅ 161,4 = – 96,1121 β̂ 0 = y – β̂ 1 x = 61,9 – 0,979009 ⋅ 161,4 = – 96,1121

Tenemos la recta de regresión siguiente: Tenemos la recta de regresión siguiente:

ŷ = – 96,1121 + 0,979009x ŷ = – 96,1121 + 0,979009x

Podemos representar la recta de regresión en el diagrama de dispersión: Podemos representar la recta de regresión en el diagrama de dispersión:

Interpretamos los parámetros obtenidos: Interpretamos los parámetros obtenidos:

• Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una per- • Ordenada en el origen: evidentemente, no tiene sentido pensar que el peso de una per-
sona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces no sona de altura cero es –96,1121 kg. Ya hemos comentado antes que muchas veces no
tiene sentido la interpretación de este parámetro. tiene sentido la interpretación de este parámetro.
 FUOC • P03/75057/01013 12 Regresión lineal simple  FUOC • P03/75057/01013 12 Regresión lineal simple

• Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa • Pendiente: tenemos una pendiente de 0,979009. Un valor positivo que nos informa
de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro. de que el peso aumenta con la altura a razón de 0,979 kg por cada centímetro.

7. Interpolación y extrapolación 7. Interpolación y extrapolación

Uno de los objetivos más importantes de la regresión es la aplicación del mo- Uno de los objetivos más importantes de la regresión es la aplicación del mo-
delo para el pronóstico del valor de la variable dependiente (Y) para un valor delo para el pronóstico del valor de la variable dependiente (Y) para un valor
de la variable independiente (X) no observado en la muestra. de la variable independiente (X) no observado en la muestra.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el En nuestro problema de los pesos y las alturas podríamos estar interesados en conocer el
peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión: peso de una persona de altura 1,60 m. A partir de nuestra recta de regresión:

ŷ = – 96,1121 + 0,979009x ŷ = – 96,1121 + 0,979009x

para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg: para un valor de X de 160 cm, tenemos un valor estimado para la Y de 60,53 kg:

ŷ = – 96,1121 + 0,979009 ⋅ 160 = 60,53 ŷ = – 96,1121 + 0,979009 ⋅ 160 = 60,53

Extrapolación fuera Extrapolación fuera


de rango de rango

Si queremos saber el peso de Si queremos saber el peso de


un bebé que sólo mide cuaren- un bebé que sólo mide cuaren-
ta centímetros, no podremos ta centímetros, no podremos
utilizar la recta de regresión utilizar la recta de regresión
obtenida. Las características obtenida. Las características
Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es biológicas del bebé, muy dife- Un aspecto importante a la hora de aplicar el modelo de regresión obtenido es biológicas del bebé, muy dife-
rentes de las que presentan las rentes de las que presentan las
el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que personas adultas, harán que la el riesgo de la extrapolación. Es decir, cuando queremos conocer el valor que personas adultas, harán que la
presentará la variable Y para un determinado valor de X que se encuentre fuera relación entre el peso y la altu- presentará la variable Y para un determinado valor de X que se encuentre fuera relación entre el peso y la altu-
ra sea diferente. Deberíamos ra sea diferente. Deberíamos
del intervalo de valores que toma la muestra. Entonces tenemos que ir con efectuar un análisis de regre- del intervalo de valores que toma la muestra. Entonces tenemos que ir con efectuar un análisis de regre-
sión a partir de una muestra sión a partir de una muestra
mucho cuidado: de bebés. mucho cuidado: de bebés.

1) Hemos determinado el modelo con la información contenida en la mues- Sentido


1) Hemos determinado el modelo con la información contenida en la mues- Sentido
tra, de manera que no hemos tenido ninguna información del comportamien- de la extrapolación tra, de manera que no hemos tenido ninguna información del comportamien- de la extrapolación

to de la variable Y para valores de X de fuera del rango de la muestra. No tiene ningún sentido utili- to de la variable Y para valores de X de fuera del rango de la muestra. No tiene ningún sentido utili-
zar el modelo de regresión zar el modelo de regresión
para calcular el peso de perso- para calcular el peso de perso-
nas de diez centímetros o tres nas de diez centímetros o tres
2) Es posible que no tenga sentido la extrapolación que queremos hacer. An- metros de altura. El modelo 2) Es posible que no tenga sentido la extrapolación que queremos hacer. An- metros de altura. El modelo
nos dará un resultado numéri- nos dará un resultado numéri-
tes de utilizar el modelo de regresión, debemos preguntarnos por lo que esta- co que, en todo caso, hay que tes de utilizar el modelo de regresión, debemos preguntarnos por lo que esta- co que, en todo caso, hay que
interpretar. interpretar.
mos haciendo. mos haciendo.
 FUOC • P03/75057/01013 13 Regresión lineal simple  FUOC • P03/75057/01013 13 Regresión lineal simple

8. Modelos de regresión no lineales 8. Modelos de regresión no lineales

Aparte de los modelos lineales, se pueden establecer otros, entre los cuales des- Aparte de los modelos lineales, se pueden establecer otros, entre los cuales des-
Curva en un modelo Curva en un modelo
taca el exponencial. exponencial taca el exponencial. exponencial

En el modelo lineal hemos En el modelo lineal hemos


ajustado la nube de puntos ajustado la nube de puntos
El modelo exponencial es del tipo: a una recta de ecuación: El modelo exponencial es del tipo: a una recta de ecuación:
y = a + bx y = a + bx
En el modelo exponencial que- En el modelo exponencial que-
y = kax con a > 0, k > 0 remos ajustar a los puntos una y = kax con a > 0, k > 0 remos ajustar a los puntos una
curva de ecuación: curva de ecuación:
y = kax con a > 0 y k > 0 y = kax con a > 0 y k > 0
donde k y a son valores constantes. donde k y a son valores constantes.

Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación Así, puesto que en el caso lineal es muy fácil ver si puede haber una relación
Ejemplos de relaciones Ejemplos de relaciones
lineal entre las variables a partir del diagrama de dispersión, en el caso exponen- exponenciales lineal entre las variables a partir del diagrama de dispersión, en el caso exponen- exponenciales

cial es un poco más difícil. Las relaciones entre la variable cial es un poco más difícil. Las relaciones entre la variable
tiempo (X) y otras variables (Y) tiempo (X) y otras variables (Y)
como la población, el número como la población, el número
de ordenadores infectados por de ordenadores infectados por
Para tratarlo, linealizamos el problema, es decir, transformamos las variables un virus en los primeros días de Para tratarlo, linealizamos el problema, es decir, transformamos las variables un virus en los primeros días de
x contaminación, los precios de contaminación, los precios de
de manera que el problema se convierta en lineal. Si en la ecuación y = ka to- algunos productos, etc., son de manera que el problema se convierta en lineal. Si en la ecuación y = kax to- algunos productos, etc., son
exponenciales. exponenciales.
mamos logaritmos ln y = ln(kax), obtenemos, por aplicación de las propieda- mamos logaritmos ln y = ln(kax), obtenemos, por aplicación de las propieda-
des de los logaritmos: des de los logaritmos:

ln y = ln k + x ln a ln y = ln k + x ln a
Propiedades Propiedades
de los logaritmos de los logaritmos

Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y. ln ab = ln a + ln b Esta última ecuación nos muestra un modelo lineal entre las variables X y ln Y. ln ab = ln a + ln b
ln ax = x ln a ln ax = x ln a
Así, si representamos el diagrama de dispersión de los puntos (xi, ln yi) y la nube Así, si representamos el diagrama de dispersión de los puntos (xi, ln yi) y la nube
de puntos presenta una estructura lineal, podemos pensar que entre las varia- de puntos presenta una estructura lineal, podemos pensar que entre las varia-
bles X e Y hay una relación exponencial. bles X e Y hay una relación exponencial.

Ejemplo de la propagación de un virus informático Ejemplo de la propagación de un virus informático

La tabla registra el número de días que han transcurrido desde que se ha detectado un La tabla registra el número de días que han transcurrido desde que se ha detectado un
nuevo virus informático y el número de ordenadores infectados en un país. nuevo virus informático y el número de ordenadores infectados en un país.

Número de Número de ordenadores Número de Número de ordenadores


Transformación de Y Transformación de Y
días infectados días infectados
ln yi ln yi
xi yi xi yi

1 255 5,5413 1 255 5,5413

2 1.500 7,3132 2 1.500 7,3132

4 2.105 7,6521 4 2.105 7,6521

5 5.050 8,5271 5 5.050 8,5271

8 16.300 9,6989 8 16.300 9,6989

10 45.320 10,7215 10 45.320 10,7215

11 58.570 10,9780 11 58.570 10,9780

14 375.800 12,8368 14 375.800 12,8368

16 1.525.640 14,2379 16 1.525.640 14,2379

20 2.577.000 14,7621 20 2.577.000 14,7621


 FUOC • P03/75057/01013 14 Regresión lineal simple  FUOC • P03/75057/01013 14 Regresión lineal simple

El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de El diagrama de dispersión de los puntos siguientes nos hace pensar en la existencia de
algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una algún tipo de relación entre las variables que no es lineal. Estudiaremos si se trata de una
relación exponencial. relación exponencial.

Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dis- Calculamos el logaritmo de los datos de la variable Y y representamos el diagrama de dis-
persión correspondiente. persión correspondiente.

Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto, Podemos observar que entre las variables X y ln Y existe una relación lineal; por tanto,
entre las variables originales X e Y habrá una relación exponencial. entre las variables originales X e Y habrá una relación exponencial.

Si calculamos la recta de regresión de ln y sobre x: ln ŷ = β̂ 0 + β̂ 1 x Si calculamos la recta de regresión de ln y sobre x: ln ŷ = β̂ 0 + β̂ 1 x

5,84 + 0,482x 5,84 + 0,482x


Obtenemos: ln ŷ = 5,84 + 0,482x , es decir, ŷ = e Obtenemos: ln ŷ = 5,84 + 0,482x , es decir, ŷ = e

De manera que, si queremos estimar el número de ordenadores infectados al cabo de De manera que, si queremos estimar el número de ordenadores infectados al cabo de
doce días, haremos lo siguiente: doce días, haremos lo siguiente:

Para x = 12: ln ŷ = 5,84 + 0,482 ⋅ 12 = 11,624 Para x = 12: ln ŷ = 5,84 + 0,482 ⋅ 12 = 11,624

Y tomando exponenciales, podemos aislar ŷ : Y tomando exponenciales, podemos aislar ŷ :

ŷ = exp(11,624) = 111.747,8195 ŷ = exp(11,624) = 111.747,8195

Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido de Por tanto, al cabo de doce días el número estimado de ordenadores infectados ha sido de
111.748 unidades. 111.748 unidades.

9. Resumen 9. Resumen

En esta primera sesión hemos introducido los conceptos de relaciones funcio- En esta primera sesión hemos introducido los conceptos de relaciones funcio-
nales y estadísticas, así como el de variables dependientes (o explicadas) y el de nales y estadísticas, así como el de variables dependientes (o explicadas) y el de
variables independientes (o explicativas). A continuación se ha comentado la variables independientes (o explicativas). A continuación se ha comentado la
construcción de un diagrama de dispersión como paso inicial a la hora de bus- construcción de un diagrama de dispersión como paso inicial a la hora de bus-
 FUOC • P03/75057/01013 15 Regresión lineal simple  FUOC • P03/75057/01013 15 Regresión lineal simple

car algún tipo de relación entre dos variables. Si el diagrama nos muestra una car algún tipo de relación entre dos variables. Si el diagrama nos muestra una
estructura lineal, entonces buscamos la línea recta que mejor se ajusta a nues- estructura lineal, entonces buscamos la línea recta que mejor se ajusta a nues-
tras observaciones. Lo hacemos mediante el método de los mínimos cuadrados. tras observaciones. Lo hacemos mediante el método de los mínimos cuadrados.
Hemos puesto de manifesto la importancia de interpretar correctamente los pa- Hemos puesto de manifesto la importancia de interpretar correctamente los pa-
rámetros de la recta. También hemos visto cómo debemos utilizar la recta de re- rámetros de la recta. También hemos visto cómo debemos utilizar la recta de re-
gresión para hacer interpolaciones. Finalmente, hemos comentado una relación gresión para hacer interpolaciones. Finalmente, hemos comentado una relación
no lineal tan importante como la relación exponencial y la manera en que po- no lineal tan importante como la relación exponencial y la manera en que po-
demos transformarla en una lineal. demos transformarla en una lineal.
 FUOC • P03/75057/01013 16 Regresión lineal simple  FUOC • P03/75057/01013 16 Regresión lineal simple

Ejercicios Ejercicios

1. 1.
El departamento de personal de una empresa informática dedicada a la intro- El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per- ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.) sonal. La tabla siguiente indica el progreso en pulsaciones por minuto (p.p.m.)
obtenido en mecanografía de ocho estudiantes que siguieron el programa y el obtenido en mecanografía de ocho estudiantes que siguieron el programa y el
número de semanas que hace que lo siguen: número de semanas que hace que lo siguen:

Número de semanas Ganancia de velocidad (p.p.m.) Número de semanas Ganancia de velocidad (p.p.m.)

3 87 3 87

5 119 5 119

2 47 2 47

8 195 8 195

6 162 6 162

9 234 9 234

3 72 3 72

4 110 4 110

a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer a) Representad el diagrama de dispersión. ¿Creéis que es razonable suponer
que existe una relación lineal entre el número de semanas y la ganancia de ve- que existe una relación lineal entre el número de semanas y la ganancia de ve-
locidad? locidad?

b) Buscad la recta de regresión. Interpretad los parámetros obtenidos. b) Buscad la recta de regresión. Interpretad los parámetros obtenidos.

c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace sie- c) ¿Qué ganancia de velocidad podemos esperar de una persona que hace sie-
te semanas que va a clase? te semanas que va a clase?

2. 2.
Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más caro Ha salido al mercado un nuevo modelo de grabadora de DVD, un poco más caro
que los anteriores, pero con unas prestaciones muy superiores, de manera que la que los anteriores, pero con unas prestaciones muy superiores, de manera que la
labor de los técnicos de los grandes centros comerciales es muy importante a la labor de los técnicos de los grandes centros comerciales es muy importante a la
hora de presentar este producto al cliente. Con el objetivo de saber si el “número hora de presentar este producto al cliente. Con el objetivo de saber si el “número
de técnicos comerciales presentes en una tienda” (X) puede tener alguna inciden- de técnicos comerciales presentes en una tienda” (X) puede tener alguna inciden-
cia en el “número de aparatos vendidos durante una semana” (Y), se observaron cia en el “número de aparatos vendidos durante una semana” (Y), se observaron
quince centros comerciales con los resultados que se muestran a continuación: quince centros comerciales con los resultados que se muestran a continuación:

15 15 15 15 15 15 15 15
2 2
∑ xi = 215 ; ∑ xi = 3.567 ; ∑ yi = 1.700 ; ∑ xi yi = 28.300 ∑ xi = 215 ; ∑ xi = 3.567 ; ∑ yi = 1.700 ; ∑ xi yi = 28.300
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

a) Buscad la recta de regresión. a) Buscad la recta de regresión.

b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un b) ¿Cuál es el número de aparatos que se puede estimar que se venderán en un
centro con diecisiete comerciales? centro con diecisiete comerciales?
 FUOC • P03/75057/01013 17 Regresión lineal simple  FUOC • P03/75057/01013 17 Regresión lineal simple

Solucionario Solucionario

1. 1.
Diagrama de dispersión: Diagrama de dispersión:

El diagrama de dispersión nos muestra que la relación entre las dos variables El diagrama de dispersión nos muestra que la relación entre las dos variables
es lineal con pendiente positiva, de manera que cuantas más semanas pasan, es lineal con pendiente positiva, de manera que cuantas más semanas pasan,
mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re- mayor es la ganancia de velocidad. Por tanto, tiene sentido buscar la recta de re-
gresión. A partir de la tabla de cálculos siguiente: gresión. A partir de la tabla de cálculos siguiente:

2 2
i xi yi x – xi y – yi ( x – xi ) ( x – xi ) ( y – y i) i xi yi x – xi y – yi ( x – xi ) ( x – xi ) ( y – y i)

1 3 87 2 41,25 4 82,5 1 3 87 2 41,25 4 82,5

2 5 119 0 9,25 0 0 2 5 119 0 9,25 0 0

3 2 47 3 81,25 9 243,75 3 2 47 3 81,25 9 243,75

4 8 195 –3 –66,75 9 200,25 4 8 195 –3 –66,75 9 200,25

5 6 162 –1 –33,75 1 33,75 5 6 162 –1 –33,75 1 33,75

6 9 234 –4 –105,75 16 423 6 9 234 –4 –105,75 16 423

7 3 72 2 56,25 4 112,5 7 3 72 2 56,25 4 112,5

8 4 110 1 18,25 1 18,25 8 4 110 1 18,25 1 18,25

Σ 40 1.026 44,00 1.114,00 Σ 40 1.026 44,00 1.114,00

n n
1 40 1 40
Medias muestrales: x = --- ∑ x i = ------ = 5,0 y Medias muestrales: x = --- ∑ x i = ------ = 5,0 y
ni = 1 8 ni = 1 8

n n
1 1.206 1 1.206
y = --- ∑ y i = --------------- = 128,250 y = --- ∑ y i = --------------- = 128,250
ni = 1 8 ni = 1 8

n n
2 2
∑ ( xi – x ) ∑ ( xi – x )
2 i=1 44,00 2 =1 44,00
- = --------------- = 6,286
Varianza muestral: s x = ---------------------------- Varianza muestral: s x = i----------------------------
- = --------------- = 6,286
n–1 7 n–1 7

n n

∑ ( xi – x )( yi – y ) ∑ ( xi – x )( yi – y )
=1 1.114,00 =1 1.114,00
Covarianza muestral: s xy = i--------------------------------------------
- = ------------------------ = 159,143 Covarianza muestral: s xy = i--------------------------------------------
- = ------------------------ = 159,143
n–1 7 n–1 7
 FUOC • P03/75057/01013 18 Regresión lineal simple  FUOC • P03/75057/01013 18 Regresión lineal simple

Ya podemos calcular los coeficientes de la recta de regresión: Ya podemos calcular los coeficientes de la recta de regresión:

s xy 159,143 s xy 159,143
β̂ 1 = ------2 = ---------------------- = 25,318 y β̂ 1 = ------2 = ---------------------- = 25,318 y
sx 6,286 sx 6,286

β̂ 0 = y – β̂ 1 x = 128,250 – 25,318 ⋅ 5 = 1,659 β̂ 0 = y – β̂ 1 x = 128,250 – 25,318 ⋅ 5 = 1,659

La recta de regresión obtenida es: La recta de regresión obtenida es:

ŷ = β̂ 0 + β̂ 1 x = 1,659 + 25,318x ŷ = β̂ 0 + β̂ 1 x = 1,659 + 25,318x

En este caso la ordenada en el origen no tiene ninguna interpretación con sen- En este caso la ordenada en el origen no tiene ninguna interpretación con sen-
tido, ya que correspondería a la ganancia de velocidad por cero semanas de cla- tido, ya que correspondería a la ganancia de velocidad por cero semanas de cla-
ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una ses. Evidentemente, no tiene sentido pensar que sin hacer clases se tiene una
ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una ganacia de velocidad de 1,659 p.p.m. La pendiente de la recta sí que nos da una
información útil: por cada semana de clase se tiene una ganancia de velocidad información útil: por cada semana de clase se tiene una ganancia de velocidad
de aproximadamente 25 p.p.m. de aproximadamente 25 p.p.m.

Para una persona que hace siete semanas que va a clase, podemos calcular la Para una persona que hace siete semanas que va a clase, podemos calcular la
ganancia de velocidad a partir de la recta de regresión, considerando x = 7: ganancia de velocidad a partir de la recta de regresión, considerando x = 7:

ŷ = 1,659 + 25,318 ⋅ 7 = 178,885 ŷ = 1,659 + 25,318 ⋅ 7 = 178,885

Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto. Es decir, aproximadamente una ganancia de 179 pulsaciones por minuto.

2. 2.
a) Para encontrar la recta de regresión, antes tenemos que encontrar las me- a) Para encontrar la recta de regresión, antes tenemos que encontrar las me-
dias y covarianzas muestrales de las variables X e Y, así como la varianza mues- dias y covarianzas muestrales de las variables X e Y, así como la varianza mues-
tral de X. A partir de los datos que nos da el enunciado: tral de X. A partir de los datos que nos da el enunciado:

n n
1 215 1 215
• Medias muestrales: x = --- ∑ x i = ---------- = 14,333 • Medias muestrales: x = --- ∑ x i = ---------- = 14,333
ni = 1 15 ni = 1 15

n n
1 1.700 1 1.700
y = --- ∑ y i = --------------- = 113,333 y = --- ∑ y i = --------------- = 113,333
ni = 1 15 ni = 1 15
 FUOC • P03/75057/01013 19 Regresión lineal simple  FUOC • P03/75057/01013 19 Regresión lineal simple

• Varianza muestral: • Varianza muestral:

Para calcular la varianza muestral a partir de los datos del enunciado, utiliza- La deducción de esta fórmula Para calcular la varianza muestral a partir de los datos del enunciado, utiliza- La deducción de esta fórmula
se muestra en el anexo 2 se muestra en el anexo 2
remos la expresión equivalente: de esta sesión. remos la expresión equivalente: de esta sesión.

 n x 2 – nx 2  n x 2 – nx 2
 i∑ =1
i   i∑ =1
i 
2 2
s x = ------------------------------------ s x = ------------------------------------
n–1 n–1

De manera que: De manera que:

 n x 2 – nx 2  n x 2 – nx 2
 i∑ =1
i 
3.567 – 15 ⋅ 14,333
2  i∑ =1
i 
3.567 – 15 ⋅ 14,333
2
2 2
s x = ------------------------------------ = ------------------------------------------------------ = 34,667 s x = ------------------------------------ = ------------------------------------------------------ = 34,667
n–1 14 n–1 14

• Covarianza muestral: • Covarianza muestral:

También ahora utilizaremos una nueva expresión para calcular la covarianza La deducción de esta fórmula
También ahora utilizaremos una nueva expresión para calcular la covarianza La deducción de esta fórmula
se muestra en el anexo 3 de esta se muestra en el anexo 3 de esta
muestral: sesión. muestral: sesión.

 n x y  – nxy  n x y  – nxy
 i∑ =1
i i  i∑ =1
i i

s xy = --------------------------------------- s xy = ---------------------------------------
n–1 n–1

De manera que: De manera que:

 n x y  – nxy  n x y  – nxy
 i∑ =1
i i
28.300 – 15 ⋅ 14,333 ⋅ 113,333  i∑ =1
i i
28.300 – 15 ⋅ 14,333 ⋅ 113,333
s xy = - = ---------------------------------------------------------------------------------- = 280,952
-------------------------------------- s xy = - = ---------------------------------------------------------------------------------- = 280,952
--------------------------------------
n–1 14 n–1 14

Los parámetros de la recta de regresión son: Los parámetros de la recta de regresión son:

s xy 280,952 s xy 280,952
β̂ 1 = ------2 = ---------------------- = 8,104 β̂ 1 = ------2 = ---------------------- = 8,104
sx 34,667 sx 34,667

β̂ 0 = y – β̂ 1 x = 113,333 – 8,104 ⋅ 14,333 = – 2 ,829 β̂ 0 = y – β̂ 1 x = 113,333 – 8,104 ⋅ 14,333 = – 2 ,829

La recta de regresión obtenida es: La recta de regresión obtenida es:

ŷ = β̂ 0 + β̂ 1 x = – 2 ,829 + 8,104x ŷ = β̂ 0 + β̂ 1 x = – 2 ,829 + 8,104x

b) Para un centro con diecisiete comerciales, podemos estimar las ventas de b) Para un centro con diecisiete comerciales, podemos estimar las ventas de
aparatos de DVD mediante la recta de regresión obtenida: aparatos de DVD mediante la recta de regresión obtenida:

ŷ = β̂ 0 + β̂ 1 x = – 2 ,829 + 8,104 ⋅ 17 = 134,939 ŷ = β̂ 0 + β̂ 1 x = – 2 ,829 + 8,104 ⋅ 17 = 134,939

Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi- Por tanto, en un centro con diecisiete comerciales se habrán vendido aproxi-
madamente unos 135 aparatos. madamente unos 135 aparatos.
 FUOC • P03/75057/01013 20 Regresión lineal simple  FUOC • P03/75057/01013 20 Regresión lineal simple

Anexos Anexos

Anexo 1 Anexo 1

Resolución del sistema de ecuaciones normales: Resolución del sistema de ecuaciones normales:

 n  n
 ∑ ( yi – β 0 – β1 xi ) = 0  ∑ ( yi – β 0 – β1 xi ) = 0
 
 i=1
 i=1
 n
 n
 ∑ ( y i – β 0 – β 1 xi )xi = 0  ∑ ( y i – β 0 – β 1 xi )xi = 0
 i=1  i=1

A partir de la primera ecuación del sistema: A partir de la primera ecuación del sistema:

n n n n n n n n

∑ yi – β0 – β1 xi = ∑ yi – ∑ β0 – ∑ β1 xi = ny – nβ 0 – nβ 1 x = 0 ∑ yi – β0 – β1 xi = ∑ yi – ∑ β0 – ∑ β1 xi = ny – nβ 0 – nβ 1 x = 0
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

Dividiendo por n: y = β 0 + β 1 x y aislando la β 0 : β 0 = y – β 1 x Dividiendo por n: y = β 0 + β 1 x y aislando la β 0 : β 0 = y – β 1 x

De la segunda ecuación del sistema: De la segunda ecuación del sistema:

n n n n n n n n n n n n
2 2 2 2
∑ ( y i – β0 – β1 xi )xi = ∑ x i yi – ∑ β0 xi – ∑ β 1 xi = ∑ x i y i – nβ0 x – β1 ∑ xi = 0 ∑ ( y i – β0 – β1 xi )xi = ∑ x i yi – ∑ β0 xi – ∑ β 1 xi = ∑ x i y i – nβ0 x – β1 ∑ xi = 0
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n n n
2 2
∑ x i y i = nβ 0 x + β 1 ∑ x i , pero tenemos en cuenta que: β 0 = y – β 1 x ∑ x i y i = nβ 0 x + β 1 ∑ x i , pero tenemos en cuenta que: β 0 = y – β 1 x
i=1 i=1 i=1 i=1

n n n n n n
2 2 2 2 2 2
entonces ∑ x i yi = n ( y – β 1 x )x + β 1 ∑ x i = nxy – β 1 nx + β 1 ∑ x i entonces ∑ x i yi = n ( y – β 1 x )x + β 1 ∑ x i = nxy – β 1 nx + β 1 ∑ x i
i=1 i=1 i=1 i=1 i=1 i=1

Aislando β 1 : Aislando β 1 :

n n

∑ x i y i – nxy ∑ x i y i – nxy
=1 =1
β 1 = i---------------------------------
n β 1 = i---------------------------------
n
2 2 2 2
∑ xi – nx ∑ xi – nx
i=1 i=1

podemos dar una expresión equivalente a partir de la definición de varianza podemos dar una expresión equivalente a partir de la definición de varianza
muestral: muestral:

n n
2 2
∑ ( xi – x ) ∑ ( xi – x )
2 i=1 2 =1
sx = ----------------------------
- s x = i----------------------------
-
n–1 n–1

n n n n n n n n
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
sx ( n – 1 ) = ∑ ( xi – x ) = ∑ ( xi – 2x i x + x ) = ∑ xi – 2nx + nx = ∑ xi – nx sx ( n – 1 ) = ∑ ( xi – x ) = ∑ ( xi – 2x i x + x ) = ∑ xi – 2nx + nx = ∑ xi – nx
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1
 FUOC • P03/75057/01013 21 Regresión lineal simple  FUOC • P03/75057/01013 21 Regresión lineal simple

y de la definición de covarianza muestral: y de la definición de covarianza muestral:

n n

∑ ( xi – x ) ( yi – y ) ∑ ( xi – x ) ( yi – y )
=1 =1
s xy = i--------------------------------------------
- s xy = i--------------------------------------------
-
n–1 n–1

n n n n n n n n
s xy ( n – 1 ) = ∑ ( xi – x ) ( y i – y ) = ∑ xi y i – x ∑ yi – y ∑ x i + nxy = s xy ( n – 1 ) = ∑ ( xi – x ) ( y i – y ) = ∑ xi y i – x ∑ y i – y ∑ x i + nxy =
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n n n
= ∑ xi y i – nxy – nyx + nxy = ∑ xi y i – nxy = ∑ xi y i – nxy – nyx + nxy = ∑ xi y i – nxy
i=1 i=1 i=1 i=1

Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme- Teniendo en cuenta la varianza y la covarianza, podemos expresar los paráme-
tros de la recta de regresión de la manera siguiente: tros de la recta de regresión de la manera siguiente:
s xy s xy
β̂ 1 = ------2 i β 0 = y – β1 x β̂ 1 = ------2 i β 0 = y – β1 x
sx sx

Anexo 2 Anexo 2

Varianza muestral: Varianza muestral:

Podemos deducir a partir de la fórmula de su definición: Podemos deducir a partir de la fórmula de su definición:

n n
2 2
∑ ( xi – x ) ∑ ( xi – x )
2 i=1 2 =1
sx = ----------------------------
- sx = i----------------------------
-
n–1 n–1

una expresión equivalente desarrollando el cuadrado del numerador: una expresión equivalente desarrollando el cuadrado del numerador:

n n n n n n n n n n
2 2 2 2 2 2 2 2 2 2
∑ ( xi – x ) = ∑ ( xi – 2x i x + x ) = ∑ xi – ∑ 2xx i + ∑ ( x ) = ∑ ( xi – x ) = ∑ ( xi – 2x i x + x ) = ∑ xi – ∑ 2xx i + ∑ ( x ) =
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n n n n n n n
x i – 2xnx + n ( x ) =  ∑ x i  – n ( x ) x i – 2xnx + n ( x ) =  ∑ x i  – n ( x )
2 2 2 2 2 2 2 2 2 2 2 2
= ∑ x i – 2x ∑ x i + n ( x ) = ∑  
= ∑ x i – 2x ∑ x i + n ( x ) = ∑  
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

De manera que: De manera que:

 n x 2 – n ( x ) 2  n x 2 – n ( x ) 2
 i∑ =1
i  i∑ =1
i
2 2
s x = --------------------------------------- s x = ---------------------------------------
n–1 n–1

Anexo 3 Anexo 3

Covarianza muestral: Covarianza muestral:

A partir de la definición de la covarianza: A partir de la definición de la covarianza:

n n

∑ ( xi – x ) ( yi – y ) ∑ ( xi – x ) ( yi – y )
=1 =1
s xy = i--------------------------------------------
- s xy = i--------------------------------------------
-
n–1 n–1
 FUOC • P03/75057/01013 22 Regresión lineal simple  FUOC • P03/75057/01013 22 Regresión lineal simple

si desarrollamos el producto del sumatorio del numerador: si desarrollamos el producto del sumatorio del numerador:

n n n n n n n n n n n n

∑ ( xi – x )( yi – y ) = ∑ ( xi y i – xi y – xy i + xy ) = ∑ xi y i – ∑ xi y – ∑ xyi + ∑ xy = ∑ ( xi – x )( yi – y ) = ∑ ( xi y i – xi y – xy i + xy ) = ∑ xi y i – ∑ xi y – ∑ xyi + ∑ xy =
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n n n n n n n
= ∑ xi y i – y ∑ x i – x ∑ y i + xyn =  ∑ x i y i – nxy = ∑ xi y i – y ∑ x i – x ∑ y i + xyn =  ∑ x i y i – nxy
   
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

De manera que: De manera que:

 n x y  – nxy  n x y  – nxy
 i∑ =1
i i  i∑ =1
i i

s xy = --------------------------------------- s xy = ---------------------------------------
n–1 n–1
 FUOC • P03/75057/01013 23 Regresión lineal simple  FUOC • P03/75057/01013 23 Regresión lineal simple

La calidad del ajuste La calidad del ajuste

1. Introducción 1. Introducción

La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra- La recta de regresión por mínimos cuadrados minimiza la suma de los cuadra-
dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno. dos de los residuos. Ahora nos preguntamos si este ajuste es lo bastante bueno.
Mirando si en el diagrama de dispersión los puntos experimentales quedan Mirando si en el diagrama de dispersión los puntos experimentales quedan
muy cerca de la recta de regresión obtenida, podemos tener una idea de si la muy cerca de la recta de regresión obtenida, podemos tener una idea de si la
recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos recta se ajusta o no a los datos, pero nos hace falta un valor numérico que nos
ayude a precisarlo. ayude a precisarlo.

2. El coeficiente de determinación, R2 2. El coeficiente de determinación, R2

Queremos evaluar en qué grado el modelo de regresión lineal que hemos en- Queremos evaluar en qué grado el modelo de regresión lineal que hemos en-
contrado a partir de un conjunto de observaciones explica las variaciones que contrado a partir de un conjunto de observaciones explica las variaciones que
se producen en la variable dependiente de éstas. se producen en la variable dependiente de éstas.

La medida más importante de la bondad del ajuste es el coeficiente de La medida más importante de la bondad del ajuste es el coeficiente de
determinación R2. Este coeficiente nos indica el grado de ajuste de la determinación R2. Este coeficiente nos indica el grado de ajuste de la
Notación Notación
recta de regresión a los valores de la muestra, y se define como la pro- recta de regresión a los valores de la muestra, y se define como la pro-
La varianza explicada por la La varianza explicada por la
porción de varianza explicada por la recta de regresión, es decir: recta de regresión es la varian- porción de varianza explicada por la recta de regresión, es decir: recta de regresión es la varian-
za de los valores estimados ŷ i . za de los valores estimados ŷ i .
2 Varianza explicada por la recta de regresión La varianza total de los datos es 2 Varianza explicada por la recta de regresión La varianza total de los datos es
R = ------------------------------------------------------------------------------------------------------------------------- la varianza de los valores obser- R = ------------------------------------------------------------------------------------------------------------------------- la varianza de los valores obser-
Varianza total de los datos Varianza total de los datos
vados yi. vados yi.

Buscaremos una expresión que nos permita calcular el coeficiente de determi- Buscaremos una expresión que nos permita calcular el coeficiente de determi-
nación. Veremos que la varianza de las observaciones se puede descomponer en nación. Veremos que la varianza de las observaciones se puede descomponer en
dos términos: la varianza que queda explicada por el modelo de regresión lineal dos términos: la varianza que queda explicada por el modelo de regresión lineal
y una varianza debida a los residuos. y una varianza debida a los residuos.

A partir de la definición de residuos (ei) de la regresión como la diferencia entre A partir de la definición de residuos (ei) de la regresión como la diferencia entre
Notación Notación
los valores observados (yi) y los valores estimados ( ŷ i ) por la recta de regresión: los valores observados (yi) y los valores estimados ( ŷ i ) por la recta de regresión:
Llamaremos indistintamente Llamaremos indistintamente
valores estimados o valores pre- valores estimados o valores pre-
ei = yi − ŷ i , dichos ( ŷ i ) a los obtenidos me- ei = yi − ŷ i , dichos ( ŷ i ) a los obtenidos me-
diante la recta de regresión. diante la recta de regresión.

podemos escribir: podemos escribir:

yi = ŷ i + ei. yi = ŷ i + ei.

Si ahora restamos a los dos miembros de esta igualdad la media de las obser- Si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con
 FUOC • P03/75057/01013 24 Regresión lineal simple  FUOC • P03/75057/01013 24 Regresión lineal simple

respecto a la media de las observaciones con las desviaciones con respecto a la respecto a la media de las observaciones con las desviaciones con respecto a la
media de los valores estimados. media de los valores estimados.

y i – y = ( ŷ i – y ) + e i y i – y = ( ŷ i – y ) + e i

Representaremos gráficamente las desviaciones con respecto a la media, las ob- Representaremos gráficamente las desviaciones con respecto a la media, las ob-
servaciones y los valores estimados con la recta de regresión. servaciones y los valores estimados con la recta de regresión.

Observación Observación

La recta de regresión pasa La recta de regresión pasa


por ( x , y ). por ( x , y ).

Elevando al cuadrado y sumando todos los valores, se puede demostrar que: Esta deducción matemática se Elevando al cuadrado y sumando todos los valores, se puede demostrar que: Esta deducción matemática se
encuentra desarrollada en el anexo 1 encuentra desarrollada en el anexo 1
de esta sesión. de esta sesión.
n n n n n n
2 2 2 2 2 2
∑ ( yi – y ) = ∑ ( ŷ i – y ) + ∑ ei ∑ ( yi – y ) = ∑ ( ŷ i – y ) + ∑ ei
i=1 i=1 i=1 i=1 i=1 i=1

Dando nombres a estas cantidades, podemos escribir de una manera más com- Dando nombres a estas cantidades, podemos escribir de una manera más com-
pacta esta expresión: pacta esta expresión:

n n
2 2
∑ ( yi – y ) = SCT Suma de cuadrados totales ∑ ( yi – y ) = SCT Suma de cuadrados totales
i=1 i=1

n n
2 2
∑ ( ŷ i – y ) = SCR Suma de cuadrados de la regresión ∑ ( ŷ i – y ) = SCR Suma de cuadrados de la regresión
i=1 i=1

n n
2 2
∑ ei = SCE Suma de cuadrados de los errores ∑ ei = SCE Suma de cuadrados de los errores
i=1 i=1

Así, tenemos que: Así, tenemos que:

SCT = SCR + SCE SCT = SCR + SCE


 FUOC • P03/75057/01013 25 Regresión lineal simple  FUOC • P03/75057/01013 25 Regresión lineal simple

Podemos interpretar esta última expresión en el sentido de que la varianza total Podemos interpretar esta última expresión en el sentido de que la varianza total
observada (SCT) en la variable Y se descompone en dos términos: la varianza observada (SCT) en la variable Y se descompone en dos términos: la varianza
explicada por el modelo de regresión lineal (SCR) más la varianza que no que- explicada por el modelo de regresión lineal (SCR) más la varianza que no que-
da explicada por el modelo, es decir, la varianza de los residuos (SCE). da explicada por el modelo, es decir, la varianza de los residuos (SCE).

Entonces podemos escribir la definición del coeficiente de determina- Entonces podemos escribir la definición del coeficiente de determina-
ción de esta manera: ción de esta manera:

n n
2 2
∑ ( ŷ i – y ) ∑ ( ŷ i – y )
2 SCR =1 2 SCR =1
R = ----------- = i---------------------------- R = ----------- = i----------------------------
SCT n
2 SCT n
2
∑ ( yi – y ) ∑ ( yi – y )
i=1 i=1

o también, o también,

n n
2 2
∑ ei ∑ ei
2 SCE i=1 2 SCE i=1
R = 1 – ----------- = 1 – ---------------------------- . R = 1 – ----------- = 1 – ---------------------------- .
SCT n
2 SCT n
2
∑ ( yi – y ) ∑ ( yi – y )
i=1 i=1

Observando estas expresiones, es fácil apreciar las características de este coefi- Observando estas expresiones, es fácil apreciar las características de este coefi-
2 2
ciente. Siempre será: 0 ≤ R ≤ 1 , de manera que: ciente. Siempre será: 0 ≤ R ≤ 1 , de manera que:

• R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se en- • R2 = 1 cuando el ajuste es perfecto, es decir, cuando todos los puntos se en-
Observación Observación
cuentran sobre la recta de regresión. En este caso los residuos son cero y la cuentran sobre la recta de regresión. En este caso los residuos son cero y la
suma de sus cuadrados también y, por tanto, SCR = SCT. Un coeficiente de determina- suma de sus cuadrados también y, por tanto, SCR = SCT. Un coeficiente de determina-
ción diferente de cero no signi- ción diferente de cero no signi-
fica que haya relación lineal fica que haya relación lineal
• R2 = 0 denota la inexistencia de relación entre las variables X e Y. En este caso entre las variables. Por ejem- • R2 = 0 denota la inexistencia de relación entre las variables X e Y. En este caso entre las variables. Por ejem-
plo, R2 = 0,5 sólo nos dice que plo, R2 = 0,5 sólo nos dice que
la suma de residuos es máxima y tenemos que SCE = SCT. el 50% de la varianza de las la suma de residuos es máxima y tenemos que SCE = SCT. el 50% de la varianza de las
observaciones queda explica- observaciones queda explica-
do por el modelo lineal. do por el modelo lineal.
• Puesto que R2 nos explica la proporción de variabilidad de los datos que que- • Puesto que R2 nos explica la proporción de variabilidad de los datos que que-
da explicada por el modelo de regresión, cuanto más cercano a la unidad es- da explicada por el modelo de regresión, cuanto más cercano a la unidad es-
té, mejor es el ajuste. té, mejor es el ajuste.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de Consideremos las observaciones de los pesos (kg) y las alturas (cm) de un conjunto de
diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene diez personas: el individuo 1 tiene 161 cm de altura y 63 kg de peso, el individuo 2 tiene
152 cm de altura y 56 kg de peso, etc. 152 cm de altura y 56 kg de peso, etc.

Individuos (y) 1 2 3 4 5 6 7 8 9 10 Individuos (y) 1 2 3 4 5 6 7 8 9 10

Altura (xi) 161 152 167 153 161 168 167 153 159 173 Altura (xi) 161 152 167 153 161 168 167 153 159 173

Peso (yi) 63 56 77 49 72 62 68 48 57 67 Peso (yi) 63 56 77 49 72 62 68 48 57 67

A partir de la recta de regresión: A partir de la recta de regresión:

ŷ = –96,1121 + 0,979009x, ŷ = –96,1121 + 0,979009x,


 FUOC • P03/75057/01013 26 Regresión lineal simple  FUOC • P03/75057/01013 26 Regresión lineal simple

podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi- podemos calcular los valores estimados y los residuos. Es muy conveniente, por comodi-
dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos dad, disponer de los datos y los cálculos en forma de tabla; en concreto, construiremos
una tabla de cálculos del coeficiente de determinación: una tabla de cálculos del coeficiente de determinación:

2 2
yˆi – y ( yˆi – y ) yˆi – y ( yˆi – y )
2 2 2 2
i xi yi ŷ i yi – y ( yi – y ) ei ei i xi yi ŷ i yi – y ( yi – y ) ei ei

1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23 1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23

2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91 2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91

3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50 3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50

4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87 4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87

5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07 5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07

6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47 6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47

7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38 7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38

8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22 8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22

9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50 9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50

10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14 10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14

Σ 619 812,90 456,61 356,29 Σ 619 812,90 456,61 356,29

Tenemos que: Tenemos que:

SCR = 456,61 SCR = 456,61

SCT = 812,90 SCT = 812,90

Por tanto, tenemos un coeficiente de determinación: Por tanto, tenemos un coeficiente de determinación:

R2 = 456,61 / 812,90 = 0,5617 R2 = 456,61 / 812,90 = 0,5617

Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni- Con este ejemplo podemos comprobar la equivalencia entre las dos expresiones obteni-
das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de los das antes por el coeficiente de determinación. A partir de la suma de los cuadrados de los
residuos: residuos:

SCE = 356,29 SCE = 356,29

tenemos para el coeficiente de determinación: tenemos para el coeficiente de determinación:

R2 = 1 – ( 356,29 / 812,90 ) = 1 – 0,4383 = 0,5617 R2 = 1 – ( 356,29 / 812,90 ) = 1 – 0,4383 = 0,5617

Evidentemente, coinciden los resultados. Evidentemente, coinciden los resultados.

Hemos obtenido un coeficiente de determinación R2 = 0,5617 que nos informa de que el Hemos obtenido un coeficiente de determinación R2 = 0,5617 que nos informa de que el
modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones. modelo de regresión lineal sólo nos explica el 56,17% de la varianza de las observaciones.

3. El coeficiente de correlación muestral, r 3. El coeficiente de correlación muestral, r

A partir del diagrama de dispersión podemos ver si hay algún tipo de relación A partir del diagrama de dispersión podemos ver si hay algún tipo de relación
entre dos variables X e Y. entre dos variables X e Y.

Se suele decir que X e Y tienen una relación positiva si los valores Se suele decir que X e Y tienen una relación positiva si los valores
grandes de X están aparejados con valores grandes de Y y valores pe- grandes de X están aparejados con valores grandes de Y y valores pe-
queños de X, con valores pequeños de Y. De manera análoga, se dice queños de X, con valores pequeños de Y. De manera análoga, se dice
que X e Y tienen una relación negativa si los valores grandes de X es- que X e Y tienen una relación negativa si los valores grandes de X es-
tán aparejados con los valores pequeños de Y y los pequeños de X, con tán aparejados con los valores pequeños de Y y los pequeños de X, con
grandes de Y. grandes de Y.
 FUOC • P03/75057/01013 27 Regresión lineal simple  FUOC • P03/75057/01013 27 Regresión lineal simple

Ahora queremos medir estas relaciones de forma numérica. La covarianza mues- Ahora queremos medir estas relaciones de forma numérica. La covarianza mues-
tral entre dos variables X e Y: tral entre dos variables X e Y:

n n

∑ ( xi – x )( yi – y ) ∑ ( xi – x )( yi – y )
s xy = =1
i--------------------------------------------
-W s xy = =1
i--------------------------------------------
-W
n–1 n–1

nos puede servir para medir estas relaciones positivas y negativas entre las va- nos puede servir para medir estas relaciones positivas y negativas entre las va-
riables X e Y. riables X e Y.

• Si tenemos una relación positiva, entonces la mayoría de los puntos de co- Observad la figura de los ejemplos • Si tenemos una relación positiva, entonces la mayoría de los puntos de co- Observad la figura de los ejemplos
de diagramas de dispersión en el de diagramas de dispersión en el
ordenadas ( ( x i – x ), ( y i – y ) ) estarán en el primer y tercer cuadrante en que apartado 3 de la sesión “El modelo ordenadas ( ( x i – x ), ( y i – y ) ) estarán en el primer y tercer cuadrante en que apartado 3 de la sesión “El modelo
de regresión simple” de este módulo. de regresión simple” de este módulo.
( x i – x ) ( y i – y ) ≥ 0 , de manera que contribuirán de forma positiva a la suma. ( x i – x ) ( y i – y ) ≥ 0 , de manera que contribuirán de forma positiva a la suma.

Esquema de relaciones Esquema de relaciones


• Si tenemos una relación negativa, entonces la mayoría de los puntos de co- entre X e Y • Si tenemos una relación negativa, entonces la mayoría de los puntos de co- entre X e Y

ordenadas ( ( x i – x ) , ( y i – y ) ) estarán en el segundo y cuarto cuadrante, en los ordenadas ( ( x i – x ) , ( y i – y ) ) estarán en el segundo y cuarto cuadrante, en los
que ( x i – x ) ( y i – y ) ≤ 0 , de manera que contribuirán de forma negativa a la que ( x i – x ) ( y i – y ) ≤ 0 , de manera que contribuirán de forma negativa a la
suma. suma.

• Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la • Si, por el contrario, no existe ningún tipo de relación positiva o negativa, la
covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi- covarianza será una cantidad pequeña al encontrarse todos los puntos aproxi-
madamente igual repartidos por los cuatro cuadrantes, cosa que compensa madamente igual repartidos por los cuatro cuadrantes, cosa que compensa
de forma aproximada las cantidades positivas y negativas del sumatorio. de forma aproximada las cantidades positivas y negativas del sumatorio.

La covarianza presenta el gran inconveniente de depender de las unidades de La covarianza presenta el gran inconveniente de depender de las unidades de
las variables que estudiamos. las variables que estudiamos.

Unidades del coeficiente Unidades del coeficiente


Definimos el coeficiente de correlación muestral como: de correlación muestral Definimos el coeficiente de correlación muestral como: de correlación muestral

Al dividir la covarianza por las Al dividir la covarianza por las


n desviaciones típicas de X y n desviaciones típicas de X y

s xy
∑ ( xi – x )( yi – y ) de Y, hemos conseguido una
medida adimensional que no s xy
∑ ( xi – x )( yi – y ) de Y, hemos conseguido una
medida adimensional que no
i =1 i =1
r = --------- = -------------------------------------------------------------- depende de las unidades de r = --------- = -------------------------------------------------------------- depende de las unidades de
s x sy n n s x sy n n
2 2 las variables. 2 2 las variables.
∑ ( x i – x ) ∑ (yi – y ) ∑ ( x i – x ) ∑ (yi – y )
i=1 i=1 i=1 i=1

El coeficiente de correlación se caracteriza por – 1 ≤ r ≤ 1 , de manera que: El coeficiente de correlación se caracteriza por – 1 ≤ r ≤ 1 , de manera que:

• r = 1 o r = −1 cuando haya una asociación lineal exacta entre las variables • r = 1 o r = −1 cuando haya una asociación lineal exacta entre las variables
(en el primer caso positiva y en el segundo, negativa). (en el primer caso positiva y en el segundo, negativa).

• – 1 < r < 1 cuando la relación entre las variables no sea lineal de forma exacta. • – 1 < r < 1 cuando la relación entre las variables no sea lineal de forma exacta.

• Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué • Para los otros valores siempre se formula la misma pregunta: ¿a partir de qué
valor de r podemos decir que la relación entre las variables es fuerte? Una re- valor de r podemos decir que la relación entre las variables es fuerte? Una re-
gla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte si 0,8 < gla razonable es decir que la relación es débil si 0 < | r | < 0,5; fuerte si 0,8 <
| r | < 1, y moderada si tiene otro valor. | r | < 1, y moderada si tiene otro valor.
 FUOC • P03/75057/01013 28 Regresión lineal simple  FUOC • P03/75057/01013 28 Regresión lineal simple

Para calcular el coeficiente de correlación muestral, podemos utilizar la misma Para calcular el coeficiente de correlación muestral, podemos utilizar la misma
tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con el tabla de cálculos que para obtener la recta de regresión. Lo ilustraremos con el
ejemplo de las alturas y los pesos. ejemplo de las alturas y los pesos.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente Consideremos de nuevo el ejemplo de los pesos y las alturas. Buscaremos el coeficiente
de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales. de correlación. Antes tendremos que calcular la covarianza y las varianzas muestrales.

2 2 2 2
i xi yi x – xi y – yi ( x – xi ) (y – yi ) ( x – xi ) ( y – yi ) i xi yi x – xi y – yi ( x – xi ) (y – yi ) ( x – xi ) ( y – yi )

1 161 63 0,4 –1,1 0,16 1,21 –0,44 1 161 63 0,4 –1,1 0,16 1,21 –0,44

2 152 56 9,4 5,9 88,36 34,81 55,46 2 152 56 9,4 5,9 88,36 34,81 55,46

3 167 77 –5,6 –15,1 31,36 228,01 84,56 3 167 77 –5,6 –15,1 31,36 228,01 84,56

4 153 49 8,4 12,9 70,56 166,41 108,36 4 153 49 8,4 12,9 70,56 166,41 108,36

5 161 72 0,4 –10,1 0,16 102,01 –4,04 5 161 72 0,4 –10,1 0,16 102,01 –4,04

6 168 62 –6,6 –0,1 43,56 0,01 0,66 6 168 62 –6,6 –0,1 43,56 0,01 0,66

7 167 68 –5,6 –6,1 31,36 37,21 34,16 7 167 68 –5,6 –6,1 31,36 37,21 34,16

8 153 48 8,4 13,9 70,56 193,21 116,76 8 153 48 8,4 13,9 70,56 193,21 116,76

9 159 57 2,4 4,9 5,76 24,01 11,76 9 159 57 2,4 4,9 5,76 24,01 11,76

10 173 67 –11,6 –5,1 134,56 26,01 59,16 10 173 67 –11,6 –5,1 134,56 26,01 59,16

Σ 1.614 619 476,40 812,90 466,40 Σ 1.614 619 476,40 812,90 466,40

n n

∑ ( xi – x ) ( yi – y ) 466,40
∑ ( xi – x ) ( yi – y ) 466,40
=1 =1
s xy = i--------------------------------------------
- = ------------------- = 51,822 s xy = i--------------------------------------------
- = ------------------- = 51,822
n–1 10 – 1 n–1 10 – 1

n n

∑ ( xi – x ) ∑ ( xi – x )
2 2

2 =1 476,40 2 =1 476,40
s x = i----------------------------
- = ------------------- = 52,933 de manera que sx = 7,276 s x = i----------------------------
- = ------------------- = 52,933 de manera que sx = 7,276
n–1 10 – 1 n–1 10 – 1

n n

∑ ( yi – y ) ∑ ( yi – y )
2 2

2 =1 812,90 2 =1 812,90
s = i----------------------------
y = ------------------- = 90,322 de manera que sy = 9,504 s = i----------------------------
y = ------------------- = 90,322 de manera que sy = 9,504
n–1 10 – 1 n–1 10 – 1

s xy 51,822 s xy 51,822
r = --------- = ------------------------------------ = 0,749 r = --------- = ------------------------------------ = 0,749
sx s y 7,276 ⋅ 9,504 sx s y 7,276 ⋅ 9,504

El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r = El coeficiente de correlación lineal obtenido por nuestro ejemplo del peso y la altura es r =
0,749, que nos informa de la existencia de una moderada relación entre estas dos variables, 0,749, que nos informa de la existencia de una moderada relación entre estas dos variables,
así como de que, a medida que la altura crece, el peso también lo hace (ya que es positivo). así como de que, a medida que la altura crece, el peso también lo hace (ya que es positivo).

4. Relación entre R2 y r 4. Relación entre R2 y r

Es muy importante tener clara la diferencia entre el coeficiente de correlación Es muy importante tener clara la diferencia entre el coeficiente de correlación
y el coeficiente de determinación: y el coeficiente de determinación:

• R2: mide la proporción de variación de la variable dependiente explicada • R2: mide la proporción de variación de la variable dependiente explicada
por la variable independiente. por la variable independiente.

• r: mide el grado de asociación entre las dos variables. • r: mide el grado de asociación entre las dos variables.
 FUOC • P03/75057/01013 29 Regresión lineal simple  FUOC • P03/75057/01013 29 Regresión lineal simple

No obstante, en la regresión lineal simple tenemos que R2 = r2, como fácilmen- No obstante, en la regresión lineal simple tenemos que R2 = r2, como fácilmen-
Observación Observación
te podemos comprobar. te podemos comprobar.
En la regresión lineal múltiple En la regresión lineal múltiple
ya no tendremos la igualdad ya no tendremos la igualdad
Comprobación de que en regresión lineal simple R2 = r2 R2 = r2. Comprobación de que en regresión lineal simple R2 = r2 R2 = r2.

A partir de la ecuación del coeficiente de correlación: A partir de la ecuación del coeficiente de correlación:

s xy s xy
r = --------- r = ---------
sx s y sx s y

y de la ecuación de la pendiente de la recta de regresión: y de la ecuación de la pendiente de la recta de regresión:

s xy s xy
β̂ 1 = ------2 β̂ 1 = ------2
sx sx

tenemos la relación siguiente: tenemos la relación siguiente:

s s
β̂ 1 = r ----y β̂ 1 = r ----y
sx sx

Por otra parte, tenemos el otro parámetro de la recta de regresión: β̂ 0 = y – β̂ 1 x y la ecua- Por otra parte, tenemos el otro parámetro de la recta de regresión: β̂ 0 = y – β̂ 1 x y la ecua-
ción de los valores estimados: ŷ i = β̂ 0 + β̂ 1 x i . De estas dos expresiones podemos escribir: ción de los valores estimados: ŷ i = β̂ 0 + β̂ 1 x i . De estas dos expresiones podemos escribir:

ŷ i – y = β̂ 0 + β̂ 1 x i – y = y – β̂ 1 x + β̂ 1 x i – y = β̂ 1 ( x i – x ) ŷ i – y = β̂ 0 + β̂ 1 x i – y = y – β̂ 1 x + β̂ 1 x i – y = β̂ 1 ( x i – x )

Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir Aplicando todas estas relaciones a la ecuación del coeficiente de determinación, y a partir
de la definición de varianza muestral, tenemos: de la definición de varianza muestral, tenemos:

sy ∑ ( xi – x ) sy ∑ ( xi – x )
2 2
2 2

∑ ( ŷi – y ) ∑ ( ŷi – y )
2 2 2 2
2 ∑ (xi – x ) 2 ∑ (xi – x )
2 2
r ----2 ---------------------------2 r ----2 ---------------------------2
2
R = --------------------------2- = β̂ 1 ---------------------------2 = s x ∑ ( yi – y ) = r
2 2
R = --------------------------2- = β̂ 1 ---------------------------2 = s x ∑ ( yi – y ) = r
2

∑ ( yi – y ) ∑ ( yi – y ) ∑ ( yi – y ) ∑ ( yi – y )













1 1

Esta relación nos ayuda a comprender por qué antes considerábamos que un Esta relación nos ayuda a comprender por qué antes considerábamos que un
2
valor de r = 0,5 era débil. Este valor representará un R = 0,25, es decir, el mo- valor de r = 0,5 era débil. Este valor representará un R2 = 0,25, es decir, el mo-
delo de regresión sólo nos explica un 25% de la variabilidad total de las obser- delo de regresión sólo nos explica un 25% de la variabilidad total de las obser-
vaciones. vaciones.

También es importante tener presente que r nos da más información que R2. El También es importante tener presente que r nos da más información que R2. El
signo de r nos informa de si la relación es positiva o negativa. Así pues, con el signo de r nos informa de si la relación es positiva o negativa. Así pues, con el
2
valor de r siempre podremos calcular el valor de R , pero al revés siempre nos valor de r siempre podremos calcular el valor de R2, pero al revés siempre nos
quedará indeterminado el valor del signo a menos que conozcamos la pendien- quedará indeterminado el valor del signo a menos que conozcamos la pendien-
te de la recta. Por ejemplo, dado un R2 = 0,81, si sabemos que la pendiente de te de la recta. Por ejemplo, dado un R2 = 0,81, si sabemos que la pendiente de
la recta de regresión es negativa, entonces podremos afirmar que el coeficiente la recta de regresión es negativa, entonces podremos afirmar que el coeficiente
de correlación será r = −0,9. de correlación será r = −0,9.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de Podemos comprobar la relación entre el coeficiente de determinación y el coeficiente de
correlación con los resultados de nuestro ejemplo. correlación con los resultados de nuestro ejemplo.

Hemos obtenido: R2 = 0,5617 y r = 0,749. Hemos obtenido: R2 = 0,5617 y r = 0,749.

De manera que r2 = 0,7492 = 0,561. De manera que r2 = 0,7492 = 0,561.


 FUOC • P03/75057/01013 30 Regresión lineal simple  FUOC • P03/75057/01013 30 Regresión lineal simple

5. Diagnóstico de la regresión: análisis de los residuos 5. Diagnóstico de la regresión: análisis de los residuos

Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos mues- Una vez hecho el ajuste de un modelo de regresión lineal a nuestros datos mues-
trales, hay que efectuar el análisis de los residuos. trales, hay que efectuar el análisis de los residuos.

Este análisis, que a continuación comentaremos de forma breve y muy intui- Este análisis, que a continuación comentaremos de forma breve y muy intui-
tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión. tiva, nos servirá para hacer un diagnóstico de nuestro modelo de regresión.

El análisis de los residuos consiste en ver la distribución de los residuos. Esto El análisis de los residuos consiste en ver la distribución de los residuos. Esto
lo haremos gráficamente representando un diagrama de dispersión de los pun- lo haremos gráficamente representando un diagrama de dispersión de los pun-
tos ( ŷ i , ei), es decir, sobre el eje de las abscisas representamos el valor estimado tos ( ŷ i , ei), es decir, sobre el eje de las abscisas representamos el valor estimado
ŷ i y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, ei = ŷ i y sobre el eje de ordenadas, el valor correspondiente del residuo, es decir, ei =
= yi – ŷ i . Veamos un ejemplo: = yi – ŷ i . Veamos un ejemplo:

Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la Si el modelo lineal obtenido se ajusta bien a los datos muestrales, entonces la
nube de puntos ( ŷ i , ei) no debe mostrar ningún tipo de estructura. nube de puntos ( ŷ i , ei) no debe mostrar ningún tipo de estructura.

Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de Lo ilustraremos con un ejemplo ya clásico en la bibliografía: el ejemplo de
Lectura complementaria Lectura complementaria
Anscombe (1973). A partir de las tablas de datos que se muestran a continua- Anscombe (1973). A partir de las tablas de datos que se muestran a continua-
Encontraréis el ejemplo Encontraréis el ejemplo
ción discutiremos cuatro casos: de Anscombe en el artículo ción discutiremos cuatro casos: de Anscombe en el artículo
siguiente: siguiente:
T.W. Anscombe (1973). T.W. Anscombe (1973).
“Graphs in Statistical “Graphs in Statistical
Caso (a) Caso (b) Caso (c) Caso (d) Caso (a) Caso (b) Caso (c) Caso (d)
Analysis”. The American Analysis”. The American
Statistician (núm. 27, Statistician (núm. 27,
X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d) X(a) Y(a) X(b) Y(b) X(c) Y(c) X(d) Y(d)
pág. 17-21). pág. 17-21).
10 8,04 10 9,14 10 7,46 8 6,58 10 8,04 10 9,14 10 7,46 8 6,58

8 6,95 8 8,14 8 6,77 8 5,76 8 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,74 8 7,71 13 7,58 13 8,74 13 12,74 8 7,71

9 8,81 9 8,77 9 7,11 8 8,84 9 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,47 11 8,33 11 9,26 11 7,81 8 8,47

14 9,96 14 8,10 14 8,84 8 7,04 14 9,96 14 8,10 14 8,84 8 7,04

6 7,24 6 6,13 6 6,08 8 5,25 6 7,24 6 6,13 6 6,08 8 5,25

4 4,26 4 3,10 4 5,39 19 12,50 4 4,26 4 3,10 4 5,39 19 12,50

12 10,84 12 9,13 12 8,15 8 5,56 12 10,84 12 9,13 12 8,15 8 5,56

7 4,82 7 7,26 7 6,42 8 7,91 7 4,82 7 7,26 7 6,42 8 7,91

5 5,68 5 4,74 5 5,73 8 6,89 5 5,68 5 4,74 5 5,73 8 6,89


 FUOC • P03/75057/01013 31 Regresión lineal simple  FUOC • P03/75057/01013 31 Regresión lineal simple

Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión Dibujaremos a continuación el diagrama de dispersión y las rectas de regresión
en el ejemplo de Anscombe. en el ejemplo de Anscombe.

Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma Si hacemos la regresión de Y sobre X, en los cuatro casos obtenemos la misma
recta: recta:

ŷ = 3 + 0,5x ŷ = 3 + 0,5x

El coeficiente de correlación es el mismo para las cuatro con valor r = 0,82. El coeficiente de correlación es el mismo para las cuatro con valor r = 0,82.

Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te- Si ahora hacemos el estudio de los residuos tal como hemos indicado antes, te-
nemos la representación de los siguientes diagramas de residuos: nemos la representación de los siguientes diagramas de residuos:
 FUOC • P03/75057/01013 32 Regresión lineal simple  FUOC • P03/75057/01013 32 Regresión lineal simple

Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo Podemos observar que de las cuatro, sólo la primera no presenta ningún tipo
de estructura sobre la nube de puntos, de manera que sólo tendría sentido la de estructura sobre la nube de puntos, de manera que sólo tendría sentido la
regresión hecha sobre la muestra (a). regresión hecha sobre la muestra (a).

Consideremos a continuación el caso (b) del diagrama de dispersión. En éste se Consideremos a continuación el caso (b) del diagrama de dispersión. En éste se
observa un comportamiento curvilíneo que nos hace pensar que un ajuste li- observa un comportamiento curvilíneo que nos hace pensar que un ajuste li-
neal no sería el más conveniente. Esto se manifiesta de forma mucho más evi- neal no sería el más conveniente. Esto se manifiesta de forma mucho más evi-
dente en el diagrama de residuos. dente en el diagrama de residuos.

Si consideramos la muestra (c), en el diagrama de dispersión podemos observar Si consideramos la muestra (c), en el diagrama de dispersión podemos observar
la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un modelo la presencia del valor atípico (13, 12,74) que nos ha hecho ajustar un modelo
erróneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene- erróneo al resto de las observaciones, ya que si lo eliminamos, entonces obtene-
mos una recta de regresión diferente: mos una recta de regresión diferente:

ŷ = 4,01 + 0,345x. ŷ = 4,01 + 0,345x.

y un coeficiente de correlación r = 1. Podemos observar todos los puntos sobre y un coeficiente de correlación r = 1. Podemos observar todos los puntos sobre
la recta de regresión. la recta de regresión.

El diagrama de los residuos también nos sugiere un buen modelo de regresión El diagrama de los residuos también nos sugiere un buen modelo de regresión
para la muestra resultante de eliminar el valor atípico. A continuación repre- para la muestra resultante de eliminar el valor atípico. A continuación repre-
sentamos el diagrama de dispersión y el diagrama de residuos. sentamos el diagrama de dispersión y el diagrama de residuos.

Influencia de un valor Influencia de un valor


atípico atípico

En la muestra (c) hemos elimi- En la muestra (c) hemos elimi-


nado el valor atípico y hemos nado el valor atípico y hemos
representado de nuevo representado de nuevo
el diagrama de dispersión el diagrama de dispersión
y la recta de regresión 1 y el y la recta de regresión 1 y el
diagrama de residuos 2. diagrama de residuos 2.

Finalmente, en la muestra (d) la pendiente está determinada por un único va- Finalmente, en la muestra (d) la pendiente está determinada por un único va-
lor. Tampoco es un modelo demasiado fiable. lor. Tampoco es un modelo demasiado fiable.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pe- Un último ejemplo que todavía podemos examinar es el de la relación de las alturas y pe-
sos. A partir de los datos de la tabla ya vista: sos. A partir de los datos de la tabla ya vista:

2 2
yˆi – y ( yˆi – y ) yˆi – y ( yˆi – y )
2 2 2 2
i xi yi ŷ i yi – y ( yi – y ) ei ei i xi yi ŷ i yi – y ( yi – y ) ei ei

1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23 1 161 63 61,51 1,10 1,21 –0,39 0,15 1,49 2,23

2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91 2 152 56 52,70 –5,90 34,81 –9,20 84,69 3,30 10,91

3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50 3 167 77 67,38 15,10 228,01 5,48 30,06 9,62 92,50

4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87 4 153 49 53,68 –12,90 166,41 –8,22 67,63 –4,68 21,87

5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07 5 161 72 61,51 10,10 102,01 –0,39 0,15 10,49 110,07
 FUOC • P03/75057/01013 33 Regresión lineal simple  FUOC • P03/75057/01013 33 Regresión lineal simple

2 ˆ ˆ 2 2 2 ˆ ˆ 2 2
i xi yi ŷ i yi – y ( yi – y ) yi – y ( yi – y ) ei ei i xi yi ŷ i yi – y ( yi – y ) yi – y ( yi – y ) ei ei

6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47 6 168 62 68,36 0,10 0,01 6,46 41,75 –6,36 40,47

7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38 7 167 68 67,38 6,10 37,21 5,48 30,06 0,62 0,38

8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22 8 153 48 53,68 –13,90 193,21 –8,22 67,63 –5,68 32,22

9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50 9 159 57 59,55 –4,90 24,01 –2,35 5,52 –2,55 6,50

10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14 10 173 67 73,26 5,10 26,01 11,36 128,97 –6,26 39,14

Σ 61,9 812,90 456,61 356,29 Σ 61,9 812,90 456,61 356,29

es fácil representar el diagrama de residuos: es fácil representar el diagrama de residuos:

No podemos observar ningún tipo de estructura en la representación; por tanto, pode- No podemos observar ningún tipo de estructura en la representación; por tanto, pode-
mos concluir que el modelo de regresión obtenido es un buen modelo para explicar la mos concluir que el modelo de regresión obtenido es un buen modelo para explicar la
relación entre las dos variables. relación entre las dos variables.

6. Resumen 6. Resumen

En esta segunda sesión hemos introducido una medida numérica de la bondad En esta segunda sesión hemos introducido una medida numérica de la bondad
del ajuste de la recta de regresión en las observaciones. Esta medida se obtiene del ajuste de la recta de regresión en las observaciones. Esta medida se obtiene
2
con el coeficiente de determinación R . Se ha discutido la interpretación de los con el coeficiente de determinación R2. Se ha discutido la interpretación de los
valores que puede tomar. A continuación hemos visto el coeficiente de correla- valores que puede tomar. A continuación hemos visto el coeficiente de correla-
ción muestral, r, que nos mide el grado de asociación entre dos variables. Hemos ción muestral, r, que nos mide el grado de asociación entre dos variables. Hemos
2
comprobado que en la regresión lineal simple R y r coinciden. Finalmente, he- comprobado que en la regresión lineal simple R2 y r coinciden. Finalmente, he-
mos comentado la importancia de analizar los residuos para hacer un diagnós- mos comentado la importancia de analizar los residuos para hacer un diagnós-
tico del modelo lineal obtenido. tico del modelo lineal obtenido.
 FUOC • P03/75057/01013 34 Regresión lineal simple  FUOC • P03/75057/01013 34 Regresión lineal simple

Ejercicios Ejercicios

1. 1.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación en- Una tienda de ordenadores llevó a cabo un estudio para determinar la relación en-
tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes: tre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:

Gastos en publicidad Ventas Gastos en publicidad Ventas


× 1.000 €)
(× × 100.000 €)
(× × 1.000 €)
(× × 100.000 €)

40 380 40 380

25 410 25 410

20 390 20 390

22 370 22 370

31 475 31 475

52 450 52 450

40 500 40 500

20 390 20 390

55 575 55 575

42 520 42 520

Con estos datos se han obtenido las cantidades siguientes: Con estos datos se han obtenido las cantidades siguientes:

10 10 10 10 10 10

∑ xi = 347 ∑ yi = 4.460 ∑ ( xi – x )( yi – y ) = 6.018 ∑ xi = 347 ∑ yi = 4.460 ∑ ( xi – x )( yi – y ) = 6.018


i=1 i=1 i=1 i=1 i=1 i=1

10 10 10 10
2 2 2 2
∑ ( x i – x ) = 1.522,1 ∑ ( y i – y ) = 43.590,0 ∑ ( x i – x ) = 1.522,1 ∑ ( yi – y ) = 43.590,0
i=1 i=1 i=1 i=1

10 10
2 2
∑ ( ŷ i – y ) = 23.793,66 ∑ ( ŷ i – y ) = 23.793,66
i=1 i=1

Y la recta de regresión: ŷ = 308,88 + 3,95x. Y la recta de regresión: ŷ = 308,88 + 3,95x.

A partir de toda esta información, calculad el coeficiente de determinación y A partir de toda esta información, calculad el coeficiente de determinación y
el coeficiente de correlación. el coeficiente de correlación.

2. 2.
El departamento de personal de una empresa informática dedicada a la introduc- El departamento de personal de una empresa informática dedicada a la introduc-
ción de datos ha llavado a cabo un programa de formación inicial del personal. ción de datos ha llavado a cabo un programa de formación inicial del personal.
La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudian- La tabla siguiente indica el progreso obtenido en mecanografía de ocho estudian-
tes que siguieron el programa y el número de semanas que hace que lo siguen: tes que siguieron el programa y el número de semanas que hace que lo siguen:

Ganancia de velocidad Ganancia de velocidad


Número de semanas Número de semanas
(p.p.m.) (p.p.m.)
3 87 3 87
5 119 5 119
2 47 2 47
8 195 8 195
6 162 6 162
 FUOC • P03/75057/01013 35 Regresión lineal simple  FUOC • P03/75057/01013 35 Regresión lineal simple

Ganancia de velocidad Ganancia de velocidad


Número de semanas Número de semanas
(p.p.m.) (p.p.m.)
9 234 9 234
3 72 3 72
4 110 4 110

La recta de regresión calculada a partir de estos datos es: La recta de regresión calculada a partir de estos datos es:

ŷ = 1,659 + 25,318x ŷ = 1,659 + 25,318x

a) Calculad el coeficiente de determinación. a) Calculad el coeficiente de determinación.


b) Haced un análisis de los residuos y comentadlo. b) Haced un análisis de los residuos y comentadlo.

Solucionario Solucionario

1. 1.
Calculamos el coeficiente de determinación a partir de la expresión: Calculamos el coeficiente de determinación a partir de la expresión:

2 SCR 2 SCR
R = ----------- R = -----------
SCT SCT

El enunciado del problema nos proporciona estos datos, ya que: El enunciado del problema nos proporciona estos datos, ya que:

10 10
2 2
• La suma de los cuadrados de la regresión es: SCR = ∑ ( ŷi – y ) = 23.793,66 • La suma de los cuadrados de la regresión es: SCR = ∑ ( ŷi – y ) = 23.793,66
i=1 i=1

10 10
2 2
• Y la suma de los cuadrados totales es: SCT = ∑ ( y i – y ) = 43.590,0 • Y la suma de los cuadrados totales es: SCT = ∑ ( yi – y ) = 43.590,0
i=1 i=1

10 10
2 2
∑ ( ŷ i – y ) ∑ ( ŷ i – y )
2 SCR =1 23.793,66 2 SCR =1 23.793,66
De manera que: R = ----------- = i---------------------------- = ---------------------------- = 0,5458 De manera que: R = ----------- = i---------------------------- = ---------------------------- = 0,5458
SCT 10
2 43.590,0 SCT 10
2 43.590,0
∑ ( yi – y ) ∑ ( yi – y )
i=1 i=1

Resultado que podemos interpretar como que el modelo de regresión lineal Resultado que podemos interpretar como que el modelo de regresión lineal
explica el 54,58% de la variabilidad de las ventas. explica el 54,58% de la variabilidad de las ventas.

A partir de este valor podemos calcular el coeficiente de correlación teniendo A partir de este valor podemos calcular el coeficiente de correlación teniendo
en cuenta que: en cuenta que:

R2 = r2 R2 = r2

De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente De manera que el coeficiente de correlación es la raíz cuadrada del coeficiente
de determinación con el mismo signo que la pendiente de la recta de regresión. de determinación con el mismo signo que la pendiente de la recta de regresión.

La recta de regresión es: ŷ = 308,8 + 3,95x. La pendiente es positiva, de manera La recta de regresión es: ŷ = 308,8 + 3,95x. La pendiente es positiva, de manera
que tenemos una relación positiva entre los gastos en publicidad y ventas. que tenemos una relación positiva entre los gastos en publicidad y ventas.
Cuanto más se invierte en publicidad, más se vende. Cuanto más se invierte en publicidad, más se vende.

Así pues, el coeficiente de correlación es: Así pues, el coeficiente de correlación es:

2 2
r = + R = + 0,5458 = 0,7388 r = + R = + 0,5458 = 0,7388
 FUOC • P03/75057/01013 36 Regresión lineal simple  FUOC • P03/75057/01013 36 Regresión lineal simple

2. 2.
a) Lo primero que haremos será construir la tabla de cálculos: a) Lo primero que haremos será construir la tabla de cálculos:

2 2 2 2
i xi yi ŷ i yi – y (yi – y ) ( ŷ i – y ) ( ŷ i – y ) i xi yi ŷ i yi – y (yi – y ) ( ŷ i – y ) ( ŷ i – y )

1 3 87 77,61 –41,25 1.701,56 –50,64 2.564,11 1 3 87 77,61 –41,25 1.701,56 –50,64 2.564,11

2 5 119 128,25 –9,25 85,56 0,00 0,00 2 5 119 128,25 –9,25 85,56 0,00 0,00

3 2 47 52,30 –81,25 6.601,56 –75,96 5.769,16 3 2 47 52,30 –81,25 6.601,56 –75,96 5.769,16

4 8 195 204,20 66,75 4.455,56 75,95 5.768,86 4 8 195 204,20 66,75 4.455,56 75,95 5.768,86

5 6 162 153,57 33,75 1.139,06 25,32 640,95 5 6 162 153,57 33,75 1.139,06 25,32 640,95

6 9 234 229,52 105,75 11.183,06 101,27 10.255,82 6 9 234 229,52 105,75 11.183,06 101,27 10.255,82

7 3 72 77,61 –56,25 3.164,06 –50,64 2.564,11 7 3 72 77,61 –56,25 3.164,06 –50,64 2.564,11

8 4 110 102,93 –18,25 333,06 –25,32 641,05 8 4 110 102,93 –18,25 333,06 –25,32 641,05

Σ 1.026 28.663,50 28.204,05 Σ 1.026 28.663,50 28.204,05

SCR = 28.204,05 SCT = 28.663,50 SCR = 28.204,05 SCT = 28.663,50


2 2
R = 28.204,05 / 28.663,50 = 0,9920 R = 28.204,05 / 28.663,50 = 0,9920

El modelo de regresión lineal explica el 99,20% de la varianza de la muestra. El modelo de regresión lineal explica el 99,20% de la varianza de la muestra.
Tenemos bondad en el ajuste. Tenemos bondad en el ajuste.

b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi- b) Para hacer el análisis de los residuos, en primer lugar calcularemos los resi-
duos y después haremos la representación gráfica. duos y después haremos la representación gráfica.

i xi yi ŷ i e i = y i – ŷ i i xi yi ŷ i e i = y i – ŷ i

1 3 87 77,61 9,39 1 3 87 77,61 9,39

2 5 119 128,25 –9,25 2 5 119 128,25 –9,25

3 2 47 52,30 –5,30 3 2 47 52,30 –5,30

4 8 195 204,20 –9,20 4 8 195 204,20 –9,20

5 6 162 153,57 8,43 5 6 162 153,57 8,43

6 9 234 229,52 4,48 6 9 234 229,52 4,48

7 3 72 77,61 –5,61 7 3 72 77,61 –5,61

8 4 110 102,93 7,07 8 4 110 102,93 7,07

Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra- Si representamos el valor del residuo frente al valor ajustado, tenemos el diagra-
ma de residuos siguiente: ma de residuos siguiente:
 FUOC • P03/75057/01013 37 Regresión lineal simple  FUOC • P03/75057/01013 37 Regresión lineal simple

No observamos ningún tipo de forma determinada en los puntos de esta gráfica. No observamos ningún tipo de forma determinada en los puntos de esta gráfica.

Este resultado, junto con el elevado coeficiente de determinación, nos hace Este resultado, junto con el elevado coeficiente de determinación, nos hace
llegar a la conclusión de que el modelo lineal es adecuado para tratar este pro- llegar a la conclusión de que el modelo lineal es adecuado para tratar este pro-
blema. blema.
 FUOC • P03/75057/01013 38 Regresión lineal simple  FUOC • P03/75057/01013 38 Regresión lineal simple

Anexos Anexos

Anexo 1 Anexo 1

Descomposición de la suma de cuadrados total Descomposición de la suma de cuadrados total

A continuación veremos que la suma de cuadrados total de las observaciones A continuación veremos que la suma de cuadrados total de las observaciones
(SCT) se puede expresar de la manera siguiente: (SCT) se puede expresar de la manera siguiente:

SCT = SCR + SCE SCT = SCR + SCE

donde: donde:

• SCR es la suma de cuadrados de la regresión. • SCR es la suma de cuadrados de la regresión.


• SCE es la suma de cuadrados de los residuos. • SCE es la suma de cuadrados de los residuos.

A partir de la definición de residuos de la regresión como la diferencia entre A partir de la definición de residuos de la regresión como la diferencia entre
los valores observados y los valores estimados por la recta de regresión: los valores observados y los valores estimados por la recta de regresión:

ei = yi − ŷ i ei = yi − ŷ i

Podemos escribir: Podemos escribir:

yi = ŷ i + ei yi = ŷ i + ei

Y si ahora restamos a los dos miembros de esta igualdad la media de las obser- Y si ahora restamos a los dos miembros de esta igualdad la media de las obser-
vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con vaciones yi, obtenemos una expresión que nos relaciona las desviaciones con
respecto a la media, las observaciones y los valores estimados: respecto a la media, las observaciones y los valores estimados:

y i – y = ( ŷ i – y ) + e i y i – y = ( ŷ i – y ) + e i

Elevando al cuadrado y sumando todos los valores: Elevando al cuadrado y sumando todos los valores:

n n n n n n n n n n
2 2 2 2 2 2 2 2
∑ ( yi – y ) = ∑ [ ( ŷ i – y ) + e i ] = ∑ ( ŷ i – y ) + 2 ∑ ( ŷ i – y )e i + ∑ ei ∑ ( yi – y ) = ∑ [ ( ŷ i – y ) + e i ] = ∑ ( ŷ i – y ) + 2 ∑ ( ŷ i – y )e i + ∑ ei
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n n n n n n n n n
2 ∑ ( ŷ i – y )e i = ∑ ŷ i e i – ∑ yei = ∑ ŷ i e i – y ∑ e i = 0 + 0 = 0 2 ∑ ( ŷ i – y )e i = ∑ ŷ i e i – ∑ yei = ∑ ŷ i e i – y ∑ e i = 0 + 0 = 0
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

0 0 0 0

n n n n
Por tanto, es suficiente con ver que ∑ ŷ i e i = 0 y ∑ ei = 0 Por tanto, es suficiente con ver que ∑ ŷ i e i = 0 y ∑ ei = 0
i=1 i=1 i=1 i=1
 FUOC • P03/75057/01013 39 Regresión lineal simple  FUOC • P03/75057/01013 39 Regresión lineal simple

Observamos que a partir de las ecuaciones normales: Observamos que a partir de las ecuaciones normales:

n n n n n n
0 = ∑ ( y i – β̂0 – β̂1 xi ) = ∑ ( y i – ŷ i ) = ∑ ei 0 = ∑ ( y i – β̂0 – β̂1 xi ) = ∑ ( y i – ŷ i ) = ∑ ei
i=1 i=1 i=1 i=1 i=1 i=1

n n n n
0 = ∑ ( y i – β̂ 0 – β̂ 1 x i )x i = ∑ ei xi 0 = ∑ ( y i – β̂ 0 – β̂ 1 x i )x i = ∑ ei xi
i=1 i=1 i=1 i=1

Y, por tanto: Y, por tanto:


n n n n n n n n

∑ ŷ i ei = ∑ ( β̂0 – β̂1 xi )e i = β̂ 0 ∑ e i + β̂ 1 ∑ e i x i = 0 ∑ ŷ i ei = ∑ ( β̂0 – β̂1 xi )e i = β̂ 0 ∑ e i + β̂ 1 ∑ e i x i = 0


i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

Hemos demostrado así que: Hemos demostrado así que:


n n n n n n
2 2 2 2 2 2
∑ ( yi – y ) = ∑ ( ŷ i – y ) + ∑ ei ∑ ( yi – y ) = ∑ ( ŷ i – y ) + ∑ ei
i=1 i=1 i=1 i=1 i=1 i=1

Si denominamos: Si denominamos:

n n
2 2
∑ ( yi – y ) = SCT Suma de Cuadrados Totales. ∑ ( yi – y ) = SCT Suma de Cuadrados Totales.
i=1 i=1

n n
2 2
∑ ( ŷ i – y ) = SCR Suma de Cuadrados de la Regresión. ∑ ( ŷ i – y ) = SCR Suma de Cuadrados de la Regresión.
i=1 i=1

n n

∑ ei = SCE Suma de Cuadrados de los Errores. ∑ ei = SCE Suma de Cuadrados de los Errores.
i=1 i=1

Tenemos que: SCT = SCR + SCE. Tenemos que: SCT = SCR + SCE.
 FUOC • P03/75057/01013 40 Regresión lineal simple  FUOC • P03/75057/01013 40 Regresión lineal simple

Inferencia en la regresión Inferencia en la regresión

1. Introducción 1. Introducción

En otras sesiones nos hemos preocupado de estudiar la relación lineal entre En otras sesiones nos hemos preocupado de estudiar la relación lineal entre
dos variables X e Y a partir de los valores observados en una muestra. Si en el dos variables X e Y a partir de los valores observados en una muestra. Si en el
diagrama de dispersión observábamos una relación lineal, entonces calculába- diagrama de dispersión observábamos una relación lineal, entonces calculába-
mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de mos la recta que mejor se ajustaba a nuestros datos haciendo que la suma de
los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión. los cuadrados de los residuos fuese mínima. Es la llamada recta de regresión.

Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob- Ahora cambiaremos el punto de vista y pensaremos que esta muestra de ob-
servaciones proviene de una población. Nos preguntamos si esta relación li- servaciones proviene de una población. Nos preguntamos si esta relación li-
neal se puede extender de alguna manera a toda la población. neal se puede extender de alguna manera a toda la población.

2. El modelo de regresión en la población 2. El modelo de regresión en la población

Modelo de regresión lineal Modelo de regresión lineal

Es muy importante tener presente que, para un mismo valor de la variable X, Es muy importante tener presente que, para un mismo valor de la variable X,
se pueden observar diferentes valores de la variable Y, es decir, asociado a cada se pueden observar diferentes valores de la variable Y, es decir, asociado a cada
valor de X no hay un único valor de Y, sino una distribución de frecuencias valor de X no hay un único valor de Y, sino una distribución de frecuencias
de Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de de Y. Esto se debe al hecho de que Y no sólo depende de X, sino también de
El peso depende de la El peso depende de la
otros factores difícilmente cuantificables o simplemente desconocidos. La in- altura y de otros factores otros factores difícilmente cuantificables o simplemente desconocidos. La in- altura y de otros factores

fluencia de este conjunto de factores es la que determina que la relación entre En el ejemplo de la relación fluencia de este conjunto de factores es la que determina que la relación entre En el ejemplo de la relación
entre el peso y la altura de las entre el peso y la altura de las
X e Y sea estadística y no determinista. Todos estos factores son los responsa- personas, es evidente que X e Y sea estadística y no determinista. Todos estos factores son los responsa- personas, es evidente que
bles de los errores o residuos. existen muchos factores, como bles de los errores o residuos. existen muchos factores, como
pueden ser aspectos genéticos, pueden ser aspectos genéticos,
la actividad física, la alimenta- la actividad física, la alimenta-
ción, etc., que hacen que ción, etc., que hacen que
Dada una muestra de observaciones (xi, yi), y = 1, ... , n de individuos de una una persona de una determi- Dada una muestra de observaciones (xi, yi), y = 1, ... , n de individuos de una una persona de una determi-
nada altura tenga un peso u nada altura tenga un peso u
población, ya sabemos encontrar la recta de regresión lineal ŷ = β̂ 0 + β̂ 1 x . otro. Para una altura fija, de por población, ya sabemos encontrar la recta de regresión lineal ŷ = β̂ 0 + β̂ 1 x . otro. Para una altura fija, de por
ejemplo 170 cm, no todas las ejemplo 170 cm, no todas las
personas tienen el mismo peso. personas tienen el mismo peso.
Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor Si tenemos en cuenta que llamábamos residuo o error a la diferencia entre el valor
observado y el valor estimado e i = y i – ŷ i , para una observación yi, podemos es- observado y el valor estimado e i = y i – ŷ i , para una observación yi, podemos es-
cribir: y i = ŷ i + e i , es decir: cribir: y i = ŷ i + e i , es decir:

y i = β̂ 0 + β̂ 1 x + e i y i = β̂ 0 + β̂ 1 x + e i

Podemos hacer lo mismo con varias muestras de esta misma población. Podemos hacer lo mismo con varias muestras de esta misma población.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum- Consideremos las observaciones de los pesos (kg) y alturas (cm) de tres muestras de alum-
nos de la UOC y las rectas de regresión correspondientes: nos de la UOC y las rectas de regresión correspondientes:
 FUOC • P03/75057/01013 41 Regresión lineal simple  FUOC • P03/75057/01013 41 Regresión lineal simple

Muestra j = 1 Muestra j = 1

Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9 i = 10 Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9 i = 10

Altura ( xij ) 161 152 167 153 161 168 167 153 159 173 Altura ( xij ) 161 152 167 153 161 168 167 153 159 173

Peso ( yij ) 63 56 77 49 72 62 68 48 57 67 Peso ( yij ) 63 56 77 49 72 62 68 48 57 67

La recta de regresión correspondiente es: ŷ = –96,112 + 0,979x. La recta de regresión correspondiente es: ŷ = –96,112 + 0,979x.

Muestra j = 2 Muestra j = 2

Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8

Altura (xij) 161 152 167 153 161 168 167 153 Altura (xij) 161 152 167 153 161 168 167 153

Peso (yij) 63 56 77 49 72 62 68 48 Peso (yij) 63 56 77 49 72 62 68 48

La recta de regresión correspondiente es: ŷ = –82,614 + 1,029x. La recta de regresión correspondiente es: ŷ = –82,614 + 1,029x.

Muestra j = 3 Muestra j = 3

Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9 Individuos i=1 i=2 i=3 i=4 i=5 i=6 i=7 i=8 i=9

Altura (xij) 161 152 167 153 161 168 167 153 159 Altura (xij) 161 152 167 153 161 168 167 153 159

Peso (yij) 63 56 77 49 72 62 68 48 57 Peso (yij) 63 56 77 49 72 62 68 48 57

La recta de regresión correspondiente es: ŷ = –98,582 + 0,94x. La recta de regresión correspondiente es: ŷ = –98,582 + 0,94x.

Observamos que los valores obtenidos para cada coeficiente son relativamente similares: Observamos que los valores obtenidos para cada coeficiente son relativamente similares:

β̂ 0 : –96,112; –82,614; –98,528 β̂ 0 : –96,112; –82,614; –98,528

β̂ 1 : 0,979; 1,029; 0,945. β̂ 1 : 0,979; 1,029; 0,945.

Podemos pensar que si recogemos más muestras de la misma población, iremos obte- Podemos pensar que si recogemos más muestras de la misma población, iremos obte-
niendo coeficientes parecidos a éstos. niendo coeficientes parecidos a éstos.

Ahora el objetivo es dar un modelo para todos los individuos de la población. Ahora el objetivo es dar un modelo para todos los individuos de la población.
Éste vendrá dado por una expresión análoga a las encontradas por las muestras. Éste vendrá dado por una expresión análoga a las encontradas por las muestras.

Notación Notación
Lllamamos modelo de regresión lineal para la población a: Lllamamos modelo de regresión lineal para la población a:
No ponemos los “sombreros” No ponemos los “sombreros”
sobre los parámetros para indi- sobre los parámetros para indi-
yi = β0 + β1 x + ei car que ahora se trata de la yi = β0 + β1 x + ei car que ahora se trata de la
recta de regresión para la po- recta de regresión para la po-
blación. blación.

Para encontrar este modelo para la población, deberíamos estudiar a todos los Para encontrar este modelo para la población, deberíamos estudiar a todos los
individuos que la componen. Esto es prácticamente imposible, de manera que individuos que la componen. Esto es prácticamente imposible, de manera que
deberemos estimarla a partir de los resultados calculados para una muestra. Es deberemos estimarla a partir de los resultados calculados para una muestra. Es
decir, deberemos hacer inferencia estadística. Distribución de los errores decir, deberemos hacer inferencia estadística. Distribución de los errores
en la realidad en la realidad

Antes de continuar, tenemos que hacer dos suposiciones muy importantes: La distribución de los errores Antes de continuar, tenemos que hacer dos suposiciones muy importantes: La distribución de los errores
es diferente para diferentes es diferente para diferentes
valores de X. Por ejemplo, valores de X. Por ejemplo,
las personas que miden cerca las personas que miden cerca
1) Los errores se distribuyen según una distribución normal de media cero y de 160 cm varían menos su 1) Los errores se distribuyen según una distribución normal de media cero y de 160 cm varían menos su
2 peso que las personas que 2 peso que las personas que
varianza σ . varianza σ .
miden 185 cm. De todos mo- miden 185 cm. De todos mo-
dos, aceptaremos la suposición dos, aceptaremos la suposición
de que siempre son iguales. de que siempre son iguales.
2) Los errores son independientes. 2) Los errores son independientes.
 FUOC • P03/75057/01013 42 Regresión lineal simple  FUOC • P03/75057/01013 42 Regresión lineal simple

Con estas suposiciones tenemos que: Con estas suposiciones tenemos que:

1) Por cada valor fijo x de X obtenemos una distribución de valores y de la va- 1) Por cada valor fijo x de X obtenemos una distribución de valores y de la va-
riable Y. Y podemos calcular la media o la esperanza matemática de cada una de riable Y. Y podemos calcular la media o la esperanza matemática de cada una de
estas distribuciones: estas distribuciones:

µ x = E (Y x ) = E ( β 0 + β1 x + e ) = β0 + β1 x + E ( e ) = β 0 + β1 x µ x = E (Y x ) = E ( β 0 + β1 x + e ) = β0 + β1 x + E ( e ) = β 0 + β1 x

2) También podemos calcular su varianza: 2) También podemos calcular su varianza:

2 2 2 2
Var ( Y x ) = Var ( β 0 + β 1 x + e ) = Var ( β 0 + β 1 x ) + Var ( e ) = 0 + σ = σ Var ( Y x ) = Var ( β 0 + β 1 x + e ) = Var ( β 0 + β 1 x ) + Var ( e ) = 0 + σ = σ

Cada distribución de valores de Y tiene la misma varianza σ2, que es la varian- Cada distribución de valores de Y tiene la misma varianza σ2, que es la varian-
za de los residuos. za de los residuos.

En el gráfico vemos la recta de regresión lineal para la población. En el gráfico vemos la recta de regresión lineal para la población.

Distribución de las medias Distribución de las medias

El primer resultado nos dice El primer resultado nos dice


que estas medias se encuen- que estas medias se encuen-
tran situadas sobre una recta. tran situadas sobre una recta.

Es importante tener presente que para tener bien determinado el modelo de Es importante tener presente que para tener bien determinado el modelo de
2
regresión para la población, debemos conocer tres parámetros: β0, β1 y σ . regresión para la población, debemos conocer tres parámetros: β0, β1 y σ2.

Estos parámetros desconocidos se tienen que estimar a partir de una muestra Estos parámetros desconocidos se tienen que estimar a partir de una muestra
de la población. de la población.

Como se ve en la sesión “El modelo de regresión simple”, los parámetros de la Como se ve en la sesión “El modelo de regresión simple”, los parámetros de la
recta se estiman por el método de los mínimos cuadrados. Este método determi- recta se estiman por el método de los mínimos cuadrados. Este método determi-
na aquellos valores de los parámetros que hacen mínima la suma de los cuadra- na aquellos valores de los parámetros que hacen mínima la suma de los cuadra-
dos de los residuos: dos de los residuos:

n n

s xy
∑ ( xi – x )( yi – y ) s xy
∑ ( xi – x )( yi – y )
i=1 i=1
β̂ 0 = y – β̂ 1 x ; β̂ 1 = ------2 = --------------------------------------------
n
- β̂ 0 = y – β̂ 1 x ; β̂ 1 = ------2 = --------------------------------------------
n
-
sx 2 sx 2
∑ ( xi – x ) ∑ ( xi – x )
i=1 i=1
 FUOC • P03/75057/01013 43 Regresión lineal simple  FUOC • P03/75057/01013 43 Regresión lineal simple

De manera que β̂ 0 y β̂ 1 son los valores estimados (o “estimadores”) de los pa- De manera que β̂ 0 y β̂ 1 son los valores estimados (o “estimadores”) de los pa-
Valor medio Valor medio
rámetros β 0 y β 1 de la población. Y la recta que mejor se ajusta a los datos es: rámetros β 0 y β 1 de la población. Y la recta que mejor se ajusta a los datos es:
Debemos interpretar: Debemos interpretar:

ŷ i = β̂ 0 + β̂ 1 x i ˆ ˆ
ŷ i = β 0+ β 1 x i ŷ i = β̂ 0 + β̂ 1 x i ˆ ˆ
ŷ i = β 0+ β 1 x i
como la estimación del valor como la estimación del valor
medio de la distribución Y para medio de la distribución Y para
Todavía nos falta estimar la varianza de los errores aleatorios, σ2. Este término un valor fijo X = xi. Todavía nos falta estimar la varianza de los errores aleatorios, σ2. Este término un valor fijo X = xi.
refleja la variación aleatoria en torno a la auténtica recta de regresión. refleja la variación aleatoria en torno a la auténtica recta de regresión.

Si consideramos los residuos de la regresión como estimaciones de los valores de Si consideramos los residuos de la regresión como estimaciones de los valores de
los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza los errores aleatorios, entonces podemos estimar su varianza a partir de la varianza
de los residuos: de los residuos:

n n
2 1 2 2 1 2
s = ------------ ∑ ( y i – ŷ i ) s = ------------ ∑ ( y i – ŷ i )
n – 2i = 1 Terminología n – 2i = 1 Terminología

n Habitualmente, s2 se denomi- n Habitualmente, s2 se denomi-


2 1 2 na varianza residual. 2 1 2 na varianza residual.
s = ------------ ∑ ( y i – β̂ 0 – β̂ 1 x i ) s = ------------ ∑ ( y i – β̂ 0 – β̂ 1 x i )
n – 2i = 1 n – 2i = 1

Hemos dividido la suma de las desviaciones al cuadrado por n − 2, no por n − 1. Hemos dividido la suma de las desviaciones al cuadrado por n − 2, no por n − 1.
Pérdida de grados de Pérdida de grados de
Esto se debe a que estimamos la media de Y para un valor dado de X con una libertad Esto se debe a que estimamos la media de Y para un valor dado de X con una libertad
fórmula que contiene dos parámetros estimados a partir de los datos de la mues- El razonamiento es el mismo fórmula que contiene dos parámetros estimados a partir de los datos de la mues- El razonamiento es el mismo
tra ( β̂ 0 y β̂ 1 ). Diremos que “hemos perdido dos grados de libertad”. que el que hacemos al justificar tra ( β̂ 0 y β̂ 1 ). Diremos que “hemos perdido dos grados de libertad”. que el que hacemos al justificar
la división por (n – 1) en la fór- la división por (n – 1) en la fór-
mula de la varianza muestral: mula de la varianza muestral:
n n
Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos
∑ ( xi – x ) ∑ ( xi – x )
2 2

2 i=1 2 i=1
Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez s = ----------------------------
x Consideramos las observaciones de los pesos (kg) y alturas (cm) de un conjunto de diez s = ----------------------------
x
n–1 n–1
personas: personas:
Lo hacemos porque hemos Lo hacemos porque hemos
perdido un grado de libertad perdido un grado de libertad
Individuos (i) 1 2 3 4 5 6 7 8 9 10 al estimar la media a partir de Individuos (i) 1 2 3 4 5 6 7 8 9 10 al estimar la media a partir de
los datos de la muestra. los datos de la muestra.
Altura (x) 161 152 167 153 161 168 167 153 159 173 Altura (x) 161 152 167 153 161 168 167 153 159 173

Peso (yi) 63 56 77 49 72 62 68 48 57 67 Peso (yi) 63 56 77 49 72 62 68 48 57 67

La recta de regresión correspondiente es: La recta de regresión correspondiente es:

ŷ = −96,112 + 0,979x ŷ = −96,112 + 0,979x

Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la Para hacer los cálculos más cómodos, es aconsejable construir la tabla de cálculos por la
varianza de los residuos que se muestra a continuación. En la sesión “El modelo de regresión varianza de los residuos que se muestra a continuación. En la sesión “El modelo de regresión
simple” se deduce la recta simple” se deduce la recta
de regresión correspondiente de regresión correspondiente
2 2 a este ejemplo. 2 2 a este ejemplo.
i xi yi ŷ i xi – x ( xi – x ) e i = y i – ŷ i ei i xi yi ŷ i xi – x ( xi – x ) e i = y i – ŷ i ei

1 161 63 61,51 –0,4 0,16 1,49 2,225 1 161 63 61,51 –0,4 0,16 1,49 2,225

2 152 56 52,70 –9,4 88,36 3,30 10,908 2 152 56 52,70 –9,4 88,36 3,30 10,908

3 167 77 67,38 5,6 31,36 9,62 92,498 3 167 77 67,38 5,6 31,36 9,62 92,498

4 153 49 53,68 –8,4 70,56 –4,68 21,868 4 153 49 53,68 –8,4 70,56 –4,68 21,868

5 161 72 61,51 –0,4 0,16 10,49 110,075 5 161 72 61,51 –0,4 0,16 10,49 110,075

6 168 62 68,36 6,6 43,56 –6,36 40,468 6 168 62 68,36 6,6 43,56 –6,36 40,468

7 167 68 67,38 5,6 31,36 0,62 0,381 7 167 68 67,38 5,6 31,36 0,62 0,381

8 153 48 53,68 –8,4 70,56 –5,68 32,220 8 153 48 53,68 –8,4 70,56 –5,68 32,220
 FUOC • P03/75057/01013 44 Regresión lineal simple  FUOC • P03/75057/01013 44 Regresión lineal simple

2 2 2 2
i xi yi ŷ i xi – x ( xi – x ) e i = y i – ŷ i ei i xi yi ŷ i xi – x ( xi – x ) e i = y i – ŷ i ei

9 159 57 59,55 –2,4 5,76 –2,55 6,504 9 159 57 59,55 –2,4 5,76 –2,55 6,504

10 173 67 73,26 11,6 134,56 –6,26 39,143 10 173 67 73,26 11,6 134,56 –6,26 39,143

1.6 1.6
Σ 619 476,4 356,290 Σ 619 476,4 356,290
14 14

La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y La octava columna contiene los cuadrados de los residuos. Sumando todos los datos y
dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 = 8, obtenemos dividiendo por el número de observaciones menos 2, es decir, por 10 – 2 = 8, obtenemos
la varianza de los residuos: la varianza de los residuos:

n n
1 356,290 1 356,290
s = ------------ ∑ ( y i – ŷ i ) = ---------------------- = 44,536 s = ------------ ∑ ( y i – ŷ i ) = ---------------------- = 44,536
2 2 2 2

n–2 10 – 2 n–2 10 – 2
i=1 i=1

3. Distribución probabilística de la pendiente ( β̂ 1 ) 3. Distribución probabilística de la pendiente ( β̂ 1 )

La ordenada en el origen β 0 nos informa del valor medio de la variable Y para La ordenada en el origen β 0 nos informa del valor medio de la variable Y para
un valor de X igual a cero. No siempre tiene interpretación realista en el con- un valor de X igual a cero. No siempre tiene interpretación realista en el con-
texto del problema: por este motivo, únicamente consideraremos hacer infe- texto del problema: por este motivo, únicamente consideraremos hacer infe-
rencia estadística sobre la pendiente. rencia estadística sobre la pendiente.

Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar Para poder hacer inferencia estadística (hacer contrastes de hipótesis y buscar
intervalos de confianza), será necesario conocer la distribución de probabili- intervalos de confianza), será necesario conocer la distribución de probabili-
dad de β̂ 1 . dad de β̂ 1 .

Del modelo de regresión lineal tenemos que β̂ 1 es una combinación lineal de Del modelo de regresión lineal tenemos que β̂ 1 es una combinación lineal de
las observaciones yi; y si éstas tienen una distribución normal y son indepen- las observaciones yi; y si éstas tienen una distribución normal y son indepen-
dientes (tal como hemos supuesto al establecer el modelo de regresión), enton- dientes (tal como hemos supuesto al establecer el modelo de regresión), enton-
ces β̂ 1 también tendrá una distribución normal. Tendremos bien determinada ces β̂ 1 también tendrá una distribución normal. Tendremos bien determinada
esta distribución cuando conozcamos la esperanza y la varianza. esta distribución cuando conozcamos la esperanza y la varianza.

A partir de la expresión de β̂ 1 podemos encontrar el valor esperado y la varianza. Los desarrollos matemáticos se A partir de la expresión de β̂ 1 podemos encontrar el valor esperado y la varianza. Los desarrollos matemáticos se
muestran en el anexo de esta sesión. muestran en el anexo de esta sesión.

• Valor esperado de β̂ 1 : • Valor esperado de β̂ 1 :

E ( β̂ 1 ) = β 1 E ( β̂ 1 ) = β 1

La pendiente estimada de la recta está distribuida según una distribución La pendiente estimada de la recta está distribuida según una distribución
normal con una media igual al valor de este parámetro para la población. normal con una media igual al valor de este parámetro para la población.
Aunque este valor es desconocido, este resultado nos será muy útil para te- Aunque este valor es desconocido, este resultado nos será muy útil para te-
ner información de la población haciendo inferencia estadística. Esto lo ve- ner información de la población haciendo inferencia estadística. Esto lo ve-
remos un poco más adelante en esta sesión. remos un poco más adelante en esta sesión.

• Varianza de β̂ 1 : • Varianza de β̂ 1 :

2 2
2 σ 2 σ
σ β̂ = --------------------------2 σ β̂ = --------------------------2
1
∑ i – x)
( x 1
∑ i – x)
( x
 FUOC • P03/75057/01013 45 Regresión lineal simple  FUOC • P03/75057/01013 45 Regresión lineal simple

A continuación veremos que necesitaremos la información de la muestra, ya A continuación veremos que necesitaremos la información de la muestra, ya
2
que σ es un valor desconocido que tendremos que estimar. que σ2 es un valor desconocido que tendremos que estimar.

4. El intervalo de confianza para la pendiente 4. El intervalo de confianza para la pendiente

Acabamos de ver que las suposiciones del modelo de regresión lineal simple im- Acabamos de ver que las suposiciones del modelo de regresión lineal simple im-
plican que el parámetro β̂ 1 es una variable aleatoria distribuida normalmente plican que el parámetro β̂ 1 es una variable aleatoria distribuida normalmente
con: con:

– Media: β 1 – Media: β 1
2 2
2 σ 2 σ
– Varianza: σ β̂ = --------------------------2 – Varianza: σ β̂ = --------------------------2
1
∑ ( xi – x ) 1
∑ ( xi – x )

Dado que esta varianza σ2 es desconocida, deberemos estimarla a partir de la Dado que esta varianza σ2 es desconocida, deberemos estimarla a partir de la
varianza muestral que ya hemos calculado anteriormente: varianza muestral que ya hemos calculado anteriormente:

n n
1 2 1 2
s = ------------ ∑ ( y i – β̂ 0 – ˆβ 1 x i ) s = ------------ ∑ ( y i – β̂ 0 – ˆβ 1 x i )
2 2
n – 2i = 1 n – 2i = 1

Definimos el error estándar de la pendiente como: Definimos el error estándar de la pendiente como:

2 2
2 s 2 s
s β̂ = --------------------------2 s β̂ = --------------------------2
1
∑ i – x)
( x 1
∑ i – x)
( x

Dado que β̂ 1 sigue una distribución normal con varianza desconocida (ya que Dado que β̂ 1 sigue una distribución normal con varianza desconocida (ya que
no se conoce σ2), entonces la variable tipificada: no se conoce σ2), entonces la variable tipificada:

β̂ 1 – β 1 β̂ 1 – β 1
----------------- -----------------
s β̂ s β̂
1 1

tiene una distribución t de Student con n – 2 grados de libertad. tiene una distribución t de Student con n – 2 grados de libertad.

Intervalo de confianza Intervalo de confianza


Con todo esto, tenemos que un intervalo de confianza de 100 (1 − α)% por la pendiente con un nivel
significativo α.
Con todo esto, tenemos que un intervalo de confianza de 100 (1 − α)% por la pendiente con un nivel
significativo α.
por la pendiente β1 de la recta de regresión poblacional viene dado por: por la pendiente β1 de la recta de regresión poblacional viene dado por:

[ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ] [ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ]
1 1 1 1

ya que: ya que:

 β̂ 1 – β   β̂ 1 – β 
P  –t α ⁄ 2, n – 2 ≤ ----------------1- ≤ t α ⁄ 2, n – 2 = 1 – α P  –t α ⁄ 2, n – 2 ≤ ----------------1- ≤ t α ⁄ 2, n – 2 = 1 – α
 s β̂ 1   s β̂ 1 

Este intervalo está centrado en la estimación puntual del parámetro, es decir, Este intervalo está centrado en la estimación puntual del parámetro, es decir,
en β̂ 1 , y la cantidad en la que se alarga a cada lado de la estimación depende en β̂ 1 , y la cantidad en la que se alarga a cada lado de la estimación depende
del nivel deseado de confianza, α (mediante el valor crítico tα/2, n − 2 ) y de la del nivel deseado de confianza, α (mediante el valor crítico tα/2, n − 2 ) y de la
variabilidad del estimador β̂ 1 (mediante s β̂ ). variabilidad del estimador β̂ 1 (mediante s β̂ ).
1 1
 FUOC • P03/75057/01013 46 Regresión lineal simple  FUOC • P03/75057/01013 46 Regresión lineal simple

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez Consideremos una vez más el ejemplo de los pesos y las alturas de una muestra de diez
personas. La recta de regresión correspondiente era: ŷ = –96,112 + 0,979x, de manera personas. La recta de regresión correspondiente era: ŷ = –96,112 + 0,979x, de manera
que β̂ 1 = 0,979. que β̂ 1 = 0,979.

Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, α = 0,05 y mi- Calcularemos un intervalo de confianza del 95% para la pendiente. Por tanto, α = 0,05 y mi-
rando la tabla de la t de Student tenemos un valor crítico de t α ⁄ 2 ; n – 2 = t 0,025;8 = 2,3060. rando la tabla de la t de Student tenemos un valor crítico de t α ⁄ 2 ; n – 2 = t 0,025;8 = 2,3060.

Para calcular el intervalo de confianza: [ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ], antes Para calcular el intervalo de confianza: [ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ], antes
1 1 1 1
tenemos que calcular: tenemos que calcular:
2 2
2 s 2 s
s β̂ = ---------------------------2- s β̂ = ---------------------------2-
1
∑ i – x)
( x 1
∑ i – x)
( x
donde: donde:

n n
2 1 2 2 1 2
s = ------------
n–2 ∑ ( y i – ŷ i ) s = ------------
n–2 ∑ ( y i – ŷ i )
i=1 i=1

Antes ya hemos calculado la varianza de los residuos: Antes ya hemos calculado la varianza de los residuos:

n n
2 1 2 356,290 2 1 2 356,290
s = ------------
n–2 ∑ ( y i – ŷ i ) = ---------------------- = 44 , 536
10 – 2
s = ------------
n–2 ∑ ( y i – ŷi ) = ---------------------- = 44 , 536
10 – 2
i=1 i=1

De manera que: De manera que:

2 2
2 s 44,536 2 s 44,536
s β̂ = ---------------------------2- = ------------------- = 0,093 s β̂ = ---------------------------2- = ------------------- = 0,093
476,4 476,4
1
∑ i ( x – x ) 1
∑ i ( x – x )

Por tanto, el error estándar de la pendiente será: s β̂ = 0,093 = 0,306 Por tanto, el error estándar de la pendiente será: s β̂ = 0,093 = 0,306
1 1

Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306]. Y el intervalo de confianza es: [0,979 – 2,3060 · 0,306; 0,979 + 2,3060 · 0,306].

Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la Finalmente tenemos [0,274; 1,684]. Así pues, tenemos un 95% de probabilidad de que la
pendiente de la recta de regresión para la población se encuentre en este intervalo. pendiente de la recta de regresión para la población se encuentre en este intervalo.

5. El contraste de hipótesis sobre la pendiente 5. El contraste de hipótesis sobre la pendiente

Observemos que si en el modelo de regresión lineal la pendiente es cero, en- Observemos que si en el modelo de regresión lineal la pendiente es cero, en-
tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso tonces la variable X no tiene ningún efecto sobre la variable Y. En este caso
diremos que X no es una variable explicativa del modelo. diremos que X no es una variable explicativa del modelo.

En este apartado haremos un contraste de hipótesis sobre la pendiente de la En este apartado haremos un contraste de hipótesis sobre la pendiente de la
recta de regresión para saber si podemos afirmar o no que éste es igual a cero. recta de regresión para saber si podemos afirmar o no que éste es igual a cero.

Como en todos los contrastes de hipótesis, daremos los pasos siguientes: Como en todos los contrastes de hipótesis, daremos los pasos siguientes:

1) Establecemos las hipótesis nula y alternativa: 1) Establecemos las hipótesis nula y alternativa:

• Hipótesis nula: H0: β1 = 0, es decir, la variable X no es explicativa. • Hipótesis nula: H0: β1 = 0, es decir, la variable X no es explicativa.

• Hipótesis alternativa: H1: β1 ≠ 0, es decir, la variable X es explicativa. • Hipótesis alternativa: H1: β1 ≠ 0, es decir, la variable X es explicativa.
 FUOC • P03/75057/01013 47 Regresión lineal simple  FUOC • P03/75057/01013 47 Regresión lineal simple

No rechazar la hipótesis nula significa que no se puede considerar el paráme- No rechazar la hipótesis nula significa que no se puede considerar el paráme-
Interpretación geométrica Interpretación geométrica
tro β1 significativamente diferente de cero. Es decir, la variable X no tiene in- tro β1 significativamente diferente de cero. Es decir, la variable X no tiene in-
fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre las No rechazar H0 significa que la fluencia sobre la variable Y y, por tanto, no existe una relación lineal entre las No rechazar H0 significa que la
recta estimada tiene una pen- recta estimada tiene una pen-
dos variables. diente nula y, por tanto, para dos variables. diente nula y, por tanto, para
cualquier valor de X la variable cualquier valor de X la variable
Y toma un mismo valor. Y toma un mismo valor.
2) Fijamos un nivel significativo α. 2) Fijamos un nivel significativo α.

3) Bajo el supuesto de la hipótesis nula cierta (β1 = 0) tenemos el estadístico 3) Bajo el supuesto de la hipótesis nula cierta (β1 = 0) tenemos el estadístico
de contraste: de contraste:

β̂ 1 β̂ 1
t = ------ t = ------
s β̂ s β̂
1 1

que corresponde a una observación de una distribución t de Student con n − 2 que corresponde a una observación de una distribución t de Student con n − 2
grados de libertad. grados de libertad.

4) Finalmente, podemos actuar de dos maneras: 4) Finalmente, podemos actuar de dos maneras:

a) A partir del p-valor. Este valor es: p = 2P(tn–2 > |t|). a) A partir del p-valor. Este valor es: p = 2P(tn–2 > |t|).
Recordemos que... Recordemos que...

• Si p ≤ α se rechaza la hipótesis nula H0. ... el p-valor es la probabilidad • Si p ≤ α se rechaza la hipótesis nula H0. ... el p-valor es la probabilidad
del resultado observado o de del resultado observado o de
• Si p > α no se rechaza la hipótesis nula H0. uno más alejado si la hipótesis • Si p > α no se rechaza la hipótesis nula H0. uno más alejado si la hipótesis
nula es cierta. nula es cierta.

b) A partir de los valores críticos ±tα/2, n–2, de manera que: b) A partir de los valores críticos ±tα/2, n–2, de manera que:

• Si |t| > tα/2, n–2, se rechaza la hipótesis nula H0; por tanto, hay una relación • Si |t| > tα/2, n–2, se rechaza la hipótesis nula H0; por tanto, hay una relación
lineal entre las variables X e Y. lineal entre las variables X e Y.
• Si |t| ≤ tα/2, n–2, no se rechaza la hipótesis nula H0; por tanto, no hay una • Si |t| ≤ tα/2, n–2, no se rechaza la hipótesis nula H0; por tanto, no hay una
relación lineal entre X e Y. Decimos que la variable X es no explicativa. relación lineal entre X e Y. Decimos que la variable X es no explicativa.

Ejemplo de las alturas y los pesos Ejemplo de las alturas y los pesos

Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis Continuando con el ejemplo de las alturas y los pesos, queremos contrastar la hipótesis
nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de nula de que la variable X no es explicativa de la variable Y, es decir, que la pendiente de
la recta de regresión es cero. la recta de regresión es cero.

1) Establecemos las hipótesis nula y alternativa: 1) Establecemos las hipótesis nula y alternativa:

Hipótesis nula: H0: β1 = 0 Hipótesis nula: H0: β1 = 0


Hipótesis alternativa: H1: β1 ≠ 0 Hipótesis alternativa: H1: β1 ≠ 0
β̂ 1 β̂ 1
2) Calculamos el estadístico de contraste: t = ------- = 3,202 2) Calculamos el estadístico de contraste: t = ------- = 3,202
s β̂ s β̂
1 1

Sigue una distribución t de Student con n – 2 = 10 – 2 = 8 grados de libertad. Sigue una distribución t de Student con n – 2 = 10 – 2 = 8 grados de libertad.

3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco- 3) Establecemos un criterio de decisión a partir de un nivel significativo α fijado: si esco-
gemos un nivel significativo de α = 0,05: gemos un nivel significativo de α = 0,05:

a) A partir del p-valor: P(|t| > 3,202) = 2P(t > 3,202) = 2 · 0,0063 = 0,0126 < 0,05; por tanto, a) A partir del p-valor: P(|t| > 3,202) = 2P(t > 3,202) = 2 · 0,0063 = 0,0126 < 0,05; por tanto,
rechazamos la hipótesis nula. rechazamos la hipótesis nula.

b) A partir del valor crítico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a la b) A partir del valor crítico que es t0,025;8 = 2,3060, dado que 3,202 > 2,306, llegamos a la
misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable al- misma conclusión: rechazamos la hipótesis nula y podemos concluir que la variable al-
tura es explicativa del peso de las personas con un 95% de confianza. tura es explicativa del peso de las personas con un 95% de confianza.
 FUOC • P03/75057/01013 48 Regresión lineal simple  FUOC • P03/75057/01013 48 Regresión lineal simple

6. Resumen 6. Resumen

En esta sesión dedicada a la regresión lineal simple hemos considerado que En esta sesión dedicada a la regresión lineal simple hemos considerado que
nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de nuestras observaciones sobre dos variables X e Y son una muestra aleatoria de
una población y que las utilizamos para extraer algunas conclusiones del com- una población y que las utilizamos para extraer algunas conclusiones del com-
portamiento de las variables sobre la población. Hemos establecido el modelo portamiento de las variables sobre la población. Hemos establecido el modelo
de regresión lineal con sus hipótesis básicas más importantes y hemos visto de regresión lineal con sus hipótesis básicas más importantes y hemos visto
cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la cómo hacer inferencia sobre la pendiente de la recta obtenida a partir de la
muestra y, en particular, cómo calcular un intervalo de confianza y cómo ha- muestra y, en particular, cómo calcular un intervalo de confianza y cómo ha-
cer un contraste de hipótesis para decidir si la variable X nos explica realmente cer un contraste de hipótesis para decidir si la variable X nos explica realmente
el comportamiento de la variable Y. el comportamiento de la variable Y.
 FUOC • P03/75057/01013 49 Regresión lineal simple  FUOC • P03/75057/01013 49 Regresión lineal simple

Ejercicios Ejercicios

1. 1.
El departamento de personal de una empresa informática dedicada a la intro- El departamento de personal de una empresa informática dedicada a la intro-
ducción de datos ha llevado a cabo un programa de formación inicial del per- ducción de datos ha llevado a cabo un programa de formación inicial del per-
sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho sonal. La tabla siguiente indica el progreso obtenido en mecanografía de ocho
estudiantes que siguieron el programa y el número de semanas que hace que estudiantes que siguieron el programa y el número de semanas que hace que
lo siguen: lo siguen:

Número de Ganancia de velocidad Número de Ganancia de velocidad


semanas (p.p.m.) semanas (p.p.m.)

3 87 3 87

5 119 5 119

2 47 2 47

8 195 8 195

6 162 6 162

9 234 9 234

3 72 3 72

4 110 4 110

La recta de regresión calculada a partir de estos datos es: La recta de regresión calculada a partir de estos datos es:

ŷ i = 1,659 + 25,318xi ŷ i = 1,659 + 25,318xi

a) Calculad un intervalo de confianza del 95% para la pendiente de la recta a) Calculad un intervalo de confianza del 95% para la pendiente de la recta
de regresión. de regresión.
b) Haced un contraste de hipótesis con un nivel de significación α = 0,05, para b) Haced un contraste de hipótesis con un nivel de significación α = 0,05, para
saber si la variable “número de semanas” es explicativa de la variable “ganan- saber si la variable “número de semanas” es explicativa de la variable “ganan-
cia de velocidad”. cia de velocidad”.

2. 2.
Una tienda de ordenadores llevó a cabo un estudio para determinar la relación Una tienda de ordenadores llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si- entre los gastos de publicidad semanal y las ventas. Se obtuvieron los datos si-
guientes: guientes:

Gastos en publicidad Ventas Gastos en publicidad Ventas


(x 1.000 €) (x 1.000 €) (x 1.000 €) (x 1.000 €)

40 380 40 380

25 410 25 410

20 390 20 390

22 370 22 370

31 475 31 475

52 450 52 450

40 500 40 500

20 390 20 390

55 575 55 575

42 520 42 520
 FUOC • P03/75057/01013 50 Regresión lineal simple  FUOC • P03/75057/01013 50 Regresión lineal simple

Con estos datos se han obtenido las cantidades siguientes: Con estos datos se han obtenido las cantidades siguientes:

10 10 10 10 10 10

∑ x i = 347 ∑ y i = 4.460 ∑ ( x i – x ) ( y i – y ) = 6.018 ∑ x i = 347 ∑ y i = 4.460 ∑ ( xi – x )( yi – y ) = 6.018


i=1 i=1 i=1 i=1 i=1 i=1

10 10 10 10
2 2 2 2
∑ ( x i – x ) = 1.522,1 ∑ ( y i – y ) = 43.590,0 ∑ ( x i – x ) = 1.522,1 ∑ ( yi – y ) = 43.590,0
i=1 i=1 i=1 i=1

10 10 10 10
2 2 2 2
∑ ( ŷ i – y ) = 23.793,66 ∑ ( y i – ŷ i ) = 19.796,34 ∑ ( ŷ i – y ) = 23.793,66 ∑ ( y i – ŷ i ) = 19.796,34
i=1 i=1 i=1 i=1

Y la recta de regresión: ŷ = 308,8 + 3,95 x. Y la recta de regresión: ŷ = 308,8 + 3,95 x.

A partir de toda esta información, calculad un intervalo de confianza del 95% A partir de toda esta información, calculad un intervalo de confianza del 95%
para la pendiente. para la pendiente.

Solucionario Solucionario

1. 1.
a) Intervalo de confianza: a) Intervalo de confianza:

Queremos un intervalo de confianza del 95%, por tanto, α = 0,05 y obser- Queremos un intervalo de confianza del 95%, por tanto, α = 0,05 y obser-
vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor vando la tabla de la t de Student para 6 grados de libertad, tenemos un valor
crítico de tα/2;n–2 = = t0,025;6 = 2,4469. crítico de tα/2;n–2 = = t0,025;6 = 2,4469.

Como siempre, lo primero que haremos es una tabla de cálculos adecuada con Como siempre, lo primero que haremos es una tabla de cálculos adecuada con
lo que nos piden en este problema: lo que nos piden en este problema:
2 2 2 2
i xi yi xi – x ( xi – x ) ŷ i e i = y i – ŷ i ei i xi yi xi – x ( xi – x ) ŷ i e i = y i – ŷ i ei

1 3 87 –2 4 77,61 9,39 88,116 1 3 87 –2 4 77,61 9,39 88,116

2 5 119 0 0 128,25 –9,25 85,544 2 5 119 0 0 128,25 –9,25 85,544

3 2 47 –3 9 52,30 –5,30 28,037 3 2 47 –3 9 52,30 –5,30 28,037

4 8 195 3 9 204,20 –9,20 84,695 4 8 195 3 9 204,20 –9,20 84,695

5 6 162 1 1 153,57 8,43 71,115 5 6 162 1 1 153,57 8,43 71,115

6 9 234 4 16 229,52 4,48 20,061 6 9 234 4 16 229,52 4,48 20,061

7 3 72 –2 4 77,61 –5,61 31,506 7 3 72 –2 4 77,61 –5,61 31,506

8 4 110 –1 1 102,93 7,07 49,971 8 4 110 –1 1 102,93 7,07 49,971

Σ 40 1.026 35 44 459,045 Σ 40 1.026 35 44 459,045

El intervalo de confianza viene dado por: El intervalo de confianza viene dado por:

[ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ] [ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ]
1 1 1 1

Y ya estamos en condiciones de calcular cada uno de estos términos: Y ya estamos en condiciones de calcular cada uno de estos términos:

2 2
2 s 76,507 2 s 76,507
s β̂ = --------------------------2- = ------------------- = 1,739 s β̂ = --------------------------2- = ------------------- = 1,739
44,0 44,0
1
∑ i ( x – x ) 1
∑ i ( x – x )
 FUOC • P03/75057/01013 51 Regresión lineal simple  FUOC • P03/75057/01013 51 Regresión lineal simple

n n
2 1 2 459,045 2 1 2 459,045
n – 2 i∑ n – 2 i∑
donde s = ------------ ( y i – ŷ i ) = ---------------------- = 76,507. donde s = ------------ ( y i – ŷ i ) = ---------------------- = 76,507.
10 – 2 10 – 2
=1 =1

Por tanto, s β̂ = 1,739 = 1,319 . Por tanto, s β̂ = 1,739 = 1,319 .


1 1

Y el intervalo de confianza es: Y el intervalo de confianza es:

[25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319] [25,318 – 2,4469 · 1,319; 25,318 + 2,4469 · 1,319]

Es decir: Es decir:

[22,092; 28,545] [22,092; 28,545]

b) Contraste de hipótesis para α = 0,05: b) Contraste de hipótesis para α = 0,05:

1) Establecemos las hipótesis nula y alternativa: 1) Establecemos las hipótesis nula y alternativa:

Hipótesis nula: H0: β1 = 0 Hipótesis nula: H0: β1 = 0


Hipótesis alternativa: H1: β1 ≠ 0 Hipótesis alternativa: H1: β1 ≠ 0

2) Calculamos el estadístico de contraste: 2) Calculamos el estadístico de contraste:

β̂ 1 β̂ 1
t = ------ = 19,200 t = ------ = 19,200
s β̂ s β̂
1 1

Sigue una distribución t de Student con n − 2 = 6 grados de libertad. Sigue una distribución t de Student con n − 2 = 6 grados de libertad.

3) Conclusión: puesto que para α = 0,05 tenemos un valor crítico t0,025;6 = 3) Conclusión: puesto que para α = 0,05 tenemos un valor crítico t0,025;6 =
2,4469 menor que el estadístico de contraste t = 19,200, entonces rechazamos 2,4469 menor que el estadístico de contraste t = 19,200, entonces rechazamos
la hipótesis nula, de manera que la pendiente es diferente de cero y la variable la hipótesis nula, de manera que la pendiente es diferente de cero y la variable
“número de semanas” es explicativa de la “ganancia de velocidad”. “número de semanas” es explicativa de la “ganancia de velocidad”.

2. 2.
El intervalo de confianza viene dado por: El intervalo de confianza viene dado por:

[ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ] [ β̂ 1 – t α ⁄ 2, n – 2 s β̂ ≤ β 1 ≤ β̂ 1 + t α ⁄ 2, n – 2 s β̂ ]
1 1 1 1

Necesitamos calcular el error estándar de la pendiente y encontrar los valores Necesitamos calcular el error estándar de la pendiente y encontrar los valores
críticos. críticos.

1) Error estándar de la pendiente: 1) Error estándar de la pendiente:

Primero calculamos: Primero calculamos:

n n
2 1 2 19.796,34 2 1 2 19.796,34
s = ------------ ∑ ( y i – ŷ i ) = --------------------------- = 2.474,54 s = ------------ ∑ ( y i – ŷ i ) = --------------------------- = 2.474,54
n – 2i = 1 10 – 2 n – 2i = 1 10 – 2
 FUOC • P03/75057/01013 52 Regresión lineal simple  FUOC • P03/75057/01013 52 Regresión lineal simple

de manera que: de manera que:

2 2
2 s 2.474,54 2 s 2.474,54
s β̂ = --------------------------2 = ------------------------ = 1,626 s β̂ = --------------------------2 = ------------------------ = 1,626
1.522,1 1.522,1
1
∑ ( xi – x ) 1
∑ ( xi – x )

Por tanto, el error estándar de la pendiente vale: s β̂ = 1,626 = 1,275 Por tanto, el error estándar de la pendiente vale: s β̂ = 1,626 = 1,275
1 1

2) Un intervalo de confianza del 95% con n = 10, tenenemos unos valores crí- 2) Un intervalo de confianza del 95% con n = 10, tenenemos unos valores crí-
ticos: ticos:

t0,025;8 = ±2,3060. t0,025;8 = ±2,3060.

3) Por tanto, el intervalo de confianza es: 3) Por tanto, el intervalo de confianza es:

[3,953 − 2,3060 · 1,275; 3,953 + 2,3060 · 1,275] [3,953 − 2,3060 · 1,275; 3,953 + 2,3060 · 1,275]

Es decir: Es decir:

[1,013; 6,894] [1,013; 6,894]

Este intervalo de confianza no contiene el valor cero; por tanto, este resultado Este intervalo de confianza no contiene el valor cero; por tanto, este resultado
nos indica que el gasto en publicidad es explicativo de las ventas con una con- nos indica que el gasto en publicidad es explicativo de las ventas con una con-
fianza del 95%. fianza del 95%.
 FUOC • P03/75057/01013 53 Regresión lineal simple  FUOC • P03/75057/01013 53 Regresión lineal simple

Anexos Anexos

Anexo 1 Anexo 1

a) Valor esperado de β̂ 1 : a) Valor esperado de β̂ 1 :

E ( β̂ 1 ) = β 1 E ( β̂ 1 ) = β 1

Manipulando un poco la expresión que tenemos para β̂ 1 : Manipulando un poco la expresión que tenemos para β̂ 1 :

n n

s xy
∑ ( xi – x ) ( yi – y ) n
s xy
∑ ( xi – x ) ( yi – y ) n
=1
i-------------------------------------------- ( xi – x ) =1
i-------------------------------------------- ( xi – x )
β̂ 1 = ------
sx
2 = n
2
- = ∑ ----------------------------
n
- yi β̂ 1 = ------
sx
2 = n
2
- = ∑ ----------------------------
n
- yi
∑ ( xj – x ) ∑ ( xj – x )
2 2
i=1
∑ (xj – x ) i=1
∑ (xj – x )
j=1 j=1 j=1 j=1

( xi – x ) n
( xi – x ) n

n
- , podemos escribir: β̂ 1 =
Si hacemos: w i = ----------------------------
2
∑ wi yi - , podemos escribir: β̂ 1 =
Si hacemos: w i = ----------------------------
n
2
∑ wi yi
∑ ( xj – x ) i=1
∑ ( xj – x ) i=1

j=1 j=1

Si ahora calculamos el valor esperado: Si ahora calculamos el valor esperado:

n n n n n n
E ( β̂ 1 ) = E  ∑ w i y i = ∑ E ( wi yi ) = ∑ wi E ( yi ) = E ( β̂ 1 ) = E  ∑ w i y i = ∑ E ( wi yi ) = ∑ wi E ( yi ) =
   
i=1 i=1 i=1 Propiedad de la linealidad i=1 i=1 i=1 Propiedad de la linealidad

La propiedad de la linealidad La propiedad de la linealidad


n n de la esperanza de una variable n n de la esperanza de una variable
= ∑ wi ( β0 + β1 xi ) = ∑ wi β0 + β1 wi xi = es: = ∑ wi ( β0 + β1 xi ) = ∑ wi β0 + β1 wi xi = es:
i=1 i=1 E(kX) = kE(X). i=1 i=1 E(kX) = kE(X).

n n n n n n n n
= ∑ wi β0 + ∑ β1 wi xi = β 0 ∑ wi + β 1 ∑ w i xi = ∑ wi β0 + ∑ β1 wi xi = β 0 ∑ wi + β 1 ∑ w i xi
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n n n
Vemos que: ∑ wi = 0 y que ∑ wi xi = 1 Vemos que: ∑ wi = 0 y que ∑ wi xi = 1
i=1 i=1 Observación i=1 i=1 Observación

Puesto que: Puesto que:


n n n n n n
( xi – x ) 1 ( xi – x ) 1
∑ w i = ∑ ---------------------------- ∑ ( xi – x ) = 0 ∑ w i = ∑ ---------------------------- ∑ ( xi – x ) = 0
n n
x = 1 x = 1
- = ------------------------------- - = -------------------------------
n n --- ∑ x i n n --- ∑ x i
2 2 i=1 n 2 2 i=1 n
i=1 i=1
∑ i ( x – x ) ∑ i ( x – x ) i=1
i=1 i=1
∑ i ( x – x ) ∑ i ( x – x ) i=1

i=1 i=1 i=1 i=1


es fácil ver que: es fácil ver que:
n n
n n
Para calcular el término ∑ w i x i , utilizaremos la igualdad siguiente: ∑ ( xi – x ) = 0 Para calcular el término ∑ w i x i , utilizaremos la igualdad siguiente: ∑ ( xi – x ) = 0
i=1 i=1
i=1 i=1

n n n n n n n n n n n n

∑ wi ( xi – x ) = ∑ w i xi – ∑ wi x = ∑ w i x i – x ∑ wi = ∑ wi xi ∑ wi ( xi – x ) = ∑ w i xi – ∑ wi x = ∑ w i x i – x ∑ wi = ∑ wi xi
i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1

n n
Ya que: ∑ wi = 0 Ya que: ∑ wi = 0
i=1 i=1
 FUOC • P03/75057/01013 54 Regresión lineal simple  FUOC • P03/75057/01013 54 Regresión lineal simple

De manera que: De manera que:

n n
2 2
n n ∑ ( xi – x ) n n ∑ ( xi – x )
(xi – x ) =1 (xi – x ) =1
n
- ( x i – x ) = i----------------------------
∑ w i ( xi – x ) = ∑ ---------------------------- n
- = 1
n
- ( x i – x ) = i----------------------------
∑ w i ( xi – x ) = ∑ ---------------------------- n
- = 1
2 2
∑ i ( ) ∑ i ( )
2 2
i=1 i=1
∑ i ( x – x ) x – x i=1 i=1
∑ i ( x – x ) x – x
i=1 i=1 i=1 i=1

n n
Así pues: ∑ wi xi = 1 Así pues: ∑ wi xi = 1
i=1 i=1

Y, finalmente, tenemos que: E ( β̂ 1 ) = β 1. Y, finalmente, tenemos que: E ( β̂ 1 ) = β 1.

b) Varianza de β̂ 1 : b) Varianza de β̂ 1 :

n n n n n n
σ β̂ = Var ( β̂ 1 ) = Var  ∑ w i y i = σ β̂ = Var ( β̂ 1 ) = Var  ∑ w i y i =
2 2
1   ∑ Var ( w i y i ) = ∑ w i Var ( y i ) =
1   ∑ Var ( w i y i ) = ∑ w i Var ( y i ) =
i=1 i=1 i=1 Propiedad de la varianza i=1 i=1 i=1 Propiedad de la varianza

Var(kX) = k2Var (X). Var(kX) = k2Var (X).

 2  2
2 2
n
2  n
( xi – x )  2 1 2 2
n
2  n
( xi – x )  2 1
= σ ∑ w i = σ  ∑ ----------------------------
n
- = σ ----------------------------
n
- = σ ∑ w i = σ  ∑ ----------------------------
n
- = σ ----------------------------
n
-
 2  2  2  2
i=1

i=1
∑ ( xi – x )  ∑ ( xi – x ) i=1

i=1
∑ ( xi – x )  ∑ ( xi – x )
i=1 i=1 i=1 i=1

2 2
2 σ 2 σ
Tenemos que la varianza de β̂ 1 es: σβ̂ = ----------------------------
n
- Tenemos que la varianza de β̂ 1 es: σβ̂ = ----------------------------
n
-
1 1
2 2
∑ i ( x – x ) ∑ i ( x – x )
i=1 i=1