Anda di halaman 1dari 27

Cu

al es el siguiente paso?

El hecho de que dos variables est


an co-relacionadas implica que varan
juntas. Es decir, que cuando el valor de una de ellas aumenta o dis-
GRADO EN INGENIER
IA AMBIENTAL minuye, la otra variable cambia de acuerdo a un determinado patr on.

Esto resulta muy util para poder predecir el valor de una variable a
partir del valor de la otra.

ESTAD
ISTICA Al representar conjuntos de datos bivariantes mediante diagramas de
dispersi
on, hemos observado que, en muchos casos, la relaci on entre
las dos variables es aproximadamente lineal, y los puntos se agrupan
alrededor de una recta.
TEMA 3
A la recta que mejor se ajusta a los datos observados se le da
el nombre de recta de regresi
on.
RECTAS DE REGRESION

Sonia Hern
andez Alonso
Departamento de Estadstica e Investigaci
on Operativa (URJC)

Ejemplo: datos agrupados alrededor de una recta Ejemplo (continuaci


on)

Para los datos sobre niveles de NO2 en las estaciones de Madrid en los Si determinamos cu al es esa recta, podremos resumir la relacion
a
nos 2007 y 2008, hemos visto que la nube de puntos se concentra entre los niveles de 2007 y 2008, y tambien estimar los niveles de
entorno a una recta con pendiente positiva: NO2 de 2008 a partir de los de 2007:
80

80
70

70
60

60
NO2_2008

NO2_2008
50

50
40

40
30

30

40 50 60 70 80 90 40 50 60 70 80 90

NO2_2007 NO2_2007 1
Modelos de regresi
on Regresi
on versus correlaci
on

La nalidad de los modelos de regresion es explicar una variable La correlacion es una herramienta descriptiva, que se utiliza para
continua a partir de otra variable (o de otras variables). analizar si entre dos variables existe una relaci
on lineal. El papel de
ambas variables es simetrico. La correlaci
on no implica que una varia-
Para ello hay que encontrar una funci on que resuma la esencia de la
ble tenga que depender de la otra, ni que exista ninguna relaci on
relaci
on entre las variables. Si la funci
on est
a bien construida, per-
causal entre ellas.
mitir
a realizar predicciones sobre una variable a partir de los valores
observados para la otra. La regresion analiza cual es la relaci
on entre las dos variables, y
tiene ademas una utilidad predictiva. El papel de ambas variables es
Los modelos en los que intervienen s olo dos variables, es decir, los
asimetrico: Y depende de X, pero lo contrario no es cierto.
basados en datos bivariantes se llaman modelos de regresion simple.

De entre ellos, los m


as utilizados son los modelos de regresi
on lineal
simple o rectas de regresion, que explican la dependencia lineal de
una variable respecto de la otra.

Rectas de regresi
on Esquema

La recta de regresi
on puede considerarse como un resumen del dia- Variable independiente y variable dependiente
grama de dispersi on entre dos variables.
Relaciones deterministas versus relaciones probabilsticas
omo vara la media de Y en funci
Esta recta describe c on de X. Rectas de regresi
on de mnimos cuadrados
Ajustar una recta de regresi
on s
olo tiene sentido si previamente se ha C
alculo de la recta de regresi
on
constatado que existe relaci on lineal entre X e Y . Esto puede com-
probarse usando el diagrama de dispersi on y calculando el coeciente Interpretaci
on de la recta de regresi
on
de correlaci
on. Predicci
on
Tambi en debe comprobarse que no hay observaciones atpicas (out- Coeciente de determinaci
on
liers), ya que
estas son muy inuyentes en la determinaci
on de la recta.
Dos rectas de regresi
on
on indica el valor medio de Y para cada valor
La recta de regresi
Regresi
on con R-commander
de X.
Efecto de los datos atpicos en la recta de regresi
on

Otros modelos de regresi


on

Ap
endice: obtenci
on de los estimadores de mnimos cuadrados 2
X e Y juegan papeles diferentes

En las rectas de regresi


on intervienen dos variables con papeles
diferentes:
Una variable cuyo comportamiento deseamos explicar, a la que
llamaremos variable dependiente o variable respuesta.
Esta variable se suele denotar por la letra Y .
Variable independiente
Otra variable que nos servir a para explicar el comportamiento de
y variable dependiente Y , a la que nos referiremos como variable independiente, variable
explicativa, variable predictora o regresor.
Esta variable se suele denotar por la letra X.

El objetivo es por tanto explicar los valores de la variable inde-


pendiente en funci on de los de la variable explicativa. Esto es lo
on de Y sobre X.
que hace la recta de regresi

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC)

Qu
e variable juega cada papel? Pueden intercambiarse los papeles de X e Y ?

En muchos casos una de las dos variables depende de manera En algunas ocasiones tiene sentido tanto explicar el comportamiento
natural de la otra, y es facil identicar cu
al es la variable dependiente, de una variable a partir de la otra como hacerlo a la inversa.
Y , y cu
al la variable explicativa, X.
Por ejemplo, si se cuelgan de un muelle distintos pesos (P ) y se
Por ejemplo, es m as natural explicar el precio de una vivienda en base miden los alargamientos experimentados por el muelle (A), puede
a su supercie que hacer lo contrario. Por eso, para los datos sobre las tener sentido tanto explicar A partir de P , como explicar P a partir
viviendas de Piri
apolis, lo razonable es tomar como variable explicativa de A.
(X) la supercie, y como variable respuesta (Y ) los precios.
En cualquier caso, el papel que juegan las dos variables en una recta
Del mismo modo, es mucho m as razonable explicar los niveles de regresi
on, nunca es sim etrico: la recta de regresion de X sobre
contaminaci on un ano en funci
on de los del a
no anterior que hacerlo Y es diferente de la recta de regresi on de X sobre Y .
a la inversa. Esto es mas obvio a
un si lo que se pretende es predecir
Los papeles de X e Y nunca son directamente intercambiables.
los niveles de contaminaci on. Para datos sobre los niveles de NO2
en Madrid, lo logico es tomar como variable independiente (X) los
valores de 2007 y como variable dependiente (Y ) los del a no 2008.

3
Relaci
on determinista entre dos variables

En el campo de la Fsica, pueden encontrarse pares de variables, X e


Y , ligadas mediante una relaci
on lineal exacta o determinista.

En tales casos, cualquier conjunto de observaciones bivariantes

(x1, y1), (x2, y2), . . . , (xn, yn),


Relaciones deterministas forma una lnea recta perfecta. Es decir, para i = 1, 2, . . . , n se verica
versus relaciones probabilsticas yi = a + b x i
un valor de las constantes a, b IR.
para alg

El coeciente de correlaci
on lineal entre este tipo de variables es

rxy = 1

En estos casos la predicci


on no esta sujeta a ning un error, ya que
todos los datos bidimensionales se ajustan a la recta.

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC)

Ejemplo: relaci
on determinista Gr
aco: relaci
on determinista

En un circuito el
ectrico conectado a una resistencia de 5 ohmios, si Si representamos gr acamente la nube de puntos de las variables
llamamos Y al voltaje (o diferencia de potencial) medido en voltios y intensidad y voltaje, todas las observaciones se ajustar
an perfec-
X a la intensidad medida en amperios, se tiene que tamente a una lnea recta:

Y = 5X

on es exacta o determinista, y cada valor de x dar


Esta relaci a lugar
siempre al mismo valor de y.

Por ejemplo, una intensidad de 4 amperios siempre dar a lugar a una


diferencia de potencial de 20 voltios. Y una diferencia de potencial de
30 voltios siempre estara causada por una intensidad de 6 amperios.

4
Relaci
on probabilstica entre dos variables Ejemplo de relaci
on probabilstica: casas Piri
apolis

En la mayora de los casos, sin embargo, los valores de Y no pueden Retomemos los datos de supercies y precios de las casas de Piri
apolis,
ser totalmente explicados por la variable X, ya que dependen tambi
en
de circunstancias que no recoge esta variable. Supercie 106 73 114 132 86 117 125 68 71 111
Precio 178 91 188 165 132 115 173 116 97 204
En tales situaciones, el coeciente de relacion no es 1 ni -1, y es
Supercie 92 114 116 114 126 113 124 76 100 97
imposible encontrar una lnea recta que pase por todos los puntos.
Precio 119 101 137 203 186 181 214 50 131 124
on entre las variables X e Y es, en estos casos, una relaci
La relaci on
probabilstica o estoc
astica, que puede expresarse como Como puede observarse, aunque no existe una relaci on exacta entre
supercie y precio, el hecho de conocer la supercie de una vivienda
y = a + b x + , proporciona bastante informaci on sobre su precio. Las viviendas m
as
donde  es una perturbaci
on aleatoria o error. grandes tienden a ser m as caras, y viceversa.

Segun este modelo, la variable Y depende linealmente de la variable Es decir, existe relaci
on entre ambas variables, pero
esta no es de-
X, pero no queda totalmente explicada por ella, debido a la presencia terminista.
del error . En estos casos, dos observaciones con el mismo valor de
Observamos, por ejemplo, que hay tres viviendas de 114 m2, pero que
X pueden tener valores diferentes de Y (y viceversa).
cada una de ellas tiene un precio diferente: una cuesta 188.000 pesos
uruguayos, otra 101.000 y la otra 203.000.

Ejemplo: viviendas de Piri


apolis (continuaci
on) Ejemplo: viviendas de Piri
apolis (continuaci
on)

El diagrama de puntos sugiere que esa relaci on (no exacta) entre el En este caso, la variable dependiente, Y, es el precio, y la variable
precio y la supercie es de tipo lineal, ya que los datos parecen estar explicativa, X, es la supercie.
agrupados alrededor de una recta:
El modelo de regresion lineal simple asume que los valores del precio
pueden dividirse en dos partes:
una parte lineal explicada por la supercie,
una parte no explicada o perturbaci
on aleatoria, que depender a de
circunstancias como la antig
uedad de la vivienda, su situaci
on, etc.

5
Ejemplo: viviendas de Piri
apolis (continuaci
on) Ejemplo: viviendas de Piri
apolis (continuaci
on)

La formulaci
on del modelo de regresi
on lineal para estos datos es En principio podramos ajustar cualquier recta a la nube de puntos:

yi = a + bxi + i,
donde,
yi es el precio de la i-
esima vivienda,
xi es la supercie de la i-
esima vivienda,
i la perturbaci
on correspondiente al vivienda i-
esima.

Esta relaci
on indica que el precio de las viviendas aumenta linealmente
a medida que aumenta su supercie, pero adem as de la supercie
existen otros factores que inuyen en el precio.

e valores de a y b
En lo referente a la parte lineal del modelo, qu
deberamos tomar?

O expresado de otra forma: cu al es la recta que mejor explica la


parte lineal de la relaci
on entre supercie y precio? Cu
al de ellas explica mejor el precio de las casas en funci
on de su
supercie?

Ejemplo: viviendas de Piri


apolis (continuaci
on) Ejemplo: viviendas de Piri
apolis (continuaci
on)

Nuestro interes est


a en encontrar en la recta que mejor predice el Fij
emonos, por ejemplo, en la recta roja y en la primera de las viviendas
precio (Y ) a partir de la supercie (X). de Piri
apolis. El gr
aco ilustra la diferencia entre el precio real de esta
casa y el que la recta estima:
Por tanto, el criterio para ajustar la recta debe contemplar el que el
error cometido en esas predicciones sea lo menor posible.

Pero c
omo podemos medir el error cometido en las predicciones
por cada recta?

Este es el residuo de la primera vivienda para la recta roja. 6


Ejemplo: viviendas de Piri
apolis (continuaci
on) Coecientes de regresi
on

Si elegimos la recta azul, el residuo correspondiente a esa primera Dado un conjunto de puntos, (x1, y1), (x2, y2), . . . , (xn, yn), queremos
encontrar, de entre todas las rectas de la forma
casa ser
a menor. Sin embargo, algunas otras casas tendran residuos
muy grandes... y = a + bx
la recta que mejor explica los valores de Y a partir de los valores
de X. Esa ser on de Y sobre X.
a la recta de regresi

Encontrar la recta que mejor se ajusta a los datos observados equivale


optimos de a y de b.
a encontrar los valores

ametros a y b se denominan cocientes de regresi


Los par on:

a es el intercepto de la recta de regresi


on, u ordenada en el origen.
b es la pendiente de la recta de regresi
on.

Existen diversos criterios denir lo que signica la recta que mejor se


ajusta a los datos. O lo que es lo mismo, de denir lo que signica
optimos de a y b.
los valores

Qu
e recta proporciona residuos m
as peque
nos en conjunto? El criterio que habitualmente se utiliza es el llamado criterio de mni-
mos cuadrados

Estimaciones de Y a partir de una recta (


yi )

Para la i on, (xi, yi), el valor real de la variable inde-


esima observaci
pendiente es yi

Si elegimos unos determinados valores de a y b, el valor estimado o


previsto por la recta y = a + bx para la i
esima observaci
on es

Rectas de de regresi
on yi = a + bxi

de mnimos cuadrados El residuo correspondiente a la i- esima observaci on es la diferencia


entre el valor observado (yi) y el valor que la recta predice (yi).

ei = yi yi
o lo que es lo mismo

ei = yi a bxi,
que indica el error cometido por la recta en la estimaci
on o predicci
on
de la observacion (xi, yi)
Sonia Hern andez Alonso
Estadstica-Ingeniera Ambiental (URJC) 7
Signicado geom
etrico de los residuos Objetivo de la recta de regresi
on

Los residuos expresan la distancia vertical entre las observaciones y El ajuste de la recta de regresi
on se realiza con la pretensi
on de que los
la recta de regresi
on: residuos de la recta que elijamos sean lo m as peque nos posibles.

Para un conjunto de n datos bivariantes, hay n residuos,

e1 = y1 y1, e2 = y2 y2, . . . . . . , en = yn yn

Lo que pretendemos es que, en conjunto, estos n residuos sean pe-


que
nos.

Una posibilidad que podra parecer razonable es hacer que la media


de los residuos sea lo menor posible. Pero hay que tener en cuenta
que los residuos pueden ser positivos o negativos, y que tanto los muy
positivos como los muy negativos indican un mal ajuste.

Por eso es mas adecuado elevar los residuos al cuadrado y despu es


calcular su media, para evitar que los residuos positivos se compensen
con los negativos.

Criterio de mnimos cuadrados Recta de regresi


on de mnimos cuadrados

La media de los cuadrados de los residuos es Los valores de los coecientes a y b que minimizan el error cuadr
atico
n
 n
 n
 medio reciben el nombre de estimadores de mnimos cuadrados.
e2
i (yi yi)2 (yi a bxi)2
i=1 i=1 i=1
= = La recta de regresion mnimo-cuadr
atica, o simplemente recta de
n n n
regresi
on, es la recta
sta es una medida de la bondad del ajuste de una recta, que recibe
E y = a + bx
el nombre de error cuadr atico medio (ECM) y que depende de la
on que se haga de los coecientes a y b:
elecci que se obtiene cuando a y b son los estimadores de mnimos cuadrados.

n
 Esta recta minimiza la media de las distancias verticales entre las
(yi a bxi)2
observaciones y la recta.
ECM (a, b) = i=1
n
De acuerdo a este criterio, la recta de regresi
on es la recta que
ametros a y b, es hacer que
Un criterio razonable para elegir los par mejor se ajusta a los datos
el error cuadr
atico medio sea lo menor posible. Este es el criterio de
mnimos cuadrados o criterio mnimo-cuadr atico.

8
C
alculo de los estimadores de mnimos cuadrados Estimadores de la pendiente (b) y del intercepto (a)

Para hallar los estimadores de mnimos cuadrados hay que resolver el De esta forma se obtiene el siguiente valor de la pendiente de la recta
problema de optimizacion de regresi
on:
n n

1  (xi x)(yi y)
mn (yi a bxi)2
a,b n i=1 i=1
b= n

(xi x)2
Este problema se resuelve derivando ECM (a, b) respecto a cada varia-
i=1
ble e igualando a cero:
n Este estimador tambi
en puede expresarse como
2 
ECM (a, b) = (yi a bxi) = 0 sxy
a n i=1 b=
2 n s2
x
ECM (a, b) = xi(yi a bxi) = 0
b n i=1
El estimador de mnimos cuadrados del intercepto resulta ser
De este modo se obtiene un sistema de dos ecuaciones y dos inc
ogni- a=ybx
tas del cual hay que depejar los valores de a y de b.
es decir,
Los calculos necesarios para resolver este problema est
an detallados sxy
a=y x
en el Apendice de este tema. s2
x

Ejemplo: c
alculo de la recta de regresi
on Ejemplo: c
alculo recta regresi
on (continuaci
on)

En consecuencia, la recta que mejor explica los precios como fun-


Vamos a hacer los c alculos necesarios para encontrar la recta de re-
ci
on de las supercies de las viviendas es la recta
gresi
on de los precios de las viviendas de Piri
apolis sobre su precio.
y = 20.762 + 1.6 x
Habamos visto en el tema anterior que el vector de medias y la matriz
de varianzas y covarianzas de estos datos son


x
103.75 s2
x sxy 375.88 601.46

= S= =
y 145.214 sxy s2
y 601.46 1908.58

Por tanto, el valor de la pendiente de la recta de regresi


on es
sxy 601.46
b= = = 1.6
s2
x 375.88

El valor del intercepto de la recta es


No debe olvidarse que mejor signica mejor de acuerdo al criterio
a = y b x = 145.214 1.6 103.75 = 20.762
de mnimos cuadrados, y que existen otros criterios para evaluar el
ajuste a una nube de puntos. 9
En resumen...

En resumen...

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC)

En resumen... En resumen...

10
En resumen... En resumen...

En resumen... En resumen...

11
Interpretaci
on de los coecientes de regresi
on

Qu
e informaci
on proporcionan los coecientes de regresi
on?

O, expresado de otra forma: qu


e interpretaci
on puede darse a los
ametros a y b?
par

La pendiente de la recta de regresi on, b, indica el crecimiento


Interpretaci
on medio que experimenta la variable dependiente (y) cuando la va-
riable explicativa (x) se incrementa en una unidad.
de la recta de regresi
on
El intercepto de la recta de regresi
on, a, indica el valor medio de
la variable y cuando la variable x vale 0.
No obstante, hay muchas situaciones en la que esta interpretaci
on
del intercepto carece de sentido.

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC)

Ejemplo: interpretaci
on coecientes regresi
on Ejemplo: velocidad y densidad del tr
aco

Para los datos sobre la supercie y el precio de las viviendas de Pi-


En la siguiente tabla se recogen la densidad del tr aco (medida en
ri
apolis, hemos visto que la recta de regresi
on es
n
umero de vehculos por km) y la velocidad de los vehculos (en km/h)
y = 20.762 + 1.6 x en varios puntos de la red nacional de carreteras:

Veamos como se interpreta esta recta: Densidad Velocidad


20 100
La pendiente es b = 1.6. 30 95
Esto nos indica que, cuando la supercie de una de estas casas se 40 90
50 86
incrementa en 1 m2, el aumento medio de su precio es de 1.6
50 89
miles de pesos uruguayos (es decir, 1600 pesos). 110 80
La estimaci
on del intercepto es a = 20.762.
Vamos a calcular e interpretar el coeciente de correlaci
on y la recta
Evidentemente, en este caso no tiene sentido interpretar que, el
de regresi
on de estos datos.
precio medio de las viviendas que tienen 0 m2 de supercie, es de
20.762 mil pesos.

12
Tr
aco: diagrama de dispersi
on Tr
aco: tabla para los c
alculos

En este caso, lo m as razonable parece tratar de explicar la velocidad Para calcular el coeciente de correlaci
on y la recta de regresi
on de
de los vehculos a partir de la densidad del tr
aco. Esto supone tomar los datos necesitamos conocer las medias y varianzas de cada variable
y la covarianza entre ambas.
como variable dependiente (Y ) la velocidad,
La tabla siguiente facilita los c
alculos de dichos estadsticos:
como variable independiente (X) la densidad.
Punto xi yi x2
i yi2 xi y i
1 20 100 400 10000 2000
2 30 95 900 9025 2850
3 40 90 1600 8100 3600
4 50 86 2500 7396 4300
5 50 89 2500 7921 4450
6 110 80 12100 6400 8800
Suma 300 540 20000 48842 26000

Se aprecia una clara relaci


on lineal negativa entre las variables: a mayor
densidad del tr
aco, menor velocidad, y viceversa.

Tr
aco: c
alculo de estadsticos Tr
aco: coeciente de correlaci
on

Tenemos as que Resumiendo: el vector de medias y la matriz de varianzas y covarianzas


300 de estos datos son
x
= = 50
6 x
50 s2
x sxy 833.33 166.67

= ; S= =
6

x2 y 90 sxy s2
y 166.67 40.33
i
i=1 20000
= = 3333.33 s2 2
x = 3333.33 50 = 833.33 A partir de estos elementos podemos calcular el coeciente de corre-
6 6
laci
on entre la densidad del tr
aco y la velocidad de los vehculos:
540
y = = 90 166.67
6 rxy = = 0.909
833.33 40.33
6

yi2
i=1 48842 Puesto que se trata de un coeciente de correlaci on negativo y bas-
= = 8140.33 s2 2
y = 8140.33 90 = 40.33
6 6 tante pr
oximo a -1, indica que existe una clara dependencia lineal
negativa entre X e Y : en los puntos de la red con mayor densidad de
6

x i yi coches se tiende a circular con menor velocidad, y viceversa.
i=1 26000
= = 4333.33 sxy = 4333.33 50 90 = 166.67
6 6
13
Tr
aco: recta de regresi
on Tr
aco: gr
aco de la recta de regresi
on

Una vez comprobado que las variables velocidad y densidad estan muy
correlacionadas, procedemos a calcular la recta de regresi
on.

El valor de la pendiente de la recta de regresi


on es
sxy 166.67
b= = = 0.2
s2
x 833.33

En cuanto al intercepto, su valor es

a = y b x = 90 (0.2 50) = 90 + 10 = 100

En consecuencia, la recta de regresi


on es

y = 100 0.2 x

Tr
aco: interpretaci
on de la recta de regresi
on

La pendiente, de la recta,

b = 0.2,
indica que, si la densidad del tr
aco se incrementa en un vehculo por
km, entonces el descenso medio de la velocidad es de 0.2 km/h.

El intercepto, Predicci
on
a = 100,
sugiere que, si la densidad del tr
aco es 0, es decir, si no hay ning
un
coche en la carretera, entonces el primer coche que llegue podr a cir-
cular a una velocidad promedio de 100 km/h.

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC) 14
C
omo hacer predicciones con la recta regresi
on? Ejemplo: predicciones sobre tr
aco

Una vez que hemos encontrado la recta de regresi


on, Supongamos que se nos indica que en un determinado punto de la
red de carreteras, la densidad del tr
aco es de 70 vehculos por km.
y = a + b x,
a partir de n datos bivariantes, Que predicci
on podemos hacer sobre la velocidad de los coches en
este punto de la red?
(x1, y1), (x2, y2), . . . , (xn, yn),
La recta de regresi
on de la velocidad (Y ) sobre la densidad (X) era
si nos indican un nuevo valor de x, llam
emosle xn+1, podremos hacer
una prediccion de su correspondiente valor de y, es decir, de yn+1, y = 100 0.2 x
simplemente calculando
Por tanto, la velocidad que predice la recta de regresi
on para los
yn+1
= a + b xn+1
vehculos en este punto de la red de carreteras es

yn+1 on del valor medio que toma la variable Y cuando


es una estimaci y = 100 0.2 70 = 86 km/h
X vale xn+1
Esta predicci
on es una estimacion de la velocidad media para los
puntos de la red con una densidad de 70 vehculos por km.

Gr
aco: predicci
on de la velocidad Ejemplo: predicciones sobre viviendas de Piri
apolis

apolis que tiene 110 m2


Si nos hablan de una vivienda situada en Piri
de supercie, qu
e predicci
on podemos hacer sobre su precio?

La recta de regresi
on del precio (Y ) sobre la supercie (X) es

y = 20.762 + 1.6 x

Por tanto el precio que predice la recta de regresi


on para esta casa es

y = 20.762 + 1.6 110 = 155.238 miles de pesos uruguayos

Esta prediccion (155238 pesos) es una estimaci


on del precio medio
2
de las viviendas de 110 m de Piriapolis.

15
Gr
aco: predicciones sobre el precio Ejemplo: predicciones Piri
apolis (continuaci
on)

Supongamos ahora que queremos predecir el precio de un peque no


2
apolis de tan solo 12 m . Podremos predecir su precio
local de Piri
utilizando la recta de regresi
on?

La predicci
on que obtendramos en este caso sera

y = 20.762 + 1.6 12 = 1.562 mil pesos uruguayos

Observemos que esta predicci


on es absurda, ya que el precio del local
no puede ser negativo.

Gr
aco: extrapolaci
on Extrapolaci
on

El ejemplo anterior alerta sobre lo inadecuado que resulta hacer pre-


dicciones usando valores de X que est en fuera del rango de los datos
observados. Es importante ser cautelosos a la hora de utilizar una
recta de regresi
on para realizar predicciones.

En el contexto de los modelos de regresi on, suele darsele el nombre


de extrapolaci on a la utilizaci
on de la recta de regresi on para la
predicci
on fuera del intervalo de valores de la variable explicativa que
se han empleado para obtener la recta.

Otro ejemplo bastante ilustrativo de extrapolaci


on es el siguiente:
Si tomamos datos sobre la edad y la altura de ni
nos menores de 10
a
nos, lo habitual ser
a que encontremos una fuerte relacion lineal
positiva entre ambas variables.
Es muy razonable utilizar estos datos para construir una recta de
regresi
on que explique la altura de los ni
nos en funci
on de su edad.
Sin embargo, esta recta no puede utilizarse para predecir la altura
de los adultos, ya que, por ejemplo, para una persona de 40 a nos
16
predecira una altura de unos 4.5 metros aproximadamente.
R2

Se llama coeciente de determinaci on, a la proporci


on de la varia-
on total de la variable Y que explica el modelo regresi
ci on.

El coeciente de determinacion se denota R2, y se puede calcular


no s
olo para las rectas de regresi
on, sino para cualquier modelo de
regresi
on.
Coeciente de determinaci
on
Para el caso de las rectas de regresi
on (modelo de regresi
on lineal sim-
ple) puede demostrarse que el coeciente de determinaci on coin-
cide con el cuadrado del coeciente de correlaci on, es decir, se
verica
R2 = rxy
2

R2 indica qu on de la variabilidad muestral de Y est


e proporci a cau-
sada por la variabilidad de X.

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC)

Ejemplo: coeciente de determinaci


on Ejemplo: coeciente determinaci
on (continuaci
on)

Para los datos sobre la supercie (X) y el precio de las viviendas (Y ) El coeciente de determinaci
on
de Piri
apolis, la matriz de varianzas y covarianzas era
R2 = 0.5041
s2
x sxy 375.88 601.46
indica que la variabilidad observada en la supercie de las vivien-
S= =
sxy s2 601.46 1908.58 das explica el 50.41 % de la variabilidad de los precios de las
y
casas de Piri
apolis, es decir, aproximadamente la mitad.
Por tanto, el coeciente de correlaci
on lineal entre supercie y precio
El resto de la variabilidad observada en los precios (un 49.59 %) se
de las viviendas tomaba el valor
debe a otras causas: la antig uedad de las casas, su ubicaci
on, los
601.46
rxy = = 0.71 materiales de construccion, etc.
375.88 1908.58

En consecuencia el coeciente de determinaci


on es

R2 = rxy
2 = 0.712 = 0.5041

17
on de X a partir de Y
Predicci

Hasta ahora, hemos utilizado el conjunto de datos bivariantes

(x1, y1), (x2, y2), . . . , (xn, yn)


para ajustar una recta de la forma

y = a + b x
Dos rectas de regresi
on
Esta recta est nada para predecir y a partir de x, y no debe
a dise
usarse para predecir un valor de x a partir de y.

Si observamos un valor de y, y predecimos el correspondiente valor de


x como
ya
x=
b
sxy
con b = 2 y a = y bx no estaremos usando la recta que mejor
sx
predice x a partir de y. Es decir, no estaremos haciendo el mejor
uso de nuestros datos.
Sonia Hern andez Alonso
Estadstica-Ingeniera Ambiental (URJC)

on de X a partir de Y
Ejemplo: predicci on de X (continuaci
Ejemplo: predicci on)

Para los datos sobre el tr


aco, la recta de regresi
on de la velocidad Qu e podemos hacer entonces para obtener la mejor predicci
on sobre
sobre la densidad de vehculos es la densidad del tr
aco en ese punto de la red vial? Podemos calcular
una nueva recta,
y = 100 0.2 x x a +
= by

Esta recta nos permite predecir la velocidad de los coches para una que est
e dise
nada para predecir la densidad en funci
on de la velocidad.
Para ello hay que intercambiar los papeles de x e y.
determinada cantidad vehculos por kil
ometro. Sin embargo, NO sirve
para predecir la densidad del tr aco a partir de la velocidad. Usando de nuevo el vector de medias y la matriz de covarianzas

Por ejemplo, si nos dicen que en cierto punto de la red de carreteras x
50 s2
x sxy 833.33 166.67

los coches est
an circulando a 85 km/h, para predecir la densidad de = S= =
y 90 sxy s2
y 166.67 40.33
coches en ese punto NO debemos despejar x de la ecuaci on anterior,
y 100 podemos obtener la pendiente y el intercepto de la nueva recta de
x= = 500 5 y
0.2 regresi
on:
y predecir que en ese punto habr
a una densidad de sxy 166.67
b= 2 =
= 4.132
sy 40.33
500 5 85 = 75 vehculos por km

Esta NO sera la mejor predicci


on sobre la cantidad de coches. a = x
b y = 50 (4.124 90) = 421.901 18
on de X (continuaci
Ejemplo: predicci on) on de X (continuaci
Ejemplo: predicci on)

Por tanto, la recta de regresi


on de la densidad sobre la velocidad La recta que mejor predice la cantidad de coches por km a partir de
de los vehculos es la velocidad a la que circulan los vehculos es por tanto
x
= 421.9 4.132 y x
= 421.9 4.132 y

Para predecir la densidad de coches en el punto de la red de carreteras


en el que los coches est
an circulando a 85 km/h, debemos utilizar esta
recta:

x
= 421.9 4.132 85 = 70.681 vehculos por km

Esta es la mejor predicci


on sobre la cantidad de coches en ese punto.

Notese que esta predicci


on es diferente a la que se obtendra despe-
jando de la recta de y sobre x (75 coches por km).

Dos rectas de regresi


on Relaci
on entre las dos rectas de regresi
on

Dado un conjunto de datos bivariantes, (x1, y1), (x2, y2), . . . , (xn, yn), En general, las dos rectas de regresi
on,
se pueden ajustar dos rectas de regresi
on:
y = a + b x,
y = a + b x, x a +
= b y,
x
= a +b y.
no coinciden:

Primera de estas rectas permite predecir los valores de y en funci


on
de los de x, mientras que la segunda indica como predecir los valores
de x a partir de los de y.

Los estimadores de minimos cuadrados de los coecientes b y a son


sxy
b= 2; a = y b
x
sx
b y
mientras que los de a son
sxy
b= 2;
a = x
by
sy

19
Signo de las pendientes de las dos rectas

Las pendientes de las dos rectas de regresi


on,
sxy sxy
b= 2 y b= 2

sx sy
tienen ambas el mismo signo, que es el signo que tenga la cova-
rianza y por tanto tambi
en el que tenga el coeciente de correlaci
on.
Regresi
on con R-commander
Esto implica que:

cuando la correlaci
on es positiva, ambas rectas de regresi
on son
crecientes,
cuando la correlaci
on es negativa, ambas rectas de regresi
on son
decrecientes.

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC)

La importancia del tama


no de la muestra (n) Ejemplo con Rcmdr: potencia y emisiones de CO2

Para que un modelo de regresion resulte able, tanto desde un punto Para analizar la relaci
on entre la potencia de los vehculos y la cantidad
de vista meramente descriptivo como en sentido predictivo, debe estar de di
oxido de carbono que desprenden a la atm osfera, se ha realizado
construido con un conjunto de datos sucientemente grande. un estudio sobre 25 modelos de coche.
Ejemplos como el de los datos de tr aco, con solo 6 pares de observa- El resultado del an
alisis realizado con R-commander para estos datos
ciones, no deben utilizarse para extraer ning
un tipo de conclusi
on. Este se muestra en la transparencia siguiente.
ejemplo ha sido incluido solo porque un tama no de muestra peque no
permite ilustrar c
omo se realizan los calculos. Pero las conclusiones y La potencia est
a medida en caballos de vapor (Cv) y las emisiones de
predicciones de este ejemplo no tienen ninguna abilidad. CO2 en gramos desprendidos por kilometro recorrido (gr/Km).

Cuanto mayor sea el conjunto de datos, m


as able ser
a la recta de
regresi
on resultante.

El problema es que, cuando se tienen muchos datos, el c alculo de


los estimadores de mnimos cuadrados, los coecientes de correlaci
on
y determinacion, etc
etera, resultan muy laboriosos para hacerlos a
mano o con la ayuda de una calculadora.

Habitualmente, el ajuste de los modelos de regresi


on se realiza con la
ayuda de alg
un paquete inform atico, como R-commander. 20
Ejemplo con Rcmdr: salida del programa Ejemplo con Rcmdr: coeciente de determinaci
on

A n de determinar si tiene sentido ajustar una recta de regresi on a


los datos, comenzaremos por analizar qu e porcentaje de la variabilidad
observada en las emisiones de di oxido de carbono de los vehculos
puede explicarse por la variabilidad de sus potencias.

on, R2.
Para ello tenemos que jarnos en el coeciente de determinaci
ste aparece en la pen
E ultima lnea de la salida de R:

El coeciente de determinaci
on es por tanto

R2 = 0.8082,
lo cual indica que un 80.82 % de la variabilidad observada en las
emisiones de di oxido de carbono de los vehculos puede explicarse por
la variabilidad en la potencia de dichos vehculos.

Ejemplo con Rcmdr: recta de regresi


on Ejemplo con R: podemos predecir P a partir de C?

Pasemos ahora a identicar cual es la ecuaci


on de la recta de regresi
on Supongamos que los coches cuyas emisiones de CO2 no superan los
que explica las emisiones de CO2 (C) en funci on de la potencia (P ). 120 gramos por km recorrido est an exentos de pagar el impuesto
Para ello tenemos que jarnos en la secci
on de coecientes (Coe- de matriculaci
on. Qu e estimaci
on puede hacerse sobre la potencia
cients) en la columna de estimadores (Estimate): maxima de los vehculos que pueden acogerse a esta exenci
on scal?

La recta
c = 51.89 + 0.61 p

permite hacer predicciones sobre las emisiones de CO2 para una de-
terminada potencia. Sin embargo, para predecir la potencia que de
un vehculo que emite 120 gr/km de CO2 necesitaramos conocer la
on de C sobre P es
Esto indica que la recta de regresi ecuaci
on de la recta de regresi
on de la potencia sobre la cantidad de
c = 51.89 + 0.61 p
CO2 emitido, es decir, la recta

p =
a +
bc
Con esta recta podemos hacer predicciones sobre las emisiones de
CO2 a partir de la potencia. Por ejemplo, la estimacion que propor- La salida de R de la que disponemos no incluye los coecientes de
on para las emisiones de CO2 de un 44 todo
ciona la recta de regresi
dicha recta. Por tanto no podemos estimar la potencia de un coche
terreno de 200 Cv es
que emite 120 gr/km de CO2, ya que utilizar la otra recta de regresi on
c = 51.89 + 0.61 200 = 173.89 gr/km
y despejar de ella el valor de p no proporcionara una buena predicci
on. 21
omo sabemos el valor de r?
Ejemplo con Rcmdr:: c Ejemplo con Rcmdr: c
omo sabemos qu
e recta es?

En la salida de regresi
on R no aparece de forma explcita el cociente C
omo podemos identicar en la salida de R cu
al de las dos rectas
on, rpc.
de correlaci de regresi
on es la que aparece?
Sin embargo podemos determinar cu
al es su valor teniendo en cuenta
Podemos jarnos en la llamada que aparece al principio de la salida:
que:

El signo del coeciente de correlaci on y el de la pendiente de


la recta de regresi
on, siempre coinciden.
La relaci
on entre el coeciente de determinaci
on y el coeciente a antes del smbolo es la la variable dependiente
La variable que est
de correlaci
on es (Y ) y la que aparece despu
es la variable explicativa (X).
R2 = r 2 Tambi en podemos observar, en la parte de los coecientes, que la
variable potencia es la variable explicativa (Estimate):

En nuestro ejemplo, la pendiente de la recta de regresi


on (b = 0.61)
es positiva, por lo que sabemos que rpc > 0.

Por otra parte tenemos que R2 = 0.8082. Luego



rpc = + 0.8082 = 0.899
y por tanto emisiones de CO2 ha de ser la variable respuesta.

Inferencia sobre regresi


on

La salida de R del ejemplo anterior contiene muchos elementos que no


hemos analizado: t value, Pr(> |t|), F-statistic, p-value... Qu
e infor-
macion proporcionan todos estos valores?

Un an alisis de regresi
on completo requiere hacer inferencia esta-
dstica sobre los distintos elementos del modelo lineal: el intercepto,
la pendiente, el coeciente de determinaci on... Efecto de los datos atpicos
Por ejemplo, no basta con mirar si R2 est a mas cerca de 0 o de 1.
en la recta de regresi
on
Para poder decidir si existe una relaci
on lineal signicativa entre las
dos variables, debe contrastarse la hip otesis de que est an incorre-
lacionadas mediante un test estadstico.

Sonia Hern andez Alonso


Estadstica-Ingeniera Ambiental (URJC) 22
Efecto de los datos atpicos en la regresi
on Ejemplo: efecto datos atpicos (continuacion)

Los datos atpicos tienen una fuerte inuencia en el ajuste de la Para los datos sobre la supercie y el precio de las 20 viviendas de
recta de mnimos cuadrados. Piri
apolis, habamos visto que la recta de regresi
on era

Esto es debido a que esta recta de regresi


on es la que minimiza el y = 20.762 + 1.6 x
error cuadr
atico medio
n Supongamos que ajust asemos la recta de regresi
on utilizando las 20
1 
ECM (a, b) = (yi a bxi)2 casas que tenamos anteriormente y ademas otra casa m as, con una
n i=1 2
supercie de 225 m y un precio de 183.000 pesos uruguayos.
es decir, est
a basada en promedios, y como ya sabemos, los prome-
dios resultan muy poco robustos. Nuestro conjunto de datos bivariantes sera por tanto

Puesto que los estimadores de mnimos cuadrados, son el resultado Supercie 106 73 114 132 86 117 125 68 71 111
de resolver el problema de optimizaci
on Precio 178 91 188 165 132 115 173 116 97 204
n
1 
mn (yi a bxi)2, Supercie 92 114 116 114 126 113 124 76 100 97 225
a,b n i=1 Precio 119 101 137 203 186 181 214 50 131 124 183
ser
an muy sensibles a la presencia de datos atpicos, es decir, datos
con un comportamiento distinto al de la mayora. Estos datos tambien
se denominan outliers.

Ejemplo: efecto datos atpicos (continuacion) Ejemplo: efecto datos atpicos (continuacion)

Si regresentamos los datos mediante un diagrama de dispersi on, pode- Si con los los datos de las 21 casas ajustamos una nueva recta de
mos apreciar que la vivienda que hemos a nadido al conjunto est a bas- regresi
on mediante mnimos cuadrados obtenemos
tante alejada del resto de datos bivariantes, es decir, es un outlier: y = 62.637 + 0.762 x
que como vemos es muy diferente de la recta de regresi
on que ob-
tenamos con las 20 viviendas iniciales

y = 20.762 + 1.6 x

23
Ejemplo: efecto datos atpicos (continuacion) Regresi
on robusta

La primera recta indica que, cuando la supercie de una casa se incre- Existen otros criterios para ajustar una recta a los datos que propor-
menta en 1 m2, el aumento medio de su precio ser a de 762 pesos. cionan ajustes menos inuenciables por la presencia de outliers.

Sin embargo la segunda recta estima que, al aumentar la supercie de En general estos m etodos robustos son complicados de calcular, por
la vivienda en 1 m2, su precio se ver
a incrementado, por t ermino lo que se utilizan con menos frecuencia.
medio, en 1600 pesos uruguayos.
Sin embargo, varios de estos m
etodos est
an implementados en R,
Esto se debe a que la nueva casa que se ha incluido en el conjunto entre ellos:
resulta atpicamente barata con respecto al resto (precisamente por
ser mucho m as grande). Aunque se trata de una
unica vivienda, tiene los estimadores de mnimos cuadrados recortados (LTS), que mi-
un gran efecto en las predicciones de los precios, que ahora ser an nimizan una media recortada de las distancias verticales de los
mucho menores. puntos a la recta.
los MM-estimadores
Este ejemplo pone de maniesto que la recta de regresi
on basada
en el criterio de mnimos cuadrados no es robusta los -estimadores
el estimador de mnima mediana de cuadrados (LMS), que descri-
biremos brevemente a continuacion.

Estimador de mnima mediana (LMS) Estimador de mnima mediana (continuaci


on)

Una forma de robustecer la recta de regresi


on es sustituir la media La recta as obtenida se ve mucho menos inuenciada por la pre-
de los cuadrados de los residuos, sencia de outliers que la recta mnimos cuadrados.
n
1  Sin embargo, el calculo de los estimadores de mnima mediana es
ECM (a, b) = e2
n i=1 i mucho m as complejo que el de los estimadores mnimos cuadrados,
por su mediana: ya que no es posible encontrar una f
ormula explcita para ellos.

Mediana e2 2 2
1 , e 2 , , . . . , en No obstante, algunos paquetes estadsticos, como R o S-PLUS, cal-
culan estos estimadores.
Los valores de a y b que resultan de resolver el problema de optimi-
zaci
on

mn Mediana (y1 a bx1)2, (y2 a bx2)2, , . . . , (yn a bxn)2
a,b
son los estimadores de mnima mediana de los cuadrados de los
residuos (LMS-estimadores, por sus siglas en ingl
es).

Estos estimadores fueron propuestos por Rousseeuw en el a


no 1987.

24
Ejemplo: estimador de mnima mediana (LMS) Ejemplo: LMS (continuaci
on)

Para los datos de las viviendas de Piri


apolis, la recta ajustada mediante Puede preciarse la recta de mnima mediana se ve muchos menos
el m
etodo de mnima mediana de cuadrados resulta ser afectada por la presencia de la casa atpica que la recta de mnimos
cuadrados:
y = 32.193 + 1.772 x

Ejemplo: LMS (continuaci


on) Ejemplo: LMS (continuaci
on)

El gr
aco siguiente compara las rectas de mnima mediana cuando se A continuaci
on se representan las rectas de mnimos cuadrados y de
consideran las 20 casas iniciales y cuando se icluye la vivienda atpica. mnima mediana para las 20 casas iniciales e incluyendo la vivienda
Se observa que las rectas apenas dieren: atpica:

25
Regresi
on m
ultiple

Este tema es una introduccion a los modelos de regresion, en el que


s
olo hemos desarrollado el caso de las rectas de regresi
on,

y = a + b x,
que son modelos simples (porque utilizan una sola variable explicativa)
y lineales (porque se busca la mejor recta, pero no se consideran
Otros modelos de regresi
on
funciones de otro tipo).

En muchos casos para explicar adecuadamente la variable dependiente


(Y ), es necesario recurrir a la regresi
on m
ultiple, que incluye varios
regresores (X1, X2, . . . , Xp):

y = a + b1 x1 + b2 x2 + . . . . . . + bp xp

Por ejemplo, para explicar de forma m as completa los precios de las


casas de Piri
apolis, podra utilizarse un modelo de regresi on que tu-
viese como variables explicativas no s olo su supercie, sino tambien
Sonia Hern andez Alonso su antig
uedad y la distancia al centro de la ciudad y/o a la playa.
Estadstica-Ingeniera Ambiental (URJC)

Regresi
on no lineal Bibliografa

El hecho de que dos variables no est en correlacionadas, no implica Ross, S.M. (2007) Introducci
on a la estadstica. Reverte
que no est
en relacionadas, sino s
olo que no lo est
an de manera lineal.
Captulo 12.
No hay que olvidar que incorrelaci
on e independencia son conceptos
Montgomery, D.C. et al (2012). Engineering Statistics. Wiley
diferentes. La independencia siempre implica incorrelaci
on, pero el
recproco no es cierto. Captulo 6, secci
on 2.

La variable Y puede depender de X a trav es de una funci on de otro Walpole, R.E. (2007). Probabilidad y estadstica para ingeniera y
tipo: exponencial, sinusoidal, cuadr
atica, logartmica, etc. ciencias. Pearson

Los modelos de regresi on no lineales ajustan otros tipos de rela- Captulo 12.
ciones entre las variables. Algunos ejemplos de este tipo de modelos
son los siguientes: McKillup, S. (2009) Statistics Explained. Cambridge University Press

y = a bx, Captulos 14 y 15.


y = a cos(b x), Pe
na, D. (2001) Fundamentos de Estadstica. Alianza Editorial
y = a + b x + cx2,
Captulo 11.
y = a log(b x),
... 26
Obtenci
on estimadores mnimos cuadrados

Para hallar los estimadores de mnimos cuadrados hay que resolver el


problema de optimizacion
n
1 
mn [ECM (a, b)] = mn (yi a bxi)2
a,b a,b n i=1

Ap
endice Para resolver este problema derivamos respecto a cada variable
n
2 
ECM(a, b) = (yi a bxi) = 0
a n i=1
n
2 
ECM(a, b) = xi(yi a bxi) = 0
b n i=1
e igualamos ambas a 0, de forma que
n
2 
0= (yi a bxi)
n i=1
2
0 = (ny na nb x)
n
Sonia Hern andez Alonso
Estadstica-Ingeniera Ambiental (URJC)

Obtenci
on EMC (continuaci
on) Obtenci
on EMC (continuaci
on)

De este modo se obtiene un sistema de dos ecuaciones y dos inc


ogni- Despejando b de esta u ltima ecuaci
on se obtiene que el valor de la
tas del que hay que depejar los valores de a y de b. pendiente de la recta de regresi
on de minimos cuadrados es:
n

Despejando a obtenemos la ecuaci
on, xiyi n
xy
nsxy sxy
a = y b
x (1) b = i=1
n = =
 nsx
2 s2
x
x2 x2
i n
Por otra parte i=1

n
 Si ahora despejamos a de la ecuacion (1), llegamos a que, el valor del
0 = 2 xi(yi a bxi)
i=1 intercepto de la recta de regresi
on es:

n
 n sxy
0 = 2 x i yi xi(a + bxi) a= y x
s2
x
i=1 i=1
n
 n

x i yi = xi(
y b x + bxi)
i=1 i=1
n
 n
x i yi = n
xy + b 2
xi n 2
x
i=1 i=1
27

Anda mungkin juga menyukai