UPCT
Planteamiento
Guin o
Planteamiento Criterio de m nimos cuadrados Casos concretos: regresin lineal o La recta y = ax + b Algunas transformaciones utiles
UPCT
Planteamiento
Guin o
Planteamiento Criterio de m nimos cuadrados Casos concretos: regresin lineal o La recta y = ax + b Algunas transformaciones utiles
UPCT
Planteamiento
Conjuntos de datos reales A menudo, ms de una variable asociada a cada individuo. a Nos interesa las posibles relaciones Empezamos por una matriz de grcas por pares... a
UPCT
Planteamiento
UPCT
Planteamiento
1.0
2.0
qq q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q
1.0
2.0
3.0
q qq q q q qq q q q q qq qq q q q q q q q q q q q q q q q q q q q q q
PROP_PRES
1.2
PROP_APRB
q q q q qq q q qq q q q q q qq q q q q qq q q q q qq qq q q q q qq q q q q q q q qqq q qq qq q q qqq q q qq q q
qq q
qq q q qq q q q qq q qqq q q q q q q q q q q q qq q q q q q qq q q q qq q q q qq qq q q q qq q qqq q q q q q q
q q qq qq q q qq qq q qq q q qq q q q qq q qq q q q q q qq q q q q q q qq q q q q q q q q q q q qq q q q q q q qq qq q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q qq qq q q q q q q q q q qq q q q
q q q q q qq q q q qq q qq q q qq q qq qq q q qqq q qq qq q qqq qq q qq
q qq q q qq q qq qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q qq q q q q q q q qq q qq q q q q q q q q q qqq qq q q q q q q q q q q q qq q q q q q qq q q q q qq q q q q q q q q q qq q q q qq q q q q q q q q q q q q q qq q qq q q q q q qq q q q q q q q q q qq q qq q q qq qq q q q q q q q q qq q q q q q q q q q q q qq q qq q q q qq qq q qq q q q
0.6
qq qq qq q q qq q q q qq q q q q q
q q q q q q q q q q
q q q q q q q q q q q q
q q q q q q
q q
8.5
q q qq q q q q q q q q qq q q q q q q q q q q qq q q q q q q qqqq q q q q q q q q qq q q q qq q q q q q q qq q q q q q q qq q qq q q q q q qq q q q q q q q q q q q qq q q q qq q qq q q qq q qq q q q qq q q q q q q q q q qq q qq q q qq q qqq qq q qq q qq q q q q
q q q q q q qq q q qq q q q q q q qq q q q q qq qq q q q q qq q qq q q
q q
q q q q q q q qq q qq qq q q q qq q q q q q qq q q q qq q q qq q q q q q q q q q q qq q qq q q q q qqq q q qq qq q q q qq q q qq q q q q q q q q q q q q q q q q q qqq q q qq q q q q q q q q q qq q q q
q q q qq q q qq q qq qq q qq q q q qq q q q q q q qq q qq q q q q q q q q q
5.5
q q q q q q q q qq q q qq q q q q q q q q q q q qq q q q q q q q q q q q q q q
7.0
NOTA_MED
q q q q q
q q q q q q q q q
qq q
q q
2.0
qq q
1.0
q q q q q q qq q q q q q q qq q q q q q q q q q qqq q q q q
q qq
q q
q qq q
q q q q q qq
q qq q q q q
q qq q q q qq q q qq q q q q q q qq qq qq q q q q q q q q q q q q
qq q q q q q qq q qq q q q q q q q q q qq q q q q q q q q qq q q q q q q q qq q q q q q qq q q q qqqq q q q q q q q q q q q q q qq q q q q qq qq q q qq q q q qqq q q q q q q qq qq q qq q q q qq qq q qq
q q q
qqq
q q q qq q q qq qq qq q q q q q q q q qq q q q q q q q q q q qq qq q q q q q q q q q q q qq q q qq q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q qq q q q q q q qq q q q qq q q q q q q q
MED_CONV_APRB
q q qq qq q q
qq q
qq qq q
q q q q qq q q q q qq q qq q qq qq q q q q
q q
q qq q
q q q q q q q qq q q q qq qq q q q qq qqq qq
q q q
qqq
qq q q qq q q q qq q q q qq q q q
q q q q
MED_MAT_APRB
q q q q
q q
q q q q qq q q q qq q q q q q q qq q q q q q qq q q qqqq q q q q q q q q qq q q qq q
2.5
q q q
1.0
q qq q q q q qq q q q q q q q q q q qqq q q q q q qq qq
q q q
qqq
qq q q q q qq q q q q qq q q q q q q qq qq q q qq q q q q qq qq q q q q q q q q qq q q
q q
q q q
MED_CONV_PRES
q q q q q qq qq q qq qq q q q q qq q q q q qq q q q q q qq q qq q q q q q q q q q q
q q q q q q q q q q
q q q q
q q
MED_MAT_PRES
qqq
0.3
0.6
0.9
100
250
1.0
1.6
2.2
1.0
1.4
1.8
1.0
q q qq q q q q q qq q q qqqq qq q qq q
q q q qq q q q q q qq q q q q qqq q qq q
qq q qq q q q qq
qq q
q q q q q q q q q q qqq q q q q q q q q q
q q q q q qq q q q q qq q q qq q q
1.4
q q q q q qq q
qq q
1.8
1.0
q qq q q q q q qq q q qq qq q q q q q q q qq q q qq
q q q q q qq q q q q qq q q qq qq q q q qq q q q qq q q qq qq
q q q qq qq q q q q qq q q qq q qq qq q q q qq qq q q q qq q
q q
NOTA_COD_MED
q q q q q q q q q q q q qq q q q qq q q q qq qq q
q q q q q
q q q q q q q q q
1.6
2.2
qq q q q q qq q qq q q q q q qq q q q q q q qq qq q q q q q qqq
NUM_MATR
q q q q q q
q qq qq
qq q
q qq q q
qq q q q q q qq q qq q qq q q q q q q q q q qqq
q q q q qq q q q q q q qq q q qq qq
150
350
0.3
q q q qq qq q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q
q q q q q q q q q q q qq qq q qq q q qq q q q q q q qq q q q q q q q q q
q q q
0.6
qq qq q q q qq q q q q qq q q q qq q q q q q q q q q q
0.9
UPCT
Planteamiento
Nos centramos a partir de ahora Una variable respuesta Y Una (o ms) variable(s) explicativas, X , ( X1 , X2 , . . .) a o Buscamos explicar la evolucin de la respuesta en funcin de las o o explicativas Construimos un modelo basado en los datos Para entender Para predecir Ejemplo: evolucin media en agosto en San Javier o Modelo: Temperatura = 582.5 + 0.3ao, n
Kessler Ajuste por m nimos cuadrados UPCT
Planteamiento
Resistencia
15 0
Kessler Ajuste por m nimos cuadrados
20
25
30
35
40
10
15 Das
20
25
UPCT
Planteamiento
Nivel
80 1930
Kessler Ajuste por m nimos cuadrados
100
120
140
160
180
1940
1950 Ao
1960
1970
1980
UPCT
Planteamiento
5000
10000
15000
1900
1920 Ao
1940
1960
1980
UPCT
Planteamiento
Velocidad (km/s)
1500
1000
q q q q q q
500
q q q q q
q q
q q q
q q
q q q q
0.0
Kessler Ajuste por m nimos cuadrados
0.5
1.0
1.5
2.0
2.5
UPCT
Distancia(megaparsecs)
Planteamiento
Guin o
Planteamiento Criterio de m nimos cuadrados Casos concretos: regresin lineal o La recta y = ax + b Algunas transformaciones utiles
UPCT
Planteamiento
Los datos Nos limitamos de momento a una variable respuesta Y y una variable explicativa X . Presentacin de los datos: o X x1 x2 . . . xn Y y1 y2 . . . yn
Planteamiento
Nube de puntos
3.0 Y 1.5 2.0 2.5
(x2,y2)
1.0
(x3,y3)
0.5
(x1,y1)
0 1 2 X 3 4
UPCT
Planteamiento
Ajuste
Decidimos ajustar una curva de una determinada forma funcional Por ejemplo, una recta: Y = aX + b. Por ejemplo, una parbola: Y = a0 + a1 X + a2 X 2 . a En general, especicamos una familia paramtrica: e x f (, x) es el vector de parmetros. a Nuestro objetivo Buscamos la funcin de la familia que mejor se ajusta a la nube o Debemos encontrar el valor concreto de que corresponde a esa funcin ptima o o
Kessler Ajuste por m nimos cuadrados UPCT
= (1 , . . . , k ),
Planteamiento
y3
f(, x3)
(x3,y3)
y=f(, x) x3
UPCT
Planteamiento
Planteamiento
Algunos trminos e
La curva de ecuacin y = f (, x): curva ajustada. o Los valores y1 = f (, x1 ), . . . , yn = f (, xn ): valores ajustados. Las distancias verticales entre los puntos observados y la curva ajustada: los residuos e1 , . . . , en . Tenemos ei = yi yi , i = 1, . . . , n.
La suma de cuadrados SC () = n ei2 se llama suma de i=1 cuadrados residuales. La varianza de los residuos: varianza residual
2 se =
1 n1
(ei e )2 .
i=1
UPCT
Planteamiento
Guin o
Planteamiento Criterio de m nimos cuadrados Casos concretos: regresin lineal o La recta y = ax + b Algunas transformaciones utiles
UPCT
Planteamiento La recta y = ax + b
Recta y = ax + b.
Entre todas las posibles rectas:
0 30 25 20 15 y 10 5
50
60
70 x
80
90
UPCT
Planteamiento La recta y = ax + b
Recta y = ax + b.
Buscamos la mejor:
0 30 25 20 15 y 10 5
50
60
70 x
80
90
UPCT
Planteamiento La recta y = ax + b
= (a, b),
SC () = SC (a, b) =
i=1
SC (a, b) = 0. b
xy x y x 2 ()2 x
a b = y x .
UPCT
Planteamiento La recta y = ax + b
a b = y x .
Y y1 y2 . . . yn
La media de y , ( ). y La media de Y 2, (y 2 ).
X 2,
(x 2 ).
UPCT
Planteamiento La recta y = ax + b
= a Introducimos:
xy xy x 2 ()2 x
a b = y x .
a b = y x .
(x x ) .
UPCT
Planteamiento La recta y = ax + b
La covarianza puede ser positiva o negativa, pero del mismo signo que la pendiente . a Covarianza positiva = asociacin positiva: cuando crece una o variable crece la otra. Covarianza negativa = asociacin negativa: cuando crece una o variable decrece la otra.
UPCT
Planteamiento La recta y = ax + b
(sxy )2 2 2 sx sy (sxy )2 2 2 sx sy
2 2 se = sy 1
sxy sx sy :
R2 =
(sxy )2 2 2 : sx sy
Planteamiento La recta y = ax + b
(sxy )2 2 2 sx sy
2 2 se = sy 1 R 2 .
(sxy )2 2 2 sx sy
UPCT
Planteamiento La recta y = ax + b
Ejemplo
Queremos estudiar la relacin entre el peso y la altura en un grupo o de individuos. Los datos son Peso(kg) Altura(cm) 54 160 70 170 65 172 78 185 68 160 85 175 Y X
UPCT
Planteamiento La recta y = ax + b
peso
55 150
60
65
70
75
80
85
160
170 altura
180
190
UPCT
Planteamiento La recta y = ax + b
Clculos a
x=
160+170+...+175 6
= 170.33,
y =
54+70+...+85 6
= 70,
x2 =
= 29089,
y2 =
= 4995.7,
xy =
16054+17070+...+17585 6
= 11984.2
2 sx 2 sy
= = =
sxy
n 6 x (x 2 ()2 ) = [29089 (170.33)2 ] 90.7, n1 5 n 6 (y 2 ( )2 ) = [4995.7 (70)2 ] 144.8, y n1 5 n 6 (xy ()( )) = [11984.2 170.33 70] 73. x y n1 5
y 70 =
Kessler Ajuste por m nimos cuadrados
73 (x 170.33), 90.7
y = 0.80x 67.1 .
UPCT
Planteamiento La recta y = ax + b
peso
55 150
60
65
70
75
80
85
160
170 altura
180
190
UPCT
Planteamiento La recta y = ax + b
r=
0.715,
lo que implica que R 2 0.51, mal ajuste. Se suele considerar buen ajuste a partir de R 2 0.8 aprox.
UPCT
Planteamiento La recta y = ax + b
Prediccin o
Disponemos de un modelo ajustado, lo usamos para predecir x0 valor no observado de X , nuestra prediccin del valor de la o respuesta Y ser: a yx0 = x0 + b. a Ejemplo: A qu peso corresponder una altura de 180cm? e a peso = 0.8altura 67.1 peso 0.80 180 67.1 76.9kg CUIDADO! Es peligroso extrapolar nuestro modelo lejos del rango observado de valores de X . Ejemplo: a qu peso corresponder la altura de un nio de 80 e a n cm?
Kessler Ajuste por m nimos cuadrados UPCT
UPCT
Modelo exponencial
UPCT
Modelo original y modelo transformado Modelo terico original o y = be ax aplico ln Modelo transformado
UPCT
Procedimiento
Modelo transformado: Y = ln(Y ), y X = X , tenemos: Y =aX +b. Aadimos una columna a nuestros datos: n X x1 x2 . . . xn
Kessler Ajuste por m nimos cuadrados
Y y1 y2 . . . yn . . .
ln(yn )
UPCT
Procedimiento (II)
Ajustamos ahora una recta de Y sobre X . Hacemos la transformacin inversa del modelo ajustado para o obtener el ajuste original. Ejemplo Queremos ajustar un modelo exponencial a los siguientes datos X 2.3 5 7.1 8
Kessler Ajuste por m nimos cuadrados
Y = ln(Y )
UPCT
Obtenemos y = 0.148x + 0.682 es decir que ln(y ) = 0.148x + 0.682, lo que implica que y = e 0.148x e 0.682 = 1.18e 0.148x .
UPCT
1400
q q q q q
1200
q q q
q q
1000
Precio
q q
q q q
800
q q q q q q
600
q q q q q q q q q q q q q q q q q q q q q q q q q
400
1996
1998
2000
2002
2004
2006
Ao
UPCT
q q q
7.2
q q q q
7.0
q q q q
log(Precio)
6.8
q q q q
6.6
q q q q q
6.4
q q q q q q q q
6.2
q q q q q q q q q q q
q q
6.0
1996
1998
2000
2002
2004
2006
Ao
UPCT
Modelo potencial
UPCT
Modelo original y modelo transformado Modelo terico original o y = bx a aplico ln Modelo transformado
ln(y ) = ln(b y =b +a
UPCT
Procedimiento
Modelo transformado: Y = ln(Y ), y X = ln(X ), tenemos: Y =aX +b. Aadimos dos columnas a nuestros datos: n X x1 x2 . . . xn
Kessler Ajuste por m nimos cuadrados
Y y1 y2 . . . yn . . .
ln(yn )
UPCT
Procedimiento
Ajustamos ahora una recta de Y sobre X . Hacemos la transformacin inversa del modelo ajustado para o obtener el ajuste original. Ejemplo Queremos ajustar un modelo potencial a los siguientes datos X 3 7.34 20.1 54.6
Kessler Ajuste por m nimos cuadrados
Y = ln(Y )
UPCT
Obtenemos y = 0.298x + 2.006, es decir que ln(y ) = 0.298 ln(x) + 2.006, lo que implica que y = e 0.298 ln(x) e 2.006 = 7.433x 0.298 .
UPCT
Un ultimo ejemplo
Volvemos a la resistencia del cemento en funcin del tiempo de fraguado: o
40 Resistencia 15 0 20 25 30 35
10
15 Das
20
25
UPCT
Un ultimo ejemplo
Volvemos a la resistencia del cemento en funcin del tiempo de fraguado: o
40 35
Resistencia
15 0
20
25
30
10
15 Das
20
25
UPCT
Un ultimo ejemplo
Volvemos a la resistencia del cemento en funcin del tiempo de fraguado: o
40 35
Resistencia
15 0
20
25
30
10
15 Das
20
25
UPCT
UPCT