Anda di halaman 1dari 9

Regresin

jos a. maas
22.1.2015

1 Introduccin
El objetivo de las tcnicas de regresin es identificar una funcin que permita estimar una
variable Y en funcin de la otra X. Es decir, averiguar una funcin
= ()
que represente lo mejor posible la relacin entre valores X e Y permitindonos inferir un valor
a partir del otro.

2 Definiciones
Dado un conjunto de pares de datos experimentales <x, y>, se definen varios estadsticos:
Definiciones

valor medio de X

valor medio de Y
desviacin tpica de X

( )2
=
1

desviacin tpica de Y

( )2
=
1

covarianza XY
ndice de correlacin
(Pearson)

( )( )
1

El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total
entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la
otra tambin lo hace en proporcin constante.
Si 0 < r < 1, existe una correlacin positiva.

Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables
son independientes: pueden existir todava relaciones no lineales entre las dos
variables.
Si -1 < r < 0, existe una correlacin negativa.
Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia
total entre las dos variables llamada relacin inversa: cuando una de ellas aumenta, la
otra disminuye en proporcin constante.

Como regla aproximada,

correlacin fuerte: || > 0.8


correlacin dbil: || < 0.5

aunque a menudo lo mejor es representar los datos grficamente para verlo.

3 Mnimos cuadrados
Mnimos cuadrados es una tcnica de anlisis numrico enmarcada dentro de la optimizacin
matemtica, en la que, dados un conjunto de pares ordenados: variable independiente,
variable dependiente, y una familia de funciones, se intenta encontrar la funcin continua,
dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con
el criterio de mnimo error cuadrtico.
En su forma ms simple, intenta minimizar la suma de cuadrados de las diferencias en las
ordenadas entre los puntos generados por la funcin elegida y los correspondientes valores en
los datos.
Desde un punto de vista estadstico, un requisito implcito para que funcione el mtodo de
mnimos cuadrados es que los errores de cada medida estn distribuidos de forma aleatoria.
Tambin es importante que los datos a procesar estn bien escogidos, para que permitan
visibilidad en las variables que han de ser resueltas.
Formalmente, dado un conjunto de puntos experimentales <x, y> se trata de encontrar una
funcin y= f(x) tal que minimice la suma de los cuadrados de las diferencias entre los valores
medidos y los calculados usando la frmula; es decir, minimizar
2

( ())

4 Regresin lineal
Buscamos una relacin lineal entre x e y; es decir
y = ax + b
a y b se calculan como
=

=
Para estimar cmo de buena es nuestra estimacin, se usa el coeficiente de determinacin r 2,
que es el cuadrado del coeficiente de correlacin de Pearson.
r2 es til porque nos da la proporcin en que la varianza de la variable Y es predecible en
funcin de la variable X. En otras palabras, es la proporcin de la variabilidad de Y que se
puede explicar como consecuencia de la variacin de X.
Una regresin lineal perfecta es la que permite predecir Y al 100% conocido X; es decir, la que
tiene r2 = 1.
Ejemplo. Si r2 = 0,85, diremos que el 85% de la varianza de Y es explicable. Y viceversa, el 15%
es inexplicable (es decir, ser consecuencia de otros factores aparte de X).
Grficamente, r2 = 1 significa que, grficamente, la lnea de regresin pasa exactamente por
todos los puntos, mientras que un r2 muy bajo indica que los puntos no se ajustan muy bien a
la lnea.

5 Regresin no lineal
Dada una serie de puntos <x, y> que no se ajustan a una relacin lineal, una forma sencilla de
tratar el problema es transformar las variables para que se ajusten a una relacin lineal.

5.1 Logartmica
Si sospechamos que los puntos estn relacionados por una funcin del tipo
= log() +
podemos hacer la transformacin
=
= log()
y resolver el problema de una regresin lineal
= +

5.2 n log(n)
Si sospechamos que los puntos estn relacionados por una funcin del tipo
= log() +
podemos hacer una transformacin
=
= x log()
y resolver el problema de una regresin lineal

= +

5.3 Potencial (polinmica)


Si sospechamos que los puntos estn relacionados por una funcin del tipo
=
podemos hacer la transformacin
= log()
= log()
= log()
y resolver el problema de una regresin lineal
= +

5.4 Exponencial
Si sospechamos que los puntos estn relacionados por una funcin del tipo
=
podemos hacer la transformacin
= log()
=
= log
= log
y resolver el problema de una regresin lineal
= +

6 Ejemplos
6.1 Regresin lineal
Sean los datos experimentales
X
30
50
50
60

Y
200
400
800
1.200

60

900

Aplicamos las frmulas


a
b
r2

28,33
-716,67
0,75

Es decir, que podemos hacer una aproximacin no muy buena usando


= 28,33 716,67
Grficamente
ajuste

6.2 Regresin lineal


Datos
X
16.9
53.7
26.3
30.4
12.1
24.4

Y
32.1
113.2
69.2
71.0
37.5
71.2

Recta de regresin
a
b

1,92
13,24

residuos

r2

0,92

Grficas
ajuste

6.3 Ajuste potencial


Datos experimentales
X
2
4
6
8
10
12

Y
10,69
120,63
537,39
1.451,52
3.187,97
5.997,66

Intentamos una regresin lineal. Recta de regresin


a
b
r2

572,16
-2.120,79
0,84

residuos

Grficas
ajuste

residuos

Parece evidente que


1. una lnea recta no es una buena forma de predecir valores
2. los residuos siguen un patrn
Sospechamos que sea una relacin potencial. Vamos a comprobarlo.
Hacemos el cambio de variable
Datos experimentales
X
2
4
6
8
10
12

Y
10,69
120,63
537,39
1.451,52
3.187,97
5.997,66

X = log(X)
0,69
1,39
1,79
2,08
2,30
2,48

Intentamos una regresin lineal. Recta de regresin


a
b
r2

3,54
-0,0899
1.00

a
b

3,54
0,91

Y = log(Y)
2,37
4,79
6,29
7,28
8,07
8,70

Grficas
ajuste

residuos

Aunque el valor r2 ya es muy significativo de que hemos acertado en la prediccin, la grfica es


contundente
1. la prediccin es excelente
2. los residuos no siguen un patrn: son aleatorios
Podemos concluir que una buena aproximacin es
= 0.9 3.5

7 Referencias

http://www.shodor.org/interactivate/activities/Regression/
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html