al es el siguiente paso?
Esto resulta muy util para poder predecir el valor de una variable a
partir del valor de la otra.
ESTAD
ISTICA Al representar conjuntos de datos bivariantes mediante diagramas de
dispersi
on, hemos observado que, en muchos casos, la relaci on entre
las dos variables es aproximadamente lineal, y los puntos se agrupan
alrededor de una recta.
TEMA 3
A la recta que mejor se ajusta a los datos observados se le da
el nombre de recta de regresi
on.
RECTAS DE REGRESION
Sonia Hern
andez Alonso
Departamento de Estadstica e Investigaci
on Operativa (URJC)
Para los datos sobre niveles de NO2 en las estaciones de Madrid en los Si determinamos cu al es esa recta, podremos resumir la relacion
a
nos 2007 y 2008, hemos visto que la nube de puntos se concentra entre los niveles de 2007 y 2008, y tambien estimar los niveles de
entorno a una recta con pendiente positiva: NO2 de 2008 a partir de los de 2007:
80
80
70
70
60
60
NO2_2008
NO2_2008
50
50
40
40
30
30
40 50 60 70 80 90 40 50 60 70 80 90
NO2_2007 NO2_2007 1
Modelos de regresi
on Regresi
on versus correlaci
on
La nalidad de los modelos de regresion es explicar una variable La correlacion es una herramienta descriptiva, que se utiliza para
continua a partir de otra variable (o de otras variables). analizar si entre dos variables existe una relaci
on lineal. El papel de
ambas variables es simetrico. La correlaci
on no implica que una varia-
Para ello hay que encontrar una funci on que resuma la esencia de la
ble tenga que depender de la otra, ni que exista ninguna relaci on
relaci
on entre las variables. Si la funci
on est
a bien construida, per-
causal entre ellas.
mitir
a realizar predicciones sobre una variable a partir de los valores
observados para la otra. La regresion analiza cual es la relaci
on entre las dos variables, y
tiene ademas una utilidad predictiva. El papel de ambas variables es
Los modelos en los que intervienen s olo dos variables, es decir, los
asimetrico: Y depende de X, pero lo contrario no es cierto.
basados en datos bivariantes se llaman modelos de regresion simple.
Rectas de regresi
on Esquema
La recta de regresi
on puede considerarse como un resumen del dia- Variable independiente y variable dependiente
grama de dispersi on entre dos variables.
Relaciones deterministas versus relaciones probabilsticas
omo vara la media de Y en funci
Esta recta describe c on de X. Rectas de regresi
on de mnimos cuadrados
Ajustar una recta de regresi
on s
olo tiene sentido si previamente se ha C
alculo de la recta de regresi
on
constatado que existe relaci on lineal entre X e Y . Esto puede com-
probarse usando el diagrama de dispersi on y calculando el coeciente Interpretaci
on de la recta de regresi
on
de correlaci
on. Predicci
on
Tambi en debe comprobarse que no hay observaciones atpicas (out- Coeciente de determinaci
on
liers), ya que
estas son muy inuyentes en la determinaci
on de la recta.
Dos rectas de regresi
on
on indica el valor medio de Y para cada valor
La recta de regresi
Regresi
on con R-commander
de X.
Efecto de los datos atpicos en la recta de regresi
on
Ap
endice: obtenci
on de los estimadores de mnimos cuadrados 2
X e Y juegan papeles diferentes
Qu
e variable juega cada papel? Pueden intercambiarse los papeles de X e Y ?
En muchos casos una de las dos variables depende de manera En algunas ocasiones tiene sentido tanto explicar el comportamiento
natural de la otra, y es facil identicar cu
al es la variable dependiente, de una variable a partir de la otra como hacerlo a la inversa.
Y , y cu
al la variable explicativa, X.
Por ejemplo, si se cuelgan de un muelle distintos pesos (P ) y se
Por ejemplo, es m as natural explicar el precio de una vivienda en base miden los alargamientos experimentados por el muelle (A), puede
a su supercie que hacer lo contrario. Por eso, para los datos sobre las tener sentido tanto explicar A partir de P , como explicar P a partir
viviendas de Piri
apolis, lo razonable es tomar como variable explicativa de A.
(X) la supercie, y como variable respuesta (Y ) los precios.
En cualquier caso, el papel que juegan las dos variables en una recta
Del mismo modo, es mucho m as razonable explicar los niveles de regresi
on, nunca es sim etrico: la recta de regresion de X sobre
contaminaci on un ano en funci
on de los del a
no anterior que hacerlo Y es diferente de la recta de regresi on de X sobre Y .
a la inversa. Esto es mas obvio a
un si lo que se pretende es predecir
Los papeles de X e Y nunca son directamente intercambiables.
los niveles de contaminaci on. Para datos sobre los niveles de NO2
en Madrid, lo logico es tomar como variable independiente (X) los
valores de 2007 y como variable dependiente (Y ) los del a no 2008.
3
Relaci
on determinista entre dos variables
El coeciente de correlaci
on lineal entre este tipo de variables es
rxy = 1
Ejemplo: relaci
on determinista Gr
aco: relaci
on determinista
En un circuito el
ectrico conectado a una resistencia de 5 ohmios, si Si representamos gr acamente la nube de puntos de las variables
llamamos Y al voltaje (o diferencia de potencial) medido en voltios y intensidad y voltaje, todas las observaciones se ajustar
an perfec-
X a la intensidad medida en amperios, se tiene que tamente a una lnea recta:
Y = 5X
4
Relaci
on probabilstica entre dos variables Ejemplo de relaci
on probabilstica: casas Piri
apolis
En la mayora de los casos, sin embargo, los valores de Y no pueden Retomemos los datos de supercies y precios de las casas de Piri
apolis,
ser totalmente explicados por la variable X, ya que dependen tambi
en
de circunstancias que no recoge esta variable. Supercie 106 73 114 132 86 117 125 68 71 111
Precio 178 91 188 165 132 115 173 116 97 204
En tales situaciones, el coeciente de relacion no es 1 ni -1, y es
Supercie 92 114 116 114 126 113 124 76 100 97
imposible encontrar una lnea recta que pase por todos los puntos.
Precio 119 101 137 203 186 181 214 50 131 124
on entre las variables X e Y es, en estos casos, una relaci
La relaci on
probabilstica o estoc
astica, que puede expresarse como Como puede observarse, aunque no existe una relaci on exacta entre
supercie y precio, el hecho de conocer la supercie de una vivienda
y = a + b x + , proporciona bastante informaci on sobre su precio. Las viviendas m
as
donde es una perturbaci
on aleatoria o error. grandes tienden a ser m as caras, y viceversa.
Segun este modelo, la variable Y depende linealmente de la variable Es decir, existe relaci
on entre ambas variables, pero
esta no es de-
X, pero no queda totalmente explicada por ella, debido a la presencia terminista.
del error . En estos casos, dos observaciones con el mismo valor de
Observamos, por ejemplo, que hay tres viviendas de 114 m2, pero que
X pueden tener valores diferentes de Y (y viceversa).
cada una de ellas tiene un precio diferente: una cuesta 188.000 pesos
uruguayos, otra 101.000 y la otra 203.000.
El diagrama de puntos sugiere que esa relaci on (no exacta) entre el En este caso, la variable dependiente, Y, es el precio, y la variable
precio y la supercie es de tipo lineal, ya que los datos parecen estar explicativa, X, es la supercie.
agrupados alrededor de una recta:
El modelo de regresion lineal simple asume que los valores del precio
pueden dividirse en dos partes:
una parte lineal explicada por la supercie,
una parte no explicada o perturbaci
on aleatoria, que depender a de
circunstancias como la antig
uedad de la vivienda, su situaci
on, etc.
5
Ejemplo: viviendas de Piri
apolis (continuaci
on) Ejemplo: viviendas de Piri
apolis (continuaci
on)
La formulaci
on del modelo de regresi
on lineal para estos datos es En principio podramos ajustar cualquier recta a la nube de puntos:
yi = a + bxi + i,
donde,
yi es el precio de la i-
esima vivienda,
xi es la supercie de la i-
esima vivienda,
i la perturbaci
on correspondiente al vivienda i-
esima.
Esta relaci
on indica que el precio de las viviendas aumenta linealmente
a medida que aumenta su supercie, pero adem as de la supercie
existen otros factores que inuyen en el precio.
e valores de a y b
En lo referente a la parte lineal del modelo, qu
deberamos tomar?
Pero c
omo podemos medir el error cometido en las predicciones
por cada recta?
Si elegimos la recta azul, el residuo correspondiente a esa primera Dado un conjunto de puntos, (x1, y1), (x2, y2), . . . , (xn, yn), queremos
encontrar, de entre todas las rectas de la forma
casa ser
a menor. Sin embargo, algunas otras casas tendran residuos
muy grandes... y = a + bx
la recta que mejor explica los valores de Y a partir de los valores
de X. Esa ser on de Y sobre X.
a la recta de regresi
Qu
e recta proporciona residuos m
as peque
nos en conjunto? El criterio que habitualmente se utiliza es el llamado criterio de mni-
mos cuadrados
Rectas de de regresi
on yi = a + bxi
ei = yi yi
o lo que es lo mismo
ei = yi a bxi,
que indica el error cometido por la recta en la estimaci
on o predicci
on
de la observacion (xi, yi)
Sonia Hern andez Alonso
Estadstica-Ingeniera Ambiental (URJC) 7
Signicado geom
etrico de los residuos Objetivo de la recta de regresi
on
Los residuos expresan la distancia vertical entre las observaciones y El ajuste de la recta de regresi
on se realiza con la pretensi
on de que los
la recta de regresi
on: residuos de la recta que elijamos sean lo m as peque nos posibles.
e1 = y1 y1, e2 = y2 y2, . . . . . . , en = yn yn
La media de los cuadrados de los residuos es Los valores de los coecientes a y b que minimizan el error cuadr
atico
n
n
n
medio reciben el nombre de estimadores de mnimos cuadrados.
e2
i (yi yi)2 (yi a bxi)2
i=1 i=1 i=1
= = La recta de regresion mnimo-cuadr
atica, o simplemente recta de
n n n
regresi
on, es la recta
sta es una medida de la bondad del ajuste de una recta, que recibe
E y = a + bx
el nombre de error cuadr atico medio (ECM) y que depende de la
on que se haga de los coecientes a y b:
elecci que se obtiene cuando a y b son los estimadores de mnimos cuadrados.
n
Esta recta minimiza la media de las distancias verticales entre las
(yi a bxi)2
observaciones y la recta.
ECM (a, b) = i=1
n
De acuerdo a este criterio, la recta de regresi
on es la recta que
ametros a y b, es hacer que
Un criterio razonable para elegir los par mejor se ajusta a los datos
el error cuadr
atico medio sea lo menor posible. Este es el criterio de
mnimos cuadrados o criterio mnimo-cuadr atico.
8
C
alculo de los estimadores de mnimos cuadrados Estimadores de la pendiente (b) y del intercepto (a)
Para hallar los estimadores de mnimos cuadrados hay que resolver el De esta forma se obtiene el siguiente valor de la pendiente de la recta
problema de optimizacion de regresi
on:
n n
1 (xi x)(yi y)
mn (yi a bxi)2
a,b n i=1 i=1
b= n
(xi x)2
Este problema se resuelve derivando ECM (a, b) respecto a cada varia-
i=1
ble e igualando a cero:
n Este estimador tambi
en puede expresarse como
2
ECM (a, b) = (yi a bxi) = 0 sxy
a n i=1 b=
2 n s2
x
ECM (a, b) = xi(yi a bxi) = 0
b n i=1
El estimador de mnimos cuadrados del intercepto resulta ser
De este modo se obtiene un sistema de dos ecuaciones y dos inc
ogni- a=ybx
tas del cual hay que depejar los valores de a y de b.
es decir,
Los calculos necesarios para resolver este problema est
an detallados sxy
a=y x
en el Apendice de este tema. s2
x
Ejemplo: c
alculo de la recta de regresi
on Ejemplo: c
alculo recta regresi
on (continuaci
on)
x
103.75 s2
x sxy 375.88 601.46
= S= =
y 145.214 sxy s2
y 601.46 1908.58
En resumen...
En resumen... En resumen...
10
En resumen... En resumen...
En resumen... En resumen...
11
Interpretaci
on de los coecientes de regresi
on
Qu
e informaci
on proporcionan los coecientes de regresi
on?
Ejemplo: interpretaci
on coecientes regresi
on Ejemplo: velocidad y densidad del tr
aco
12
Tr
aco: diagrama de dispersi
on Tr
aco: tabla para los c
alculos
En este caso, lo m as razonable parece tratar de explicar la velocidad Para calcular el coeciente de correlaci
on y la recta de regresi
on de
de los vehculos a partir de la densidad del tr
aco. Esto supone tomar los datos necesitamos conocer las medias y varianzas de cada variable
y la covarianza entre ambas.
como variable dependiente (Y ) la velocidad,
La tabla siguiente facilita los c
alculos de dichos estadsticos:
como variable independiente (X) la densidad.
Punto xi yi x2
i yi2 xi y i
1 20 100 400 10000 2000
2 30 95 900 9025 2850
3 40 90 1600 8100 3600
4 50 86 2500 7396 4300
5 50 89 2500 7921 4450
6 110 80 12100 6400 8800
Suma 300 540 20000 48842 26000
Tr
aco: c
alculo de estadsticos Tr
aco: coeciente de correlaci
on
Una vez comprobado que las variables velocidad y densidad estan muy
correlacionadas, procedemos a calcular la recta de regresi
on.
y = 100 0.2 x
Tr
aco: interpretaci
on de la recta de regresi
on
La pendiente, de la recta,
b = 0.2,
indica que, si la densidad del tr
aco se incrementa en un vehculo por
km, entonces el descenso medio de la velocidad es de 0.2 km/h.
El intercepto, Predicci
on
a = 100,
sugiere que, si la densidad del tr
aco es 0, es decir, si no hay ning
un
coche en la carretera, entonces el primer coche que llegue podr a cir-
cular a una velocidad promedio de 100 km/h.
Gr
aco: predicci
on de la velocidad Ejemplo: predicciones sobre viviendas de Piri
apolis
La recta de regresi
on del precio (Y ) sobre la supercie (X) es
y = 20.762 + 1.6 x
15
Gr
aco: predicciones sobre el precio Ejemplo: predicciones Piri
apolis (continuaci
on)
La predicci
on que obtendramos en este caso sera
Gr
aco: extrapolaci
on Extrapolaci
on
Para los datos sobre la supercie (X) y el precio de las viviendas (Y ) El coeciente de determinaci
on
de Piri
apolis, la matriz de varianzas y covarianzas era
R2 = 0.5041
s2
x sxy 375.88 601.46
indica que la variabilidad observada en la supercie de las vivien-
S= =
sxy s2 601.46 1908.58 das explica el 50.41 % de la variabilidad de los precios de las
y
casas de Piri
apolis, es decir, aproximadamente la mitad.
Por tanto, el coeciente de correlaci
on lineal entre supercie y precio
El resto de la variabilidad observada en los precios (un 49.59 %) se
de las viviendas tomaba el valor
debe a otras causas: la antig uedad de las casas, su ubicaci
on, los
601.46
rxy = = 0.71 materiales de construccion, etc.
375.88 1908.58
R2 = rxy
2 = 0.712 = 0.5041
17
on de X a partir de Y
Predicci
y = a + b x
Dos rectas de regresi
on
Esta recta est nada para predecir y a partir de x, y no debe
a dise
usarse para predecir un valor de x a partir de y.
on de X a partir de Y
Ejemplo: predicci on de X (continuaci
Ejemplo: predicci on)
Esta recta nos permite predecir la velocidad de los coches para una que est
e dise
nada para predecir la densidad en funci
on de la velocidad.
Para ello hay que intercambiar los papeles de x e y.
determinada cantidad vehculos por kil
ometro. Sin embargo, NO sirve
para predecir la densidad del tr aco a partir de la velocidad. Usando de nuevo el vector de medias y la matriz de covarianzas
Por ejemplo, si nos dicen que en cierto punto de la red de carreteras x
50 s2
x sxy 833.33 166.67
los coches est
an circulando a 85 km/h, para predecir la densidad de = S= =
y 90 sxy s2
y 166.67 40.33
coches en ese punto NO debemos despejar x de la ecuaci on anterior,
y 100 podemos obtener la pendiente y el intercepto de la nueva recta de
x= = 500 5 y
0.2 regresi
on:
y predecir que en ese punto habr
a una densidad de sxy 166.67
b= 2 =
= 4.132
sy 40.33
500 5 85 = 75 vehculos por km
x
= 421.9 4.132 85 = 70.681 vehculos por km
Dado un conjunto de datos bivariantes, (x1, y1), (x2, y2), . . . , (xn, yn), En general, las dos rectas de regresi
on,
se pueden ajustar dos rectas de regresi
on:
y = a + b x,
y = a + b x, x a +
= b y,
x
= a +b y.
no coinciden:
19
Signo de las pendientes de las dos rectas
cuando la correlaci
on es positiva, ambas rectas de regresi
on son
crecientes,
cuando la correlaci
on es negativa, ambas rectas de regresi
on son
decrecientes.
Para que un modelo de regresion resulte able, tanto desde un punto Para analizar la relaci
on entre la potencia de los vehculos y la cantidad
de vista meramente descriptivo como en sentido predictivo, debe estar de di
oxido de carbono que desprenden a la atm osfera, se ha realizado
construido con un conjunto de datos sucientemente grande. un estudio sobre 25 modelos de coche.
Ejemplos como el de los datos de tr aco, con solo 6 pares de observa- El resultado del an
alisis realizado con R-commander para estos datos
ciones, no deben utilizarse para extraer ning
un tipo de conclusi
on. Este se muestra en la transparencia siguiente.
ejemplo ha sido incluido solo porque un tama no de muestra peque no
permite ilustrar c
omo se realizan los calculos. Pero las conclusiones y La potencia est
a medida en caballos de vapor (Cv) y las emisiones de
predicciones de este ejemplo no tienen ninguna abilidad. CO2 en gramos desprendidos por kilometro recorrido (gr/Km).
on, R2.
Para ello tenemos que jarnos en el coeciente de determinaci
ste aparece en la pen
E ultima lnea de la salida de R:
El coeciente de determinaci
on es por tanto
R2 = 0.8082,
lo cual indica que un 80.82 % de la variabilidad observada en las
emisiones de di oxido de carbono de los vehculos puede explicarse por
la variabilidad en la potencia de dichos vehculos.
La recta
c = 51.89 + 0.61 p
permite hacer predicciones sobre las emisiones de CO2 para una de-
terminada potencia. Sin embargo, para predecir la potencia que de
un vehculo que emite 120 gr/km de CO2 necesitaramos conocer la
on de C sobre P es
Esto indica que la recta de regresi ecuaci
on de la recta de regresi
on de la potencia sobre la cantidad de
c = 51.89 + 0.61 p
CO2 emitido, es decir, la recta
p =
a +
bc
Con esta recta podemos hacer predicciones sobre las emisiones de
CO2 a partir de la potencia. Por ejemplo, la estimacion que propor- La salida de R de la que disponemos no incluye los coecientes de
on para las emisiones de CO2 de un 44 todo
ciona la recta de regresi
dicha recta. Por tanto no podemos estimar la potencia de un coche
terreno de 200 Cv es
que emite 120 gr/km de CO2, ya que utilizar la otra recta de regresi on
c = 51.89 + 0.61 200 = 173.89 gr/km
y despejar de ella el valor de p no proporcionara una buena predicci
on. 21
omo sabemos el valor de r?
Ejemplo con Rcmdr:: c Ejemplo con Rcmdr: c
omo sabemos qu
e recta es?
En la salida de regresi
on R no aparece de forma explcita el cociente C
omo podemos identicar en la salida de R cu
al de las dos rectas
on, rpc.
de correlaci de regresi
on es la que aparece?
Sin embargo podemos determinar cu
al es su valor teniendo en cuenta
Podemos jarnos en la llamada que aparece al principio de la salida:
que:
Un an alisis de regresi
on completo requiere hacer inferencia esta-
dstica sobre los distintos elementos del modelo lineal: el intercepto,
la pendiente, el coeciente de determinaci on... Efecto de los datos atpicos
Por ejemplo, no basta con mirar si R2 est a mas cerca de 0 o de 1.
en la recta de regresi
on
Para poder decidir si existe una relaci
on lineal signicativa entre las
dos variables, debe contrastarse la hip otesis de que est an incorre-
lacionadas mediante un test estadstico.
Los datos atpicos tienen una fuerte inuencia en el ajuste de la Para los datos sobre la supercie y el precio de las 20 viviendas de
recta de mnimos cuadrados. Piri
apolis, habamos visto que la recta de regresi
on era
Puesto que los estimadores de mnimos cuadrados, son el resultado Supercie 106 73 114 132 86 117 125 68 71 111
de resolver el problema de optimizaci
on Precio 178 91 188 165 132 115 173 116 97 204
n
1
mn (yi a bxi)2, Supercie 92 114 116 114 126 113 124 76 100 97 225
a,b n i=1 Precio 119 101 137 203 186 181 214 50 131 124 183
ser
an muy sensibles a la presencia de datos atpicos, es decir, datos
con un comportamiento distinto al de la mayora. Estos datos tambien
se denominan outliers.
Ejemplo: efecto datos atpicos (continuacion) Ejemplo: efecto datos atpicos (continuacion)
Si regresentamos los datos mediante un diagrama de dispersi on, pode- Si con los los datos de las 21 casas ajustamos una nueva recta de
mos apreciar que la vivienda que hemos a nadido al conjunto est a bas- regresi
on mediante mnimos cuadrados obtenemos
tante alejada del resto de datos bivariantes, es decir, es un outlier: y = 62.637 + 0.762 x
que como vemos es muy diferente de la recta de regresi
on que ob-
tenamos con las 20 viviendas iniciales
y = 20.762 + 1.6 x
23
Ejemplo: efecto datos atpicos (continuacion) Regresi
on robusta
La primera recta indica que, cuando la supercie de una casa se incre- Existen otros criterios para ajustar una recta a los datos que propor-
menta en 1 m2, el aumento medio de su precio ser a de 762 pesos. cionan ajustes menos inuenciables por la presencia de outliers.
Sin embargo la segunda recta estima que, al aumentar la supercie de En general estos m etodos robustos son complicados de calcular, por
la vivienda en 1 m2, su precio se ver
a incrementado, por t ermino lo que se utilizan con menos frecuencia.
medio, en 1600 pesos uruguayos.
Sin embargo, varios de estos m
etodos est
an implementados en R,
Esto se debe a que la nueva casa que se ha incluido en el conjunto entre ellos:
resulta atpicamente barata con respecto al resto (precisamente por
ser mucho m as grande). Aunque se trata de una
unica vivienda, tiene los estimadores de mnimos cuadrados recortados (LTS), que mi-
un gran efecto en las predicciones de los precios, que ahora ser an nimizan una media recortada de las distancias verticales de los
mucho menores. puntos a la recta.
los MM-estimadores
Este ejemplo pone de maniesto que la recta de regresi
on basada
en el criterio de mnimos cuadrados no es robusta los -estimadores
el estimador de mnima mediana de cuadrados (LMS), que descri-
biremos brevemente a continuacion.
24
Ejemplo: estimador de mnima mediana (LMS) Ejemplo: LMS (continuaci
on)
El gr
aco siguiente compara las rectas de mnima mediana cuando se A continuaci
on se representan las rectas de mnimos cuadrados y de
consideran las 20 casas iniciales y cuando se icluye la vivienda atpica. mnima mediana para las 20 casas iniciales e incluyendo la vivienda
Se observa que las rectas apenas dieren: atpica:
25
Regresi
on m
ultiple
y = a + b x,
que son modelos simples (porque utilizan una sola variable explicativa)
y lineales (porque se busca la mejor recta, pero no se consideran
Otros modelos de regresi
on
funciones de otro tipo).
y = a + b1 x1 + b2 x2 + . . . . . . + bp xp
Regresi
on no lineal Bibliografa
El hecho de que dos variables no est en correlacionadas, no implica Ross, S.M. (2007) Introducci
on a la estadstica. Reverte
que no est
en relacionadas, sino s
olo que no lo est
an de manera lineal.
Captulo 12.
No hay que olvidar que incorrelaci
on e independencia son conceptos
Montgomery, D.C. et al (2012). Engineering Statistics. Wiley
diferentes. La independencia siempre implica incorrelaci
on, pero el
recproco no es cierto. Captulo 6, secci
on 2.
La variable Y puede depender de X a trav es de una funci on de otro Walpole, R.E. (2007). Probabilidad y estadstica para ingeniera y
tipo: exponencial, sinusoidal, cuadr
atica, logartmica, etc. ciencias. Pearson
Los modelos de regresi on no lineales ajustan otros tipos de rela- Captulo 12.
ciones entre las variables. Algunos ejemplos de este tipo de modelos
son los siguientes: McKillup, S. (2009) Statistics Explained. Cambridge University Press
Ap
endice Para resolver este problema derivamos respecto a cada variable
n
2
ECM(a, b) = (yi a bxi) = 0
a n i=1
n
2
ECM(a, b) = xi(yi a bxi) = 0
b n i=1
e igualamos ambas a 0, de forma que
n
2
0= (yi a bxi)
n i=1
2
0 = (ny na nb x)
n
Sonia Hern andez Alonso
Estadstica-Ingeniera Ambiental (URJC)
Obtenci
on EMC (continuaci
on) Obtenci
on EMC (continuaci
on)
n
Si ahora despejamos a de la ecuacion (1), llegamos a que, el valor del
0 = 2 xi(yi a bxi)
i=1 intercepto de la recta de regresi
on es:
n
n sxy
0 = 2 x i yi xi(a + bxi) a= y x
s2
x
i=1 i=1
n
n
x i yi = xi(
y b x + bxi)
i=1 i=1
n
n
x i yi = n
xy + b 2
xi n 2
x
i=1 i=1
27