Regresin Lineal Simple Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin Y = o + 1X + donde: o : El valor de la ordenada donde la lnea de regresin se intercepta al eje Y. 1 : El coeficiente de regresin poblacional (pendiente de la lnea recta) : El error. Suposiciones de la regresin lineal 1. Los valores de la variable independiente X son "fijos". 2. La variable X se mide sin error (se desprecia el error de medicin en X) 3. Los errores son aleatorios, que se distribuyen normalmente con media cero y variancia . Estimacin de parmetros La funcin de regresin lineal simple es expresado como: Y = o + 1X + Minimizando la suma de cuadrados de los errores, se determinan los valores de bo y b1, as:
Felipe de Mendiburu / 2006
Q=
2 ei
= yi 0 1 x
bo = y b1 x spxy b1 = scx
b0 : es el valor que representa (estimador) a 0 constituye el intercepto cuando X=0; b1 : es el valor que representa (estimador) a 1. Sus desviaciones estndares respectivas son:
Sb0 =
CMresidual. X i2 n.SCX
Sb1 =
CMresidual SCX
Luego, la ecuacin de regresin es: y = bo + b1X El coeficiente de regresin (b1) .- pendiente de la recta de regresin, representa la tasa de cambio de la respuesta Y al cambio de una unidad en X. Si b1=0, se dice que no existe relacin lineal entre las dos variables.
Fuentes de variacin en la regresin lineal Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total de cuadrados; as, grficamente se tiene:
Anlisis de Variancia para la regresin lineal simple Cuadro del ANVA. Fuentes Grados Suma de Cuadrados de Cuadrados Medios Libertad (SC) (CM) Regresin 1 b1.SPXY b1.SPXY Residual: Error Total n-2 n-1 Diferencia SC(residual) / (n-2) SC Y
Fc
CM(regresin)/ CM(residual)
La prueba estadstica F evala las hiptesis: Hp: 1 = 0. No existe una regresin lineal entre X e Y. Ha: 1 0. Existe regresin lineal de Y en funcin de X. Para el ejemplo del grafico (ao base 1990 = 0)
Aos (X) 0 1 2 3 4 5 6 7 8 9 Madera Aserrada (Y) 489.25475.24 495.72 585.2565.78630.22 624.92482.27590.27 834.67
Hp: = 0 Ha: 0 =0.05 Mediante el anlisis de regresin, se encuentra el siguiente cuadro del Anlisis de varianza. Gl SC CM F F0.05 Pr>F 1 49223 49223 6,9941 5,310,0295 8 563037037.8 9 105526
Si el valor F calculado es mayor o igual al valor tabular; entonces, se rechaza la Hiptesis planteada (Hp), caso contrario se acepta. Para el ejemplo, Fc = 6,99 es superior a F0.05 = 5.31; entonces, rechazamos la Hp, se concluye que existe una relacin lineal entre la produccin aserrada entre los aos de 1990 a 1999.
Modelo de regresin estimado: Total de Madera aserrada (miles de m3 ) = 467,42 + 24,42 X X = El periodo. R = (49223 / 105526) *100% = 46% Intercepto = 467,42 Tasa = 24,42 Significa que el crecimiento anual es de 24 mil metros cbicos. Modelos No Lineales. Se consideran a todos los modelos cuya funcin es no lineal en los parmetros, por ejemplo: Modelo exponencial: y1 = a + X Modelo Potencial: y1 = a + x1 Modelo Logstico:
Y = e x
, ln(Y) =Ln() + X;
Y = X,
Y =
C 1 + e + X
;
0.080042708 -0.405465108 -0.422159987 -0.472604411 -0.699153205 -0.828321959 -0.924705929 -1.41148461 -1.516347489 -1.658228077 -1.91875916 -2.442347035
Estimacin del modelo linealizado por regresin. Los estimados son a = 1.11242 y b = - 0.03291 El modelo sera: Altura = 1.11242250.03291Edad
1+ e
Altura
25 20 15 10 5 0 0 20 40 60 80 100 120
Edad (meses) Altura Modelo Modelo Logistico: Altura = 25/ (1+exp(1.112 - 0.0329 edad) )
R = 0.96
Umbral
Coeficiente de correlacin Lineal Simple ( r). Es un nmero que indica el grado o intensidad de asociacin entre las variables X e Y. Su valor vara entre -1 y +1; esto es: -1 r 1. Si r = -1, la asociacin es perfecta pero inversa; es decir, a valores altos de una variable le corresponde valores bajos a la otra variable, y viceversa. Si r=+1, tambin la asociacin es perfecta pero directa. Si r=0, no existe asociacin entre las dos variables.
Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y cuando se aproxima a cero la asociacin disminuye o desaparece. El coeficiente de correlacin est dada por:
r= SPXY SCX .SCY
Para los datos de la produccin de madera aserrada total entre los aos 1990 a 1999, existe una asociacin de 0.68.
r= 2015,17 = 0.68 (105525,86)(82,5)
Coeficiente de Determinacin (R) Mide el porcentaje de variacin en la variable respuesta, explicada por la variable independiente. R = SC regresin / SC total 0 R 1. Interpretacin de R: Se interpreta como una medida de ajuste de los datos observados y proporciona el porcentaje de la variacin total explicada por la regresin.
10
R es un valor positivo, expresado en porcentaje es menor de 100. Tambin, se puede obtener el R ajustado que es la relacin entre cuadrados medios, as: R ajustado = 1 CME / CM Total; Este valor podra ser negativo en algunos casos. Lo que se espera que ambos R, resulten similares, para dar una confianza al coeficiente de determinacin. Para el ejemplo, resulta: R ajustado = 1 70378 / (105526 / 9 ) = 0,39 y R = 1 56302,7 / 105525,86 = 0,46