______________________________________________________________________________________________
Análisis de Regresión
por . De tal manera la hipótesis estructural básica del modelo de regresión simple es:
Y = f(x) +
E (Y / X ) Y 0 + 1 . X
Siendo:
E (Y/X) el valor teórico (esperado) de Y para un valor dado de X.
0 y 1 Parámetros desconocidos los cuales se deben estimar.
0 el intercepto u ordenada al origen (valor que asume Y cuando la recta corta a
la ordenada)
1 el coeficiente de regresión o pendiente de la recta.
Ŷi = a + b Xi + e i
Donde:
Ŷi valor estimado de Yi.
a el estimador de 0
b el estimador de 1
ei residuo o error aleatorio con distribución N ( 0, 2 ) y Cov (ei, ej) = 0.
los cuadrados mínimos, que nos permite determinar las expresiones para a y b, estimadores
puntuales de 0 y 1 respectivamente. Este método consiste en calcular los valores a y b de
modo tal que se minimice la suma del cuadrado de los residuos, es decir que los valores
observados Yi presenten mínima desviación respecto de los valores estimados Ŷi a partir de
la recta. Esa desviación mínima significa que :
Y e
n 2 n
S.C.RES. = i Yˆi 2
i : [mín]
i 1 i 1
o la expresión equivalente
n
S.C.RES. = (Y
i 1
i a b X i )2 : [mín]
a n b X i Yi
a X i b X i X iYi
2
111
Análisis de Regresión y Correlación
______________________________________________________________________________________________
n n
Yi b X i
a i 1 i 1
Y b X
n
y:
n n
X Y
X X . Y Y
n n n
x y X Y i 1 i 1
n Cov X ,Y
by / x i 1
i 1
i 1
X X
n 2 n
n S x2
2
X
2
x
n
X i 1
i 1 i 1
i 1
2
SCT Yi Y 2
SCExp. SC Re s.
Yˆ 2
SCExp. i Y
Y 2
SC Re s. i Yˆi
R 2
(Yˆi Y )
2
SCExp.
(Yi Y ) 2 SCT
Este coeficiente puede tomar valores entre cero y uno, su valor se acerca a 0
cuando no existe relación entre las variables o bien la misma es muy debil y tiende a 1 a
medida que aumenta la intensidad de la asociación.
H0 : R 2 0
H1 : R 2 0
Yi
(Yi Yˆ )
Donde:
Yˆi (Yi 113
Y)
(Yˆ Y )
Y
Análisis de Regresión y Correlación
______________________________________________________________________________________________
X de la regresiónX (ANOVA)
La Tabla de Análisis de la Varianza i toma la siguiente
forma:
ón
SC Re s.
Error SCRes. glRes. = n – k – 1 CM Re s.
gl Re s.
Planteo de hipótesis
H0 : 0 0
H1 : 0 0
114
Análisis de Regresión y Correlación
______________________________________________________________________________________________
a
ta
Sa
Siendo: Sa el error estandár de la ordenada al origen, el cual se puede calcular a partir de la
siguiente expresión:
1 X2
Sa Sa2 CM
n
X i X
2 Re s
Planteo de hipótesis
H0 : 1 0
H1 : 1 0
b
tb
Sb
Siendo: Sb el error estandár de la pendiente, el cual se puede calcular a partir de la siguiente
expresión:
CMRe s.
Sb Sb2
Xi X 2
Ejemplo de aplicación
Diagrama de dispersión
0,23
Nitrogeno en planta (ppm)
0,21
0,19
0,17
0,15
0,13
0,41 0,51 0,61 0,71 0,81 0,91 1,01 1,11 1,21
Nitrogeno en Suelo (ppm)
X Y 1,5588
X 8,28 X 0,69
Y 2,22 Y 0,185
X 6,0728
2
n n
n n X Y 8,28 2,22
x y XY i 1 i 1
n
1,5588
12
b y/x i 1
n
i 1
2
0,159
8,28 2
n
X
2
x 6,0728
n 12
X 2 i 1
i 1
i 1 n
116
Análisis de Regresión y Correlación
______________________________________________________________________________________________
Y = 0,076 + 0,159 X
R 2
(Yˆ Y )
i
2
SCExp.
0.009
0,9473
(Y Y )
i
2
SCT 0.0095
H0 : R 2 0
H1 : R 2 0
Total 0.0095 11
117
Análisis de Regresión y Correlación
______________________________________________________________________________________________
que solo hay un 5,27 % de variabilidad que se debe a otros factores (variables) que se
encuentran contenidos en el error.
Planteo de hipótesis
H0 : 0 0
H1 : 0 0
Cálculo del t a
1 X2 1 0,69 2
CM
Sa Sa2 12 0,3596
0,00005 0,00839
n
X i X
2 Re s
a 0,076
ta 9,06
Sa 0.00839
Planteo de hipótesis H 0 : 1 0
H1 : 1 0
Cálculo del t b
CM Re s. 0,00005
S b S 2b 0,0118
Xi X 2 0,3596
b 0,159
tb 13,48
Sb 0,0118
118
Análisis de Regresión y Correlación
______________________________________________________________________________________________
2800
2200
2) Relaciones no lineales
9
La 1600relación entre dos variables puede ser no lineal mostrando un
Peso (kg)
partir del diámetro del tronco medido a 1,3 m de altura (diámetro a la altura del pecho). Un
400
log (y) y log (x) son la nueva variable dependiente e independiente respectivamente, log (a) es
la ordenada al origen y b es la pendiente de la recta.
y = a . e b. x
70
Número de individuos
50
y = 1,2 * exp(0,3 * x)
30
10
119
-10
0 2 4 6 8 10 12 14 16
Tie mpo (días)
Análisis de Regresión y Correlación
______________________________________________________________________________________________
5.5
4.5
Log Número de Individuos
2.5
1.5
0.5
-0.5
0 2 4 6 8 10 12 14 16
Tie mpo (días)
1.2
1.0
0.8
Peso Remanente
0.6
0.4
0.2
0.0
-20 20 60 100 140 180 220 260 300
Tie mpo (días)
120
430
Análisis de Regresión y Correlación
______________________________________________________________________________________________
y=42.4+107.2*lo g(x)
Productividad (Mg/ha.año)
380
380
280
y = a + b log(x)
100 300 500 700 900 1100
Precip itació n (mm/año)
360
Productividad (Mg/ha.año)
Y = a + b1. X1 + b2. X2
121
Análisis de Regresión y Correlación
______________________________________________________________________________________________
1.- Los valores estimados por la recta son más confiables dentro de los
valores observados de x.
122
Análisis de Regresión y Correlación
______________________________________________________________________________________________
-1 ≤ r ≤ 1
r = - 1 : Perfecta relación lineal inversa entre las variables. Todos los puntos
pertenecen a una recta de pendiente negativa.
nn
r = 1 : Perfecta relación lineal directa entre las variables. Todos los puntos
pertenecen a una recta de pendiente positiva
yi
r = 0 : No hay relación lineal entre las variables. Ya sea porque, las variables no
n n x
están asociadas, o porque la relación entre ellas no es lineal
i
El estudio clásico de la correlación se basa en la suposición de que la
yx iyi n
distribución de valores (Xi, Yi) es una distribución normal bidimensional y se representa en
gráficos tridimensionales.
ix - =1 i=1
Cálculo del Coeficiente de Correlación:
x yir= =1 = i=1
x . y
Cov ( x , y)
V( x ) . V( y)
Cov (X , Y )
Sx . Sy
2 2 n 2 n 2
x y
El coeficiente de correlación muestral se calcula como:
y
x
n i n i 123
2 i =1 2 i =1
x- . y-
Análisis de Regresión y Correlación
______________________________________________________________________________________________
r by / x . bx / y
Siendo:
n n
x y x y
i =1 i =1
b y/x = b x/y =
n n
x2 y
2
i =1 i =1
Planteo de hipótesis H0 : 0
H1 : 0
Expresión de cálculo de t r
r
tr
Sr
Siendo: Sr el error estandár del coeficiente de correlación, el cual se puede calcular a partir de
la siguiente expresión:
1 r2
Sr
n2
1) La cobertura arbórea tiene un efecto marcado sobre la temperatura del suelo. Esta relación
es importante en el diseño de sistemas combinados de producción de cultivos leñosos y
herbáceos (sistemas agroforestales). Se realizaron mediciones de la temperatura del suelo al
mediodía, en verano, a 10 cm de profundidad en sistemas agroforestales con diferente
porcentaje de cobertura arbórea. Se analizó la relación entre esas variables mediante
regresión lineal.
124
Análisis de Regresión y Correlación
______________________________________________________________________________________________
f) Interpretar los resultados si pretende utilizarse un cultivo que debe mantenerse por debajo
de 30 C0 .
Cobertura
56.0 58.0 62.0 67.0 71.0 75.0 77.0 82.0 84.0 92.0
(%)
Temperatura
33.8 32.1 30.4 27.1 28.3 23.6 25.7 20.2 23.0 19.0
°C
2) Las mediciones anteriores se repitieron en invierno.
a) Interpretar los nuevos resultados teniendo en cuenta que la especie arbórea es caducifolia
y responder los mismos puntos que en el ejercicio 1.
b) Comparar los resultados con el ejercicio 1.
Cobertura
56.0 58.0 62.0 67.0 71.0 75.0 77.0 82.0 84.0 92.0
(%)
Temperatura
11.0 8.0 9.0 7.0 10.0 7.0 8.0 9.0 6.0 5.0
(°C )
125
Análisis de Regresión y Correlación
126
Especie B
Nitrógeno agregado
0 50 100 150 200 250 300 350 400 450
(kg/ha)
Crecimiento
47.3 69.1 98.9 104.0 139.4 153.2 159.8 196.0 243.8 232.5
(mg/día)
a) Explicitar los modelos para ambas especies. Analizar los parámetros y el ajuste del modelo
de cada especie.
b) Interpretar las diferencias entre especies.
4) El crecimiento de una especie arbórea podría estar afectado por las características del
suelo en donde se desarrolla. Se midió el crecimiento en diámetro de 10 individuos arbóreos
tomados al azar y se midió la profundidad del horizonte superficial del suelo y su contenido de
materia orgánica.
a) Analizar gráficamente las relaciones entre las variables.
b) ¿Calcular los coeficientes de correlación?.
c) ¿Cómo se relaciona la profundidad y el % de Materia Orgánica con el crecimiento?
e) ¿Cómo se relaciona la profundidad con el % de MO?
f) Analizar la significancia de los coeficientes de correlación?. Conclusiones.
Datos:
Crecimiento (mm/día) 0.1 0.4 0.5 0.6 0.7 0.2 0.4 0.6 0.7
0.2
Profundidad (cm) 15 20 15 28 25 14 18 22 26
17
Materia Orgánica (%) 3.2 2.7 4.2 3.7 2.2 2.4 3.5 2.8 3.1
3.2
5) En una especie cultivada los frutos son atacados por un insecto plaga. Se supone que la
cantidad de frutos por planta y el tamaño de los frutos pueden influir en la probabilidad de que
los mismos sean atacados. Se tomaron 10 frutos al azar de distintas plantas. Para cada fruto
tomado se registró: el peso, el número de larvas de insectos en su interior, y el número de
frutos presentes en la planta de la que fue tomado.
a) Analizar gráficamente las relaciones entre las variables.
b) ¿Calcular los coeficientes de correlación ?.
c) ¿Cómo se relacionan el peso del fruto y la cantidad frutos con el número de larvas por
fruto?
e) ¿Cómo se relaciona el peso del fruto con la cantidad frutos por planta?.
f) Analizar la significancia de los coeficientes de correlación?. Conclusiones.
Datos:
Número de larvas 0 1 0 2 1 3 2 5 0
4
Peso (g) 32 41 37 48 38 52 46 56 34
49
Número de frutos/planta 8 12 11 21 14 29 23 37 7
32