Anda di halaman 1dari 31

CURSO DE BIOESTADISTICA Eider Ruiz Manzanos

DOCTORADO EN BIOLOGIA
UNIVERSIDAD NACIONAL DE CUYO
TRABAJO PRACTICO Nº2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

EJERCICIO 1. Sea el modelo poblacional Y = 3 + 2.X + , donde X es una variable arbitraria no aleatoria y  es
una variable aleatoria con distribución normal con media cero y variancia 2 = 1.
a) Simule treinta valores de Y para X igual a 1, 2,......,30 y valores  elegidas al azar de una tabla de datos
normales de media cero y variancia 1.

X Yborrar E Y Scatterplot (Ej1 5-06.sta 10v*31c)


Y = 3,4304+1,9708*x
1 1 5 0,3881 5,38811303 70
2 2 7 -0,5167 6,4832751
60
3 3 9 1,0414 10,0413876
4 4 11 -0,5880 10,4120428
50
5 5 13 1,8257 14,8256759
6 6 15 -0,2157 14,7843434 40
Y

7 7 17 -0,0808 16,9192368
30
8 8 19 0,5267 19,5266675
9 9 21 0,8063 21,8063209 20

10 10 23 0,2246 23,2246432
10
11 11 25 1,0212 26,0212317
12 12 27 0,0247 27,0246922 0
-5 0 5 10 15 20 25 30 35
13 13 29 -0,4961 28,503926 X
14 14 31 0,5357 31,5357311
15 15 33 -1,1142 31,8857636
16 16 35 -0,7635 34,2365225
17 17 37 0,2090 37,2089954
18 18 39 0,0445 39,0444904
19 19 41 1,6074 42,6073901
20 20 43 -0,5102 42,4897621
21 21 45 -0,8926 44,1074099
22 22 47 -0,7094 46,2906349
23 23 49 -2,0255 46,9745381
24 24 51 0,7465 51,7465106
25 25 53 -0,8537 52,1462696
26 26 55 -1,3627 53,6372571
27 27 57 -0,7264 56,2736318
28 28 59 0,5606 59,5606298
29 29 61 0,3221 61,3221285
30 30 63 0,2866 63,2866188

b) Con los datos del inciso anterior estimar el modelo lineal minimocuadrático. Compare los coeficientes
estimados con los parámetros verdaderos del modelo y diga cual es para cada uno el error de estimación.

Regression Summary for Dependent Variable: Y (Ej1.sta in Workbook1)


R= ,99884841 R²= ,99769815 Adjusted R²= ,99761594
F(1,28)=12136, p<0,0000 Std. Error of estimate: ,84809
Beta Std.Err. B Std.Err. t(28) p-level
Intercept 3,430366 0,317588 10,8013 0,000000
X 0,998848 0,009067 1,970763 0,017889 110,1641 0,000000

a = 3.240366 error de estimación a = 0,317588


b = 1.970763 error de estimación b = 0,017889

c) Calcule el desvío medio cuadrático y compare con el valor verdadero, cual es el error de la estimación?

El error de estimación se calcula mediante →


La Varianza Poblacional: σ2= 1
y La Varianza Residual, error cuadratico medio o Std. Error of estimate: 0,8480

Error de estimación = σ2 – S2xy = 1- 0.85 = 0.15 = Error de estimación

d) Calcule el coeficiente de determinación e interprete el resultado.

t= b - β / Sb lib = b ± t (n-2) · Sb
b = 1.97 t = 2.048 Sb = 0.018 sustituimos los datos en la fórmula
1.933
lib = b ± t (n-2) · Sb = 1.97 ± 2.048 x 0.018 = con lo que obtenemos dos valores
2.007
Se pude asegurar que la pendiente poblacional β está en el intervalo de confianza (1.933, 2.007) con un 95 % de
probabilidades, de certeza.

e) Verifique la hipótesis Ho:  = 0.

Cuando β= 0 es que no hay regresión


Ho : β = 0 → t = b-β / Sb tendría que ser = 0
Pero como → Columna t (28) = t observado y en este caso es = 110,1641 , no se acepta la hipótesis. Hay
regresión y es muy significativa, ya que el valor de p value es 0,00000.

f) Estime mediante un intervalo del 95% de confianza el valor medio esperado de Y correspondiente a un valor
de X = 6,5.
Predicting Values for (Ej1.sta in Workbook1)
variable: Y
B-Weight Value B-Weight
X 1,970763 6,500000 12,80996
Intercept 3,43037
Predicted 16,24033
-95,0%CL 15,78276
+95,0%CL 16,69790

El valor medio de Y se encontrará entre los valores Yminimo= 15.78 e Ymaximo= 16.68 con un 95% de
probabilidades
El valor Predicted nos da con un 95% de probabilidades el valor medio de Y = 16.24
g) Idem, pero para un valor particular de la subpoblación de valores de Y asociada al valor X = 6,5.

Predicting Values for (Ej1.sta in Workbook1)


variable: Y
B-Weight Value B-Weight
X 1,970763 6,500000 12,80996
Intercept 3,43037
Predicted 16,24033
-95,0%PL 14,44384
+95,0%PL 18,03682

El valor Predicted nos da con un 95% de probabilidades el valor de Y = 16.24


El valor de Y se encontrará entre los valores Yminimo= 14.44 e Ymaximo= 18.04 con un 95% de probabilidades. En
este caso este intervalo es mas amplio que el del valor medio porque es más disperso.

h) Hacer un análisis gráfico de los errores para ver si se cumplen los supuestos del modelo.

Distribution of Raw residuals


Predicted vs. Residual Scores
Expected Normal
Dependent variable: Y
9
2,0

8
1,5

7
1,0

6
0,5
Residuals

No of obs

5
0,0

4
-0,5
3
-1,0
2
-1,5
1
-2,0
0 10 20 30 40 50 60 70 0
Predicted Values 95% confidence -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

Normal Probability Plot of Resid uals


2,5

2,0

1,5

1,0

En este caso el modelo lineal


Expected Normal Value

0,5
se ajusta bien a los datos.
0,0

-0,5

-1,0

-1,5

-2,0

-2,5
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Residuals

EJERCICIO 2: Repita los pasos del ejercicio anterior pero con errores de una tabla normal con media cero y
variancia 9.
a) Simule treinta valores de Y para X igual a 1, 2,......,30 y valores  elegidas al azar de una tabla de datos
normales de media cero y variancia 9.

σ2 = 9 → error x 3
X Ysin E E N (0,1) E (0,9) Y
1 1 5 -0,9892 -2,9677 2,0323
2 2 7 -1,5811 -4,7432 2,2568
Scatterplot (Spreadsheet2 in Workbook2´.stw 10v*30c)
3 3 9 0,3338 1,0013 10,0013 Y = 2,7299+2,0198*x
4 4 11 -0,0644 -0,1931 10,8069 70

5 5 13 1,5900 4,7699 17,7699 60

6 6 15 1,3304 3,9913 18,9913 50


7 7 17 -2,0130 -6,0389 10,9611
40
8 8 19 -1,6707 -5,0120 13,9880
30

Y
9 9 21 -1,1346 -3,4037 17,5963
10 10 23 0,2528 0,7585 23,7585 20

11 11 25 1,8391 5,5172 30,5172 10


12 12 27 2,0162 6,0486 33,0486
0
13 13 29 -0,3299 -0,9897 28,0103
-10
14 14 31 0,9530 2,8590 33,8590 -5 0 5 10 15 20 25 30 35

15 15 33 1,2333 3,6998 36,6998 X

16 16 35 0,1721 0,5162 35,5162


17 17 37 0,9389 2,8167 39,8167
18 18 39 0,3033 0,9100 39,9100
19 19 41 -1,7671 -5,3013 35,6987
20 20 43 -0,6945 -2,0836 40,9164
21 21 45 -0,8011 -2,4033 42,5967
22 22 47 -0,5422 -1,6266 45,3734
23 23 49 -0,0645 -0,1934 48,8066
24 24 51 0,3565 1,0695 52,0695
25 25 53 1,7125 5,1376 58,1376
26 26 55 -1,4416 -4,3248 50,6752
27 27 57 0,0871 0,2614 57,2614
28 28 59 1,5731 4,7192 63,7192
29 29 61 -1,3126 -3,9378 57,0622
30 30 63 0,0833 0,2499 63,2499

b) Con los datos del inciso anterior estimar el modelo lineal minimocuadrático. Compare los coeficientes
estimados con los parámetros verdaderos del modelo y diga cual es para cada uno el error de estimación.

Regression Summary for Dependent Variable: Y (Workbook2.stw)


R= ,98052681 R²= ,96143283 Adjusted R²= ,96005543
F(1,28)=698,01 p<0,0000 Std.Error of estimate: 3,6243
Beta Std.Err. B Std.Err. t(28) p-level
Intercept 2,729941 1,357219 2,01142 0,053996
X 0,980527 0,037113 2,019804 0,076450 26,41980 0,000000

a = 2.729941 error de estimación a = 1.357219


b = 2.019804 error de estimación b = 0.076450

c) Calcule el desvío medio cuadrático y compare con el valor verdadero, cual es el error de la estimación?

El error de estimación se calcula mediante →


La Varianza Poblacional: σ2= 9
y La Varianza Residual, error cuadrático medio o Std. Error of estimate: 3.62
Error de estimación = σ2 – S2xy = 9 – 3.62 = 5.35 = Error de estimación

d) Calcule el coeficiente de determinación e interprete el resultado.

t = b- β / Sb lib = b ± t (n-2) · Sb
b = 2.02 t = 2.048 Sb = 0.077 sustituimos los datos en la fórmula
1.862
lib = b ± t (n-2) · Sb = 2.02 ± 2.048 x 0.077 = con lo que obtenemos dos valores
2.178
Se pude asegurar que la pendiente poblacional β está en el intervalo de confianza (1.862, 2.178) con un 95 % de
probabilidades, de certeza.

e) Verifique la hipótesis Ho:  = 0.

Cuando β= 0 es que no hay regresión


Ho : β = 0 → t = b-β / Sb tendría que ser = 0
Pero como → Columna t (28) = t observado y en este caso es = 26,41980, no se acepta la hipótesis. Hay
regresión y es muy significativa, ya que el valor de p value es 0,00000.

f) Estime mediante un intervalo del 95% de confianza el valor medio esperado de Y correspondiente a un valor
de X = 6,5.
Predicting Values for (Workbook2.stw)
variable: Y
B-Weight Value B-Weight
X 2,019804 6,500000 13,12873
Intercept 2,72994
Predicted 15,85867
-95,0%CL 13,90324
+95,0%CL 17,81410

El valor medio de Y se encontrará entre los valores Yminimo= 13.90 e Ymaximo= 17.81 con un 95% de
probabilidades
El valor Predicted nos da con un 95% de probabilidades el valor medio de Y = 15.85

g) Idem, pero para un valor particular de la subpoblación de valores de Y asociada al valor X = 6,5.

Predicting Values for (Workbook2.stw)


variable: Y
B-Weight Value B-Weight
X 2,019804 6,500000 13,12873
Intercept 2,72994
Predicted 15,85867
-95,0%PL 8,18133
+95,0%PL 23,53600

El valor Predicted nos da con un 95% de probabilidades el valor de Y = 15.85


El valor de Y se encontrará entre los valores Yminimo= 8.18 e Ymaximo= 23.53 con un 95% de probabilidades. En
este caso este intervalo es mas amplio que el del valor medio porque es más disperso.

h) Hacer un análisis gráfico de los errores para ver si se cumplen los supuestos del modelo.

Predic ted vs. Residual Scores Dis tribution of Raw residuals


Dependent variable: Y Expected Normal
8 8

6 7

4 6

2
5
Residuals

No of obs
0
4

-2
3

-4
2

-6
1

-8
0 10 20 30 40 50 60 70 0
Predic ted Values 95% confidence -8 -6 -4 -2 0 2 4 6 8

Normal Probability Plot of Residuals


2,5

2,0

1,5

1,0
Expected Normal Value

0,5

0,0

-0,5

-1,0

-1,5

-2,0

-2,5
-8 -6 -4 -2 0 2 4 6 8
Residuals

EJERCICIO 4: Se midió la concentración de pesticida en manzanas a partir de la última fecha de aplicación.


La concentración C se mide en mgr del producto por cada kilogramo de fruta, y el tiempo T en días.

T 0 2 4 7 14 21 28
C 1.18 1.02 0.92 0.46 0.21 0.11 0.04
a) Realice el diagrama de dispersión.
Scatterplot (Spreadsheet3 10v*10c)
C = 1,0114-0,0413*x
1,4

1,2

1,0

0,8

0,6
C

0,4

0,2

0,0

-0,2
-5 0 5 10 15 20 25 30
T
b) Ajuste un modelo exponencial e interprete los estimadores en términos del problema.

C = a · e bt y = a · e bX
ln y = ln a + ln e b X
ln y = ln a + bt · ln e
ln C = ln a + bt
y* = a* + bt

Regression Summary for Dependent Variable: y* (Spreadsheet3)


R= ,99583646 R²= ,99169026 Adjusted R²= ,99002832
F(1,5)=596,70 p<,00000 Std.Error of estimate: ,12841

Beta Std.Err. B Std.Err. t(5) p-level


Intercept 0,226275 0,072656 3,1143 0,026421
T -0,995836 0,040767 -0,121649 0,004980 -24,4275 0,000002

a* = 0,226275
b = -121649 ln y = 0.226 - 0.12 X
y = 1.25 e -0.12 X
C = 1.25 e -0.12 t
Siendo t el tiempo que hace falta para que la dosis c/2

c) Si Tm es el tiempo necesario para que el valor inicial C0 de la concentración se reduzca a la emésima parte (C
= C0/m), estimar T2 y T10 .

T2 → C = Co / T = 1.25mg / T2 = 0.625
0.625 = 1.25 e -0.12 t
ln 0.625 = ln 1.25 e -0.12 t
ln 0.625 = ln 1.25 + ln e -0.12 t
ln 0.625 = ln 1.25- 0.12 t · ln e
ln 0.625 – ln 1.25 = -0.12 t
-0.47-0.22 = -0.12 t
-0.69 = -0.12t → t = 5.75 → dias hacen falta para que se degrade el 50%
T10
C= Co / 10 = 1.25mg / 10 = 0.125
0.125 = 1.25 e -0.12 t
ln 0.125 = ln 1.25 e -0.12 t
ln 0.125= ln 1.25 + ln e -0.12 t
ln 0.125 = ln 1.25- 0.12 t · ln e
ln 0.125 – ln 1.25 = -0.12 t
-2.07 -0.22 = -0.12 t
-2.29 = -0.12t → t = 19.09 → días hacen falta para que quede el 10%

EJERCICIO 5: Los siguientes datos se refieren al crecimiento en alturas de plantas de girasol (expresada en
centímetros) a través del tiempo (en semanas)

Tiempo (X) 3 4 5 6 7 8 9 10 11 12 13
5 9 13 23 35 45 53 74 90 107 134
Altura (Y) 5 12 19 20 31 36 60 72 88 106 124
7 10 17 20 30 38 55 64 84 101 133
a) Realice el diagrama de dispersión. Scatterplot (Ej5.sta 2v*33c)
Y = 3,208*exp(0,3006*x)
180

160

140

120

100

80

Y
60

40

20

-20
3 4 5 6 7 8 9 10 11 12 13
X

b) Ajuste una función lineal simple a los datos.

Regression Summary for Dependent Variable: y (Ej5.sta)


R= ,96943107 R²= ,93979660 Adjusted R²= ,93785456
F(1,31)=483,92 p<0,0000 Std.Error of estimate: 10,027
Beta Std.Err. B Std.Err. t(31) p-level
Intercept -45,0182 4,748254 -9,48100 0,000000
x 0,969431 0,044069 12,1424 0,551973 21,99821 0,000000

a = -45.02 y = - 45.02 +12.14 x


b = 12.14 Altura = - 45.02 + 12.14 tiempo

c) Calcule el R2 y otros estimadores de la bondad del ajuste e interprete los resultados.

R2 = 0.94 P value = 0.00000


√CMe = Std.Error of estimate: 10,03 P value (F) = 0.00000

La regresión parece que se ajusta bien, parece buena. Faltaría realizar el análisis de residuales. En este caso R 2 es
buena pero algunas veces no se ve tan claro.

d) Realice la prueba de falta de ajuste.

Analysis of Variance; DV: Y (Ej5)


Sums of df Mean F p-level
Regress. 48654,69 1 48654,69 483,9211 0,000000
Residual 3116,82 31 100,54
Total 51771,52

Error Puro → EP = ∑ ( yij – yi)2 = 272.67 = EP


Error  i si pasa por el medio de los datos → no habría falta de ajuste

Falta de Ajuste → FA = SCerror – EP = 3116,82 – 272,67 = 2844,15 = FA

Descriptive Statistics (Ej5) Error Puro


gl Valid N Mean Sum Minimum Maximum Std.Dev. EP = n - k = 22 gl
gl errors 33 8,262626 272,6667 0,111111 40,11111 9,973840 FA = gl SCerror – gl EP = 9 gl
Fobs = CMFA / CmEP
→ la variabilidad debida a la falta de ajuste es demasiado grande, el modelo no se adapta bien a los datos y
debemos probar a asignarle otro modelo, en este caso el modelo cuadrático.

Si además graficamos los errores, podemos ver la falta de ajuste de el modelo:

Distribution of Raw residuals Raw residuals vs. x


Expected Normal Raw resid uals = ,13E-5 - ,1E-6 * x
9 Correlation: r = -,4E-7
25

8
20

7 15

6 10

Raw residuals
5 5
No of obs

4 0

-5
3

-10
2

-15
1
-20
0 2 4 6 8 10 12 14
-20 -15 -10 -5 0 5 10 15 20 25 x 95% confidence

Normal Probability Plot of Residuals Predicted vs. Residual Scores


2,5
Dependent variable: y
25
2,0

20
1,5

15
1,0
Expected Normal Value

10
0,5
Residuals

5
0,0

-0,5 0

-1,0 -5

-1,5 -10

-2,0 -15

-2,5 -20
-20 -15 -10 -5 0 5 10 15 20 25 -20 0 20 40 60 80 100 120
Residuals Predicted Values 95% confidence

Los datos no se ajustan demasiado bien a la función, parece por los gráficos de errores obtenidos (especialmente
el gráfico Predicted vs. Residual Scores) que los datos cumplen una función más curva.

e) Pruebe ajustar un modelo cuadrático del tipo: Yi = ß0 + ß1xi + ß2xi2


f) Halle nuevamente el coeficiente de determinación R 2 y otros estimadores de bondad de ajuste y saque
conclusiones.
g) Grafique los residuales correspondientes a ambos modelos versus el valor predicho. Qué le sugieren?

Scatterplot (Ej5.sta in Workbook3 3v*33c)


y = -4,6509+0,7672*x
Para intentar ajustar un modelo cuadrático, o función 140

tipo Y = a + bX + cX2 , lo primero, crearemos 120

datos X2 , a continuación, probaremos la función 100

a los datos mediante un gráfico Scatterplot. 80

60
y

40

20

-20
0 20 40 60 80 100 120 140 160 180
x2
Calcularemos los valores de a, b y c para la función que estamos buscando mediante Regresión, pero en este
caso usaremos como variables independientes tanto a X como a X2:

Regression Summary for Dependent Variable: y (Ej5.sta in Workbook3)


R= ,99674138 R²= ,99349337 Adjusted R²= ,99305959
F(2,30)=2290,3 p<0,0000 Std.Error of estimate: 3,3509
Beta Std.Err. B Std.Err. t(30) p-level
Intercept 11,10070 3,903645 2,84368 0,007953
x -0,358106 0,085646 -4,48539 1,072744 -4,18123 0,000232
x2 1,347610 0,085646 1,03924 0,066048 15,73463 0,000000

a = 11.10070
b = -4.48539 y = 11.10 – 4.48X + 1.039X2
c = 1.03924

Para ver que tal se ajustan los datos a la función veremos los diferentes gráficos de errores:
Raw residuals vs. x2
Distribution of Raw residuals Raw residuals = -,1E-5 + ,24E-7 * x2
Expected Normal Correlation: r = ,39E-6
10 8

9
6

8
4
7
2
Raw residuals

6
No of obs

0
5

4 -2

3
-4

2
-6
1
-8
0 0 20 40 60 80 100 120 140 160 180
-8 -6 -4 -2 0 2 4 6 8 95% confidence
x2

Predicted vs. Resid ual Scores


Normal Probability Plot of Residuals
Dependent varia ble : y
2,5
8

2,0
6
1,5
4
1,0
Expected Normal Value

2 0,5
Residuals

0 0,0

-0,5
-2

-1,0
-4
-1,5
-6
-2,0

-8 -2,5
0 20 40 60 80 100 120 140
-8 -6 -4 -2 0 2 4 6 8
Predicted Valu es 95% confidence
Residuals

En esta ocasión podemos ver que los datos se ajustan mucho mejor a la función pero como no se adaptan a la
perfección, parece que en vez de cumplir una función parabólica pura, cumplen con una función que además
del componente cuadrático tiene también un componente lineal. Para comprobarlo realizaremos la prueba de
Falta de Ajuste:
Analysis of Variance; DV: y (Ej5)

Sums of df Mean F p-level


Regress. 51434,66 2 25717,33 2290,341 0,000000
Residual 336,86 30 11,23
Total 51771,52

Error Puro – EP = 272,67 → No varía, no depende del modelo, es la variabilidad natural


Error
Falta de Ajuste – FA = SCerror – EP = 336,86 – 272,67 = 64,2 = FA gl FA = 8

Descriptive Statistics (Ej5)


Valid N Mean Sum Minimum Maximum Std.Dev.
errors 33 10,20847 336,8794 0,000121 38,44000 11,69366

Descriptive Statistics (Ej5)


Sums of df Mean F p-level
Regress. 51434,66 2 25717,33 2290,341 0,000000
Residual 336,86 30 11,23
Total 51771,52

Fobs = (SCFA / (k-2)) / CmEP = 12,39 / 8,26 = 1,49 → Si el ajuste fuese perfecto, la variabilidad debida a la
falta de ajuste, Fobs sería igual a 1.
SC FA = SCT - SCEP = 51771.52 – 272,67 = 51498,85
CMEP = 8,26
Fobs = 1.49 < 2,39 = Fcrit (8, 22)

No significativo, No hay falta de ajuste significativa,


esto es, el error encontrado en el modelo está explicado por el Error Puro,
o error natural, poblacional.

EJERCICIO 6. El archivo PESODIAM contiene datos de peso y diámetro de frutos de pera variedad
Packham´s Triumph registrados a lo largo de su periodo de desarrollo.
a) Halle una relación lineal que le permita expresar el peso de los frutos en función de sus diámetros.
Identifique y analice los resultados presentados en la salida del programa e informe sobre los test de nulidad
de los parámetros estimados, de la bondad del ajuste y estime el peso esperado para una pera de 70 mm de
diámetro.
Realizamos la Regresión Lineal que expresa el peso del fruto respecto del diámetro:

Regression Summary for Dependent Variable: PESO (PESODIAM.STA)


R= .97292271 R²= .94657860 Adjusted R²= .94630879
F(1,198)=3508.4 p<0.0000 Std.Error of estimate: 15.161
Beta Std.Err. B Std.Err. t(198) p-level
Intercept -389,909 9,860847 -39,5412 0,00
DIAM 0,972923 0,016426 8,202 0,138481 59,2316 0,00
a = -389.909
b = 8.202 y = - 389.909 + 8.202 X
Peso = -389, 91 + 8,20 · Diámetro

Std.Error of estimate = √ Cme = 15.161 gr. = lo que se aleja en promedio la nube de puntos de la función.

b) Grafique la nube de puntos, superponga la recta hallada en el punto anterior y analice los errores para
determinar si se cumplen los supuestos del modelo y si ellos ponen en evidencia la inadecuación de un
modelo lineal Scatterplot (PESODIAM.STA 2v*200c)
PESO = -389,9094+8,2025*x
500

450

400

350
Graficamos la nube de puntos
300

y superponemos la recta hallada:

PESO
250

200

150

100

50
55 60 65 70 75 80 85 90 95 100 105
DIAM

Predicted vs. Residual Scores


Dependent variable: PESO
60

50

40

30

20
Si analizamos y graficamos los errores
Residuals

10

para la función y = -389.909 + 8.202 X 0

No parece que el modelo se ajuste bien. -10

-20

-30
Pareciera
-40
una Parábola
50 100 150 200 250 300 350 400 450
Predicted Values 95% confidence

Distribution of Raw residuals Normal Probability Plot of Residuals


Expected Normal 4
35

3
30

2
25
Expected Normal Value

1
20
No of obs

0
15

-1
10

-2
5

-3
0 -40 -30 -20 -10 0 10 20 30 40 50 60
-45 -40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 Residuals

Al no ajustarse bien al modelo lineal probaremos con otros modelo.


c) Utilice transformaciones logaritmo de las variables, realice los ajustes correspondientes e identifique el
verdadero modelo ajustado en cada caso. Haga uso del análisis de los errores para proponer a su juicio la
mejor solución Scatterplot (PESODIAM.STA 3v*200c)
Log(peso) = 2,4413+0,039*x
6,6

6,4
Probaremos primero con una función exponencial, 6,2

tipo y = a + e bX 6,0

5,8
para ello:

Log(peso)
5,6

y = a + e bX → ln y = ln a + b X 5,4

5,2

5,0

Graficaremos “ln Peso vs. Diámetro” 4,8

4,6

4,4
55 60 65 70 75 80 85 90 95 100 105
DIAM

Haremos la Regresión para hallar los valores de a y b para la nueva función:

Regression Summary for Dependent Variable: Log(peso) (PESODIAM.STA)


R= .97587773 R²= .95233734 Adjusted R²= .95209662
F(1,198)=3956.2 p<0.0000 Std.Error of estimate: .06784
Beta Std.Err. B Std.Err. t(198) p-level
Intercept 2,441344 0,044124 55,32883 0,00
DIAM 0,975878 0,015515 0,038976 0,000620 62,89829 0,00

ln a = 2.441344 → a = 11.49
b = 0.038976 y = 11.49 + e 0.04 X

Veamos que tal se ajustan los datos a la función mediante el análisis de residuales:
Dis tribution of Raw residuals
Raw residuals vs. Log(peso)
Expected Normal
Raw resid uals = -.2479 + .04766 * Log(peso) 70
Correlation: r = .21832
0,30 65

0,25 60

55
0,20
50
0,15
45
0,10
40
No of obs
Raw residuals

0,05 35

0,00 30

25
-0,05
20
-0,10
15
-0,15 10

-0,20 5

0
-0,25
4,4 4,6 4,8 5,0 5,2 5,4 5,6 5,8 6,0 6,2 6,4 -0,25 -0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30

Log(peso) 95% confidence


Normal Probability Plot of Residuals
4

No parece que el modelo lineal 3

se ajusta demasiado bien. 2


Expected Normal Value

1
En este caso el valor dado por el programa para Cm e, o error
cuadrático medio es realmente el logaritmo de su valor. No 0

podemos hacer el antilogaritmo para calcular su valor real -1

porque se obtuvo con la suma de dosvalores. Para poder -2

calcularlo, utilizaremos otro método. -3


-0,25 -0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30
Necesitaremos este valor para ver como cuanto se aleja Residuals

en promedio la nube de puntos de la función recién calculada: y = 11.49 + e 0.04 X.


Calcularemos el valor de los pesos predichos en escala natural, no logarítmica, esto es = ŷ. Construiremos
una nueva columna de errores (y – ŷ)2, esto es (Peso – Predicho) 2. Guardaremos en la tabla todos los valores
de Predichos, Residuos y Residuos Estandarizados para poder calcular el error cuadrático medio. Entonces:

Σe2 = (y - )2 → Σe2 = 40355.46


Sxy =Σe2 / n – 2 → Sxy = √CMe
2
√CMe = √Σe /n-2 = √40355.46 / 198 = √203.8 = 14.28 = CMe

Probaremos ahora que tal se ajusta una función potencial tipo y = a X b a los datos que tenemos.

y = a X b → ln y = ln a + b · ln X
Scatterplot (Spreadsheet24 8v*200c)
Log(peso) = -6,9676+2,8604*x
6,4

Crearemos una nueva variable y* = a* + b 6,2

6,0

5,8

5,6

Log(peso)
Graficaremos ln X vs. ln y 5,4

En este caso vemos como 5,2

se ajusta mejor a la recta. 5,0

4,8

4,6

4,4
4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7
LnX

Calcularemos a y b con Regresión, y con los nuevos parámetros calcularemos una nueva función:

Regression Summary for Dependent Variable: Log(peso) (Spreadsheet24)


R= .97824077 R²= .95695500 Adjusted R²= .95673760
F(1,198)=4401.8 p<0.0000 Std.Error of estimate: .06447
Beta Std.Err. B Std.Err. t(198) p-level
Intercept -6,96764 0,183456 -37,9799 0,00
LnX 0,978241 0,014744 2,86038 0,043113 66,3463 0,00

ln a = - 6.96764 → a = 9.42 x 10-4


b = 2.86038 y = 0.0009 • X 2.86

Necesitamos calcular y graficar los errores o Residuos para poder ver cuanto se ajusta nuestra nueva función
a los datos:
Distribution of Raw residuals Predicted vs. Residual Scores
Expected Normal Dependent variable: Log(peso)
70 0,30

65
0,25
60

55 0,20

50
0,15
45

0,10
Residuals

40
No of obs

35
0,05
30

25 0,00

20
-0,05
15

10 -0,10

5
-0,15
0 4,4 4,6 4,8 5,0 5,2 5,4 5,6 5,8 6,0 6,2 6,4
-0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30 Predicted Values 95% confidence
Calcularemos entonces el error cuadrático medio (CM e) para ver cuanto se alejan los datos de la nueva
función:

Construiremos una nueva columna de errores (y – ŷ) 2 que calcularemos mediante el antilogaritmo de los
Predichos Potenciales y calcularemos CMe:

CMe = √Sxy = √ (Σe2 / n-2) = √ (Σ(y – ŷ)2 /n-2) = √(31222.5/198) =


CMe = 12.56

En este caso tanto el modelo exponencial como el potencial se ajustan bien a nuestros datos. No el
lineal. Esto suele darse porque una función potencial puede ser un caso especial de una función
exponencial.

Unas vez que hemos calculado la mejor función o funciones para nuestros datos, podemos calcular, sabiendo
el diámetro de una pera, cual sería su peso. En este caso, se nos pide calcular el peso para una pera de
diámetro = 70 mm.

P (X) = 11.47 • e 0.04 ø → P (70) = 188.6 gr. Calculado con la función exponencial
P (X) = 0.0009 • ø 2.86 → P (70) = 178.1 gr. Calculado con la función potencial

EJERCICIO 7. Utilice las mediciones almacenadas en el archivo FOSFORO donde se aparearon


mediciones de niveles de fósforo en las hojas de plantas con los niveles de fósforo orgánico e inorgánico
detectado en el suelo próximo a las raíces de la planta.
a) Hallar las matrices de covarianzas, de correlaciones lineales simples y de correlaciones lineales parciales
entre las variables y verificar cuales de las correlaciones son significativas

Veamos las correlaciones lineales simples entre los pares de datos que tenemos, los datos en rojo significa
que son significativos a 5%:

Correlations (FOSFORO.STA)
Marked correlations are significant at p < ,05000
N=18 (Casewise deletion of missing data)

P_INORG P_ORG P_PLANTA


P_INORG 1,00 0,46 0,69 Analizaremos para ver el pvalue y saber
P_ORG 0,46 1,00 0,35 si es significativo realmente.
P_PLANTA 0,69 0,35 1,00

Relación entre Fosforo Organico e Inorganico:

Regression Summary for Dependent Variable: P_ORG (FOSFORO.STA)


R= ,46207879 R²= ,21351681 Adjusted R²= ,16436161
F(1,16)=4,3437 p<,05353 Std.Error of estimate: 12,455
Beta Std.Err. B Std.Err. t(16) p-level
Intercept 34,70397 4,609659 7,528533 0,000001
P_INORG 0,462079 0,221710 0,62100 0,297961 2,084161 0,053534

P value : 0.054 → es no significativo, pero no demasiado


Relación entre Fósforo Planta y Fósforo Orgánico:

Regression Summary for Dependent Variable: P_PLANTA (FOSFORO.STA)


R= .35446618 R²= .12564627 Adjusted R²= .07099917
F(1,16)=2.2992 p<.14895 Std.Error of estimate: 26.020
Beta Std.Err. B Std.Err. t(16) p-level
Intercept 51,70125 20,44692 2,528559 0,022350
P_ORG 0,354466 0,233767 0,70234 0,46319 1,516321 0,148945

Pvalue = 0.015 → es muy no significativo

Relación entre Fósforo Planta y Fósforo Inorgánico

Regression Summary for Dependent Variable: P_PLANTA (FOSFORO.STA)


R= ,69377904 R²= ,48132935 Adjusted R²= ,44891243
F(1,16)=14,848 p<,00141 Std.Error of estimate: 20,041
Beta Std.Err. B Std.Err. t(16) p-level
Intercept 59,24185 7,417295 7,986989 0,000001
P_INORG 0,693779 0,180047 1,84745 0,479442 3,853322 0,001405

Pvalue = 0.0014 → es muy no significativo

Si graficamos la correlación entre cada una de las variables y respecto a las demás:

Correlations (FOSFORO.STA 4v*18c)

P_INORG

P_ORG

P_PLANTA

b) Hacer los ajustes lineales simples que expresan el nivel de P en la planta en función, por separado, del P
orgánico y del P inorgánico del suelo
En este caso utilizaremos la Regresión para hacer los ajustes lineales. Tenemos tres casos
1.- P (I) vs P (p)
2.- P (O) vs P (p)
C) 3.- P (p) vs P (O) + P (I)
Veamos el ajuste de cada caso:

1.- P (I) vs P (p)

Regression Summary for Dependent Variable: P_PLANTA (FOSFORO.STA)


R= .69377904 R²= .48132935 Adjusted R²= .44891243
F(1,16)=14.848 p<.00141 Std.Error of estimate: 20.041
Beta Std.Err. B Std.Err. t(16) p-level
Intercept 59,24185 7,417295 7,986989 0,000001
P_INORG 0,693779 0,180047 1,84745 0,479442 3,853322 0,001405

a = 59.29 P (p) = 59.29 + 1.85 (P(I))


b = 1.85

2.- P (O) vs P (p)

Regression Summary for Dependent Variable: P_PLANTA (FOSFORO.STA)


R= .35446618 R²= .12564627 Adjusted R²= .07099917
F(1,16)=2.2992 p<.14895 Std.Error of estimate: 26.020
Beta Std.Err. B Std.Err. t(16) p-level
Intercept 51,70125 20,44692 2,528559 0,022350
P_ORG 0,354466 0,233767 0,70234 0,46319 1,516321 0,148945

a = 51.70 P (p) = 51.70 + 0.70 (P(O))


b = 0.70

c) Hacer un ajuste lineal múltiple para expresar el nivel de P de la planta respecto de las otras dos variables.
Identifique en las salidas las pruebas t para cada coeficiente e interprete los resultados

3.- P (p) vs P (O) + P (I)

Regression Summary for Dependent Variable: P_PLANTA (FOSFORO.STA)


R= .69483042 R²= .48278931 Adjusted R²= .41382789
F(2,15)=7.0009 p<.00712 Std.Error of estimate: 20.669
Beta Std.Err. B Std.Err. t(15) p-level
Intercept 56,27920 16,30391 3,451884 0,003558
P_INORG 0,673870 0,209384 1,79443 0,55756 3,218348 0,005744
P_ORG 0,043085 0,209384 0,08537 0,41488 0,205770 0,839737

a = 56.28
b = 1.79 P (p) = 56.28 + 1.79 (P(I)) + 0.08 (P(O))
c = 0.08

d) Realice, con los resultados anteriores, una prueba F parcial para conocer el aporte del fósforo orgánico
cuando el inorgánico está presente en el modelo

Para realizar la prueba F parcial debemos conocer la suma del cuadrado de los errores ( SC e)
Para lo cual realizamos la regresión con las tres variables, plata como dependiente y Orgánico e
Inorgánico como independiente. En este caso hacemos una prueba de ANOVA con la que conseguimos la
suma del cuadrado de los errores ( SCe) para averiguar cual es la parte que explica cada una de las variables:

Parte que explica el Inorgánico:


Analysis of Variance; DV: P_PLANTA (FOSFORO.STA)
Sums of df Mean F p-level
Regress. 5963,48 1 5963,483 14,84809 0,001405
Residual 6426,13 16 401,633
Total 12389,61

En este caso el valor de SCI = 5963.48

Parte que explica el Orgánico:


Analysis of Variance; DV: P_PLANTA (FOSFORO.STA)
Sums of df Mean F p-level
Regress. 1556,71 1 1556,708 2,299230 0,148945
Residual 10832,90 16 677,056
Total 12389,61

En este caso el valor de SCO = 1556.71

Parte que es explicada por ambos:


Analysis of Variance; DV: P_PLANTA (FOSFORO.STA)
Sums of df Mean F p-level
Regress. 5981,57 2 2990,786 7,000860 0,007120
Residual 6408,04 15 427,203
Total 12389,61

En este caso el valor de SCIO = 5981.57

El SCTotal = 12389.61

Lo que explica el Fosfato Orgánico que no es capaz de explicar el Fosfato Inorgánico será entonces

SC(O/I) = SCIO – SCI = 5981.57 – 5963.48 = 18.09

Queremos ver si realmente la parte que explica Orgánico que no es explicada por Inorgánico (SC(O/I) ) es
significativa, para lo cual realizamos la prueba de F parcial:

Primero calcularemos SCerror , para esto realizaremos la ANOVA de P(p) / P (O) + P(I) = Mean
Squares vs Residuals

Fobs = SC(O/I) / SCerror = 18.09 / 427 = 0.0424 No es Significativo

√ F parcial = t = 0.20 → en la tabla de Regresión de P(p) / P (O) + P(I) mirar ultimo t

Realmente, por lo que se deduce de los resultados, el Fosfato Orgánico no tiene influencia. Nunca será
absorvido mientras halla Fosfato Inorgánico en el suelo.
e) Use de la información obtenida en los puntos anteriores para decidir sobre el modelo que considera más
apropiado

P (p) = 59.29 + 1.85 (P(I)) Cme = 401,633 → El mejor modelo será siempre el
P (p) = 51.70 + 0.70 (P(O)) Cme = 677,056 de menor Cme.
P (p) = 56.28 + 1.79 (P(I)) + 0.08 (P(O)) Cme = 427,203

En este caso el modelo que mejor relaciona el contenido de Fósforo de una planta
incluye unicamente el Fósforo Inorganico.

EJERCICIO 8. Use de los datos del archivo PESODIAM y genere la variable D2 con los cuadrados del
diámetro
a) Ajuste el modelo polinómico de segundo grado Y = 0 + 1 D + 2 D2 utilizando las técnicas de regresión
multivariada compare con los resultados obtenidos en los ajustes lineal, exponencial y potencial.

y = a + bX
y = a + ebx vs. y = a + bX + cX2 incluir bX mejoraría el modelo?
y = a + Xb Ho: El componente bX no mejora el modelo

Realizamos la Regresión con las variable Y, X y X 2 para conseguir los parámetros a, b y c:

Regression Summary for Dependent Variable: PESO (Pesodiam in Workbook8)


R= ,98156313 R²= ,96346618 Adjusted R²= ,96309528
F(2,197)=2597,6 p<0,0000 Std.Error of estimate: 12,569
Beta Std.Err. B Std.Err. t(197) p-level
Intercept 180,2460 60,30479 2,98892 0,003156
DIAM -0,874856 0,194112 -7,3757 1,63651 -4,50697 0,000011
D**2 1,852343 0,194112 0,1050 0,01101 9,54266 0,000000

a = 180.2460
b = -7.3757 y = 180.25 -7.38 X + 0.11X2
c = 0.1050

b) Utilice una prueba de F parcial para analizar si el término lineal del polinomio aporta significativamente a
la explicación del peso de los frutos

Para saber si el aporte de X cuando X2 está en la función es significativo:

SC (X / X2) = SC (X , X2) – SC (X2) Cuanto aporta X cuando ya esta en el modelo X2

Haremos ANOVA par calcular las diferentes Sumas de Cuadrado:

Analysis of Variance; DV: PESO (Pesodiam in Workbook8)


Sums of df Mean F p-level
Regress. 820760,1 2 410380,1 2597,632 0,00 SC (X , X2) = 820760,1
Residual 31122,5 197 158,0
Total 851882,7 Cme = 158.0
Analysis of Variance; DV: PESO (Pesodiam in Workbook8)

Sums of df Mean F p-level


Regress. 817551,1 1 817551,1 4715,049 0,00
Residual 34331,6 198 173,4 SC (X2) = 817551, 1
Total 851882,7

SC (X / X2) = SC (X , X2) – SC (X2) = 820760,1 – 817551,1 = 3209 = SC (X / X2)


gl SC (X / X2) = gl SC (X , X2) - gl SC (X2) = 2-1 = 1

Fobs = SC (X / X2) / Cme = 3209 / 158 = 20.31 = Fobs


Fobs = 20.31 > 3.8 = Fcrit (1, 197)

Se Rechaza la hipotesis H0, por lo tanto,


el componente bX mejora el modelo que relaciona el peso y el diámetro de las peras.

c) Genere las variables D3 y D4 y junto a la variable diámetro y D2 someta a un proceso de selección de


variables para encontrar el mejor modelo polinómico que me permita predecir el peso de los frutos en
función del diámetro. Compare con los otros modelos hallados anteriormente.

Todas las funciones polinómicas con las variables Ø 3, Ø4, Ø2 serían:

P = a + bØ P = a + bØ2 + cØ3 + dØ4


P = a + bØ2 …
P = a + bØ + cØ2
P = a + bØ3
P = a + bØ + cØ3
P = a + bØ + cØ2 + dØ3
P = a + bØ2 + cØ3

Queremos ver cual de estas funciones se ajusta mejor a los datos. Para ello haremos primero una estimación
usando el modelo más sencillo posible y el más complejo posible como base para obtener una F crit posible:

Fcrit (1, 196) = 3.89 y usar esta como estimación de F para la regresión Stepwise que nos dará en un
solo paso la mejor función para todos las modelos posibles:

Regression Summary for Dependent Variable: PESO (PESODIAM.STA)


R= .98146399 R²= .96327156 Adjusted R²= .96308606
F(1,198)=5192.9 p<0.0000 Std.Error of estimate: 12.571
Beta Std.Err. B Std.Err. t(198) p-level
Intercept 10,08172 2,659413 3,79096 0,000199
Diam3 0,981464 0,013620 0,00049 0,000007 72,06190 0,000000

Vemos que Ø3 es quien mejor se ajusta a los datos. Obtenemos a y c para la función:

a = 10.08172 y = 10.08 + 0.00049 Ø2


c = 0.00049

Si miramos
F (1.195) = 3.81

De todas las posibles funciones que explicarían este modelo, la mejor relaciona con Ø 3
EJERCICIO 9. El archivo AVALLE contiene datos metereológicos de la estación Alto Valle con las
siguientes variables: ANIO, MES
VAR1: temperatura máxima (media mensual).
VAR2: temperatura mínima.
VAR3: temperatura media.
VAR4: temperatura suelo a 0,05 metros de profundidad.
VAR5: tensión saturada de vapor de agua.
VAR6: temperatura punto de rocío.
VAR7: déficit de saturación.
VAR8: humedad relativa máxima (en muchos casos a las 9 hs).
VAR9: humedad relativa mínima.
VAR10: precipitación (llevada a 31 días).
VAR11: evaporación de tanque "A" (valor diario).
VAR12: evaporación piché.
VAR13: velocidad del viento a 0,50 metros del suelo.
VAR14: velocidad del viento a 2 metros.
VAR15: heliofanía.
VAR16: humedad relativa media.
Considere las variables VAR11 y las tres temperaturas VAR1, VAR2 y VAR3
a) Cual es la temperatura (máxima, media o mínima) que está más correlacionada con la evaporación?
Genere el modelo lineal que exprese a VAR11 con dicha temperatura

Haremos la matriz de correlación entre todas las variables y podemos ver que la VAR11
Temperatura mas relacionada con VAR11 es VAR1: VAR1 0,92
VAR2 0,86
Entonces, generaremos un modelo lineal para VAR1 y VAR 11: VAR3 0,91

Regression Summary for Dependent Variable: VAR11 (AVALLE NUEVO.STA)


R= .88856744 R²= .78955209 Adjusted R²= .78855941
F(1,212)=795.38 p<0.0000 Std.Error of estimate: .96591
Beta Std.Err. B Std.Err. t(212) p-level
Intercept -3,02837 0,242185 -12,5044 0,000000
VAR1 0,888567 0,031507 0,30177 0,010700 28,2024 0,000000 a = -3.0283 y =
-3.03
+ 0.302 X
b = 0.30177 Evaporación del tanque “A”= -3.03 + 0.302 Tª máxima

b) De las dos temperaturas restantes, cual es la que más aporta a la explicación de A11 en el caso de ser
agregadas por separado al modelo lineal simple del inciso anterior? Son significativos esos aportes?

1.- SC (Var2 / Var1) es significativo?


2.-SC (Var3 / Var1) es significativo?

1.- Lo calcularemos mediante ANOVA:

SC (Var2 / Var1) = SC (Var2, Var1) - SC (Var1)


Analysis of Variance; DV: VAR11 (AVALLE NUEVO.STA)

Sums of df Mean F p-level


SC (Var1) = 742,0771
Regress. 742,0771 1 742,0771 795,3752 0,00
gl = 1
Residual 197,7939 212 0,9330
Total 939,8710

Analysis of Variance; DV: VAR11 (AVALLE NUEVO.STA)

Sums of df Mean F p-level


Regress. 742,1131 2 371,0566 395,9030 0,00 SC (Var2,
Residual 197,7579 211 0,9372 Var1) = 742, 1143
Total 939,8710 gl = 2
Cme = 0.9372

SC (Var2 / Var1) = SC (Var2, Var1) - SC (Var1) = 742.11 – 742.08 = 0.036 = SC (Var2 / Var1)

Fobs = SC (Var2 / Var1) / CMe = 0.036 / 0.9372 = 0.038 = Fobs

Fcrit (1, 212) = 3.88 > 0.038 = Fobs

SC (Var2 / Var1) No es significativo. VAR2 no mejora significativamente el modelo.

2.-
SC (Var3 / Var1) = SC (Var 3, Var1) - SC (Var1)

Analysis of Variance; DV: VAR11 (AVALLE NUEVO.STA)

Sums of df Mean F p-level


Regress. 744,5801 2 372,2901 402,2371 0,00 SC (Var3, Var1) = 742, 5801
Residual 195,2908 211 0,9255 gl = 2
Cm e = 0.9255
Total 939,8710

SC (Var3/ Var1) = SC (Var3, Var1) - SC (Var1) = 744.58 – 742.08 = 2.503 = SC (Var3 / Var1)

Fobs = SC (Var3 / Var1) / CMe = 2.503 / 0.9255 = 2.704 = Fobs


Fcrit (1, 212) = 3.88 > 2.704 = Fobs

SC (Var3 / Var1) No es significativo. VAR3 no mejora significativamente el modelo.

c) De todos los modelos posibles que utilizan las temperaturas como variables independientes, cual considera
que es el más adecuado para explicar la evaporación?, justifique la respuesta.

Todas los modelos posibles con las variables Var1, Var2 y Var3 para Var11 serían:

P = a + bVar P = a + bVar3 P = a + bVar2 + cVar3


P = a + bVar2 P = a + bVar + cVar3 P = a + bVar2 + cVar3 + dVar4
P = a + bVar + cVar2 P = a + bVar + cVar2 + dVar3 ...
Obtendremos las variables que participan en el mejor modelo mediante Stepwise:

Summary of Stepwise Regression; DV: VAR11 (AVALLE NUEVO.STA)


Step Multiple Multiple R-square F - to p-level Variables
VAR15 1 0,943093 0,889424 0,889424 1439,799 0,000000 1
VAR3 2 0,951456 0,905269 0,015845 29,773 0,000000 2
VAR8 3 0,960465 0,922493 0,017224 39,334 0,000000 3
VAR14 4 0,962053 0,925546 0,003053 7,216 0,007917 4
VAR10 5 0,963519 0,928369 0,002823 6,897 0,009398 5
VAR2 6 0,965037 0,931297 0,002928 7,415 0,007128 6
VAR3 -7 0,964443 0,930151 -0,001146 2,901 0,090284 5
VAR7 8 0,965342 0,931885 0,001734 4,429 0,036759 6

Después de saber cuales son las variables que forman el mejor modelo para explicar Var11, mediante
Regresión crearemos la función que las relacione:

Regression Summary for Dependent Variable: VAR11 (AVALLE NUEVO.STA)


R= .96534199 R²= .93188516 Adjusted R²= .92953638
F(6,174)=396.75 p<0.0000 Std.Error of estimate: .51396
Beta Std.Err. B Std.Err. t(174) p-level a = 2.932
Intercept 2,93166 0,810773 3,61588 0,000392 b = 0.377
VAR15 0,509247 0,047502 0,37730 0,035194 10,72059 0,000000 c=
VAR8 -0,145484 0,029792 -3,96091 0,811112 -4,88331 0,000002 -3.961
VAR14 0,057019 0,020724 0,01334 0,004848 2,75133 0,006564 d = 0.013
VAR10 -0,076914 0,022807 -0,00494 0,001464 -3,37233 0,000919 e = - 0.005
VAR2 0,334930 0,040619 0,12885 0,015626 8,24568 0,000000 f = 0.129
VAR7 0,051794 0,024610 0,01228 0,005837 2,10464 0,036759 g = 0.012

y = 2.93 + 0.38X15-396X82+ 0.01X14 3– 0.005X104 + 0.13X2 5+ 0.01X76


VAR11 = 2.93 + 0.38VAR15 - 396VAR82 + 0.01VAR143 – 0.005VAR104 + 0.13VAR25 + 0.01VAR76

EJERCICIO 10. Con los datos del archivo AVALLE:


a) Construir la matriz de correlación correspondiente entre todas las variables. Interpretar resultados.

Correlations (AVALLE NUEVO.STA)


Marked correlations are significant at p < .05000
N=167 (Casewise deletion of missing data)

VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 VAR10 VAR11 VAR12 VAR13 VAR14 VAR15 VAR17
VAR1 1,00 0,95 0,99 0,97 0,20 0,78 0,56 -0,59 -0,62 -0,03 0,92 0,82 0,11 0,14 0,94 -0,75
VAR2 0,95 1,00 0,96 0,96 0,23 0,86 0,51 -0,50 -0,47 0,12 0,86 0,73 0,09 0,12 0,85 -0,62
VAR3 0,99 0,96 1,00 0,98 0,21 0,82 0,55 -0,57 -0,56 0,03 0,91 0,80 0,11 0,14 0,91 -0,71
VAR4 0,97 0,96 0,98 1,00 0,19 0,77 0,55 -0,60 -0,58 0,03 0,92 0,82 0,12 0,16 0,93 -0,73
VAR5 0,20 0,23 0,21 0,19 1,00 0,26 0,09 -0,06 -0,02 -0,01 0,16 0,11 -0,03 -0,02 0,14 -0,05
VAR6 0,78 0,86 0,82 0,77 0,26 1,00 0,39 -0,09 -0,13 0,24 0,60 0,40 -0,04 -0,02 0,61 -0,22
VAR7 0,56 0,51 0,55 0,55 0,09 0,39 1,00 -0,42 -0,38 -0,09 0,59 0,55 0,10 0,11 0,58 -0,49
VAR8 -0,59 -0,50 -0,57 -0,60 -0,06 -0,09 -0,42 1,00 0,75 0,29 -0,72 -0,81 -0,26 -0,29 -0,69 0,90
VAR9 -0,62 -0,47 -0,56 -0,58 -0,02 -0,13 -0,38 0,75 1,00 0,25 -0,65 -0,73 -0,11 -0,14 -0,71 0,87
VAR10 -0,03 0,12 0,03 0,03 -0,01 0,24 -0,09 0,29 0,25 1,00 -0,14 -0,23 -0,10 -0,08 -0,11 0,29
VAR11 0,92 0,86 0,91 0,92 0,16 0,60 0,59 -0,72 -0,65 -0,14 1,00 0,92 0,22 0,26 0,94 -0,83
VAR12 0,82 0,73 0,80 0,82 0,11 0,40 0,55 -0,81 -0,73 -0,23 0,92 1,00 0,30 0,33 0,89 -0,89
VAR13 0,11 0,09 0,11 0,12 -0,03 -0,04 0,10 -0,26 -0,11 -0,10 0,22 0,30 1,00 0,98 0,17 -0,22
VAR14 0,14 0,12 0,14 0,16 -0,02 -0,02 0,11 -0,29 -0,14 -0,08 0,26 0,33 0,98 1,00 0,20 -0,25
VAR15 0,94 0,85 0,91 0,93 0,14 0,61 0,58 -0,69 -0,71 -0,11 0,94 0,89 0,17 0,20 1,00 -0,84
VAR17 -0,75 -0,62 -0,71 -0,73 -0,05 -0,22 -0,49 0,90 0,87 0,29 -0,83 -0,89 -0,22 -0,25 -0,84 1,00

Por los datos que se obtienen en la matriz de correlación, podemos observar que la variable que mas relacionada
esta con la evaporación del tanque “A”, Var11, es Var1, esto es, la temperatura máxima. Además, la Var15 y la
Var4 están muy relacionadas con Var11 también. También podemos saber que las variables que no influyen
como por ejemplo Var10, Var13 y Var14.
Veamos los valores y los gráficos de correlación entre cada una de las variables y VAR11:

Correlations (AVALLE NUEVO.STA)


Marked correlations are significant at p < .05000
N=181 (Casewise deletion of missing data)

Correlations (AVALLE NUEVO.STA 19v*214c)


VAR11
VAR1 0,92 VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 VAR10 VAR13 VAR14 VAR15 VAR17

VAR2 0,86
VAR3 0,91
VAR4 0,92
VAR5 0,17
VAR6 0,60
VAR7 0,60
VAR8 -0,73 VAR11

VAR9 -0,66
VAR10 -0,15
VAR13 0,22
VAR14 0,26
VAR15 0,94
VAR17 -0,83

b) Hallar la correlación parcial entre la evaporación de tanque y la temperatura media cuando se hace constante
(se controla) la heliofanía.

Ґ11-3· 5 = Ґ11-3 – (Ґ11-15 · Ґ3· 5 ) / √ (1 – ( Ґ11-3· 5 )2 ) · (1 – ( Ґ3 ·15 )2 )


Ґ11-3· 5 = 0.91 – (0.94 · 0.91) / √ (1 – ( 0.94 )2 ) · (1 – ( 0.91)2 ) =
= (0.91 – 0.8554) / √ (0.1164 ) · (0.1719 ) = 0.0546 / 0.14 = 0.38 = Ґ11-3· 5

Pero si lo hacemos con el programa:

Partial Correlations (Correlations (AVALLE NUEVO.STA) in Workbook10)


Marked correlations are significant at p < ,05000
N=16 (Casewise deletion of missing data)
VAR3 VAR11
Ґ VAR3 1,00 -0,33
´11-3· 5 = 0.33
No coinciden los valores porque el valor n
VAR11 -0,33 1,00 utilizado para el calculo es diferente. No todas las columnas de la
correlación realizada en el primer caso tienen todos los datos.

c) Calcule la correlación parcial entre VAR11 y VAR8 quitado el efecto de las variables VAR15 y VAR3.

Ґ11- 8 · 15, 3 = → Para ver con la Var11 sacar las residuales con Var15 y Var3 Correlacionar con
→ Para ver con la Var8 sacar las residuales con Var15 y Var3 los 2 residuales

Partial Correlations (AVALLE NUEVO.STA)


Marked correlations are significant at p < .05000
N=206 (Casewise deletion of missing data)

VAR8 VAR11
VAR8 1,00 -0,22 Ґ11- 8 · 15, 3 = -0.22
VAR11 -0,22 1,00
d) Hallar un modelo de regresión lineal múltiple para estimar la evaporación
(VAR11) con todas las variables eliminando del archivo la variable que corresponde a la evaporación piché.

Regression Summary for Dependent Variable: VAR11 (AVALLE NUEVO)


R= ,96822618 R²= ,93746193 Adjusted R²= ,93259370
F(13,167)=192,57 p<0,0000 Std.Error of estimate: ,50269

Beta Std.Err. B Std.Err. t(167) p-level


Intercept 1,10435 1,242378 0,88890 0,375334
a = 1.104
VAR2 0,297136 0,104063 0,11431 0,040033 2,85535 0,004845
b = 0.114
VAR3 0,305766 0,144126 0,09924 0,046776 2,12151 0,035354 c=
VAR4 -0,032834 0,121365 -0,00896 0,033112 -0,27054 0,787078 0.099
VAR5 0,001136 0,020355 0,00019 0,003354 0,05582 0,955552 d = -0.009
VAR6 -0,168934 0,088139 -0,07968 0,041571 -1,91667 0,056987 e = 0.0002
f = -0.079
VAR7 0,047357 0,024198 0,01123 0,005739 1,95704 0,052010
g = 0.011
VAR8 -0,088618 0,049250 -2,41270 1,340868 -1,79935 0,073768 h = -2.413
VAR9 0,117140 0,044412 1,89638 0,718979 2,63761 0,009138 i = 1.896
VAR10 -0,073343 0,023518 -0,00471 0,001510 -3,11859 0,002141 j = -0.005
VAR13 -0,011828 0,088596 -0,00536 0,040164 -0,13350 0,893959 k = -0.005
VAR14 0,058947 0,089420 0,01379 0,020918 0,65922 0,510663 l = 0.014
m = 0.348
VAR15 0,469094 0,071887 0,34755 0,053261 6,52546 0,000000
n = -1.103
VAR17 -0,064256 0,099581 -1,10251 1,708607 -0,64527 0,519637

y = 1.1 + 0.11X2 + 0.1X32- 0.01X4 3+ 0.0002X54 -0.08X6 5+ 0.01X76 – 2.41X87+ 1.9X9 8 - 0.005X109 - 0.005X1310 + 0.01X14 11+ 0.35X1512– 1.1X1713

Con una Regresión Lineal forzamos a incluir todas las variables para obtener una función para los
datos relacionados con la VAR11.

e) Genere el modelo de regresión lineal múltiple que resultan de aplicar el método “paso a paso” (stepwise)
usando del criterio forward para estimar la evaporación (VAR11) también eliminando del archivo la variable
que corresponde a la evaporación Piché. Compare los resultados con lo hallado en el inciso d.
Primero obtendremos las variables que participan en el mejor modelo, tras eliminar VAR12, mediante
Stepwise:
Summary of Stepwise Regression; DV: VAR11 (AVALLE NUEVO)
Step Multiple Multiple R-square F - to p-level Variables
VAR15 1 0,943093 0,889424 0,889424 1439,799 0,000000 1
VAR3 2 0,951456 0,905269 0,015845 29,773 0,000000 2
VAR8 3 0,960465 0,922493 0,017224 39,334 0,000000 3
VAR14 4 0,962053 0,925546 0,003053 7,216 0,007917 4
VAR10 5 0,963519 0,928369 0,002823 6,897 0,009398 5
VAR2 6 0,965037 0,931297 0,002928 7,415 0,007128 6
VAR3 -7 0,964443 0,930151 -0,001146 2,901 0,090284 5
VAR7 8 0,965342 0,931885 0,001734 4,429 0,036759 6

Después de saber cuales son las variables que forman el mejor modelo para explicar VAR11 mediante
Regresión crearemos la función que las relacione:

Regression Summary for Dependent Variable: VAR11 (AVALLE NUEVO)


R= ,96534199 R²= ,93188516 Adjusted R²= ,92953638
F(6,174)=396,75 p<0,0000 Std.Error of estimate: ,51396

Beta Std.Err. B Std.Err. t(174) p-level


a=
Intercept 2,93166 0,810773 3,61588 0,000392 2.932
VAR15 0,509247 0,047502 0,37730 0,035194 10,72059 0,000000 b=
0.378
VAR8 -0,145484 0,029792 -3,96091 0,811112 -4,88331 0,000002
VAR14 0,057019 0,020724 0,01334 0,004848 2,75133 0,006564
VAR10 -0,076914 0,022807 -0,00494 0,001464 -3,37233 0,000919
VAR2 0,334930 0,040619 0,12885 0,015626 8,24568 0,000000
VAR7 0,051794 0,024610 0,01228 0,005837 2,10464 0,036759
c = -3.961
d = 0.013
e = -0.005
f = 0.129
g = 0.012

y = 2.93 + 0.38X15 – 3.96X82+ 0.01X14 3– 0.005X104 + 0.13X2 5+ 0.01X76

VAR11 = 2.93 + 0.38VAR15 – 3.96VAR82 + 0.01VAR143 – 0.005VAR104 + 0.13VAR25 + 0.01VAR76

De esta manera conseguiremos una función para los mismos datos pero que además de ajustarse mejor controla
menos variables lo que puede ser menos difícil y caro de conseguir llevar a la práctica.

Además esta función es la misma función que la calculada sin quitar la variable VAR12. Esto ocurre porque
VAR11 y VAR12 están fuertemente relacionadas. Si tanto el tanque “A” como el piché se encuentran en
similares condiciones, podemos pensar que influirán las mismas variables sobre la evaporación del piché,
VAR12, que sobre la evaporación del tanque “A”, VAR11.
EJERCICIO 11: Los pesos de las personas se relacionan con las alturas de las mismas. Los datos (en pulgadas
y libras) corresponden a mediciones realizadas sobre 12 varones y 12 mujeres.
sexo M M M M M M M M M M M M V V V V V V V V V V V V
altura 60 60 60 62 62 62 64 64 64 70 70 70 61 61 61 64 64 64 68 68 68 75 75 75
peso 110 135 120 120 140 130 135 150 145 170 185 160 132 121 125 140 147 155 175 181 179 198 205 189
a) Ajustar separadamente para varones y mujeres modelos lineales que expresen el peso en función de la altura.

1.- Para mujeres:

Regression Summary for Dependent Variable: Peso (Ej11.sta)


R= .90364192 R²= .81656872 Adjusted R²= .79822559
F(1,10)=44.516 p<.00006 Std.Error of estimate: 9.8289
Beta Std.Err. B Std.Err. t(10) p-level
Intercept -182,143 48,61507 -3,74663 0,003805
Altura 0,903642 0,135437 5,060 0,75832 6,67206 0,000056

a = -182,143 y = - 82,14 + 5.06X


b = 5.060 Alturam = - 82,14 + 5.06Pesom

2.- Para hombres:

Regression Summary for Dependent Variable: Peso (Ej11.sta)


R= .95215223 R²= .90659388 Adjusted R²= .89725326
F(1,10)=97.059 p<.00000 Std.Error of estimate: 9.3704

Beta Std.Err. B Std.Err. t(10) p-level


Intercept -178,232 34,66581 -5,14143 0,000437
Altura 0,952152 0,096647 5,082 0,51582 9,85187 0,000002

c = -178,232 y´ = -178.23 + 5.08 X´


d = 5.082 Alturah = - 178.23 + 5.08 Pesoh

b) Analizar si hay diferencias entre los modelos o puede ajustarse un modelo único para ambos sexos (usar de
una variable muda auxiliar y aplicar el método de selección de variables).

Alturam = - 82,14 + 5.06Pesom ordenadas → a = -182,143 c = -178,232


Alturah = - 178.23 + 5.08 Pesoh pendientes → b = 5.060 d = 5.082

Creamos una variable muda Z → si son solo mujeres: Z = 0 → y = a + bX


→ si son solo hombres: Z = 1 → y = a + bX +cZ + dXZ

y=a+bX
y = (a + c) + (b + d)X

De esta manera utilizamos todos los datos n = 24 → mas grados de libertad = 22

Hacemos de nuevo la Regresión para obtener los parámetros:


Regression Summary for Dependent Variable: Peso (Ej11.sta)
R= .94490210 R²= .89283998 Adjusted R²= .87676598
F(3,20)=55.546 p<.00000 Std.Error of estimate: 9.6024
Std.Err. B Std.Err. t(20) p-level
Intercept -182,143 47,49468 -3,83502 0,001034
Altura 0,132683 5,060 0,74084 6,82945 0,000001
Z 1,107460 3,911 59,31024 0,06594 0,948079
ZX 1,145511 0,022 0,91008 0,02450 0,980699

a = - 182,143 c = 3.911 y = (-182,14 + 3.91) + (5,06 + 0,22)X


b = 5,060 d = 0.022 y = -178,23 + 5,08X
Altura = -178,23 + 5,08 Peso

En este caso, la función que relaciona la altura y el peso tanto de hombres como de mujeres coincide con la
función que expresa las mismas variables para los hombres solos.

EJERCICIO 12: La demanda biológica de oxígeno (DBO) se utiliza como medida de la contaminación
producida por los desperdicios domésticos e industriales. En esta prueba se mezcla una pequeña cantidad de
desperdicios con agua pura, se los introduce en una botella, se sella y se deja incubar por unos días a temperatura
fija. La pérdida de oxígeno disuelto en el agua permite el cálculo del DBO para un tiempo dado. Los datos
siguientes corresponden a mediciones realizadas en seis botellas dejadas en incubación durante tiempos
distintos:

Incubación (en días) 1 2 3 5 7 10


DBO (en mg. por litro) 109 149 149 191 213 224

Ciertas consideraciones físicas inducen a ajustar el modelo molecular de la forma:

y =  ( 1 - e .t )

a) Sabiendo que  es una asíntota superior de la curva, use el máximo DBO observado como una estimación de
este parámetro y halle  por mínimos cuadrados.
b) Use de un método de regresión no lineal para ajustar el modelo a los datos, usando de las estimaciones
anteriores como valores iniciales del proceso iterativo.
Scatterplot (Spreadsheet in Workbook13 10v*10c)
DBO = 107,1995+117,934*log10(x)
240

220

.t
Si graficamos y =  ( 1 - e ) obtendríamos una 200

nube de puntos que se asemejaría a la de una 180


DBO

función asintótica:
160

140

120

100
0 2 4 6 8 10 12
Dias

Daremos un valor aproximado para la asíntota superior α = máximo DBO observado = 226
Como el modelo molecular es No Lineal y No Linealizable transformaremos la ecuación y
crearemos una nueva variable y* para poder calcular los parámetros y hallar la función:

no tiene parámetro a
βt βt
y / αo – 1 = - e → 1 – y / αo = e → ln (1- y / αo) = β t 
ln (1- y / αo) = y* y* = β t
ln ( 1-y /226) = y*

Haremos la Regresión para obtener los parámetros para la función respecto de y*:

Regression Summary for Dependent Variable: y* (Spreadsheet in Workbook12)


R= ,98212247 R²= ,96456455 Adjusted R²= ,95570569
F(1,4)=108,88 p<,00048 Std.Error of estimate: ,32170

Beta Std.Err. B Std.Err. t(4) p-level a pvalue = 0,9196


Intercept 0,025551 0,237824 0,1074 0,919617
no significativo
Dias -0,982122 0,094122 -0,443332 0,042487 -10,4346 0,000477

β = - 0,443332 αo = 226 y* = -0,44 t


y* = ln (1- y / αo) ln (1- y / 226) = - 0,44t
1- y / αo = e-0,44t y / 226 = 1-e- 0.44t
y = 226 · ( 1-e-0,44t )
DBO = 226 ·( 1 – e- 0,44 Días de Incubación)

Calcularemos el error cuadrático medio de esta función. Buscamos el modelo que mejor se adapte a los
datos, para ello buscaremos la que tenga el menor CMe :

Análisis de ANOVA para y = 226* ( 1- e -0,44 t )


Analysis of Variance; DV: DBO (Spreadsheet in Workbook12)
Sums of df Mean F p-level
Regress. 8792,442 1 8792,442 35,92204 0,003898 CMe = 244,765
Residual 979,058 4 244,765
Total 9771,500

Ahora usaremos la β = - 0,44 conseguida para estimar una nueva αo. La mantendremos hasta que los
valores de SCe se estabilicen. Después utilizaremos la nueva αo´ para calcular una nueva β´ para la función.
Buscaremos los valores reales analizando los SC hasta que se estabilicen. Cuando se estabilice será por haber
hallado un mínimo o un máximo. Obtendremos lo parámetros para la función.

b) Use de un método de regresión no lineal para ajustar el modelo a los datos, usando de las estimaciones
anteriores como valores iniciales del proceso iterativo

Realizaremos un ajuste no-lineal del modelo y = α (1 - e β X ). Para ello, sustituiremos el parámetro


obtenido β = -0.44 y el estimado α = 226 anteriores como valores iniciales en la función para realizar Regresión
No Linear:
y = 226 · ( 1 - e-0,44t )
DBO = 226 ·( 1 – e- 0,44 Días de Incubación)
Model: DBO = A* (1-Exp(B*Dias)) (Spreadsheet in Workbook12)
Dep. var: DBO Loss: (OBS-PRED)**2
Final loss: 9771,5000000 R=,00000 Variance explained: ,00000%

A B
Estimate 213,8094 -0,547237

α = 213, 8094 y = 213,81 · ( 1 - e-0,55t )


β = - 547237
DBO = 213,81 ·( 1 – e- 0,55 Días de Incubación)
EJERCICIO 13: Con el objetivo de establecer el patrón de crecimiento en frutos de pera cv. Packham's
Triumph se registró semanalmente el diámetro de 10 frutos elegidos al azar de un determinado monte frutal. Los
registros se realizaron a partir de la tercer semana después de plena floración y se extendió más allá de la fecha
de cosecha para lograr describir en forma completa el desarrollo de los frutos. Las oportunidades en que se
efectuaron las mediciones están referidas a la fecha de plena floración (80% de las flores abiertas) en la
primavera correspondiente, de esta forma es posible hacer comparaciones en base a estados fenológicos y no con
fechas cronológicas.
Con los datos que se presentan en el archivo NLIN:
a) Realizar un diagrama de dispersión.
Pareciera que la nube de datos sigue un
Scatterplot (NLIN.STA 3v*230c)

90
DIAM = 6,6879+0,4241*x modelo cúbico
Scatterplot (NLIN.STA 3v*230c)
80
DIAM = 8,2452+0,2068*x+0,004*x^2-1,7363E-5*x^3
80

70
70

60
60
DIAM

50 50
DIAM

40 40

30
30

20
20
10
0 20 40 60 80 100 120 140 160 180 200
10 DDPF
0 20 40 60 80 100 120 140 160 180 200
DDPF

b) Pruebe ajustar algún modelo por Usted conocido que crea pueda resultar adecuado. Realice un estudio de
bondad de dicho modelo.
y = α / (1 + e β – γX )

Estimamos un valor de α como valor de la asíntota superior: α = 78

y = α / (1 + e β – γX ) → 1 / y = (1 + e β – γX ) / 78 → 78 / y = 1 + e β – γX → 78 / y -1 = e β – γX

 ln ((78 / y) - 1) = β – γX
ln ((78 / y) – 1) = y* y* = β – γX → Creamos una nueva variable y*

Realizamos Regresión para : y* = β – γX :

Regression Summary for Dependent Variable: y* (Nlin)


R= ,99365842 R²= ,98735706 Adjusted R²= ,98730161
F(1,228)=17806, p<0,0000 Std.Error of estimate: ,15533
Beta Std.Err. B Std.Err. t(228) p-level
Intercept 2,181574 0,023921 91,199 0,00
DDPF -0,993658 0,007447 -0,029434 0,000221 -133,438 0,00
β = 2.181574 y* = 2,18 – 0,03 X
γ = 0.029434 Sustituiremos y*
ln ((78 / y) – 1) = 2,18 – 0,03X → (78 / y) – 1 = e 2,18 – 0,03 → 78 / y = 1 – e 2,18 – 0,03X
→ y = 78 / ( 1 - e 2,18 – 0,03X)
c) Realice un ajuste no-lineal del modelo logístico en la siguiente parametrización:


Y =
1 + e(  -X)

Realizaremos un ajuste no-lineal del modelo logístico y = α / (1 + e β – γX ) . Para ello, sustituiremos


los parámetros obtenidos β = 2,18 y γ = 0,03 y el estimado α = 78 en la función para realizar Regresión No
Linear:
y = 78 / (1 + e 2,18 – 0,03X )

Model: DIAM =A / ( 1 + Exp( B - G* DDPF)) (Nlin)


Dep. var: DIAM Loss: (OBS-PRED)**2
Final loss: 232,79208123 R=,99872 Variance explained: 99,744%
A B G
Estimate 80,14259 2,072167 0,026875

α = 80, 143 β = 2,072 γ = 0,027

Obtendremos así los valores reales para los parámetros α , β y γ que sustituiremos en la función final:

y = 80,14 / (1 + e 2,07 – 0,03X )

Anda mungkin juga menyukai