DOCTORADO EN BIOLOGIA
UNIVERSIDAD NACIONAL DE CUYO
TRABAJO PRACTICO Nº2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
EJERCICIO 1. Sea el modelo poblacional Y = 3 + 2.X + , donde X es una variable arbitraria no aleatoria y es
una variable aleatoria con distribución normal con media cero y variancia 2 = 1.
a) Simule treinta valores de Y para X igual a 1, 2,......,30 y valores elegidas al azar de una tabla de datos
normales de media cero y variancia 1.
7 7 17 -0,0808 16,9192368
30
8 8 19 0,5267 19,5266675
9 9 21 0,8063 21,8063209 20
10 10 23 0,2246 23,2246432
10
11 11 25 1,0212 26,0212317
12 12 27 0,0247 27,0246922 0
-5 0 5 10 15 20 25 30 35
13 13 29 -0,4961 28,503926 X
14 14 31 0,5357 31,5357311
15 15 33 -1,1142 31,8857636
16 16 35 -0,7635 34,2365225
17 17 37 0,2090 37,2089954
18 18 39 0,0445 39,0444904
19 19 41 1,6074 42,6073901
20 20 43 -0,5102 42,4897621
21 21 45 -0,8926 44,1074099
22 22 47 -0,7094 46,2906349
23 23 49 -2,0255 46,9745381
24 24 51 0,7465 51,7465106
25 25 53 -0,8537 52,1462696
26 26 55 -1,3627 53,6372571
27 27 57 -0,7264 56,2736318
28 28 59 0,5606 59,5606298
29 29 61 0,3221 61,3221285
30 30 63 0,2866 63,2866188
b) Con los datos del inciso anterior estimar el modelo lineal minimocuadrático. Compare los coeficientes
estimados con los parámetros verdaderos del modelo y diga cual es para cada uno el error de estimación.
c) Calcule el desvío medio cuadrático y compare con el valor verdadero, cual es el error de la estimación?
t= b - β / Sb lib = b ± t (n-2) · Sb
b = 1.97 t = 2.048 Sb = 0.018 sustituimos los datos en la fórmula
1.933
lib = b ± t (n-2) · Sb = 1.97 ± 2.048 x 0.018 = con lo que obtenemos dos valores
2.007
Se pude asegurar que la pendiente poblacional β está en el intervalo de confianza (1.933, 2.007) con un 95 % de
probabilidades, de certeza.
f) Estime mediante un intervalo del 95% de confianza el valor medio esperado de Y correspondiente a un valor
de X = 6,5.
Predicting Values for (Ej1.sta in Workbook1)
variable: Y
B-Weight Value B-Weight
X 1,970763 6,500000 12,80996
Intercept 3,43037
Predicted 16,24033
-95,0%CL 15,78276
+95,0%CL 16,69790
El valor medio de Y se encontrará entre los valores Yminimo= 15.78 e Ymaximo= 16.68 con un 95% de
probabilidades
El valor Predicted nos da con un 95% de probabilidades el valor medio de Y = 16.24
g) Idem, pero para un valor particular de la subpoblación de valores de Y asociada al valor X = 6,5.
h) Hacer un análisis gráfico de los errores para ver si se cumplen los supuestos del modelo.
8
1,5
7
1,0
6
0,5
Residuals
No of obs
5
0,0
4
-0,5
3
-1,0
2
-1,5
1
-2,0
0 10 20 30 40 50 60 70 0
Predicted Values 95% confidence -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
2,0
1,5
1,0
0,5
se ajusta bien a los datos.
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Residuals
EJERCICIO 2: Repita los pasos del ejercicio anterior pero con errores de una tabla normal con media cero y
variancia 9.
a) Simule treinta valores de Y para X igual a 1, 2,......,30 y valores elegidas al azar de una tabla de datos
normales de media cero y variancia 9.
σ2 = 9 → error x 3
X Ysin E E N (0,1) E (0,9) Y
1 1 5 -0,9892 -2,9677 2,0323
2 2 7 -1,5811 -4,7432 2,2568
Scatterplot (Spreadsheet2 in Workbook2´.stw 10v*30c)
3 3 9 0,3338 1,0013 10,0013 Y = 2,7299+2,0198*x
4 4 11 -0,0644 -0,1931 10,8069 70
Y
9 9 21 -1,1346 -3,4037 17,5963
10 10 23 0,2528 0,7585 23,7585 20
b) Con los datos del inciso anterior estimar el modelo lineal minimocuadrático. Compare los coeficientes
estimados con los parámetros verdaderos del modelo y diga cual es para cada uno el error de estimación.
c) Calcule el desvío medio cuadrático y compare con el valor verdadero, cual es el error de la estimación?
t = b- β / Sb lib = b ± t (n-2) · Sb
b = 2.02 t = 2.048 Sb = 0.077 sustituimos los datos en la fórmula
1.862
lib = b ± t (n-2) · Sb = 2.02 ± 2.048 x 0.077 = con lo que obtenemos dos valores
2.178
Se pude asegurar que la pendiente poblacional β está en el intervalo de confianza (1.862, 2.178) con un 95 % de
probabilidades, de certeza.
f) Estime mediante un intervalo del 95% de confianza el valor medio esperado de Y correspondiente a un valor
de X = 6,5.
Predicting Values for (Workbook2.stw)
variable: Y
B-Weight Value B-Weight
X 2,019804 6,500000 13,12873
Intercept 2,72994
Predicted 15,85867
-95,0%CL 13,90324
+95,0%CL 17,81410
El valor medio de Y se encontrará entre los valores Yminimo= 13.90 e Ymaximo= 17.81 con un 95% de
probabilidades
El valor Predicted nos da con un 95% de probabilidades el valor medio de Y = 15.85
g) Idem, pero para un valor particular de la subpoblación de valores de Y asociada al valor X = 6,5.
h) Hacer un análisis gráfico de los errores para ver si se cumplen los supuestos del modelo.
6 7
4 6
2
5
Residuals
No of obs
0
4
-2
3
-4
2
-6
1
-8
0 10 20 30 40 50 60 70 0
Predic ted Values 95% confidence -8 -6 -4 -2 0 2 4 6 8
2,0
1,5
1,0
Expected Normal Value
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-2,5
-8 -6 -4 -2 0 2 4 6 8
Residuals
T 0 2 4 7 14 21 28
C 1.18 1.02 0.92 0.46 0.21 0.11 0.04
a) Realice el diagrama de dispersión.
Scatterplot (Spreadsheet3 10v*10c)
C = 1,0114-0,0413*x
1,4
1,2
1,0
0,8
0,6
C
0,4
0,2
0,0
-0,2
-5 0 5 10 15 20 25 30
T
b) Ajuste un modelo exponencial e interprete los estimadores en términos del problema.
C = a · e bt y = a · e bX
ln y = ln a + ln e b X
ln y = ln a + bt · ln e
ln C = ln a + bt
y* = a* + bt
a* = 0,226275
b = -121649 ln y = 0.226 - 0.12 X
y = 1.25 e -0.12 X
C = 1.25 e -0.12 t
Siendo t el tiempo que hace falta para que la dosis c/2
c) Si Tm es el tiempo necesario para que el valor inicial C0 de la concentración se reduzca a la emésima parte (C
= C0/m), estimar T2 y T10 .
T2 → C = Co / T = 1.25mg / T2 = 0.625
0.625 = 1.25 e -0.12 t
ln 0.625 = ln 1.25 e -0.12 t
ln 0.625 = ln 1.25 + ln e -0.12 t
ln 0.625 = ln 1.25- 0.12 t · ln e
ln 0.625 – ln 1.25 = -0.12 t
-0.47-0.22 = -0.12 t
-0.69 = -0.12t → t = 5.75 → dias hacen falta para que se degrade el 50%
T10
C= Co / 10 = 1.25mg / 10 = 0.125
0.125 = 1.25 e -0.12 t
ln 0.125 = ln 1.25 e -0.12 t
ln 0.125= ln 1.25 + ln e -0.12 t
ln 0.125 = ln 1.25- 0.12 t · ln e
ln 0.125 – ln 1.25 = -0.12 t
-2.07 -0.22 = -0.12 t
-2.29 = -0.12t → t = 19.09 → días hacen falta para que quede el 10%
EJERCICIO 5: Los siguientes datos se refieren al crecimiento en alturas de plantas de girasol (expresada en
centímetros) a través del tiempo (en semanas)
Tiempo (X) 3 4 5 6 7 8 9 10 11 12 13
5 9 13 23 35 45 53 74 90 107 134
Altura (Y) 5 12 19 20 31 36 60 72 88 106 124
7 10 17 20 30 38 55 64 84 101 133
a) Realice el diagrama de dispersión. Scatterplot (Ej5.sta 2v*33c)
Y = 3,208*exp(0,3006*x)
180
160
140
120
100
80
Y
60
40
20
-20
3 4 5 6 7 8 9 10 11 12 13
X
La regresión parece que se ajusta bien, parece buena. Faltaría realizar el análisis de residuales. En este caso R 2 es
buena pero algunas veces no se ve tan claro.
8
20
7 15
6 10
Raw residuals
5 5
No of obs
4 0
-5
3
-10
2
-15
1
-20
0 2 4 6 8 10 12 14
-20 -15 -10 -5 0 5 10 15 20 25 x 95% confidence
20
1,5
15
1,0
Expected Normal Value
10
0,5
Residuals
5
0,0
-0,5 0
-1,0 -5
-1,5 -10
-2,0 -15
-2,5 -20
-20 -15 -10 -5 0 5 10 15 20 25 -20 0 20 40 60 80 100 120
Residuals Predicted Values 95% confidence
Los datos no se ajustan demasiado bien a la función, parece por los gráficos de errores obtenidos (especialmente
el gráfico Predicted vs. Residual Scores) que los datos cumplen una función más curva.
60
y
40
20
-20
0 20 40 60 80 100 120 140 160 180
x2
Calcularemos los valores de a, b y c para la función que estamos buscando mediante Regresión, pero en este
caso usaremos como variables independientes tanto a X como a X2:
a = 11.10070
b = -4.48539 y = 11.10 – 4.48X + 1.039X2
c = 1.03924
Para ver que tal se ajustan los datos a la función veremos los diferentes gráficos de errores:
Raw residuals vs. x2
Distribution of Raw residuals Raw residuals = -,1E-5 + ,24E-7 * x2
Expected Normal Correlation: r = ,39E-6
10 8
9
6
8
4
7
2
Raw residuals
6
No of obs
0
5
4 -2
3
-4
2
-6
1
-8
0 0 20 40 60 80 100 120 140 160 180
-8 -6 -4 -2 0 2 4 6 8 95% confidence
x2
2,0
6
1,5
4
1,0
Expected Normal Value
2 0,5
Residuals
0 0,0
-0,5
-2
-1,0
-4
-1,5
-6
-2,0
-8 -2,5
0 20 40 60 80 100 120 140
-8 -6 -4 -2 0 2 4 6 8
Predicted Valu es 95% confidence
Residuals
En esta ocasión podemos ver que los datos se ajustan mucho mejor a la función pero como no se adaptan a la
perfección, parece que en vez de cumplir una función parabólica pura, cumplen con una función que además
del componente cuadrático tiene también un componente lineal. Para comprobarlo realizaremos la prueba de
Falta de Ajuste:
Analysis of Variance; DV: y (Ej5)
Fobs = (SCFA / (k-2)) / CmEP = 12,39 / 8,26 = 1,49 → Si el ajuste fuese perfecto, la variabilidad debida a la
falta de ajuste, Fobs sería igual a 1.
SC FA = SCT - SCEP = 51771.52 – 272,67 = 51498,85
CMEP = 8,26
Fobs = 1.49 < 2,39 = Fcrit (8, 22)
EJERCICIO 6. El archivo PESODIAM contiene datos de peso y diámetro de frutos de pera variedad
Packham´s Triumph registrados a lo largo de su periodo de desarrollo.
a) Halle una relación lineal que le permita expresar el peso de los frutos en función de sus diámetros.
Identifique y analice los resultados presentados en la salida del programa e informe sobre los test de nulidad
de los parámetros estimados, de la bondad del ajuste y estime el peso esperado para una pera de 70 mm de
diámetro.
Realizamos la Regresión Lineal que expresa el peso del fruto respecto del diámetro:
Std.Error of estimate = √ Cme = 15.161 gr. = lo que se aleja en promedio la nube de puntos de la función.
b) Grafique la nube de puntos, superponga la recta hallada en el punto anterior y analice los errores para
determinar si se cumplen los supuestos del modelo y si ellos ponen en evidencia la inadecuación de un
modelo lineal Scatterplot (PESODIAM.STA 2v*200c)
PESO = -389,9094+8,2025*x
500
450
400
350
Graficamos la nube de puntos
300
PESO
250
200
150
100
50
55 60 65 70 75 80 85 90 95 100 105
DIAM
50
40
30
20
Si analizamos y graficamos los errores
Residuals
10
-20
-30
Pareciera
-40
una Parábola
50 100 150 200 250 300 350 400 450
Predicted Values 95% confidence
3
30
2
25
Expected Normal Value
1
20
No of obs
0
15
-1
10
-2
5
-3
0 -40 -30 -20 -10 0 10 20 30 40 50 60
-45 -40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40 45 50 55 60 Residuals
6,4
Probaremos primero con una función exponencial, 6,2
tipo y = a + e bX 6,0
5,8
para ello:
Log(peso)
5,6
y = a + e bX → ln y = ln a + b X 5,4
5,2
5,0
4,6
4,4
55 60 65 70 75 80 85 90 95 100 105
DIAM
ln a = 2.441344 → a = 11.49
b = 0.038976 y = 11.49 + e 0.04 X
Veamos que tal se ajustan los datos a la función mediante el análisis de residuales:
Dis tribution of Raw residuals
Raw residuals vs. Log(peso)
Expected Normal
Raw resid uals = -.2479 + .04766 * Log(peso) 70
Correlation: r = .21832
0,30 65
0,25 60
55
0,20
50
0,15
45
0,10
40
No of obs
Raw residuals
0,05 35
0,00 30
25
-0,05
20
-0,10
15
-0,15 10
-0,20 5
0
-0,25
4,4 4,6 4,8 5,0 5,2 5,4 5,6 5,8 6,0 6,2 6,4 -0,25 -0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30
1
En este caso el valor dado por el programa para Cm e, o error
cuadrático medio es realmente el logaritmo de su valor. No 0
Probaremos ahora que tal se ajusta una función potencial tipo y = a X b a los datos que tenemos.
y = a X b → ln y = ln a + b · ln X
Scatterplot (Spreadsheet24 8v*200c)
Log(peso) = -6,9676+2,8604*x
6,4
6,0
5,8
5,6
Log(peso)
Graficaremos ln X vs. ln y 5,4
4,8
4,6
4,4
4,0 4,1 4,2 4,3 4,4 4,5 4,6 4,7
LnX
Calcularemos a y b con Regresión, y con los nuevos parámetros calcularemos una nueva función:
Necesitamos calcular y graficar los errores o Residuos para poder ver cuanto se ajusta nuestra nueva función
a los datos:
Distribution of Raw residuals Predicted vs. Residual Scores
Expected Normal Dependent variable: Log(peso)
70 0,30
65
0,25
60
55 0,20
50
0,15
45
0,10
Residuals
40
No of obs
35
0,05
30
25 0,00
20
-0,05
15
10 -0,10
5
-0,15
0 4,4 4,6 4,8 5,0 5,2 5,4 5,6 5,8 6,0 6,2 6,4
-0,20 -0,15 -0,10 -0,05 0,00 0,05 0,10 0,15 0,20 0,25 0,30 Predicted Values 95% confidence
Calcularemos entonces el error cuadrático medio (CM e) para ver cuanto se alejan los datos de la nueva
función:
Construiremos una nueva columna de errores (y – ŷ) 2 que calcularemos mediante el antilogaritmo de los
Predichos Potenciales y calcularemos CMe:
En este caso tanto el modelo exponencial como el potencial se ajustan bien a nuestros datos. No el
lineal. Esto suele darse porque una función potencial puede ser un caso especial de una función
exponencial.
Unas vez que hemos calculado la mejor función o funciones para nuestros datos, podemos calcular, sabiendo
el diámetro de una pera, cual sería su peso. En este caso, se nos pide calcular el peso para una pera de
diámetro = 70 mm.
P (X) = 11.47 • e 0.04 ø → P (70) = 188.6 gr. Calculado con la función exponencial
P (X) = 0.0009 • ø 2.86 → P (70) = 178.1 gr. Calculado con la función potencial
Veamos las correlaciones lineales simples entre los pares de datos que tenemos, los datos en rojo significa
que son significativos a 5%:
Correlations (FOSFORO.STA)
Marked correlations are significant at p < ,05000
N=18 (Casewise deletion of missing data)
Si graficamos la correlación entre cada una de las variables y respecto a las demás:
P_INORG
P_ORG
P_PLANTA
b) Hacer los ajustes lineales simples que expresan el nivel de P en la planta en función, por separado, del P
orgánico y del P inorgánico del suelo
En este caso utilizaremos la Regresión para hacer los ajustes lineales. Tenemos tres casos
1.- P (I) vs P (p)
2.- P (O) vs P (p)
C) 3.- P (p) vs P (O) + P (I)
Veamos el ajuste de cada caso:
c) Hacer un ajuste lineal múltiple para expresar el nivel de P de la planta respecto de las otras dos variables.
Identifique en las salidas las pruebas t para cada coeficiente e interprete los resultados
a = 56.28
b = 1.79 P (p) = 56.28 + 1.79 (P(I)) + 0.08 (P(O))
c = 0.08
d) Realice, con los resultados anteriores, una prueba F parcial para conocer el aporte del fósforo orgánico
cuando el inorgánico está presente en el modelo
Para realizar la prueba F parcial debemos conocer la suma del cuadrado de los errores ( SC e)
Para lo cual realizamos la regresión con las tres variables, plata como dependiente y Orgánico e
Inorgánico como independiente. En este caso hacemos una prueba de ANOVA con la que conseguimos la
suma del cuadrado de los errores ( SCe) para averiguar cual es la parte que explica cada una de las variables:
El SCTotal = 12389.61
Lo que explica el Fosfato Orgánico que no es capaz de explicar el Fosfato Inorgánico será entonces
Queremos ver si realmente la parte que explica Orgánico que no es explicada por Inorgánico (SC(O/I) ) es
significativa, para lo cual realizamos la prueba de F parcial:
Primero calcularemos SCerror , para esto realizaremos la ANOVA de P(p) / P (O) + P(I) = Mean
Squares vs Residuals
Realmente, por lo que se deduce de los resultados, el Fosfato Orgánico no tiene influencia. Nunca será
absorvido mientras halla Fosfato Inorgánico en el suelo.
e) Use de la información obtenida en los puntos anteriores para decidir sobre el modelo que considera más
apropiado
P (p) = 59.29 + 1.85 (P(I)) Cme = 401,633 → El mejor modelo será siempre el
P (p) = 51.70 + 0.70 (P(O)) Cme = 677,056 de menor Cme.
P (p) = 56.28 + 1.79 (P(I)) + 0.08 (P(O)) Cme = 427,203
En este caso el modelo que mejor relaciona el contenido de Fósforo de una planta
incluye unicamente el Fósforo Inorganico.
EJERCICIO 8. Use de los datos del archivo PESODIAM y genere la variable D2 con los cuadrados del
diámetro
a) Ajuste el modelo polinómico de segundo grado Y = 0 + 1 D + 2 D2 utilizando las técnicas de regresión
multivariada compare con los resultados obtenidos en los ajustes lineal, exponencial y potencial.
y = a + bX
y = a + ebx vs. y = a + bX + cX2 incluir bX mejoraría el modelo?
y = a + Xb Ho: El componente bX no mejora el modelo
a = 180.2460
b = -7.3757 y = 180.25 -7.38 X + 0.11X2
c = 0.1050
b) Utilice una prueba de F parcial para analizar si el término lineal del polinomio aporta significativamente a
la explicación del peso de los frutos
Queremos ver cual de estas funciones se ajusta mejor a los datos. Para ello haremos primero una estimación
usando el modelo más sencillo posible y el más complejo posible como base para obtener una F crit posible:
Fcrit (1, 196) = 3.89 y usar esta como estimación de F para la regresión Stepwise que nos dará en un
solo paso la mejor función para todos las modelos posibles:
Vemos que Ø3 es quien mejor se ajusta a los datos. Obtenemos a y c para la función:
Si miramos
F (1.195) = 3.81
De todas las posibles funciones que explicarían este modelo, la mejor relaciona con Ø 3
EJERCICIO 9. El archivo AVALLE contiene datos metereológicos de la estación Alto Valle con las
siguientes variables: ANIO, MES
VAR1: temperatura máxima (media mensual).
VAR2: temperatura mínima.
VAR3: temperatura media.
VAR4: temperatura suelo a 0,05 metros de profundidad.
VAR5: tensión saturada de vapor de agua.
VAR6: temperatura punto de rocío.
VAR7: déficit de saturación.
VAR8: humedad relativa máxima (en muchos casos a las 9 hs).
VAR9: humedad relativa mínima.
VAR10: precipitación (llevada a 31 días).
VAR11: evaporación de tanque "A" (valor diario).
VAR12: evaporación piché.
VAR13: velocidad del viento a 0,50 metros del suelo.
VAR14: velocidad del viento a 2 metros.
VAR15: heliofanía.
VAR16: humedad relativa media.
Considere las variables VAR11 y las tres temperaturas VAR1, VAR2 y VAR3
a) Cual es la temperatura (máxima, media o mínima) que está más correlacionada con la evaporación?
Genere el modelo lineal que exprese a VAR11 con dicha temperatura
Haremos la matriz de correlación entre todas las variables y podemos ver que la VAR11
Temperatura mas relacionada con VAR11 es VAR1: VAR1 0,92
VAR2 0,86
Entonces, generaremos un modelo lineal para VAR1 y VAR 11: VAR3 0,91
b) De las dos temperaturas restantes, cual es la que más aporta a la explicación de A11 en el caso de ser
agregadas por separado al modelo lineal simple del inciso anterior? Son significativos esos aportes?
SC (Var2 / Var1) = SC (Var2, Var1) - SC (Var1) = 742.11 – 742.08 = 0.036 = SC (Var2 / Var1)
2.-
SC (Var3 / Var1) = SC (Var 3, Var1) - SC (Var1)
SC (Var3/ Var1) = SC (Var3, Var1) - SC (Var1) = 744.58 – 742.08 = 2.503 = SC (Var3 / Var1)
c) De todos los modelos posibles que utilizan las temperaturas como variables independientes, cual considera
que es el más adecuado para explicar la evaporación?, justifique la respuesta.
Todas los modelos posibles con las variables Var1, Var2 y Var3 para Var11 serían:
Después de saber cuales son las variables que forman el mejor modelo para explicar Var11, mediante
Regresión crearemos la función que las relacione:
VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 VAR10 VAR11 VAR12 VAR13 VAR14 VAR15 VAR17
VAR1 1,00 0,95 0,99 0,97 0,20 0,78 0,56 -0,59 -0,62 -0,03 0,92 0,82 0,11 0,14 0,94 -0,75
VAR2 0,95 1,00 0,96 0,96 0,23 0,86 0,51 -0,50 -0,47 0,12 0,86 0,73 0,09 0,12 0,85 -0,62
VAR3 0,99 0,96 1,00 0,98 0,21 0,82 0,55 -0,57 -0,56 0,03 0,91 0,80 0,11 0,14 0,91 -0,71
VAR4 0,97 0,96 0,98 1,00 0,19 0,77 0,55 -0,60 -0,58 0,03 0,92 0,82 0,12 0,16 0,93 -0,73
VAR5 0,20 0,23 0,21 0,19 1,00 0,26 0,09 -0,06 -0,02 -0,01 0,16 0,11 -0,03 -0,02 0,14 -0,05
VAR6 0,78 0,86 0,82 0,77 0,26 1,00 0,39 -0,09 -0,13 0,24 0,60 0,40 -0,04 -0,02 0,61 -0,22
VAR7 0,56 0,51 0,55 0,55 0,09 0,39 1,00 -0,42 -0,38 -0,09 0,59 0,55 0,10 0,11 0,58 -0,49
VAR8 -0,59 -0,50 -0,57 -0,60 -0,06 -0,09 -0,42 1,00 0,75 0,29 -0,72 -0,81 -0,26 -0,29 -0,69 0,90
VAR9 -0,62 -0,47 -0,56 -0,58 -0,02 -0,13 -0,38 0,75 1,00 0,25 -0,65 -0,73 -0,11 -0,14 -0,71 0,87
VAR10 -0,03 0,12 0,03 0,03 -0,01 0,24 -0,09 0,29 0,25 1,00 -0,14 -0,23 -0,10 -0,08 -0,11 0,29
VAR11 0,92 0,86 0,91 0,92 0,16 0,60 0,59 -0,72 -0,65 -0,14 1,00 0,92 0,22 0,26 0,94 -0,83
VAR12 0,82 0,73 0,80 0,82 0,11 0,40 0,55 -0,81 -0,73 -0,23 0,92 1,00 0,30 0,33 0,89 -0,89
VAR13 0,11 0,09 0,11 0,12 -0,03 -0,04 0,10 -0,26 -0,11 -0,10 0,22 0,30 1,00 0,98 0,17 -0,22
VAR14 0,14 0,12 0,14 0,16 -0,02 -0,02 0,11 -0,29 -0,14 -0,08 0,26 0,33 0,98 1,00 0,20 -0,25
VAR15 0,94 0,85 0,91 0,93 0,14 0,61 0,58 -0,69 -0,71 -0,11 0,94 0,89 0,17 0,20 1,00 -0,84
VAR17 -0,75 -0,62 -0,71 -0,73 -0,05 -0,22 -0,49 0,90 0,87 0,29 -0,83 -0,89 -0,22 -0,25 -0,84 1,00
Por los datos que se obtienen en la matriz de correlación, podemos observar que la variable que mas relacionada
esta con la evaporación del tanque “A”, Var11, es Var1, esto es, la temperatura máxima. Además, la Var15 y la
Var4 están muy relacionadas con Var11 también. También podemos saber que las variables que no influyen
como por ejemplo Var10, Var13 y Var14.
Veamos los valores y los gráficos de correlación entre cada una de las variables y VAR11:
VAR2 0,86
VAR3 0,91
VAR4 0,92
VAR5 0,17
VAR6 0,60
VAR7 0,60
VAR8 -0,73 VAR11
VAR9 -0,66
VAR10 -0,15
VAR13 0,22
VAR14 0,26
VAR15 0,94
VAR17 -0,83
b) Hallar la correlación parcial entre la evaporación de tanque y la temperatura media cuando se hace constante
(se controla) la heliofanía.
c) Calcule la correlación parcial entre VAR11 y VAR8 quitado el efecto de las variables VAR15 y VAR3.
Ґ11- 8 · 15, 3 = → Para ver con la Var11 sacar las residuales con Var15 y Var3 Correlacionar con
→ Para ver con la Var8 sacar las residuales con Var15 y Var3 los 2 residuales
VAR8 VAR11
VAR8 1,00 -0,22 Ґ11- 8 · 15, 3 = -0.22
VAR11 -0,22 1,00
d) Hallar un modelo de regresión lineal múltiple para estimar la evaporación
(VAR11) con todas las variables eliminando del archivo la variable que corresponde a la evaporación piché.
y = 1.1 + 0.11X2 + 0.1X32- 0.01X4 3+ 0.0002X54 -0.08X6 5+ 0.01X76 – 2.41X87+ 1.9X9 8 - 0.005X109 - 0.005X1310 + 0.01X14 11+ 0.35X1512– 1.1X1713
Con una Regresión Lineal forzamos a incluir todas las variables para obtener una función para los
datos relacionados con la VAR11.
e) Genere el modelo de regresión lineal múltiple que resultan de aplicar el método “paso a paso” (stepwise)
usando del criterio forward para estimar la evaporación (VAR11) también eliminando del archivo la variable
que corresponde a la evaporación Piché. Compare los resultados con lo hallado en el inciso d.
Primero obtendremos las variables que participan en el mejor modelo, tras eliminar VAR12, mediante
Stepwise:
Summary of Stepwise Regression; DV: VAR11 (AVALLE NUEVO)
Step Multiple Multiple R-square F - to p-level Variables
VAR15 1 0,943093 0,889424 0,889424 1439,799 0,000000 1
VAR3 2 0,951456 0,905269 0,015845 29,773 0,000000 2
VAR8 3 0,960465 0,922493 0,017224 39,334 0,000000 3
VAR14 4 0,962053 0,925546 0,003053 7,216 0,007917 4
VAR10 5 0,963519 0,928369 0,002823 6,897 0,009398 5
VAR2 6 0,965037 0,931297 0,002928 7,415 0,007128 6
VAR3 -7 0,964443 0,930151 -0,001146 2,901 0,090284 5
VAR7 8 0,965342 0,931885 0,001734 4,429 0,036759 6
Después de saber cuales son las variables que forman el mejor modelo para explicar VAR11 mediante
Regresión crearemos la función que las relacione:
De esta manera conseguiremos una función para los mismos datos pero que además de ajustarse mejor controla
menos variables lo que puede ser menos difícil y caro de conseguir llevar a la práctica.
Además esta función es la misma función que la calculada sin quitar la variable VAR12. Esto ocurre porque
VAR11 y VAR12 están fuertemente relacionadas. Si tanto el tanque “A” como el piché se encuentran en
similares condiciones, podemos pensar que influirán las mismas variables sobre la evaporación del piché,
VAR12, que sobre la evaporación del tanque “A”, VAR11.
EJERCICIO 11: Los pesos de las personas se relacionan con las alturas de las mismas. Los datos (en pulgadas
y libras) corresponden a mediciones realizadas sobre 12 varones y 12 mujeres.
sexo M M M M M M M M M M M M V V V V V V V V V V V V
altura 60 60 60 62 62 62 64 64 64 70 70 70 61 61 61 64 64 64 68 68 68 75 75 75
peso 110 135 120 120 140 130 135 150 145 170 185 160 132 121 125 140 147 155 175 181 179 198 205 189
a) Ajustar separadamente para varones y mujeres modelos lineales que expresen el peso en función de la altura.
b) Analizar si hay diferencias entre los modelos o puede ajustarse un modelo único para ambos sexos (usar de
una variable muda auxiliar y aplicar el método de selección de variables).
y=a+bX
y = (a + c) + (b + d)X
En este caso, la función que relaciona la altura y el peso tanto de hombres como de mujeres coincide con la
función que expresa las mismas variables para los hombres solos.
EJERCICIO 12: La demanda biológica de oxígeno (DBO) se utiliza como medida de la contaminación
producida por los desperdicios domésticos e industriales. En esta prueba se mezcla una pequeña cantidad de
desperdicios con agua pura, se los introduce en una botella, se sella y se deja incubar por unos días a temperatura
fija. La pérdida de oxígeno disuelto en el agua permite el cálculo del DBO para un tiempo dado. Los datos
siguientes corresponden a mediciones realizadas en seis botellas dejadas en incubación durante tiempos
distintos:
y = ( 1 - e .t )
a) Sabiendo que es una asíntota superior de la curva, use el máximo DBO observado como una estimación de
este parámetro y halle por mínimos cuadrados.
b) Use de un método de regresión no lineal para ajustar el modelo a los datos, usando de las estimaciones
anteriores como valores iniciales del proceso iterativo.
Scatterplot (Spreadsheet in Workbook13 10v*10c)
DBO = 107,1995+117,934*log10(x)
240
220
.t
Si graficamos y = ( 1 - e ) obtendríamos una 200
función asintótica:
160
140
120
100
0 2 4 6 8 10 12
Dias
Daremos un valor aproximado para la asíntota superior α = máximo DBO observado = 226
Como el modelo molecular es No Lineal y No Linealizable transformaremos la ecuación y
crearemos una nueva variable y* para poder calcular los parámetros y hallar la función:
no tiene parámetro a
βt βt
y / αo – 1 = - e → 1 – y / αo = e → ln (1- y / αo) = β t
ln (1- y / αo) = y* y* = β t
ln ( 1-y /226) = y*
Haremos la Regresión para obtener los parámetros para la función respecto de y*:
Calcularemos el error cuadrático medio de esta función. Buscamos el modelo que mejor se adapte a los
datos, para ello buscaremos la que tenga el menor CMe :
Ahora usaremos la β = - 0,44 conseguida para estimar una nueva αo. La mantendremos hasta que los
valores de SCe se estabilicen. Después utilizaremos la nueva αo´ para calcular una nueva β´ para la función.
Buscaremos los valores reales analizando los SC hasta que se estabilicen. Cuando se estabilice será por haber
hallado un mínimo o un máximo. Obtendremos lo parámetros para la función.
b) Use de un método de regresión no lineal para ajustar el modelo a los datos, usando de las estimaciones
anteriores como valores iniciales del proceso iterativo
A B
Estimate 213,8094 -0,547237
90
DIAM = 6,6879+0,4241*x modelo cúbico
Scatterplot (NLIN.STA 3v*230c)
80
DIAM = 8,2452+0,2068*x+0,004*x^2-1,7363E-5*x^3
80
70
70
60
60
DIAM
50 50
DIAM
40 40
30
30
20
20
10
0 20 40 60 80 100 120 140 160 180 200
10 DDPF
0 20 40 60 80 100 120 140 160 180 200
DDPF
b) Pruebe ajustar algún modelo por Usted conocido que crea pueda resultar adecuado. Realice un estudio de
bondad de dicho modelo.
y = α / (1 + e β – γX )
y = α / (1 + e β – γX ) → 1 / y = (1 + e β – γX ) / 78 → 78 / y = 1 + e β – γX → 78 / y -1 = e β – γX
ln ((78 / y) - 1) = β – γX
ln ((78 / y) – 1) = y* y* = β – γX → Creamos una nueva variable y*
Y =
1 + e( -X)
Obtendremos así los valores reales para los parámetros α , β y γ que sustituiremos en la función final: