ADEI Unidad 2 PDF

UNIDAD 2
1
Correlación/Asociación
2
Casualidad vs Causalidad
Supongamos que la gráfica de los datos de dos variables (x,y) es la siguiente:
y El aumento de x hizo aumentar y.
El aumento de y hizo aumentar x.
Coincidencia.
Ambas, x e y aumentaron por un

x tercer factor que afecta a ambas.
3
Casualidad vs Causalidad
Volumen de un gas Población femenina
CAUSALIDAD
CASUALIDAD
Temperatura Precio del petróleo
Ningún parámetro estadístico puede establecer causalidad.
Existen indicadores que permiten medir que sucede con una variable al
cambiar la otra.
4
Covarianza y correlación
Son indicadores que permiten medir lo que sucede con una variable al cambiar la otra.
La covarianza (denotada Cov) : Es el grado de variación conjunta de dos variables aleatoria

cuando poseen relación lineal.
Su fórmula es: Mayor que cero: relación directa,

crece o decrece juntas.
Cov( x, y ) 
 ( x   )( y  
x y )
Igual a cero: No hay relación clara
n( x , y )
Menor que cero: relación inversa,
una crece cuando la otra decrece.
5
6
Observemos que:
1
 
2
x
1
nx
 (x   ) x
2  xx 
nx
 (x   ) *(x   )
x x
 xy 
 (x   ) *( y  
x y )
Para el caso de una población:
n x , y 
Para el caso de una muestra: s xy 

 ( x  x) * ( y  y )
n( x , y )  1
La magnitud de la covarianza indica que tan fuerte es la asociación entre las variables.
7
Como se puede apreciar, el valor (x - x) conserva las unidades originales del set de datos. Lo
cual puede llevar a que confusiones al interpretar distintas magnitudes de covarianza.
Con fines comparativos, es más conveniente manejar una cantidad adimensional. Dicha
cantidad, se conoce como coeficiente de correlación lineal. Se denomina por la letra griega
 “rho” y se puede calcular de la siguiente manera:
 xy s xy
Población: ( x, y )  Muestra: r( x , y ) 
 x * y sx * s y
Vemos que la asociación más extrema es que al cambiar x, y cambie en la misma magnitud
(y=x). En ese caso xy = x2, deduciéndose un valor de correlación máximo de 1.
El valor del coeficiente de correlación lineal está acotado entre -1 y +1, facilitando la
comparación entre la asociación de set de varias variables.
Nota: también se pueden hacer T.H. e I.C. sobre el coeficiente de correlación.
8
Matriz de Covarianza y correlación
Se pueden representar las varianzas, covarianzas y el coeficiente de correlacion a través de
notación matricial:
Varianzas y covarianza:
Correlación
Estas matrices son ampliables a más variables:
9
Gráficas de Correlación
Se pueden representar gráficamente las distintas interacciones entre variables en una matriz
gráfica para visualizar la correlación entre multivariables
0.6 0.8 1.0 1.2 0.50 0.60 0.70
1.0
CAFCL
0.8
0.6
1.2
1.0
CAFCT
0.8
0.6
0.70
0.55
CAPL
0.40
0.70
0.60
CAPT
0.50
0.6 0.8 1.0 0.40 0.55 0.70

Autodependencia
Un fenómeno observado a menudo es que las observaciones de una variable hechas cercanas
en el tiempo tienden a ser más parecidas que las hechas distantes. Entonces, mediante
herramientas estadísticas se puede calcular cuanto depende un dato de los muestreos
inmediatamente anteriores de la misma variable.
Al grado de autodependencia se le conoce como autocorrelación, y puede calcularse según:

 ( y  y )( y  y )
t t k
 y  y 
rk 2
t
Donde k representa el desfase respecto de t. Nótese que si k fuese cero estaríamos ante la una
autocorrelación total, rk = 1.
El cálculo de este valor con series de datos reducidas en cantidad puede llevar a resultados
confusos. En general se recomienda calcular la autocorrelación con un set de datos de por lo
menos 50 unidades.
11
Ejercicio de correlación:
Calcular el coeficiente de correlación muestreal para la siguiente tabla de datos:
Altura [ft] Peso [lb]

65 150
68 130
67 170 Respuesta: 0,83
70 180
75 220
12
Calcular el coeficiente de correlación muestreal, de acuerdo a ambas formulas entregadas, para
la siguiente tabla de datos:
X Y
8 15
7 19
r( y , y ) 
 y * y   N * y * y /( n  1)
1 2 1 2
1 2
6 25 s1 * s2
4 23 ( y1  y1 )( y2  y1 ) /( n  1)
r ( y1 , y2 ) 
s1 * s2
2 34
1 40
13
Calcular el coeficiente de correlación muestreal, de acuerdo a ambas formulas entregadas, para
la siguiente tabla de datos:
X Y -0,95
8 15 Gráfico
45
7 19 40
35
6 25 30
25
Y
4 23 20
15
2 34 10
5
0
1 40
0 2 4 6 8 10 12 14
X
14
Supongamos que sabemos con total certeza que y depende de x. Entonces causamos un
aumento intencional de x, para medir que pasa con y ¿qué correlación esperamos encontrar
entre los datos?
Estos son los

De lo cual obtenemos
datos medidos
una correlación de 0,59
T Y X Transiente
2,4 5,0 5,0 8,0 16
3,0 5,0 15,0
14
3,4 5,8 15,0
?
7,0
4,0 6,3 15,0 12
4,4 6,6 15,0 6,0 10

5,0 6,7 15,0 Y 8
5,4 6,9 15,0 5,0
X 6
6,0 6,9 15,0
6,4 6,9 15,0 4,0 4
0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0
7,0 6,9 15,0 Tiempo
7,4 7,0 15,0
8,0 7,0 15,0 15
Distribución de probabilidades
conjunta
16
Distribución conjunta de 2 variables
Hasta ahora,
La probabilidad de ocurrencia de un cierto evento  Distribución de probabilidad
Qué sucede cuando se dispone de dos (o más) variables aleatorias?
Pr 𝑥1 < 𝑥 < 𝑥2 ; 𝑦1 < 𝑦 < 𝑦2 = ?
Una opción podría ser utilizar la PDF de cada una de las variables y calcular las
probabilidades independientes y luego multiplicarlas (intersección de intervalos)
17
Qué sucede cuando se dispone de dos (o más) variables aleatorias?
Pr 𝑥1 < 𝑥 < 𝑥2 ; 𝑦1 < 𝑦 < 𝑦2 = ?
Una opción podría ser utilizar la PDF de cada una de las variables y calcular las probabilidades
independientes y luego multiplicarlas (intersección de intervalos)
𝑥2 𝑦2
𝑃𝑟 = 𝑓 𝑥 𝑑𝑥 ∙ 𝑓 𝑦 𝑑𝑦
𝑥1 𝑦1
Sin embargo, es posible que exista una relación entre x e y  Dado un valor de x las
probabilidades de y se ven afectadas y ya no es correcto estimar las probabilidades por
separado.
18
Tomando en cuenta lo anterior , se define la idea de la distribución de probabilidades
conjuntas
𝑓𝑋𝑌 𝑥, 𝑦 : 𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝑑𝑒 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑎
Propiedades:
𝑓𝑋𝑌 𝑥, 𝑦 ≥ 0,
∞ ∞
𝑓𝑋𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦 = 1
−∞ −∞
Pr((𝑥, 𝑦) ∈ 𝑅) = 𝑓𝑋𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦

𝑅
19
Gráficos de distribución conjunta.
Ya se apreció como es una distribución aleatoria estandarizada cuando se analiza una sola
variable. La extensión del gráfico de densidad de probabilidades a dos variables no
correlacionadas es trivial, los ejes x e y representan las variables distribuidas y el eje z la
densidad de probabilidades.
Z Z
Unidimensional +
X Y
Bidimensional
20
Ejemplo:
Se decide caracterizar un conjunto de ingenieros midiendo sus alturas y pesos. ¿Tiene alguna
relación el peso con la altura de los ingenieros?
Existiendo una relación ¿Será independiente la probabilidad de obtener un peso determinado,

de la altura del ingeniero?
Consideremos que y1 es la altura e y2 el peso, que ambas variables son aleatorias y tienen una
función de densidad de probabilidades conocida.
Tendremos que:
p(y2|y1=1,80) = A
p(y2|y1=1,60) = B
A = B??? A ≠ B???
21
Ejemplo:
p(y2|y1=1,80) = A
p(y2|y1=1,60) = B
Es una distribución condicionada.
A≠B
Esto dado a que y1 e y2 son variables estadísticamente asociadas entre sí.
Contrastando:
Suponer que y3 es el coeficiente intelectual de los ingenieros, se puede dar que:
p(y3|y1=1,80) = C
p(y3|y1=1,60) = D
Dado que y1 e y3 son variables independientes entre sí.
D=C
22
Ejemplo de los reclutas:
Calcular la probabilidad que un ingeniero pese más de 65 kg y mida más de 1,70 m
i) Seleccionar la clase que mide más de 1,70 m y ver cuantos de aquellos pesan más de 65 kg
ii) Seleccionar la clase que pesa más de 65 kg y ver cuantos miden más de 1,70 m
Entonces:
P( y1 > 1,70 ; y2 > 65 ) = P( y1 > 1,70 )*P( y2 > 65|y1>1,70 )
P( y1 > 1,70 ; y2 > 65 ) = P( y2 > 65 )*P( y1 > 1,70|y2>65 )
En conclusión
Variables aleatorias correlacionadas: P( y1 , y2 ) = P( y1)*P( y2|y1) Condicionada
Variables aleatorias independientes: P( y1 , y3 ) = P( y1)*P( y3)
23
Si x e y tienen un comportamiento normal  Se denomina : función de densidad de
probabilidad binormal
1  1  ( x1  1 ) 2 2  ( x1  1 )( x2  2 ) ( x 2  2 ) 2  
FX1 X 2 ( x1 , x2 )  * exp   
2 1 2 1  2  2 
1   2
 
  2
1  
1 2  2
2


La función de distribución de probabilidad conjunta binormal
P X ,  ,      FX1 X 2 ( x1 , x2 )dx1dx2
R
Si ρ=0
𝑃𝑟 𝑥, 𝑦 = Pr(𝑥) ∙ Pr(𝑦)
Se define el vector media y matriz de covarianza de dos variables como:
 1   12  12 
      2 
2   21 2 
La PDF para n dimensiones está dada por:
Promedios Matriz de covarianza
 1 
FX ( X ,  , ) 
1
   
 2 X    X   
1 * exp 
T 1
2 * 
n 2
2
Vector de Número de variables

Variables
𝑇 𝑇
𝑋 ≔ 𝑥1 , 𝑥2 , … , 𝑥𝑛 𝜇 ≔ 𝜇1 , 𝜇2 , … , 𝜇𝑛
𝜎𝑥21 𝜎𝑥1𝑥2 … . 𝜎𝑥1 𝑥𝑛

: = 𝜎𝑥2..𝑥1 𝜎𝑥22 … . 𝜎𝑥1.𝑥𝑛
.. ..
. .
𝜎𝑥𝑛 𝑥1 𝜎𝑥𝑛𝑥2 … . 𝜎𝑥2𝑛
Observemos que si tomamos las capas de nivel de la distribución conjunta de dos variables y
utilizamos una vista superior tendremos lo siguiente:
y  es la matriz de covarianza
0  1 0   x2  xy 
    0 1      2 
0     yx y 
Como dijimos, los ejes x e y representan las variables distribuidas, mientras que el eje z
(representado por las curvas de nivel), es la densidad de probabilidades.
También podemos notar que la figura es simétrica respecto del centro, eso se explica porque se
está representando dos variables NORMALIZADAS (media cero y desviación estándar 1).
26
Distinto es el caso de las variables que no están normalizadas. El centro de la distribución estará
definido por las medias de ambas variables, mientras que la desviación estándar definirá la
excentricidad de las curvas de nivel.
y
0   2 0
    0 1 
0   
x y
0  1 0
    0 2 
0   
x 27
Ŷ= bo + b1 X + e : modelo Lineal
bo : Parámetro intersección
b1 : Parámetro pendiente
(xi, yi): Datos
Ŷ= bo + b1 X + e
(xi, yi)
X
Ŷ= bo + b1 X
ERROR - RESIDUO
(xi, yi) N(0,2)
Supuestos
La regresión múltiple tiene 4 supuestos

importantes que hay que seguir para hacer un
análisis preciso y no sesgado:
• 1) Normalidad
• 2) Relación lineal
• 3) Aditividad y Multicolinealidad
• 4) Homocedasticidad
• 5) Independencia
Supuestos
Normalidad:
• Esto se refiere a que todos nuestros datos, tanto nuestras variables
independientes así como nuestra variable dependiente, tienen que tener
puntajes que están distribuidos normalmente.
• Más específicamente los residuos (error) de estos puntajes deben tener
una distribución normal.
• ¿Por qué es importante esto?

• La regresión es un análisis lineal y por ello, trabaja con relaciones lineales.
Cuando los errores de las variables tienen distribución no normal, pueden
afectar las relaciones y la significancia.
• ¿Por qué se enfocan en los errores y no la medición en sí?

• Porque en una regresión lineal también es posible poner variables
dicotómicas (ejemplo: sexo) y estas no tienen una distribución normal
Supuestos
Relación lineal
• Este segundo supuesto está dirigido a la relación entre las
variable independientes y dependiente.
• La relación entre cada variable independiente con la
variable dependiente debe ser lineal.
• En otras palabras, debe haber una correlación entre las
variables independientes y la dependiente.
• Los análisis de correlación se deben hacer antes de la
regresión para poder saber qué variables tienen relación
con la que deseamos medir.
• ¿Por qué? Porque este análisis previo nos permitirá saber
qué variables incluimos en nuestro modelo de regresión.
Supuestos
Aditividad y multicolinealidad
• La aditividad se refiere a que el modelo de regresión lineal es
aditivo. Es decir, que cada variable independiente por sí sola, suma
a la explicación de la variable dependiente.
• En otras palabras, no hay relación entre las variables

independientes.
• Si hubiera relación entre las variables independientes de nuestro

modelo, tendríamos un problema llamado multicolinealidad.
• La multicolinealidad es cuando dos variables independientes

están relacionadas.
Supuestos
Homocedasticidad
• La homocedasticidad es cuando la varianza de los errores
de medición de nuestro análisis es igual para todas las
variables independientes
• A su vez, cuándo esta varianza es diferente entre las

diferentes variables independientes tenemos un problema
de Heterocedasticidad.
• La Heterocedasticidad puede arruinar nuestros resultados y

hacernos caer en un error: podríamos asumir que algo está
relacionado cuando en realidad no lo está.
Supuestos
Independencia
• La quinta suposición respecto del análisis de
regresión y correlación es que los residuos
sucesivos deberán ser independientes.
• Esto significa que los residuos no tienen un
patrón, que no están muy correlacionados, y que
no hay corridas largas de residuos positivos o
negativos.
• Cuando los residuos sucesivos están
correlacionados, a esta condición se le conoce
como autocorrelacion.
Coeficiente de Determinación
n= N° de datos
p = N° de parámetros del modelo
Autocorrelación
Estadístico Durbin Watson
Autocorrelación
Estadístico Durbin Watson
Análisis de la Varianza de los Residuos (ANOVA)
SCTOTAL = SCR + SCE

Prueba Normalidad del Error
Intervalo de confianza de
parámetros.
80
Intuición sobre intervalos de confianza
Supongamos que se ha realizado el siguiente ajuste:
Y vs X y = 2,0507x Tenemos del ajuste:

25
R² = 0,9586 Pendiente R2
2,0507 0,9586
20
15
Y
10
0
0 2 4 6 8 10 12
X

25
2,0507 0,9586
20 1,7537 0,6499
15
Y
10
0
0 2 4 6 8 10 12
X

25
2,0507 0,9586
20 1,7537 0,6499
1,9732 0,9000
15
Y
10
0
0 2 4 6 8 10 12
X

25
2,0507 0,9586
20 1,7537 0,6499
1,9732 0,9000
15 2,0196 0,6392
Y
10
0
0 2 4 6 8 10 12
X
Intervalo de confiabilidad de parámetros
Es un punto importante de considerar que los parámetros que seleccionamos al hacer un
ajuste son calculados con cierto grado de certeza. Por tanto, podemos definir un intervalo de
confianza, dentro de cual puede estar ubicado el parámetro del que estamos hablando.
En general, el parámetro calculado tenderá a:


b  N b , ˆ 2CJJ 
Dado aquello, se puede hacer una hipótesis sobre la significancia del parámetro con el siguiente
estadístico:
b
t0   y  b 
T 2
Xi
̂ 2  i
̂ C jj
2
n p
Por consecuencia, un intervalo de confianza del estimador se pueda calcular según
 y  b Xi 
T 2
b  t 2,n p * i
* C JJ
n p
Donde CJJ es el elemento correspondiente de la diagonal de (XTX)-1
85
Ejemplo: Está calibrando un conjunto una placa de orificio y un medidor de diferencia de
presión, para estimar cauda. Suponga que por desconocimiento, plantea un modelo yˆ  b1 x  b0 .
Encuentre los parámetros, e interprete su significancia.
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
Por regresión, logra obtener el siguiente modelo: yˆ  5,82 x  3,92
Caudal vs P
y = 5,82x - 3,92
30
R² = 0,9258
25
 y  b Xi 
T 2
Cauldal [m 3 /h]
20
15 b  t 2,n p * i
* C JJ
10
n p
5
0
0 2 4 6
Caída de presión [psi] 86
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
95% Residuos Elemento correspondiente

de la diagonal de (XTX)-1
 y  b Xi 
T 2
b  t 2,n p * i
* C JJ
n p
X=
Parámetro en estudio
Datos – parámetros 87
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8

x y y pred. Resid.
1 5,0 1,9 3,1
C11 (b0)
2 4,2 7,7 -3,5 C22 (b1)
3 11,9 13,5 -1,6
 1,1  0,3
4 20,8 19,4 1,4 X= x x
T 1

 
5 25,8 25,2 0,6  0,3 0,1 
 (e)2 27,1
GL( e ) 3,0
 y  b X 
var( e ) 9,0
T 2
t95%,3 3,2
b  t 2,n p * i i
* C JJ
n p 88
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
b1  5,82  3,03  2,79 8,85 Caudal vs P

y = 5,82x - 3,92
30
R² = 0,9258
b0  3,92  10,04   13,96 6,12

25
Cauldal [m 3 /h]
20
15
Podemos ver que el intervalo de confianza 10
del intercepto pasa por cero, es decir, no es 5
significativo. Aquello concuerda con lo visto 0

en el gráfico, en la zona cercana al origen. 0 2 4 6
Caída de presión [psi] 89
Intervalo de Confianza y Predicción de Y
El intervalo de predicción para un valor individual de Y para un valor dado de X
se da por:
1 ( x0  x ) 2
yˆ 0  t 2,n  p * s 1  
n  ( xi  x ) 2
Donde s2 = MSE = SC Res / (n – p)
En forma matricial
yˆ 0  t 2,n p * MSE (1  [ X 0C ] X 0T
Donde C = [XT X]-1

[X0]= fila de valor X0 buscado en matriz de datos [X]
Intervalo de confianza para el valor medio de Y para un valor dado de X está
dado por:
1 ( x0  x ) 2
yˆ 0  t 2,n  p * s 
n  ( xi  x ) 2
Donde s2 = MSE = SC Res / (n – p)
En forma matricial
yˆ 0  t 2,n p * MSE[ X 0C ] X 0T
Donde C = [XT X]-1

[X0]= fila de valor X0 buscado en matriz de datos [X]
IC IP
Diagnostico de ajustes
93
Falta de ajuste y sobreajuste
Lo más habitual cuando se está ajustando un modelo es que se desee maximizar el nivel de
ajuste entre el dato predicho y el medido, pero el sobre ajuste también puede ser un problema.
Falta de ajuste. Ajuste adecuado. Sobre ajuste.

O alto bias o alta varianza
yˆ  b0  b1 x yˆ  b0  b1 x  b2 x 2
yˆ  b0  b1 x  b2 x 2  b3 x3  b4 x 4  b5 x5
94
Falta de ajuste y sobreajuste
Si se tiene un número de datos comparable al número de parámetros puede presentarse un
sobreajuste peligroso. Esto puede ser consecuencia de tener muy pocos datos o por tener
muchos parámetros.
Es aconsejable separar los datos en dos grupos, el primero para calcular los parámetros y el
segundo para validar la calidad del modelo con los parámetros ajustados.
X Y
1 8
2 30
3 28
4 42
70% para set de entrenamiento (o par ajuste de parámetros).
5 60
6 55
7 65
8 75
9 60 30% para set de validación ( o evaluación del modelo).

9 61
Curvas de aprendizaje
Si no se tiene certeza del grado del polinomio más adecuado para nuestro problema, las curvas
de aprendizaje pueden dar luces del grado correcto.
Si el grado del polinomio es insuficiente, el modelo

no se ajustará bien al set de datos de
Error entrenamiento , ni tampoco al de prueba (Falta de
ajuste).
Adecuado Prueba
Entrenamiento
Grado del polinomio Al aumentar el grado del polinomio más allá de lo

necesario, el modelo comienza a acercarse a todos
los puntos de entrenamiento, pero no refleja el
comportamiento de los datos de prueba.
Bondad de ajuste y análisis de
varianza
97
Bondad del ajuste
Como hemos aprendido existen diversas maneras de llevar a cabo un ajuste de
parámetros de moldeos. También aprendimos a linealizar dichos modelos respecto de los
parámetros.
En un principio la mayor utilidad de la linealización era la de facilitar los cálculos

necesarios para realizar los ajustes. Hoy, con herramientas tan poderosas como el pc y la
calculadora programable este paso pierde importancia. Sin embargo, han aparecido métodos de
cálculo inteligentes, como los adaptivos (mínimos cuadrados recursivos). Los cuales requieren
un poder de procesamiento mayor al disponible en la actualidad.
Habiendo llevado a cabo ajustes de diversos tipos, nos encontramos con problemas
como definir si un ajuste es mejor que otro o hasta cuantos parámetros es conveniente
considerar. Para aquello revisaremos tres útiles y comunes herramientas. Estas son el
Coeficiente de Determinación, Coeficiente de Determinación Corregido, Tabla de Análisis de
Varianza (test de fisher) y Test Chi2.
98
Bondad del ajuste
Coeficiente de Determinación
Éste coeficiente busca determinar la proporción de la varianza de la variable

dependiente que está explicada por un modelo estadístico. En otras palabras, con que nivel está
explicada la varianza de los residuos por la varianza misma del modelo propuesto.
Se calcula de la siguiente manera:

Varianza de los residuos
 2
R 2  1  r2
y
Varianza de la variable dependiente
El coeficiente de determinación es ampliamente usado en varios software con el fin de

indicar la bondad de algún ajuste realizado. Sin embargo, tiene el delicado problema de
aumentar irrestrictamente cuando se aumenta el número de parámetros del modelo, aún
cuando los parámetros adicionales incluidos no sean significativos. El problema se subsana con
la inclusión del coeficiente de determinación corregido.
99
Bondad del ajuste
Coeficiente de Determinación Corregido
El coeficiente de determinación corregido busca compensar el problema de la

inclusión innecesaria de parámetros, mediante la multiplicación de una razón compensadora.
Se calcula de la siguiente manera:

n: número de datos usados en el ajuste.
ˆ 
R  1 1 R *
2 2
 n  1
n  p 
p: número de parámetros del modelo.
Podemos apreciar que a medida que al aumentar el número de parámetros, el

denominador de la razón de corrección va disminuyendo, empeorando el coeficiente corregido.
Éste coeficiente, más correcto tiene la dificultad de requerir una cantidad mayor de datos que
de parámetros, en caso contrario la razón de corrección se puede in determinar o tomar valores
negativos. Hecho que impide su uso extensivo en software.
100
Bondad del ajuste
Análisis de Varianza (ANOVA)
Hemos encontrado el set de parámetros que da el mejor ajuste entre cierto modelo y
cierto set de datos. Sin embargo, ahora debemos determinar si dicho modelo es adecuado. Para
lo cual se utilizan las herramientas dadas por la tabla de análisis de varianza y el test de razón de
varianzas.
Lo primero que se debe hacer, para construir la tabla ANOVA, es separar las sumas de
cuadrados de manera conveniente, es decir:
Tomamos el par como un solo término

   y  ÿ  ÿ
2 2
y
 
y 2
  y  ÿ     2 *   y  ÿ * ÿ
ÿ
2
2
101
Bondad del ajuste
Hemos encontrado el set de parámetros que da el mejor ajuste entre cierto modelo y
cierto set de datos. Sin embargo, ahora debemos determinar si dicho modelo es adecuado. Para
lo cual se utilizan las herramientas dadas por la tabla de análisis de varianza y el test de razón de
varianzas.
Lo primero que se debe hacer es separar las sumas de cuadrados de manera

conveniente, es decir:
   y  ÿ  ÿ
2 2
y
0, ecuación ortogonal
 y   y  ÿ   ÿ  2 *   y  ÿ * ÿ
2 2 2
Residuos, lo que queda Modelo, respuesta predicha

luego del ajuste 102
Bondad del Ajuste
Por lo tanto:
(𝑦𝑖 −𝑦)2 = 𝑦𝑖2 − 𝑦𝑖2
Estimador de la
dispersión del error
Error puro Error por falta de

(por la variabilidad ajuste del modelo
del sistema)
Bajo estos conceptos es posible construir la tabla de análisis de varianza, veamos un ejemplo.
103
Bondad del ajuste
Recordando el ejemplo anterior:
Consideremos que se está analizando el funcionamiento de cierto reactor químico,

sabiendo que es una reacción de primer orden se desea saber la relación entre la velocidad
inicial de reacción y la concentración del reactante principal:
Se postula el siguiente modelo:

ÿ  b * x b  9,65
Datos:
Conc. x 1 3 3 4 6 6 7
Vel. y 8 30 33 42 59 60 61
Ymodelo 9.7 29.0 29.0 38.6 57.9 57.9 67.6

Residuos -1.7 1.0 4.0 3.4 1.1 2.1 -6.6
104
Bondad del ajuste
Tabla de Análisis de Varianza (ANOVA)
Con los datos calculados podemos hacer una nueva tabla de análisis de varianza
Fuente de variabilidad ∑()2 GL Var

Modelo ÿ 2
 b *  x 2  14539 1
14619 14539  80 n-p=6
Residuos
Error puro ??
Error por falta de ajuste ??
Total (y2) 14619 7
GL SC Prom F
MODELO (REG) k
RESIDUOS n – (k+1)
- Error Puro n- c MSPE
- Error Falta de Ajuste (n-p)-(n-c) MSLF
TOTAL n-1 105
Bondad del ajuste
Estimación del error puro:
El error puro puede ser estimado mediante el uso de réplicas de medición, lo cual es de especial
interés para medir bondad del ajuste. La varianza del error de medición se puede obtener de la
forma anteriormente vista:
Sumatoria de los
2 errores puros al
𝑆2 = cuadrado
𝐺. 𝐿
Se puede ver en el ejemplo que existen dos replicas en x=3 y x=6
Conc. x 1 3 3 4 6 6 7
Vel. y 8 30 33 42 59 60 61
106
Bondad del ajuste
Para el ejemplo hay réplicas en x=3 y x=6, de las cuales podemos obtener:
Promedio de réplicas en 3 = (30 + 33)/2 = 31,5

Notemos que se han
Promedio de réplicas en 6 = (59 + 60)/2 = 59,5
usado exclusivamente
datos medidos, y
()2 error puro = (30-31,5)2 + (33-31,5)2 + (60-59,5)2 + (59-59,5)2
ninguno del modelo
()2 error puro = 5.0
Grados de libertad = 2 +2 - 1 - 1 = 2
Ahora que ya dimensionamos el error puro y los residuos totales, podemos calcular el error
por falta de ajuste. También los grados de libertad.
107
Bondad del ajuste
Fuente de variabilidad ∑()2 GL Varianza

Modelo ÿ 2
 b *  x 2  14539 1
Residuos 14619-14539=80 n-p=6
Error puro ∑(ep)2 = 5 2 2,5
Error por falta de ajuste ∑(efa)2 = 80-5=75 4 18,75
Total (y2) 14619 7
Mientras más grande el error puro, más difícil será obtener un modelo bien ajustado.
Teniendo las varianzas de error por falta de ajuste y por error puro, podemos hacer una
comparación estadística entre ambas varianzas y determinar si se justifica la variabilidad
incluida por el modelo en base a la variabilidad natural del proceso (error puro).
108
Bondad del ajuste
Fuente de variabilidad ∑()2 GL Varianza

Modelo ÿ 2
 b *  x 2  14539 1
Residuos 14619-14539=80 N-1=6
Error puro ∑(ep)2 = 5 2 2,5
Error por falta de ajuste ∑(efa)2 = 80-5=75 4 18,75
Total (y2) 14619 7
Mientras más grande el error puro, más difícil será obtener un modelo bien ajustado.
Teniendo las varianzas de error por falta de ajuste y por error puro, podemos hacer una
comparación estadística entre ambas varianzas y determinar si se justifica la variabilidad
incluida por el modelo en base a la variabilidad natural del proceso (error puro).
109
Bondad del Ajuste
Se define la razón entre las varianzas cómo:
𝑺𝟐𝑬𝑭𝑨 𝝈𝟐𝑬𝑭𝑨
~ 𝟐 𝑭𝒗𝟏 𝒗𝟐
𝑺𝟐𝑬𝑷 𝝈𝑬𝑷
Entonces podemos redefinir las hipótesis:

2
𝜎𝐸𝐹𝐴
𝐻0 : 2 = 1
𝜎𝐸𝑃
2
𝜎𝐸𝐹𝐴
𝐻1 : 2 > 1
𝜎𝐸𝑃
Y realizamos el test de hipótesis como conocemos, asimismo Ho verdadera, por lo tanto:
𝑺𝟐𝑬𝑭𝑨
~𝑭𝒗𝟏 𝒗𝟐
𝑺𝟐𝑬𝑷
Resuelvo de la forma que ya conocemos…

110
Aplicación en Excel
111
Funciones estadísticas en Excel 2013
Activación de análisis de datos:
Archivo  Opciones  Complementos Herramientas para análisis VBA  IR
112
Elaboración de Histogramas
Una vez activado el complemento ir a la pestaña “Datos” en la parte superior de Excel y seleccionar “Análisis
de datos”, se abrirá una ventana con distintas opciones. Para elaborar un histograma a partir de datos
dispersos, seleccionar la opción “histograma”
Rango de datos
Amplitud del intervalo
113
Estadística descriptiva
Una vez activado el complemento ir a la pestaña “Datos” en la parte superior de Excel y seleccionar “Análisis
de datos”, se abrirá una ventana con distintas opciones. Para obtener un resumen de los principales
parámetros estadísticos de los datos seleccionar “estadística descriptiva”.
𝑠
𝑛
𝑠
𝑡𝛼/2,𝑣 ∙
𝑛 114
Funciones estadística
Existen diversas funciones estadísticas en Excel siendo las más usadas las siguientes:
PROMEDIO: Devuelve el promedio del set de datos seleccionados

MEDIANA: Devuelve el número central del set de datos
MODA.UNO: Devuelve el valor más frecuente de una matriz o rango de datos.
CUARTIL.EXT: Devuelve los cuartiles: Q1, Q2 y Q3 según lo que se desee.
DESVEST.M: Entrega la desviación estándar de una muestra.
VAR.S: Entrega la varianza de una muestra.
DISTR.NORM.ESTAND.N: Devuelve la distribución normal estándar.
NORMALIZACION: Devuelve un valor normalizado de una dato caracterizada por una media y
desviación estándar.
DISTR.T.2C: Devuelve la distribución t de Student de dos colas.
DISTR.T.CD: Devuelve la distribución t de Student de cola derecha.
115
Funciones estadística
Existen diversas funciones estadísticas en Excel siendo las más usadas las siguientes:
INV.NORM.ESTAND: Devuelve el valor de z, según la probabilidad ingresada.

INV.T: Devuelve el valor de t, según la probabilidad de una cola ingresada.
INV.T.2C: Devuelve el valor de t, según la probabilidad sumada de las dos colas.
INTERVALO.CONFIANZA.T: Devuelve el intervalo de confianza para una media con una
distribución de T de Student
INTERVALO.CONFIANZA.NORM: Devuelve el intervalo de confianza para una media con una
distribución normal.
COVARIANZA.M: Devuelve la covarianza de una muestra de dos set de datos.
COEF.DE.CORREL: Devuelve el coeficiente de correlación de dos conjuntos de datos.
116
Gráficos de barras de error
117
Gráficos de barras de error
118
Test de hipótesis para diferencia de medias
Varianza ponderada
Hipótesis nula
Función pivotal
Valor crítico: 1 cola
Valor crítico: 2 cola
119
Matriz de covarianza
120

ADEI Unidad 2 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ADEI Unidad 2 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIDAD 2

y El aumento de x hizo aumentar y.

El aumento de y hizo aumentar x.

Ambas, x e y aumentaron por un

Temperatura Precio del petróleo

Ningún parámetro estadístico puede establecer causalidad.

La covarianza (denotada Cov) : Es el grado de variación conjunta de dos variables aleatoria

Su fórmula es: Mayor que cero: relación directa,

Para el caso de una muestra: s xy 

Nota: también se pueden hacer T.H. e I.C. sobre el coeficiente de correlación.

Estas matrices son ampliables a más variables:

0.6 0.8 1.0 0.40 0.55 0.70

Al grado de autodependencia se le conoce como autocorrelación, y puede calcularse según:

Altura [ft] Peso [lb]

Estos son los

4,4 6,6 15,0 6,0 10

La probabilidad de ocurrencia de un cierto evento  Distribución de probabilidad

Qué sucede cuando se dispone de dos (o más) variables aleatorias?

Pr 𝑥1 < 𝑥 < 𝑥2 ; 𝑦1 < 𝑦 < 𝑦2 = ?

Pr 𝑥1 < 𝑥 < 𝑥2 ; 𝑦1 < 𝑦 < 𝑦2 = ?

Pr((𝑥, 𝑦) ∈ 𝑅) = 𝑓𝑋𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦

Existiendo una relación ¿Será independiente la probabilidad de obtener un peso determinado,

Esto dado a que y1 e y2 son variables estadísticamente asociadas entre sí.

Suponer que y3 es el coeficiente intelectual de los ingenieros, se puede dar que:

Calcular la probabilidad que un ingeniero pese más de 65 kg y mida más de 1,70 m

P( y1 > 1,70 ; y2 > 65 ) = P( y2 > 65 )*P( y1 > 1,70|y2>65 )

Variables aleatorias correlacionadas: P( y1 , y2 ) = P( y1)*P( y2|y1) Condicionada

Variables aleatorias independientes: P( y1 , y3 ) = P( y1)*P( y3)

La función de distribución de probabilidad conjunta binormal

Se define el vector media y matriz de covarianza de dos variables como:

Promedios Matriz de covarianza

Vector de Número de variables

𝜎𝑥21 𝜎𝑥1𝑥2 … . 𝜎𝑥1 𝑥𝑛

La regresión múltiple tiene 4 supuestos

• ¿Por qué es importante esto?

• ¿Por qué se enfocan en los errores y no la medición en sí?

• En otras palabras, no hay relación entre las variables

• Si hubiera relación entre las variables independientes de nuestro

• La multicolinealidad es cuando dos variables independientes

• A su vez, cuándo esta varianza es diferente entre las

• La Heterocedasticidad puede arruinar nuestros resultados y

SCTOTAL = SCR + SCE

Y vs X y = 2,0507x Tenemos del ajuste:

Y vs X y = 1,7537x Tenemos del ajuste:

Y vs X y = 1,9732x Tenemos del ajuste:

Y vs X y = 2,0196x Tenemos del ajuste:

En general, el parámetro calculado tenderá a:

Por regresión, logra obtener el siguiente modelo: yˆ  5,82 x  3,92

Por regresión, logra obtener el siguiente modelo: yˆ  5,82 x  3,92

95% Residuos Elemento correspondiente

Por regresión, logra obtener el siguiente modelo: yˆ  5,82 x  3,92

Por regresión, logra obtener el siguiente modelo: yˆ  5,82 x  3,92

b1  5,82  3,03  2,79 8,85 Caudal vs P

b0  3,92  10,04   13,96 6,12

Podemos ver que el intervalo de confianza 10

del intercepto pasa por cero, es decir, no es 5

significativo. Aquello concuerda con lo visto 0

Donde s2 = MSE = SC Res / (n – p)

Donde C = [XT X]-1

Donde s2 = MSE = SC Res / (n – p)

Donde C = [XT X]-1

Falta de ajuste. Ajuste adecuado. Sobre ajuste.

9 60 30% para set de validación ( o evaluación del modelo).