1
Correlación/Asociación
2
Casualidad vs Causalidad
Supongamos que la gráfica de los datos de dos variables (x,y) es la siguiente:
Coincidencia.
3
Casualidad vs Causalidad
Volumen de un gas Población femenina
CAUSALIDAD
CASUALIDAD
Existen indicadores que permiten medir que sucede con una variable al
cambiar la otra.
4
Covarianza y correlación
Son indicadores que permiten medir lo que sucede con una variable al cambiar la otra.
Cov( x, y )
( x )( y
x y )
Igual a cero: No hay relación clara
n( x , y )
Menor que cero: relación inversa,
una crece cuando la otra decrece.
5
Covarianza y correlación
6
Covarianza y correlación
Observemos que:
1
2
x
1
nx
(x ) x
2 xx
nx
(x ) *(x )
x x
xy
(x ) *( y
x y )
Para el caso de una población:
n x , y
La magnitud de la covarianza indica que tan fuerte es la asociación entre las variables.
7
Covarianza y correlación
Como se puede apreciar, el valor (x - x) conserva las unidades originales del set de datos. Lo
cual puede llevar a que confusiones al interpretar distintas magnitudes de covarianza.
Con fines comparativos, es más conveniente manejar una cantidad adimensional. Dicha
cantidad, se conoce como coeficiente de correlación lineal. Se denomina por la letra griega
“rho” y se puede calcular de la siguiente manera:
xy s xy
Población: ( x, y ) Muestra: r( x , y )
x * y sx * s y
Vemos que la asociación más extrema es que al cambiar x, y cambie en la misma magnitud
(y=x). En ese caso xy = x2, deduciéndose un valor de correlación máximo de 1.
El valor del coeficiente de correlación lineal está acotado entre -1 y +1, facilitando la
comparación entre la asociación de set de varias variables.
8
Matriz de Covarianza y correlación
Se pueden representar las varianzas, covarianzas y el coeficiente de correlacion a través de
notación matricial:
Varianzas y covarianza:
Correlación
9
Gráficas de Correlación
Se pueden representar gráficamente las distintas interacciones entre variables en una matriz
gráfica para visualizar la correlación entre multivariables
0.6 0.8 1.0 1.2 0.50 0.60 0.70
1.0
CAFCL
0.8
0.6
1.2
1.0
CAFCT
0.8
0.6
0.70
0.55
CAPL
0.40
0.70
0.60
CAPT
0.50
( y y )( y y )
t t k
y y
rk 2
t
Donde k representa el desfase respecto de t. Nótese que si k fuese cero estaríamos ante la una
autocorrelación total, rk = 1.
El cálculo de este valor con series de datos reducidas en cantidad puede llevar a resultados
confusos. En general se recomienda calcular la autocorrelación con un set de datos de por lo
menos 50 unidades.
11
Ejercicio de correlación:
Calcular el coeficiente de correlación muestreal para la siguiente tabla de datos:
12
Ejercicio de correlación:
Calcular el coeficiente de correlación muestreal, de acuerdo a ambas formulas entregadas, para
la siguiente tabla de datos:
X Y
8 15
7 19
r( y , y )
y * y N * y * y /( n 1)
1 2 1 2
1 2
6 25 s1 * s2
4 23 ( y1 y1 )( y2 y1 ) /( n 1)
r ( y1 , y2 )
s1 * s2
2 34
1 40
13
Ejercicio de correlación:
Calcular el coeficiente de correlación muestreal, de acuerdo a ambas formulas entregadas, para
la siguiente tabla de datos:
X Y -0,95
8 15 Gráfico
45
7 19 40
35
6 25 30
25
Y
4 23 20
15
2 34 10
5
0
1 40
0 2 4 6 8 10 12 14
X
14
Ejercicio de correlación:
Supongamos que sabemos con total certeza que y depende de x. Entonces causamos un
aumento intencional de x, para medir que pasa con y ¿qué correlación esperamos encontrar
entre los datos?
T Y X Transiente
2,4 5,0 5,0 8,0 16
3,0 5,0 15,0
14
3,4 5,8 15,0
?
7,0
4,0 6,3 15,0 12
16
Distribución conjunta de 2 variables
Hasta ahora,
Una opción podría ser utilizar la PDF de cada una de las variables y calcular las
probabilidades independientes y luego multiplicarlas (intersección de intervalos)
17
Distribución conjunta de 2 variables
Qué sucede cuando se dispone de dos (o más) variables aleatorias?
Una opción podría ser utilizar la PDF de cada una de las variables y calcular las probabilidades
independientes y luego multiplicarlas (intersección de intervalos)
𝑥2 𝑦2
𝑃𝑟 = 𝑓 𝑥 𝑑𝑥 ∙ 𝑓 𝑦 𝑑𝑦
𝑥1 𝑦1
Sin embargo, es posible que exista una relación entre x e y Dado un valor de x las
probabilidades de y se ven afectadas y ya no es correcto estimar las probabilidades por
separado.
18
Distribución conjunta de 2 variables
Tomando en cuenta lo anterior , se define la idea de la distribución de probabilidades
conjuntas
𝑓𝑋𝑌 𝑥, 𝑦 : 𝐹𝑢𝑛𝑐𝑖ó𝑛 𝑑𝑒 𝑑𝑒𝑛𝑠𝑖𝑑𝑎𝑑 𝑑𝑒 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑎
Propiedades:
𝑓𝑋𝑌 𝑥, 𝑦 ≥ 0,
∞ ∞
𝑓𝑋𝑌 𝑥, 𝑦 𝑑𝑥𝑑𝑦 = 1
−∞ −∞
19
Gráficos de distribución conjunta.
Ya se apreció como es una distribución aleatoria estandarizada cuando se analiza una sola
variable. La extensión del gráfico de densidad de probabilidades a dos variables no
correlacionadas es trivial, los ejes x e y representan las variables distribuidas y el eje z la
densidad de probabilidades.
Z Z
Unidimensional +
X Y
Bidimensional
20
Distribución conjunta de 2 variables
Ejemplo:
Se decide caracterizar un conjunto de ingenieros midiendo sus alturas y pesos. ¿Tiene alguna
relación el peso con la altura de los ingenieros?
Consideremos que y1 es la altura e y2 el peso, que ambas variables son aleatorias y tienen una
función de densidad de probabilidades conocida.
Tendremos que:
p(y2|y1=1,80) = A
p(y2|y1=1,60) = B
A = B??? A ≠ B???
21
Distribución conjunta de 2 variables
Ejemplo:
p(y2|y1=1,80) = A
p(y2|y1=1,60) = B
Es una distribución condicionada.
A≠B
Contrastando:
p(y3|y1=1,80) = C
p(y3|y1=1,60) = D
Dado que y1 e y3 son variables independientes entre sí.
D=C
22
Distribución conjunta de 2 variables
Ejemplo de los reclutas:
i) Seleccionar la clase que mide más de 1,70 m y ver cuantos de aquellos pesan más de 65 kg
ii) Seleccionar la clase que pesa más de 65 kg y ver cuantos miden más de 1,70 m
Entonces:
P( y1 > 1,70 ; y2 > 65 ) = P( y1 > 1,70 )*P( y2 > 65|y1>1,70 )
En conclusión
23
Distribución conjunta de 2 variables
Si x e y tienen un comportamiento normal Se denomina : función de densidad de
probabilidad binormal
1 1 ( x1 1 ) 2 2 ( x1 1 )( x2 2 ) ( x 2 2 ) 2
FX1 X 2 ( x1 , x2 ) * exp
2 1 2 1 2 2
1 2
2
1
1 2 2
2
P X , , FX1 X 2 ( x1 , x2 )dx1dx2
R
Si ρ=0
𝑃𝑟 𝑥, 𝑦 = Pr(𝑥) ∙ Pr(𝑦)
1 12 12
2
2 21 2
Distribución conjunta de 2 variables
La PDF para n dimensiones está dada por:
1
FX ( X , , )
1
2 X X
1 * exp
T 1
2 *
n 2
2
𝑇 𝑇
𝑋 ≔ 𝑥1 , 𝑥2 , … , 𝑥𝑛 𝜇 ≔ 𝜇1 , 𝜇2 , … , 𝜇𝑛
y es la matriz de covarianza
0 1 0 x2 xy
0 1 2
0 yx y
Como dijimos, los ejes x e y representan las variables distribuidas, mientras que el eje z
(representado por las curvas de nivel), es la densidad de probabilidades.
También podemos notar que la figura es simétrica respecto del centro, eso se explica porque se
está representando dos variables NORMALIZADAS (media cero y desviación estándar 1).
26
Gráficos de distribución conjunta.
Distinto es el caso de las variables que no están normalizadas. El centro de la distribución estará
definido por las medias de ambas variables, mientras que la desviación estándar definirá la
excentricidad de las curvas de nivel.
y
0 2 0
0 1
0
x y
0 1 0
0 2
0
x 27
Ŷ= bo + b1 X + e : modelo Lineal
bo : Parámetro intersección
b1 : Parámetro pendiente
(xi, yi): Datos
Ŷ= bo + b1 X + e
(xi, yi)
X
Ŷ= bo + b1 X
ERROR - RESIDUO
(xi, yi) N(0,2)
Supuestos
Normalidad:
• Esto se refiere a que todos nuestros datos, tanto nuestras variables
independientes así como nuestra variable dependiente, tienen que tener
puntajes que están distribuidos normalmente.
• Más específicamente los residuos (error) de estos puntajes deben tener
una distribución normal.
Relación lineal
• Este segundo supuesto está dirigido a la relación entre las
variable independientes y dependiente.
• La relación entre cada variable independiente con la
variable dependiente debe ser lineal.
• En otras palabras, debe haber una correlación entre las
variables independientes y la dependiente.
• Los análisis de correlación se deben hacer antes de la
regresión para poder saber qué variables tienen relación
con la que deseamos medir.
• ¿Por qué? Porque este análisis previo nos permitirá saber
qué variables incluimos en nuestro modelo de regresión.
Supuestos
Aditividad y multicolinealidad
• La aditividad se refiere a que el modelo de regresión lineal es
aditivo. Es decir, que cada variable independiente por sí sola, suma
a la explicación de la variable dependiente.
Homocedasticidad
• La homocedasticidad es cuando la varianza de los errores
de medición de nuestro análisis es igual para todas las
variables independientes
Independencia
• La quinta suposición respecto del análisis de
regresión y correlación es que los residuos
sucesivos deberán ser independientes.
• Esto significa que los residuos no tienen un
patrón, que no están muy correlacionados, y que
no hay corridas largas de residuos positivos o
negativos.
• Cuando los residuos sucesivos están
correlacionados, a esta condición se le conoce
como autocorrelacion.
Coeficiente de Determinación
n= N° de datos
p = N° de parámetros del modelo
Autocorrelación
Estadístico Durbin Watson
Autocorrelación
Estadístico Durbin Watson
Análisis de la Varianza de los Residuos (ANOVA)
80
Intuición sobre intervalos de confianza
Supongamos que se ha realizado el siguiente ajuste:
15
Y
10
0
0 2 4 6 8 10 12
X
Intuición sobre intervalos de confianza
Supongamos que se ha realizado el siguiente ajuste:
15
Y
10
0
0 2 4 6 8 10 12
X
Intuición sobre intervalos de confianza
Supongamos que se ha realizado el siguiente ajuste:
10
0
0 2 4 6 8 10 12
X
Intuición sobre intervalos de confianza
Supongamos que se ha realizado el siguiente ajuste:
10
0
0 2 4 6 8 10 12
X
Intervalo de confiabilidad de parámetros
Es un punto importante de considerar que los parámetros que seleccionamos al hacer un
ajuste son calculados con cierto grado de certeza. Por tanto, podemos definir un intervalo de
confianza, dentro de cual puede estar ubicado el parámetro del que estamos hablando.
̂ C jj
2
n p
Por consecuencia, un intervalo de confianza del estimador se pueda calcular según
y b Xi
T 2
b t 2,n p * i
* C JJ
n p
Donde CJJ es el elemento correspondiente de la diagonal de (XTX)-1
85
Intervalo de confiabilidad de parámetros
Ejemplo: Está calibrando un conjunto una placa de orificio y un medidor de diferencia de
presión, para estimar cauda. Suponga que por desconocimiento, plantea un modelo yˆ b1 x b0 .
Encuentre los parámetros, e interprete su significancia.
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
Caudal vs P
y = 5,82x - 3,92
30
R² = 0,9258
25
y b Xi
T 2
Cauldal [m 3 /h]
20
15 b t 2,n p * i
* C JJ
10
n p
5
0
0 2 4 6
Caída de presión [psi] 86
Intervalo de confiabilidad de parámetros
Ejemplo: Está calibrando un conjunto una placa de orificio y un medidor de diferencia de
presión, para estimar cauda. Suponga que por desconocimiento, plantea un modelo yˆ b1 x b0 .
Encuentre los parámetros, e interprete su significancia.
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
y b Xi
T 2
b t 2,n p * i
* C JJ
n p
X=
Parámetro en estudio
Datos – parámetros 87
Intervalo de confiabilidad de parámetros
Ejemplo: Está calibrando un conjunto una placa de orificio y un medidor de diferencia de
presión, para estimar cauda. Suponga que por desconocimiento, plantea un modelo yˆ b1 x b0 .
Encuentre los parámetros, e interprete su significancia.
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
y b X
var( e ) 9,0
T 2
t95%,3 3,2
b t 2,n p * i i
* C JJ
n p 88
Intervalo de confiabilidad de parámetros
Ejemplo: Está calibrando un conjunto una placa de orificio y un medidor de diferencia de
presión, para estimar cauda. Suponga que por desconocimiento, plantea un modelo yˆ b1 x b0 .
Encuentre los parámetros, e interprete su significancia.
(x) P [psi] 1 2 3 4 5
3
(y) F [m /h] 5,0 4,2 11,9 20,8 25,8
Cauldal [m 3 /h]
20
15
En forma matricial
yˆ 0 t 2,n p * MSE (1 [ X 0C ] X 0T
1 ( x0 x ) 2
yˆ 0 t 2,n p * s
n ( xi x ) 2
En forma matricial
yˆ 0 t 2,n p * MSE[ X 0C ] X 0T
IC IP
Diagnostico de ajustes
93
Falta de ajuste y sobreajuste
Lo más habitual cuando se está ajustando un modelo es que se desee maximizar el nivel de
ajuste entre el dato predicho y el medido, pero el sobre ajuste también puede ser un problema.
yˆ b0 b1 x yˆ b0 b1 x b2 x 2
yˆ b0 b1 x b2 x 2 b3 x3 b4 x 4 b5 x5
94
Falta de ajuste y sobreajuste
Si se tiene un número de datos comparable al número de parámetros puede presentarse un
sobreajuste peligroso. Esto puede ser consecuencia de tener muy pocos datos o por tener
muchos parámetros.
Es aconsejable separar los datos en dos grupos, el primero para calcular los parámetros y el
segundo para validar la calidad del modelo con los parámetros ajustados.
X Y
1 8
2 30
3 28
4 42
70% para set de entrenamiento (o par ajuste de parámetros).
5 60
6 55
7 65
8 75
Entrenamiento
97
Bondad del ajuste
Como hemos aprendido existen diversas maneras de llevar a cabo un ajuste de
parámetros de moldeos. También aprendimos a linealizar dichos modelos respecto de los
parámetros.
Habiendo llevado a cabo ajustes de diversos tipos, nos encontramos con problemas
como definir si un ajuste es mejor que otro o hasta cuantos parámetros es conveniente
considerar. Para aquello revisaremos tres útiles y comunes herramientas. Estas son el
Coeficiente de Determinación, Coeficiente de Determinación Corregido, Tabla de Análisis de
Varianza (test de fisher) y Test Chi2.
98
Bondad del ajuste
Coeficiente de Determinación
ˆ
R 1 1 R *
2 2
n 1
n p
p: número de parámetros del modelo.
Hemos encontrado el set de parámetros que da el mejor ajuste entre cierto modelo y
cierto set de datos. Sin embargo, ahora debemos determinar si dicho modelo es adecuado. Para
lo cual se utilizan las herramientas dadas por la tabla de análisis de varianza y el test de razón de
varianzas.
Lo primero que se debe hacer, para construir la tabla ANOVA, es separar las sumas de
cuadrados de manera conveniente, es decir:
y 2
y ÿ 2 * y ÿ * ÿ
ÿ
2
2
101
Bondad del ajuste
Análisis de Varianza (ANOVA)
Hemos encontrado el set de parámetros que da el mejor ajuste entre cierto modelo y
cierto set de datos. Sin embargo, ahora debemos determinar si dicho modelo es adecuado. Para
lo cual se utilizan las herramientas dadas por la tabla de análisis de varianza y el test de razón de
varianzas.
y ÿ ÿ
2 2
y
0, ecuación ortogonal
y y ÿ ÿ 2 * y ÿ * ÿ
2 2 2
Por lo tanto:
(𝑦𝑖 −𝑦)2 = 𝑦𝑖2 − 𝑦𝑖2
Estimador de la
dispersión del error
Bajo estos conceptos es posible construir la tabla de análisis de varianza, veamos un ejemplo.
103
Bondad del ajuste
Recordando el ejemplo anterior:
Datos:
Conc. x 1 3 3 4 6 6 7
Vel. y 8 30 33 42 59 60 61
104
Bondad del ajuste
Tabla de Análisis de Varianza (ANOVA)
Con los datos calculados podemos hacer una nueva tabla de análisis de varianza
GL SC Prom F
MODELO (REG) k
RESIDUOS n – (k+1)
- Error Puro n- c MSPE
- Error Falta de Ajuste (n-p)-(n-c) MSLF
TOTAL n-1 105
Bondad del ajuste
Análisis de Varianza (ANOVA)
El error puro puede ser estimado mediante el uso de réplicas de medición, lo cual es de especial
interés para medir bondad del ajuste. La varianza del error de medición se puede obtener de la
forma anteriormente vista:
Sumatoria de los
2 errores puros al
𝑆2 = cuadrado
𝐺. 𝐿
Conc. x 1 3 3 4 6 6 7
Vel. y 8 30 33 42 59 60 61
106
Bondad del ajuste
Análisis de Varianza (ANOVA)
Para el ejemplo hay réplicas en x=3 y x=6, de las cuales podemos obtener:
Grados de libertad = 2 +2 - 1 - 1 = 2
Ahora que ya dimensionamos el error puro y los residuos totales, podemos calcular el error
por falta de ajuste. También los grados de libertad.
107
Bondad del ajuste
Análisis de Varianza (ANOVA)
Con los datos calculados podemos hacer una nueva tabla de análisis de varianza
Mientras más grande el error puro, más difícil será obtener un modelo bien ajustado.
Teniendo las varianzas de error por falta de ajuste y por error puro, podemos hacer una
comparación estadística entre ambas varianzas y determinar si se justifica la variabilidad
incluida por el modelo en base a la variabilidad natural del proceso (error puro).
108
Bondad del ajuste
Análisis de Varianza (ANOVA)
Con los datos calculados podemos hacer una nueva tabla de análisis de varianza
Mientras más grande el error puro, más difícil será obtener un modelo bien ajustado.
Teniendo las varianzas de error por falta de ajuste y por error puro, podemos hacer una
comparación estadística entre ambas varianzas y determinar si se justifica la variabilidad
incluida por el modelo en base a la variabilidad natural del proceso (error puro).
109
Bondad del Ajuste
Se define la razón entre las varianzas cómo:
𝑺𝟐𝑬𝑭𝑨 𝝈𝟐𝑬𝑭𝑨
~ 𝟐 𝑭𝒗𝟏 𝒗𝟐
𝑺𝟐𝑬𝑷 𝝈𝑬𝑷
2
𝜎𝐸𝐹𝐴
𝐻1 : 2 > 1
𝜎𝐸𝑃
𝑺𝟐𝑬𝑭𝑨
~𝑭𝒗𝟏 𝒗𝟐
𝑺𝟐𝑬𝑷
111
Funciones estadísticas en Excel 2013
Activación de análisis de datos:
112
Funciones estadísticas en Excel 2013
Elaboración de Histogramas
Una vez activado el complemento ir a la pestaña “Datos” en la parte superior de Excel y seleccionar “Análisis
de datos”, se abrirá una ventana con distintas opciones. Para elaborar un histograma a partir de datos
dispersos, seleccionar la opción “histograma”
Rango de datos
Amplitud del intervalo
113
Funciones estadísticas en Excel 2013
Estadística descriptiva
Una vez activado el complemento ir a la pestaña “Datos” en la parte superior de Excel y seleccionar “Análisis
de datos”, se abrirá una ventana con distintas opciones. Para obtener un resumen de los principales
parámetros estadísticos de los datos seleccionar “estadística descriptiva”.
𝑠
𝑛
𝑠
𝑡𝛼/2,𝑣 ∙
𝑛 114
Funciones estadísticas en Excel 2013
Funciones estadística
Existen diversas funciones estadísticas en Excel siendo las más usadas las siguientes:
115
Funciones estadísticas en Excel 2013
Funciones estadística
Existen diversas funciones estadísticas en Excel siendo las más usadas las siguientes:
116
Funciones estadísticas en Excel 2013
Gráficos de barras de error
117
Funciones estadísticas en Excel 2013
Gráficos de barras de error
118
Funciones estadísticas en Excel 2013
Test de hipótesis para diferencia de medias
Varianza ponderada
Hipótesis nula
Función pivotal
119
Funciones estadísticas en Excel 2013
Matriz de covarianza
120