cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? todas?
6 5 4 3 2 1 0 0
pgina 2 Presentando los Datos
20
40
60
80
100
cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? el promedio?
2 1.5 1 0.5 0 -0.5 0
pgina 3 Presentando los Datos
20
40
60
80
100
cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? asumo que los datos son normales y le muestro la media ms/menos dos veces la varianza?
3 2 1 0 -1 0
pgina 4 Presentando los Datos
20
40
60
80
100
cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? muestro la mediana y un par de cuantiles?
2 1.5 1 0.5 0 0
pgina 5 Presentando los Datos
20
40
60
80
100
cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? muestro un histograma?
50 40 30 20 10 0 0
pgina 6 Presentando los Datos
cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? muestro un distribucin emprica?
1 0.8 0.6 0.4 0.2 0 0
pgina 7 Presentando los Datos
cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? Qu garantas tengo acerca de la correctitud o sentido de lo que mostr? I.e. El jefe me pregunta y porqu 100 valores? y qu le digo?
pgina 8
Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 9 Presentando los Datos Modelado de Redes de Telecomunicaciones
Histograma
Sean x1,,xn n realizaciones de un experimento Sean m=min{x1,,xn} y M=max{x1,,xn}
Tomo k sub-intervalos (bins) Bi (i=1,,k) de ancho w=(M-m)/k como Bi = ( m+(i-1)w ; m+iw ] La funcin histograma h(x) se define para x Bi como:
pgina 10
Histograma
Dos problemas:
No es suave cuntos bins usar? (o equivalente: qu ancho de bin usar?)
4000 3000
10
2000
1000
1000 0 -5 1500
500
0 5 10
0 -5 800 600
10
1000 400
500 200 0 -5 0 -5
5 300 250
10
10
-5 0
2000
4000
6000
8000
pgina 11
Histograma
Qu es el histograma?
Sean X1,,Xn V.A. iid con densidad f(x) y x1,,xn una realizacin Si x est en Bi entonces h(x)/n -> P(XiBi) f(x)w Por lo tanto h(x) no es ms que una aproximacin tosca de la densidad (a excepcin del re-escalado)
10
-5 0
2000
4000
6000
8000
0.1
Ejemplo: estimacin por kernels (donde K(x) puede ser por ejemplo la campana de Gauss o un rectngulo de ancho h)
0.1
0 -5
pgina 12
Distribucin Emprica
La distribucin emprica Fn(x) de los valores x1,,xn se define como:
6 5 4 3 2 1 0 0 20 40 60 80 100
Sean X1,,Xn V.A. iid con distribucin F(x) y x1,,xn una realizacin
pgina 13
Distribucin Emprica
Sean X1,,Xn V.A. iid con distribucin F(x) y x1,,xn una realizacin
Por lo general es preferible utilizar la ECDF que una estimacin de densidades pues la primera no tiene parmetros
pgina 14 Presentando los Datos Modelado de Redes de Telecomunicaciones
Comparacin de Distribuciones
Hasta ahora venamos comparando distribuciones graficando sus distribuciones
qu
fX fY
-2
-1
Comparacin de Distribuciones
Para una comparacin visual de las distribuciones es mejor el QQ plot La idea es graficar para ciertos valores de q el valor del cuantil de orden q de las dos distribuciones (qX,qY) Si las distribuciones son iguales (salvo un re-escalado y/o una traslacin) entonces los puntos debera seguir una recta
QQ Plot of Sample Data versus Standard Normal 5 Quantiles of Input Sample
-5 -4
pgina 16
Comparacin de Distribuciones
En realidad, su uso ms corriente es para:
Comparar
0 -2 -4 -4
-2
0
X Quantiles
pgina 17
Comparacin de Distribuciones
En realidad, su uso ms corriente es para:
Comparar
una muestra para ver si proviene de una distribucin dada En este caso se grafica (x(i) , E{X(i)}) E{X(i)}? Una buena aproximacin si F (la distribucin de X) es creciente es F-1(i/(n+1)) QQ Plot of Sample Data versus Standard Normal 4 Ejemplo: una muestra normal 2
0 -2 -4 -4
pgina 18
Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 19 Presentando los Datos Modelado de Redes de Telecomunicaciones
Media
En vez de mostrar todos los datos o de mostrar toda la distribucin, muchas veces es necesario algo ms concreto
Un
pgina 20
Media y Varianza
Sean X1,,Xn V.A.
La
La
varianza emprica se define (ver en el prctico el porqu de estas dos definiciones y porqu sn2 es mejor):
IMPORTANTE: notar que estos indicadores son V.A. y por lo tanto son aleatorios
pgina 21 Presentando los Datos Modelado de Redes de Telecomunicaciones
Media y Varianza
Ejemplo: la media emprica
En
Adems,
pgina 22
Media y Varianza
Al respecto del n grande y la aplicacin del TCL
Xi
~ Ber(p) (P(Xi =1)=p; P(Xi =0)=1-p) 1000 muestras para hacer el promedio (n=1000)
p=0.5
1000
p=0.005
1000
-5 -4
-2
0
Standard Normal Quantiles
-5 -4
-2
0
Standard Normal Quantiles
pgina 23
Mediana y Cuantiles
Sean X1,,Xn V.A. y X(1),,X(n) las mismas V.A. ordenadas de menor a mayor El cuantil emprico de rden q se define como
pgina 24
Ejemplos grficos
El mismo benchmarking sobre dos procesadores
10 8 6 4 2 0 0 20 40 60 80 10 8 6 4 2 0 100 0 20 40 60 80 100
pgina 25
Histogramas
40 30 20 20 10 0 0 10 2 4 6 8 0 10 0 2 4 6 8 10 50 40 30
pgina 26
ECDFs
1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10
pgina 27
Boxplots
Outliers
Valores
8 6 4
cuantil 0.75
mediana
2 0
mximo mnimo
1 Procesador
cuantil 0.25
pgina 28
Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 29 Presentando los Datos Modelado de Redes de Telecomunicaciones
Intervalos de Confianza
Imaginemos que tenemos un montn de datos y nos decidimos a mostrar a modo de resumen la media Asumamos que estos n nmeros fueron generados por n V.A. iid X1,,Xn
En
realidad idealmente quisiramos mostrar E{X1} Sabemos que la mejor aproximacin es el promedio Xi/n Pero tambin sabemos que el promedio es otra V.A. Dos preguntas:
Qu tan cerca est el promedio de la esperanza? A partir de X1,,Xn podemos calcular un intervalo en el cual la esperanza se encuentre con alta probabilidad?
pgina 30
Intervalos de Confianza
Ms en general
Sean X1,,Xn n V.A. iid con distribucin F() Un intervalo de confianza de nivel para el parmetro m es un intervalo de la forma (u(X1,,Xn),v(X1,,Xn)) tal que:
Intervalos de Confianza
Un primer caso sencillo: Intervalo de confianza para la esperanza
Sean X1,,Xn n V.A. iid con distribucin F() tal que existen la esperanza y la desviacin estndar Sabemos que si n es suficientemente grande (ver prctico):
pgina 32
Intervalos de Confianza
Un segundo caso no tan sencillo: Intervalo de confianza para la varianza
Sean X1,,Xn n V.A. iid con distribucin N0,1 Se puede probar que:
Es la distribucin de la V.A. definida como la suma de n V.A. iid normales elevadas al cuadrado Es la distribucin de la V.A. definida como X/sqrt(Y/n) con X normal, Y chicuadrado con n grados de libertad y ambas independientes
pgina 33
Intervalos de Confianza
Cmo saber si la distribucin F() tiene esperanza y/o varianza si no la conozco a priori? Siempre que sea posible, es mejor utilizar cuantiles
Sean X1,,Xn n V.A. iid con distribucin F() tal que F() tiene densidad y X(1), ,X(n) los estadsticos de orden
Sea q el cuantil de orden q => F(q)=q Un intervalo de confianza de nivel para q es:
(X(j),X(k))
Donde j y k satisfacen
X ~ Binn,q se denomina binomial de parmetros n y q, definida como X=Yi (i=1, ,n) con P(Yi=1)=q y P(Yi=0)=1-q (Yi independientes)
Intervalos de Confianza
Ejemplo: X1,,Xn n V.A. iid con distribucin N0,1
Para la media Para la mediana (cuando nq y n(1-q) son grandes se puede aproximar la distribucin binomial por una normal Nnq,np(1-q) )
10
4
N de observaciones
10
10 -0.6
pgina 35
-0.4
-0.2
0.2
0.4
Intervalos de Confianza
Ejemplo: X1,,Xn n V.A. iid con distribucin Cauchy0,1
Para la media (creyndome equivocadamente que los datos son normales) Para la mediana (cuando nq y n(1-q) son grandes se puede aproximar la distribucin binomial por una normal Nnq,np(1-q) )
10
4
10
N de observaciones
10
N de observaciones
10
10 -300
-200
-100
100
200
300
10 -1
-0.5
0.5
pgina 36
Intervalos de Confianza
Sean X1,,Xn n V.A. iid y x1,,xn una realizacin Asumamos que queremos calcular un I. de C. de un estadstico t(X1,,Xn) pero cuya distribucin no sabemos calcular
Posible idea 2: si tuviramos R muestras de las V.A. X1r,,Xnr (r=1,,R) tales que se distribuyen como X1,,Xn podramos generar R muestras de t(X1,,Xn) evaluando t(X1r,,Xnr)
Resampling:
Una muestra de X1r,,Xnr se puede generar sorteando con repeticin n valores de x1,,xn
Intervalos de Confianza
Ejemplo: tengo diez muestras de la duracin en meses de un cierto equipo
x = [4 3 0 14 10 2 39 0 9 16] Asumo que responden al modelo que venimos trabajando hasta ahora (i.e. son la realizacin de n V.A. iid X1,,Xn) Quisiera un intervalo de confianza para la duracin promedio a nivel 0.95
Los datos no son normales y adems no puedo aplicar la aproximacin normal porque no tengo suficientes muestras No me interesa la mediana, quiero la media
Genero R=999 muestras con resampling (e.g. xr=[0 4 0 4 9 39 0 0 9 10]), lo que me genera R=999 muestras del promedio (e.g. tr=7.5) Histograma de t Una estimacin de un I. de C. a nivel es: 60
(t((1-)R/2) , t(R/2))
50 40 30 20 10 0 0 5 10 15 20 25
pgina 38
Intervalos de Confianza
Algoritmo de bootstrap para intervalos de confianza de un estadstico t(X1,,Xn) con X1,,Xn n V.A. iid y x1,,xn una realizacin
Parmetros:
r0 (e.g. r0=25) y
pgina 39
Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 40 Presentando los Datos Modelado de Redes de Telecomunicaciones
Intervalos de Prediccin
Quiz no se hayan dado cuenta, pero lo que estimamos con bootstrap no fue un intervalo de confianza
Intervalos de Prediccin
Definicin:
Sean X1,,Xn,Xn+1 n+1 V.A. (no necesariamente iid) Un intervalo de prediccin de nivel g para Xn+1 es un intervalo de la forma (u(X1,,Xn),v(X1,,Xn)) tal que:
Por lo tanto para 2/(n+1) el intervalo [X((n+1)/2),X((n+1)(1-/2))] es un intervalo de prediccin de nivel al menos =1-
Presentando los Datos Modelado de Redes de Telecomunicaciones
pgina 42
Intervalos de prediccin
Hay resultados ms poderosos que el anterior
Por
ejemplo si puedo asumir que los datos son iid y adems normales
realizo muchas realizaciones de Xn+1, sta estar al menos veces dentro del intervalo de prediccin
Caso iid
Las
Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 44 Presentando los Datos Modelado de Redes de Telecomunicaciones
Comentarios Finales
Todas las tcnicas mencionadas necesitan iid-ismo Cmo hago que los datos sean iid?
Si controlo el experimento (como en una simulacin) est en m lograr que los datos sean iid
Por ejemplo, si es una simulacin tengo que generar los resultados mediante tiradas independientes en el generador aleatorio Si por ejemplo estoy midiendo cunto demora un servidor ante un conjunto de pedidos, tengo que elegir en cada experimento el pedido al azar con reposicin
Si NO controlo el experimento (e.g. son medidas de campo) difcilmente los datos sean iid
Por lo general aleatorizando las medidas se corrige el problema Ejemplo: medidas del tiempo de atencin de pedidos http en un servidor web
Probablemente los tiempos de atencin estn muy correlacionados en el tiempo Puedo generar un conjunto nuevo tomando cada medida con probabilidad p (si sigue sin ser independientes genero uno nuevo con una p menor que la anterior)
pgina 45
Comentarios Finales
Cmo verifico que mis datos hayan sido generadas por V.A. iid?
Lag-Plots
Una grfica de (xi,xi-k) para varios valores de k Si son independientes no se deberan ver tendencias en las curvas Las prximas clases
Tests
Qu pasa si calculo un intervalo de confianza pensando que fueron generadas por una V.A. iid y no es verdad?
Si
los datos no son independientes y el calculo asume que s, el intervalo de confianza resultante va a ser ms pequeo de lo que un intervalo correcto sera
pgina 46
Comentarios Finales
Hiptesis para el intervalos de confianza de la media
Cmo saber si mi n es suficientemente grande? Cmo saber si F() tiene esperanza y varianza finitas? Lo que se requiere en realidad es que
Tengo solo una muestra del promedio Cmo obtengo su distribucin? Bootstrap! Verifico que tenga distribucin normal (sin importar la media o la varianza)
25 20 15 10 5 0 -5 -4 -2 0
Standard Normal Quantiles
pgina 47