Anda di halaman 1dari 47

Presentando los Datos

Modelado y Anlisis de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? todas?
6 5 4 3 2 1 0 0
pgina 2 Presentando los Datos

20

40

60

80

100

Modelado de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? el promedio?
2 1.5 1 0.5 0 -0.5 0
pgina 3 Presentando los Datos

20

40

60

80

100

Modelado de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? asumo que los datos son normales y le muestro la media ms/menos dos veces la varianza?
3 2 1 0 -1 0
pgina 4 Presentando los Datos

20

40

60

80

100

Modelado de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? muestro la mediana y un par de cuantiles?
2 1.5 1 0.5 0 0
pgina 5 Presentando los Datos

20

40

60

80

100

Modelado de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? muestro un histograma?
50 40 30 20 10 0 0
pgina 6 Presentando los Datos

Modelado de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? muestro un distribucin emprica?
1 0.8 0.6 0.4 0.2 0 0
pgina 7 Presentando los Datos

Modelado de Redes de Telecomunicaciones

Presentando los Datos


Estoy haciendo el benchmarking de un procesador
Ejecuto

cien veces la misma serie de operaciones y mido el tiempo que demora en ejecutarlas qu le muestro a mi jefe? Qu garantas tengo acerca de la correctitud o sentido de lo que mostr? I.e. El jefe me pregunta y porqu 100 valores? y qu le digo?

pgina 8

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 9 Presentando los Datos Modelado de Redes de Telecomunicaciones

Histograma
Sean x1,,xn n realizaciones de un experimento Sean m=min{x1,,xn} y M=max{x1,,xn}
Tomo k sub-intervalos (bins) Bi (i=1,,k) de ancho w=(M-m)/k como Bi = ( m+(i-1)w ; m+iw ] La funcin histograma h(x) se define para x Bi como:

i.e. la cantidad de datos que cayeron en el i-simo bin


6 5 4 3 2 1 0 0 20 40 60 80 100 20 10 0 0 2 4 6 50 40 30

pgina 10

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Histograma
Dos problemas:
No es suave cuntos bins usar? (o equivalente: qu ancho de bin usar?)

4000 3000

2500 2000 1500

10

2000

1000
1000 0 -5 1500

500
0 5 10

0 -5 800 600

10

1000 400

500 200 0 -5 0 -5

5 300 250

10

10

-5 0

2000

4000

6000

8000

200 150 100 50 0 -5 0 5 10

pgina 11

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Histograma
Qu es el histograma?
Sean X1,,Xn V.A. iid con densidad f(x) y x1,,xn una realizacin Si x est en Bi entonces h(x)/n -> P(XiBi) f(x)w Por lo tanto h(x) no es ms que una aproximacin tosca de la densidad (a excepcin del re-escalado)

10

-5 0

2000

4000

6000

8000

0.1

Existen otras tcnicas ms sofisticadas para 0.05 estimar la densidad de Xi

Ejemplo: estimacin por kernels (donde K(x) puede ser por ejemplo la campana de Gauss o un rectngulo de ancho h)
0.1

f(x) f(x) (est. hist) 0 5 10

0 -5

0.05 f(x) (est. kernel) f(x) 0 -5 0 5 10

pgina 12

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Distribucin Emprica
La distribucin emprica Fn(x) de los valores x1,,xn se define como:

6 5 4 3 2 1 0 0 20 40 60 80 100

1 0.8 0.6 0.4 0.2 0 0 2 4 6

Sean X1,,Xn V.A. iid con distribucin F(x) y x1,,xn una realizacin

pgina 13

Entonces Fn(x) es una estimacin de la funcin de distribucin de Xi


Presentando los Datos Modelado de Redes de Telecomunicaciones

Distribucin Emprica
Sean X1,,Xn V.A. iid con distribucin F(x) y x1,,xn una realizacin

Entonces Fn(x) es una estimacin de la funcin de distribucin de Xi

Esto se justifica por el teorema de Glivenko-Cantelli

Prueba parcial (Porqu no es completa?):

Por lo general es preferible utilizar la ECDF que una estimacin de densidades pues la primera no tiene parmetros
pgina 14 Presentando los Datos Modelado de Redes de Telecomunicaciones

Comparacin de Distribuciones
Hasta ahora venamos comparando distribuciones graficando sus distribuciones
qu

tiene de malo? E.g. X=(X1+X2)/2 con Xi~U[-2.45,2.45] e Y~N0,1


1 0.8 0.6 0.4 0.2 0 -3
pgina 15

fX fY

-2

-1

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Comparacin de Distribuciones
Para una comparacin visual de las distribuciones es mejor el QQ plot La idea es graficar para ciertos valores de q el valor del cuantil de orden q de las dos distribuciones (qX,qY) Si las distribuciones son iguales (salvo un re-escalado y/o una traslacin) entonces los puntos debera seguir una recta
QQ Plot of Sample Data versus Standard Normal 5 Quantiles of Input Sample

-5 -4

-2 0 2 Standard Normal Quantiles

pgina 16

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Comparacin de Distribuciones
En realidad, su uso ms corriente es para:
Comparar

dos muestras a ver si provienen de la misma distribucin


Sean x(1),,x(n) los valores de x1,,xn ordenados de menor a mayor Para comparar dos muestras se grafica (x(i) ,y(i)) para i=1,,n La idea es que x(i) ,y(i) son buenas estimaciones del mismo cuantil 4 Ejemplo: dos muestras normales (atencin que en este caso hay que ser ms 2 tolerante con las desviaciones de la recta)
Y Quantiles

0 -2 -4 -4

-2

0
X Quantiles

pgina 17

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Comparacin de Distribuciones
En realidad, su uso ms corriente es para:
Comparar

Quantiles of Input Sample

una muestra para ver si proviene de una distribucin dada En este caso se grafica (x(i) , E{X(i)}) E{X(i)}? Una buena aproximacin si F (la distribucin de X) es creciente es F-1(i/(n+1)) QQ Plot of Sample Data versus Standard Normal 4 Ejemplo: una muestra normal 2
0 -2 -4 -4

-2 0 2 Standard Normal Quantiles

pgina 18

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 19 Presentando los Datos Modelado de Redes de Telecomunicaciones

Media
En vez de mostrar todos los datos o de mostrar toda la distribucin, muchas veces es necesario algo ms concreto
Un

valor representativo y su variabilidad alrededor de l Dos candidatos


Media y varianza Mediana y cuantiles

pgina 20

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Media y Varianza
Sean X1,,Xn V.A.
La

media emprica se define:

La

varianza emprica se define (ver en el prctico el porqu de estas dos definiciones y porqu sn2 es mejor):

IMPORTANTE: notar que estos indicadores son V.A. y por lo tanto son aleatorios
pgina 21 Presentando los Datos Modelado de Redes de Telecomunicaciones

Media y Varianza
Ejemplo: la media emprica
En

el caso que X1,,Xn tengan esperanza y sean para todas la misma:

Adems,

si n es suficientemente grande, X1, ,Xn son iid y tienen varianza 2 finita:

pgina 22

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Media y Varianza
Al respecto del n grande y la aplicacin del TCL
Xi

~ Ber(p) (P(Xi =1)=p; P(Xi =0)=1-p) 1000 muestras para hacer el promedio (n=1000)
p=0.5
1000

p=0.005
1000

Quantiles of Input Sample

Quantiles of Input Sample

-5 -4

-2

0
Standard Normal Quantiles

-5 -4

-2

0
Standard Normal Quantiles

pgina 23

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Mediana y Cuantiles
Sean X1,,Xn V.A. y X(1),,X(n) las mismas V.A. ordenadas de menor a mayor El cuantil emprico de rden q se define como

Ejemplo: la mediana emprica


Si

n es par => n,0.5=(Xn/2+X(n+1)/2)/2 Si n es impar => n,0.5=X(n+1)/2

pgina 24

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Ejemplos grficos
El mismo benchmarking sobre dos procesadores
10 8 6 4 2 0 0 20 40 60 80 10 8 6 4 2 0 100 0 20 40 60 80 100

pgina 25

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Histogramas
40 30 20 20 10 0 0 10 2 4 6 8 0 10 0 2 4 6 8 10 50 40 30

pgina 26

Presentando los Datos

Modelado de Redes de Telecomunicaciones

ECDFs
1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10

pgina 27

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Boxplots

Outliers
Valores

8 6 4

cuantil 0.75

mediana
2 0

mximo mnimo

1 Procesador

cuantil 0.25

pgina 28

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 29 Presentando los Datos Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Imaginemos que tenemos un montn de datos y nos decidimos a mostrar a modo de resumen la media Asumamos que estos n nmeros fueron generados por n V.A. iid X1,,Xn
En

realidad idealmente quisiramos mostrar E{X1} Sabemos que la mejor aproximacin es el promedio Xi/n Pero tambin sabemos que el promedio es otra V.A. Dos preguntas:

Qu tan cerca est el promedio de la esperanza? A partir de X1,,Xn podemos calcular un intervalo en el cual la esperanza se encuentre con alta probabilidad?

ATENCIN: A partir de X1,,Xn solamente (nada sabemos por ejemplo de F())

pgina 30

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Ms en general

Sea m un parmetro de la distribucin F() cualquiera (la esperanza, la varianza, etc.)

F() se asume fijo pero desconocido (por lo tanto tambin m)

Sean X1,,Xn n V.A. iid con distribucin F() Un intervalo de confianza de nivel para el parmetro m es un intervalo de la forma (u(X1,,Xn),v(X1,,Xn)) tal que:

REPITO: m es fijo, lo aleatorio es el intervalo


Imaginen que s calcular un intervalo de confianza a nivel 0.95 para la esperanza Genero 1000 realizaciones de las n V.A. X1,,Xn (con X1 ~U[0,1]) y a cada una le calculo el intervalo Cuntos de esos intervalos contendrn a 0.5?

pgina 31 Presentando los Datos Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Un primer caso sencillo: Intervalo de confianza para la esperanza
Sean X1,,Xn n V.A. iid con distribucin F() tal que existen la esperanza y la desviacin estndar Sabemos que si n es suficientemente grande (ver prctico):

Entonces UN POSIBLE intervalo de confianza de nivel para la media es:

pgina 32

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Un segundo caso no tan sencillo: Intervalo de confianza para la varianza
Sean X1,,Xn n V.A. iid con distribucin N0,1 Se puede probar que:

2n se llama distribucin chi-cuadrado con n grados de libertad

Es la distribucin de la V.A. definida como la suma de n V.A. iid normales elevadas al cuadrado Es la distribucin de la V.A. definida como X/sqrt(Y/n) con X normal, Y chicuadrado con n grados de libertad y ambas independientes

tn se llama distribucin de t-student

Entonces UN POSIBLE I. de C. de nivel para la varianza es:

pgina 33

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Cmo saber si la distribucin F() tiene esperanza y/o varianza si no la conozco a priori? Siempre que sea posible, es mejor utilizar cuantiles

Cmo calcular intervalos de confianza para los cuantiles?

Sean X1,,Xn n V.A. iid con distribucin F() tal que F() tiene densidad y X(1), ,X(n) los estadsticos de orden
Sea q el cuantil de orden q => F(q)=q Un intervalo de confianza de nivel para q es:

(X(j),X(k))
Donde j y k satisfacen

X ~ Binn,q se denomina binomial de parmetros n y q, definida como X=Yi (i=1, ,n) con P(Yi=1)=q y P(Yi=0)=1-q (Yi independientes)

Ejemplo: I. de C. de nivel 0.95 para la mediana con n=10 es ( X(2),X(9))


pgina 34 Presentando los Datos Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Ejemplo: X1,,Xn n V.A. iid con distribucin N0,1

Dos intervalos de confianza a nivel 0.95


Para la media Para la mediana (cuando nq y n(1-q) son grandes se puede aproximar la distribucin binomial por una normal Nnq,np(1-q) )
10
4

N de observaciones

I.C. mediana I.C. media

10

10 -0.6
pgina 35

-0.4

-0.2

0.2

0.4

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Ejemplo: X1,,Xn n V.A. iid con distribucin Cauchy0,1

Dos intervalos de confianza a nivel 0.95

Para la media (creyndome equivocadamente que los datos son normales) Para la mediana (cuando nq y n(1-q) son grandes se puede aproximar la distribucin binomial por una normal Nnq,np(1-q) )
10
4

10

N de observaciones

10

N de observaciones

10

I.C. mediana I.C. media

I.C. mediana I.C. media

10 -300

-200

-100

100

200

300

10 -1

-0.5

0.5

pgina 36

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Sean X1,,Xn n V.A. iid y x1,,xn una realizacin Asumamos que queremos calcular un I. de C. de un estadstico t(X1,,Xn) pero cuya distribucin no sabemos calcular

Posible idea: estimar la distribucin de t(X1,,Xn) a travs de su emprica

Problema: Tenemos solo una muestra de t(X1,,Xn) (t(x1,,xn))

Posible idea 2: si tuviramos R muestras de las V.A. X1r,,Xnr (r=1,,R) tales que se distribuyen como X1,,Xn podramos generar R muestras de t(X1,,Xn) evaluando t(X1r,,Xnr)

Problema:cmo generar las R muestras X1r,,Xnr? Posible respuesta: resampling!

Resampling:

Una muestra de X1r,,Xnr se puede generar sorteando con repeticin n valores de x1,,xn

Lo que acabamos de describir es bsicamente el mtodo de bootstrap


pgina 37 Presentando los Datos Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Ejemplo: tengo diez muestras de la duracin en meses de un cierto equipo
x = [4 3 0 14 10 2 39 0 9 16] Asumo que responden al modelo que venimos trabajando hasta ahora (i.e. son la realizacin de n V.A. iid X1,,Xn) Quisiera un intervalo de confianza para la duracin promedio a nivel 0.95

Los datos no son normales y adems no puedo aplicar la aproximacin normal porque no tengo suficientes muestras No me interesa la mediana, quiero la media

Genero R=999 muestras con resampling (e.g. xr=[0 4 0 4 9 39 0 0 9 10]), lo que me genera R=999 muestras del promedio (e.g. tr=7.5) Histograma de t Una estimacin de un I. de C. a nivel es: 60

(t((1-)R/2) , t(R/2))

50 40 30 20 10 0 0 5 10 15 20 25

i.e. un intervalo conteniendo R de las muestras de tr (en este caso (3.8,18))

pgina 38

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Intervalos de Confianza
Algoritmo de bootstrap para intervalos de confianza de un estadstico t(X1,,Xn) con X1,,Xn n V.A. iid y x1,,xn una realizacin
Parmetros:

r0 (e.g. r0=25) y

pgina 39

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 40 Presentando los Datos Modelado de Redes de Telecomunicaciones

Intervalos de Prediccin
Quiz no se hayan dado cuenta, pero lo que estimamos con bootstrap no fue un intervalo de confianza

Calculamos un intervalo para el cual:

Un intervalo de confianza hubiera sido por ejemplo un intervalo tal que:

Lo primero se denomina intervalo de prediccin


Es una medida de la variabilidad de t(X1,,Xn) En cambio, un intervalo de confianza es una medida de la precisin en mi estimacin de E{t(X1,,Xn)}

pgina 41 Presentando los Datos Modelado de Redes de Telecomunicaciones

Intervalos de Prediccin
Definicin:
Sean X1,,Xn,Xn+1 n+1 V.A. (no necesariamente iid) Un intervalo de prediccin de nivel g para Xn+1 es un intervalo de la forma (u(X1,,Xn),v(X1,,Xn)) tal que:

Teorema (caso iid):


Sean X1,,Xn,Xn+1 n+1 V.A. iid con distribucin F() tal que F() tiene densidad Sean X(1),,X(n) los estadsticos de orden de X1,,Xn Entonces para 1jkn:

Por lo tanto para 2/(n+1) el intervalo [X((n+1)/2),X((n+1)(1-/2))] es un intervalo de prediccin de nivel al menos =1-
Presentando los Datos Modelado de Redes de Telecomunicaciones

pgina 42

Intervalos de prediccin
Hay resultados ms poderosos que el anterior
Por

ejemplo si puedo asumir que los datos son iid y adems normales

De todas formas es importante quedarse con el significado del intervalo de prediccin


Si

realizo muchas realizaciones de Xn+1, sta estar al menos veces dentro del intervalo de prediccin

Caso iid
Las

Xi me ayudan a predecir Xn+1 Contradiccin?


pgina 43 Presentando los Datos Modelado de Redes de Telecomunicaciones

Agenda
Histogramas y distribuciones empricas (Media,Varianza) y (Mediana,Cuantiles) Intervalos de Confianza Intervalos de Prediccin Comentario Finales
pgina 44 Presentando los Datos Modelado de Redes de Telecomunicaciones

Comentarios Finales
Todas las tcnicas mencionadas necesitan iid-ismo Cmo hago que los datos sean iid?

Si controlo el experimento (como en una simulacin) est en m lograr que los datos sean iid

Por ejemplo, si es una simulacin tengo que generar los resultados mediante tiradas independientes en el generador aleatorio Si por ejemplo estoy midiendo cunto demora un servidor ante un conjunto de pedidos, tengo que elegir en cada experimento el pedido al azar con reposicin

Si NO controlo el experimento (e.g. son medidas de campo) difcilmente los datos sean iid

Por lo general aleatorizando las medidas se corrige el problema Ejemplo: medidas del tiempo de atencin de pedidos http en un servidor web

Probablemente los tiempos de atencin estn muy correlacionados en el tiempo Puedo generar un conjunto nuevo tomando cada medida con probabilidad p (si sigue sin ser independientes genero uno nuevo con una p menor que la anterior)

pgina 45

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Comentarios Finales
Cmo verifico que mis datos hayan sido generadas por V.A. iid?
Lag-Plots

Una grfica de (xi,xi-k) para varios valores de k Si son independientes no se deberan ver tendencias en las curvas Las prximas clases

Tests

Qu pasa si calculo un intervalo de confianza pensando que fueron generadas por una V.A. iid y no es verdad?
Si

los datos no son independientes y el calculo asume que s, el intervalo de confianza resultante va a ser ms pequeo de lo que un intervalo correcto sera

pgina 46

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Comentarios Finales
Hiptesis para el intervalos de confianza de la media
Cmo saber si mi n es suficientemente grande? Cmo saber si F() tiene esperanza y varianza finitas? Lo que se requiere en realidad es que

Quantiles of Input Sample

Tengo solo una muestra del promedio Cmo obtengo su distribucin? Bootstrap! Verifico que tenga distribucin normal (sin importar la media o la varianza)

QQ Plot of Sample Data versus Standard Normal

25 20 15 10 5 0 -5 -4 -2 0
Standard Normal Quantiles

Ejemplo de la duracin de los productos (x = [4 3 0 14 10 2 39 0 9 16])

pgina 47

Presentando los Datos

Modelado de Redes de Telecomunicaciones

Anda mungkin juga menyukai