Anda di halaman 1dari 14

Robustez y outliers

1
Fijmonos en el siguiente histograma con un dato aislado:
2
Robustez

F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a

F
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a

Vemos que tanto el promedio, como la varianza de la distribucin se ven afectadas, perdiendo
representatividad. Fijmonos en la siguiente tabla de datos:
Para este caso, definiremos robustez como la medida en que se ve afectado un indicador por
una medicin anmala . En el set analizado, se digit mal la coma de la cantidad, generando
gran cambio en el promedio, varianza y desviacin estndar, o sea que no son robustas a
anomalas. La mediana e IQR no se vieron afectadas , es decir, si resultan ser robustas.
media mediana var std IQR
5,9 3,6 4,7 5,7 4,8 4,5 4,0 4,4 4,1 2,8 4,5 4,5 0,8 0,9 0,8
5,9 3,6 4,7 57 4,8 4,5 4,0 4,4 4,1 2,8 9,6 4,5 278,3 16,7 0,8
Datos
3
Anmalos u outliers

Las mediciones anmalas, fallas o no representativas, pueden ser muy comunes y afectar de
buena forma las caractersticas del set de datos., as que deben ser descartadas oportunamente
antes de hacer un anlisis ms acabado.
SI LOS DATOS SON ERRONEOS, LAS CONCLUSIONES SERN ERRONEAS
4
Anmalos u outliers

A travs de la STD se suele calcular un lmite superior de la media ms 2 desviaciones estndar y
un lmite inferior de la media menos 2 desviaciones estndar. Todo lo que est fuera de esos
lmites se considera anmalo.
-30
-20
-10
0
10
20
30
40
50
60
1 3 5 7 9
Con anomala
0
1
2
3
4
5
6
7
1 3 5 7 9
Sin anomala
Indicadores antes:
Promedio= 9,6
Desviacin= 16,7
Limite inferior = -24,0
Lmite superior = 42,9
Datos 5,9 3,6 4,7 57 4,8 4,5 4,0 4,4 4,1 2,8
Indicadores despus:
Promedio= 4,3
Desviacin= 0,9
Limite inferior = 6,0
Lmite superior = 4,3
Con indicadores no robustos, quitar outliers modifica los lmites inferior y superior, los cuales
deben ser re calculados y re crear los lmites hasta que ya no se vean outliers.
5
Anmalos u outliers

Con el IQR lo que suele hacerse es definir un lmite superior entre el mnimo de sumarle 1,5*IQR
al Q3 y el valor mximo de entre los datos. Mientras que el lmite inferior ser el mximo entre
el Q1 menos 1,5*IQR y el valor mnimo de entre los datos.
Datos 5,9 3,6 4,7 57 4,8 4,5 4,0 4,4 4,1 2,8
Indicadores:
Min = 2,8
Q1 = 4,0
Med = 4,5
Q3 = 4,8
Max = 57
IQR = 0,8

Frontera inferior:
Max(2,8 y 4 - 0,8*1,5) = 2,8

Frontera superior:
Min(57 y 4,8 + 0,8*1,5) = 6,0
6,0
4,5
4,0
4,8
2,8
57
.
.
.
Hay que notar que el quitar
los outliers del set de datos
no modifica ni el centro ni la
dispersin al usar indicadores
robustos. Es por eso que
hacer este tratamiento es
ms para ganar informacin
que representatividad.
Representatividad de los datos
6
ADIVINA UN NMERO
DEL 1 AL 100
Verosimilitud de un dato
FUISTE CRTICO EN LOS RESULTADOS?
FUE UN PROCESO OBJETIVO?
EL RESULTADO MODIFIC EL PRXIMO EXPERIMENTO?
7
Repetitividad de resultados
Cuando una operacin es repetida los resultados observados rara vez son idnticos,
pueden existir fluctuaciones.
Fluctuaciones:
Ruido Errores Variaciones
Medicin
Anlisis
Muestreo
Cambio de condiciones
Etc
EL ERROR NO PUEDE IGNORARSE, INLCUSO PUEDE CONTENER INFORMACIN
8
Aleatoriedad y probabilidad
Aleatoriedad:
Se dice que una variable es muestreada de manera aleatoria cuando cada elemento
de la poblacin tiene la misma chance de ser seleccionada
Un ejemplo donde la aleatoriedad no se cumple. Por ejemplo, el clima de un da
cualquiera suele depender del clima del da anterior.
En este caso hablamos de la AUTOCORRELACIN
Teorema del lmite central:
Siempre que de una poblacin se extraiga una serie de muestras aleatorias, la
distribucin de esas muestras ser tendiente a una distribucin normal.
Independiente de la distribucin de la muestra de origen
Sea X1, X2, ..., Xn un conjunto de variables aleatorias, independientes e idnticamente
distribuidas con media q y varianza
2
distinta de cero.

Entonces: ) ( Pr lim z z
n
n S
n
n
u = |
.
|

\
|
s


o

9
Repetitividad de resultados
Cuando una operacin es repetida los resultados observados rara vez son idnticos,
pueden existir fluctuaciones.

Precisin: Dispersin de las mediciones.
Exactitud: Cercana al valor real.
*Imgenes de Wikipedia
Preciso y exacto
Preciso
Exacto
10
Ruido y tasas de muestreo
Estado real de la naturaleza
Muestreo cada 1.2T
Muestreo cada 1.0T
Muestreo cada 0.1T
11
Dispersin de promedios muestrales
Recordemos:

Recordamos que la varianza de una poblacin se puede calcular por:


Sin embargo si en vez de todos los datos consideramos solo los promedios de ciertos intervalos
tenemos que:

Donde n
a
representa el numero de elementos en cada intervalo.

2
) (
a a
y V o =
a
a
a
n
y V
2
) (
o
=
78
80
82
84
86
88
90
92
94
0 2 4 6 8 10 12 14 16 18 20
C
o
n
v
e
r
s
i

n
Nmero de experimento
Comparacin de dos tratamientos
Mtodo A Mtodo B
Evidentemente la variabilidad de
los promedios ser menor o igual a
la variabilidad del set de datos
completo.

Y la desviacin estndar queda:
a
a a
n
y V
1
) ( o =
12
Efectos superpuestos
Se ha realizado un estudio respecto de los efectos del alcohol y el caf en el tiempo de reaccin
promedio de un conductor hallndose que:

a) Al beber una taza de caf el tiempo de reaccin disminuye en 0.25 [s]
b) Al beber un vaso de alcohol el tiempo de reaccin aumenta en 0.50 [s]
Analizar [V o F]:

-Si tomo 1 vaso de alcohol y 2 tasas de caf mi tiempo de reaccin no se afectar [s] .

-Si tomo 2 tazas de caf mi tiempo de reaccin disminuir en 0.50 [s] .
-Si tomo 3 vasos de alcohol mi tiempo de reaccin aumentar en 1.50 [s] .
+ =
13
Efectos superpuestos
Se ha realizado un estudio respecto de los efectos del alcohol y el caf en el tiempo de reaccin
promedio de un conductor hallndose que:

a) Al beber una taza de caf el tiempo de reaccin disminuye en 0.25 [s]
b) Al beber un vaso de alcohol el tiempo de reaccin aumenta en 0.50 [s]
Analizar [V o F]:

-Si tomo 1 vaso de alcohol y 2 tasas de caf mi tiempo de reaccin no se afectar [s] F

-Si tomo 2 tazas de caf mi tiempo de reaccin disminuir en 0.50 [s] F
-Si tomo 3 vasos de alcohol mi tiempo de reaccin aumentar en 1.50 [s] F
LOS EFECTOS NO SON ADITIVOS
En general, el efecto de lo que beba depender de lo que haya bebido anteriormente
14

Anda mungkin juga menyukai