x o P
x .
Ecuacin A.22
El percentil 50 (P
50
o x
50%
) es la conocida mediana de una distribucin.
125
FIGURA 72. Percentiles
Fuente. Gerencia de Incertidumbre.
A.2.2.1.2.4 INTERVALO DE CONFIANZA
Cuando se hacen estimaciones o pronsticos de variables aleatorias, esta
estimacin bsicamente consiste en primera instancia en determinar la distribucin
de probabilidades que representa a la variable de inters. En estos casos, la
estimacin no debe expresarse como un solo valor estimado, (para lo cual
normalmente se utiliza el valor ms probable o la media de la distribucin);
sino que tambin debe incluirse la precisin de esa estimacin.
Una forma conveniente de expresar la precisin consiste en especificar unos
lmites que, con una probabilidad dada, incluyan el valor verdadero de la variable.
Dichos lmites se denominan "lmites de confianza", es decir, son lmites que
abarcan un intervalo dentro del cual puede decirse que se encuentra el valor
verdadero con un cierto grado de confianza. Cuanto ms distantes estn los
lmites entre s, tanto mayor ser la probabilidad de que incluyan el valor
126
verdadero, pero ms amplio ser el rango de variacin. El intervalo comprendido
entre ambos lmites se denomina intervalo de confianza.
En la Figura A.10, los valores x
a
y x
b
representan los lmites de confianza; y la
probabilidad representan el grado de confianza o probabilidad de que el valor
verdadero de la variable X se encuentre en el intervalo entre x
a
y x
b
.
La probabilidad se denomina, tambin, coeficiente de confianza o nivel de
confianza. Al decidir cul es el nivel de confianza que se utilizar, se debe
comprender que el objetivo principal del intervalo de confianza es comunicar el
margen de error que puede tener nuestra estimacin. Este margen de error se
denota como y se muestra en la Figura A.10 representado por el rea rayada.
Un nivel de confianza del 95 % significa que se puede tener un error del 5 %.
Ecuacin A.23
FIGURA 73. Intervalos de Confianza
Fuente. Gerencia de Incertidumbre.
127
Existen tres formas tpicas para expresar una estimacin sobre una variable
random o aleatoria:
1. - La distribucin probabilstica completa: (Ejemplo)
FIGURA 74. Ejemplo de Estimacin
Fuente. Gerencia de Incertidumbre.
2.- Un rango de variacin de la variable con su grado de certeza:
Ejemplo: X vara entre x
a
y x
b
con (
.100) % de certeza
3.- Un estimado puntual (la media o la moda de la distribucin):
Ejemplo: X=
Las formas 1 y 2 ofrecen informacin ms fidedigna de la realidad
A.2.3 DISTRIBUCIONES PARMETRICAS
Las distribuciones paramtricas de probabilidad son funciones matemticas
tericas, que describen la forma en que se espera que varen los resultados de un
experimento, es decir, funciones matemticas que relacionan los diversos
probables valores que puede tomar una variable aleatoria, con la probabilidad de
ocurrencia de cada uno de ellos. Debido a que estas distribuciones tratan sobre
f(x)
X
x
b
x
a
f(x
b
)
f(x
a
)
2 / 2 /
2
t
t
) x ln(
2
1
t
e
2 x
1
) x ( f
=
128
expectativas de que algo suceda, resultan ser modelos tiles para hacer
inferencias y para tomar decisiones en condiciones de incertidumbre.
Existen muchas distribuciones paramtricas de probabilidad de amplio uso en todo
tipo de anlisis de confiabilidad y riesgo, tanto para variables discretas como para
variables continuas. A continuacin se analizarn las ms conocidas:
Distribuciones para Variables Aleatorias: Continuas:
Distribucin Normal, Distribucin Lognormal, Distribucin Exponencial, Distribucin
Weibull, Distribucin Beta, Distribucin Gamma, Distribucin Triangular,
Distribucin Uniforme, Distribucin de Valor Extremo.
Distribuciones para Variables Aleatorias Discretas:
Distribucin Binomial, Distribucin de Poisson, Distribucin Hipergonomtrica,
Distribucin Geomtrica.
A.2.3.1 DISTRIBUCIONES PARA VARIABLES ALEATORIAS CONTINUAS
Es una de las ms conocidas de las distribuciones, y se puede reconocer por su
forma de campana simtrica. Tambin es conocida como Campana de Gauss o
distribucin Gaussiana
Sus parmetros son: Media y Desviacin Estndar
Hay tres condiciones observables en las variables que siguen la distribucin
normal:
a.- El valor ms probable de la variable es el valor central, promedio, average o
media de la distribucin
129
b.- La variable podra, indistintamente, tomar un valor por debajo o por encima de
la media (Simetra alrededor de la media).
c.- Es ms probable que la variable tome un valor cerca de la media que lejos de
ella (De los valores de una distribucin normal, aproximadamente el 68 % estn
dentro del rango de una desviacin estndar alrededor de la media).
Variables aleatorias asociadas a fenmenos naturales (altura de los humanos,
coeficiente intelectual, peso, promedio de lluvias por temporada etc.) siguen la
distribucin normal.
Los errores de medicin, porcentaje de defectos por unidad producida tambin
siguen la distribucin normal
Las variables aleatorias que resultan de la suma de varias variables aleatorias
siguen la distribucin normal.
En la industria petrolera, variables que resultan de la suma de otras variables
tales como estimados de produccin por campo (suma de las producciones
individuales por pozo), sumas totales de costos e inversiones, siguen la
distribucin normal. Adicionalmente, es frecuente observar que variables como
porosidad, factor de volumen, tasas de declinacin y saturacin sean
relativamente simtricas respecto a la media y puedan modelarse con la
distribucin normal.
A.2.3.1.1 Distribucin Normal:
130
FIGURA 75. Distribucin Normal
Fuente. Gerencia de Incertidumbre.
Distribucin de Densidad de Probabilidad: f(x)
Distribucin de Probabilidad Acumulada: F(x)
Esta integral no tiene solucin analtica; por lo tanto, para hallar valores de F(x), se
usa una solucin numrica o por tablas.
131
Para hallar ) Z ( debe utilizarse la Tabla A.1, conocida como tabla de la
distribucin normal estndar, entrando a dicha tabla con el valor calculado de Z.
Parmetros:
Percentiles:
FIGURA 76. Percentiles de la Distribucin Normal
Fuente. Gerencia de Incertidumbre.
Se conoce como percentil de una distribucin de probabilidades, al valor de la
variable aleatoria denotado como
x o P
2
t
t
) x l n (
2
1
t
e
2 x
1
) x ( f
=
133
Los parmetros de la distribucin Lognormal son: La media logartmica
t
y la
desviacin estndar logartmica
t
Hay cuatro caractersticas de las variables que siguen la distribucin Lognormal:
a.- La variable puede crecer sin lmite, pero no puede tomar valores negativos
b.- La variable muestra un alto sesgo o tendencia hacia los valores mnimos.
c.- La variable puede ser muy dispersa, y sus probables valores pueden variar
hasta en rdenes de magnitud
d.- El logaritmo natural de los valores dar como representacin grfica una curva
normal.
Muchas variables fsicas y procesos de deterioro pueden ser representados con la
distribucin Lognormal.
Las variables aleatorias que resultan de la multiplicacin o producto de varias
variables aleatorias siguen la distribucin Lognormal. Por ejemplo, en la industria
petrolera la variable Petrleo Original en Sitio (POES) sigue la distribucin
Lognormal, ya que la misma es el producto de otras variables aleatorias como
puede verse en la siguiente ecuacin:
Donde A=rea, h= Arena Neta Petrolfera, = Porosidad, Sw: Saturacin de Agua,
B
0
= Factor Volumtrico.
Otras variables que se manejan en la industria petrolera como: rea de Drenaje,
Arena Neta Petrolfera, Reservas, Recobro, Costos de Produccin, Valor Presente
Neto de un plan de Desarrollo, tienden a ser modelables con la distribucin
Lognormal.
134
Distribucin de Densidad de Probabilidad: f(x)
2
) ln(
2
1
2
1
) (
=
t
t
x
t
e
x
x f
Ecuacin A.29
Distribucin de Probabilidad Acumulada: F(x)
=
0
) ln(
2
1
2
1
2
1
) ( dx e
x
x F
t
t
x
t
Ecuacin A.30
Esta integral no tiene solucin analtica; por lo tanto, para hallar valores de F(x), se
usa una solucin numrica o por tablas.
( ) Z x F = ) ( , donde
=
t
t
x
Z
) ln(
Ecuacin A.31
Para hallar ) (Z debe utilizarse la Tabla A.1, conocida como tabla de la
distribucin normal estndar, entrando a dicha tabla con el valor calculado de Z.
Parmetros:
Media Logartmica:
=
=
n
i
i t
x
n
1
) ln(
1
Ecuacin A.32
Desviacin Estndar Logartmica:
( )
=
=
n
i
t i t
X
n
1
2
) ln(
1
Ec. A.33
La media y la desviacin estndar de la Distribucin Lognormal se calculan en
funcin de logaritmos; pero en ocasiones es necesario transformar estos
parmetros en trminos de nmeros naturales, y para ello se usan las siguientes
ecuaciones de transformacin:
Media:
)
2
(
2
t
t
e
+
= Ecuacin A.34
135
Desviacin Estndar:
). 1 (
2
=
t
e Ecuacin A.35
Percentiles:
Se conoce como percentil de una distribucin de probabilidades, al valor de
la variable aleatoria denotado como
x o P
Z
x
Z
t
t
=
=
ln
) (
Despejando
x
) . (
t t
Z
e x
+
=
Ecuacin A.36
) . (
1
t t
Z
e x
=
Ecuacin A.37
Otras Relaciones Importantes:
Mediana: ) ln(
% 50 5 . 0
= = x x Ecuacin A.38
= =
1 % 50 5 . 0
.x x x x Ecuacin A.39
Moda:
2
t
t
e
e
x
m
= Ecuacin A.40
136
Tabla 26 Distribucin Normal Estandarizada
Fuente. Gerencia de Incertidumbre.
A.2.3.1.3 Distribucin Exponencial:
FIGURA 78. Distribucin Exponencial
Fuente. Gerencia de Incertidumbre.
f(x)
X
x .
e ) x ( f
=
137
La Distribucin Exponencial es ampliamente usada en anlisis de confiabilidad,
como distribucin de la variable aleatoria tiempo para la falla de equipos o
sistemas. Genricamente describe la cantidad de tiempo que transcurre en un
evento, tal como el tiempo para la falla de equipos electrnicos o el tiempo de
llegada de clientes a un Kiosco.
El parmetro de la distribucin exponencial es:
Tasa ( ):
n Observacio de Periodo
Observados Eventos N
_ _
_ _
=
Hay una caracterstica fundamental de las variables que siguen la distribucin
Exponencial:
El nmero de ocurrencia de eventos por unidad de tiempo es aproximadamente
constante .
Distribucin de Densidad de Probabilidad: f(x)
x
e x f
.
) (
=
Ecuacin A.41
Distribucin de Probabilidad Acumulada: F(x)
x
e x F
.
1 ) (
= Ecuacin A.42
Otras Relaciones Importantes:
Media:
1
=
media
x Ecuacin A.43
Moda: =
m
x Ecuacin A.44
138
FIGURA 79. Distribucin Weibull:
f(x)
X
=
x 1
e
x
) x ( f
Fuente. Gerencia de Incertidumbre.
La Distribucin de Weibull es ampliamente usada en el estudio del tiempo de vida
o tiempo para la falla de componentes mecnicos.
Los parmetros de la Distribucin Weibull son:
Forma ( ) y Escala ( )
Hay una caracterstica fundamental de las variables que siguen la distribucin
Weibull
El nmero de ocurrencia de eventos por unidad de tiempo no permanece
necesariamente constante; es decir, esta tasa de ocurrencia de eventos puede
crecer o decrecer con el tiempo .
FIGURA 80. Distribucin Weibull variando beta:
f(x)
X
1 = 2 = 4 =
139
Fuente. Gerencia de Incertidumbre.
La Distribucin Weibull es esencialmente una familia de distribuciones que puede
asumir las propiedades de otras distribuciones. Por ejemplo, dependiendo de los
valores de los parmetros que se definan, puede ser usada como una
aproximacin a la Exponencial y a la Normal, as como algunas otras.
Si 1 = entonces la Weibull se aproxima a la distribucin Exponencial
Si 4 = entonces la Distribucin de Weibull se aproxima a la Normal
Distribucin de Densidad de Probabilidad: f(x)
=
x
e
x
x f
1
) (
Ecuacin A.45
Distribucin de Probabilidad Acumulada: F(x)
=
x
e x F 1 ) (
Ecuacin A.46
Parmetros:
Escala:
/ 1
1
=
=
n
x
n
i
i
Ecuacin A.47
Forma
( ) [ ]
( )
=
=
=
=
n
i
i n
i
i
n
i
i i
x
n
x
x x
1
1
1
ln
1 1
ln
Ecuacin A.48
140
Moda:
1
1
=
m
x
Ecuacin A.49
Media:
+
=
1
media
x
Ecuacin A.50
A.2.3.1.5 Distribucin Beta:
FIGURA 81. Distribucin Beta:
y >0 0<x<1
Fuente. Gerencia de Incertidumbre.
FIGURA 82. Distribucin Beta:
Fuente. Gerencia de Incertidumbre.
141
Es una distribucin muy flexible para modelar probabilidades basadas en
estadsticas Bayesianas. Por excelencia es la distribucin previa (prior
distribucin) utilizada como conjugada de la distribucin Binomial en el proceso de
inferencia Bayesiana. Es tambin usada para describir datos empricos y
predicciones de comportamientos aleatorios de porcentajes y/o fracciones.
Como su rango de variacin va desde cero a uno, tradicionalmente se utiliza para
modelar la incertidumbre asociada a la probabilidad de ocurrencia de un evento
en particular.
Los parmetros que caracterizan a esta distribucin son: Alpha () y Beta ().
Las dos condiciones que resaltan esta distribucin son:
a.- La variable desconocida es un valor aleatorio entre 0 y 1.
b.- La forma de la distribucin puede ser especificada mediante dos valores
positivos.
Notacin: Variable aleatoria X = Beta (,).
La flexibilidad de la distribucin Beta queda evidenciada en la Figura A.18, en la
cual pueden apreciarse las diversas formas que puede tomar dependiendo de los
valores relativos de los parmetros Alpha () y Beta ().
Curva 1: La distribucin se sesgara sobre la izquierda si >
Curva 2: La distribucin ser simtrica si =
Curva 3: La distribucin se sesgara sobre la derecha si <
Curva 4: La distribucin tendr forma de U si < 1 y < 1
Curva 5: La distribucin tendr forma de J si <1
142
Distribucin de Densidad de Probabilidad: f(x)
1 1
) 1 .(
) ( ). (
) (
) (
+
=
x x x f Ecuacin A.51
Parmetros:
Alpha: Ecuacin A.52
Beta: Ecuacin A.53
Otras Relaciones Importantes:
Moda:
2
1
+
=
m
x Ecuacin A.54
Media:
+
=
media
x
Ecuacin A.55
La distribucin Beta estndar puede ser re-escalada con la incorporacin de dos
parmetros adicionales de forma que su rango se extienda de un valor mnimo
x
min
distinto de cero a un valor mximo x
max
distinto de 1.
El re-escalamiento de la distribucin Beta Estndar da origen a una variante
denominada distribucin Beta Pert. Esta distribucin permite la inclusin de un
tercer valor denominado valor ms probable, el cual es tomado por la distribucin
como el valor de la moda de la misma.
La estimacin de un experto, sobre los probables valores de una variable, puede
expresarse con base en tres valores, valor mnimo, valor ms probable y valor
mximo, por lo que la utilizacin de esta distribucin cobra mucho valor en este
tipo de aplicaciones. Dichos valores son utilizados por la distribucin PERT son
como parmetros:
Mnimo valor posible x
min
; Valor ms probable x
mprob
; Mximo valor posible x
max
143
Notacin:
Variable aleatoria X = PERT (x
min,
x
mprob,
x
max
) = [Beta (,)] * (x
max
- x
min
) + x
min
1
min max
min
1
min max
min
1 .
) ( ). (
) (
) (
+
=
X X
X X
X X
X X
X f
Ec. A.56
Donde: = ( - x
min
)*(2*x
mprob
- x
min
-x
max
) / [(x
mprob
-)*(x
max
- x
min
)] Ec. A.57
= * (x
max
-) / (
- x
min
) Ec. A.58
= (x
min
+ 4 * x
mprob
+ x
max
) / 6 Ec. A.59
= (x
max
- x
min
) / 6 Ec. A.60
A.2.3.1.6 Distribucin Gamma:
FIGURA 83. Distribucin Gamma:
Fuente. Gerencia de Incertidumbre.
Al igual que la distribucin Beta, Gamma es una distribucin muy flexible para
modelar probabilidades basadas en estadsticas Bayesianas. Aplica a un amplio
rango de variables fsicas y es similar a una gran cantidad de otras distribuciones:
Lognormal, Exponencial, Geomtrica y Poisson entre otras.
f ( x )
X
=
x
1
e . x
) (
1
) x ( f
144
Puede ser considerada como la distribucin del tiempo que transcurre hasta la
ocurrencia de un nmero particular de eventos.
Tiene gran aplicacin en los anlisis de confiabilidad. Es usada en procesos
meteorolgicos para representar la concentracin de polucin y cantidad de
precipitacin. Tiene otras aplicaciones en teora econmica, teora de inventario y
teora de riesgo en seguros.
Los parmetros de esta distribucin son: Escala () y Forma ( ).
Algunas caractersticas de la distribucin gamma son:
1.- Cuando la forma = 1, Gamma puede ser escalable a la distribucin
exponencial.
2.- Cuando la forma es un entero, el resultado de la distribucin puede tambin
ser referido como una distribucin Erlang.
3.- Cuando la forma es un nmero tal que al multiplicarlo por dos da un nmero
entero, la distribucin resultante puede ser referida, tambin, como una
distribucin Chi-cuadrado con dos veces la forma de grados de libertad.
4.- La suma de cualesquiera dos variables diferentes (Con distribuciones Gamma)
es otra variable con distribucin Gamma.
5.- El producto de cualesquiera dos variables con distribucin normal es una
variable Gamma.
Distribucin de Densidad de Probabilidad: f(x)
x
e x x f
= .
) (
1
) (
1
Ecuacin A.61
Relaciones Importantes:
145
Media: .
1
=
=
=
n
X
n
i
i
X
Ecuacin A.62
Desviacin Estndar
( )
2 1
2
2
.
1
=
=
n
X
n
i
X i
Ecuacin A.63
Parmetros:
Alpha (Parmetro de Escala)
( )
( )
=
=
=
n
i
X i
n
i
i
X n
X n
1
2 2
2
1
1
ecuacin A.64
Beta (Parmetro de Forma)
( )
=
=
=
n
i
i
n
i
X i
X n
X n
1
1
2
) 1 (
.
ecuacin A.65
A.2.3.1.7 Distribucin Triangular:
La distribucin triangular ha sido ampliamente usada para modelar variables a
partir de la opinin de expertos. Las variables caracterizadas con este tipo de
distribucin son aquellas para las cuales es ms probable observar valores cerca
de su moda que cerca de los extremos.
En el rea petrolera, parmetros asociados a los yacimientos tales como ANP,
Factor de Recobro, Porosidades y Saturaciones, as como precios y productividad
han sido modelados usando distribuciones triangulares construidas a partir de
estimaciones hechas por expertos.
La estimacin de un experto, sobre los probables valores de una variable, puede
expresarse con base en tres valores: valor mnimo, valor ms probable y valor
mximo, que en la distribucin triangular son utilizados como parmetros:
146
FIGURA 84. Distribucin Triangular:
Fuente. Gerencia de Incertidumbre.
La distribucin triangular simtrica (como la mostrada en la Figura A.20 es
frecuentemente usada para modelar variables de comportamiento Normal a
EXPERTO
f(x)
X
x
min
x
mprob.
x
max
Mnimo valor posible de la variable =x
min
Valor ms probable de la variable = x
mprob
Mximo valor posible de la variable =x
max
147
partir de la opinin de expertos. y la distribucin triangular sesgada a la izquierda
(como la mostrada en la Figura A.21) para modelar variables de comportamiento
Lognormal a partir de la opinin de expertos. Debe tenerse especial cuidado
cuando se representen variables de comportamiento Lognormal, con una
distribucin triangular sesgada a la izquierda, ya que hacia la cola de la derecha,
la distribucin triangular asigna mucho ms probabilidad que la distribucin
lognormal, pudiendo esta diferencia inducir errores en los clculos y pronsticos)
Para cualquier valor de X menor que la moda, la probabilidad acumulada se
calcula con la siguiente ecuacin
( )
) ).( (
) ( ) (
min min max
2
min
x x x x
x x
x F x X P
mprob
= =
Ec. A.66
Para cualquier valor de X mayor que la moda, la probabilidad acumulada se
calcula con la siguiente ecuacin:
( )
) ).( (
1 ) ( ) (
max min max
2
max
mprob
x x x x
x x
x F x X P
= =
Ec. A.67
Adicionalmente:
3
max min
x x x
x
mprob
media
+ +
= Ec. A.68
A.2.3.1.8 Distribucin Uniforme:
FIGURA 85. Distribucin Uniforme:
f(x)
X
x
min
x
max
a b
148
Fuente. Gerencia de Incertidumbre.
En esta distribucin, todos los valores entre un mnimo y un mximo tienen la
misma probabilidad de ocurrencia.
Sus parmetros son:
Mnimo = x
min
Mximo = x
max
Las variables que siguen la distribucin uniforme tienen las siguientes
caractersticas:
a.- El valor Mnimo es fijo.
b.- El valor Mximo es fijo.
c.- Todos los valores entre el mnimo y el mximo tienen la misma probabilidad de
ocurrencia.
min max
1
) (
x x
x f
= Ecuacin A.69
min max
min
) ( ) (
x x
x a
a F a x P
= = Ecuacin A.70
min max
) (
x x
a b
b x a P
= Ecuacin A.71
A.2.5.2 DISTRIBUCIONES PARA VARIABLES ALEATORIAS DISCRETAS
A.2.5.2.1 Distribucin Binomial:
149
FIGURA 86. Distribucin Binomial:
Fuente. Gerencia de Incertidumbre.
La Distribucin Binomial permite estimar el nmero de xitos que se alcanzaran
en un nmero especfico de intentos, dada una probabilidad de xito por intento
determinada (constante).
Los parmetros de la distribucin son:
Probabilidad (p) y nmero de ensayos o pruebas (n).
Las variables que pueden representarse con la distribucin Binomial, tienen tres
caractersticas bsicas:
a.- Por cada intento, hay slo dos posibles resultados: xito o falla. (Para una
moneda: el lanzamiento resulta: Cara o no. Para las piezas o partes: Es
defectuosa o no)
b.- Los ensayos son independientes. Los resultados de un primer ensayo no
afectan los de ensayos posteriores.
c.- La probabilidad de ocurrencia permanece constante en cualquier ensayo.
150
La Figura A.23 muestra el efecto del parmetro probabilidad de xito en el
nmero de xitos en 50 intentos
Distribucin de Densidad de Probabilidad: f(x)
k n k
p p
k n k
n
k f k x P
= = = ) 1 (
)! !.(
!
) ( ) ( Ecuacin A.72
Distribucin de Probabilidad Acumulada: F(x)
= =
k
i
i n i
p p
k n k
n
k F k x P
0
) 1 (
)! !.(
!
) ( ) ( Ecuacin A.73
Parmetros:
Probabilidad xito p= (N xitos) / (N Total Observaciones) Ecuacin A.74
Nmero de intentos (n) Ecuacin A.75
Otras Relaciones Importantes:
Media: p n x
media
. = Ecuacin .76
Desviacin Estndar ) 1 ( p np = Ecuacin .77
A.2.3.2.2 Distribucin de Poisson:
La distribucin de Poisson es una distribucin que describe el nmero de veces
que un evento ocurre en un intervalo dado (como el nmero de llamadas
telefnicas por minuto o el nmero de errores por pgina en un documento o el
nmero de defectos por metro de tubera). El parmetro que caracteriza esta
distribucin es: Tasa de ocurrencia.
Hay tres condiciones que resaltan esta distribucin:
151
a.- El nmero de posibles ocurrencias por unidad de medida (ejemplo: tiempo y
longitud) no est limitado a un nmero fijo.
b.- Las ocurrencias son independientes. El nmero de ocurrencia por unidad de
medida no afecta el nmero de ocurrencias en otras unidades de medida.
c.- El promedio de ocurrencias debe ser constante.
FIGURA 87. Distribucin de Poisson:
.000
.031
.063
.094
.125
0.00 6.00 12.00 18.00 24.00
POISSON
Fuente. Gerencia de Incertidumbre.
A.2.5.2.3 Distribucin Geomtrica:
Esta distribucin describe el nmero de ensayos hasta que ocurre o se obtiene el
primer xito, tal como el nmero de veces que se perfora (Para obtener petrleo)
hasta que se obtiene un pozo exitoso (Fase exploratoria, principalmente).
El parmetro indicador es: Probabilidad.
Tres condiciones subrayan esta distribucin:
a.- El nmero de ensayos no es fijo.b.- Los ensayos continan hasta el primer
suceso.
c.- La probabilidad del suceso es la misma de ensayo a ensayo.
152
FIGURA 88. Distribucin Geometra:
Fuente. Gerencia de Incertidumbre.
.050
.100
.150
.200
GEOMETRICA
153
ANEXO B
11
CARACTERIZACION PROBABILISTICA
B.1 CARACTERIZACION PROBABILISTICA DE VARIABLES RANDOM.
Como el lector ha podido evidenciar, una de las tareas ms crticas para el
analista de riesgo, es seleccionar la funcin de densidad de probabilidades que
ms se ajusta a la naturaleza y dinmica de la variable a modelar. Existen
diversas distribuciones de probabilidad para representar la heterogeneidad e
incertidumbre de variables continuas, otras para representar la heterogeneidad e
incertidumbre de variables discretas, otras que ya poseen una expresin
matemtica predefinida cuyos parmetros son estimados en funcin de la data
disponible y otras que no la poseen.
En la Figura No. 1.11 se mostr un diagrama de diferentes esquemas de
clasificacin de distribuciones de probabilidad. Como se indic, sta figura puede
ser utilizada como mecanismo preliminar para preseleccionar la familia o conjunto
de distribuciones que potencialmente podran utilizarse para representar la
variable de inters.
En funcin de la naturaleza de la variable de inters y de la disponibilidad de data,
existen dos fuentes bsicas de informacin para describir las variables:
Datos provenientes de observaciones directas y/o medicin de campo.
Datos provenientes del conocimiento emprico del proceso.
En el primer caso, datos provienen de observaciones directas hechas en campo,
mediciones de variables fsicas de los procesos o notificacin manual o
11
Ibid .2002
154
automtica de ocurrencia de eventos. Estos datos son perfectamente
caracterizados desde el punto de vista probabilstico. La cuantificacin de la
frecuencia de aparicin de los datos en la muestra permite obtener una
distribucin de probabilidad y hacer una evaluacin probabilstica objetiva debido
a que se parte de la abundancia de la evidencia de la muestra. En la figura B.1
puede observarse grficamente este proceso.
FIGURA 89. Caracterizacin Probabilstica con Observaciones Directas y/o Mediciones de
Campo
Fuente. Gerencia de Incertidumbre.
En el segundo caso, la obtencin de los datos se hace en forma indirecta, y es
caracterstica de aquellas reas o procesos en los que no se puede obtener la
informacin suficiente sobre la variable de inters para hacer anlisis estadsticos
convencionales. La limitacin para la recoleccin directa de los datos puede ser
de tipo fsico, es decir, que existe mucha dificultad para medir la variable; tambin
puede ser que no se tenga historia o que la misma sea limitada.
En estos casos se recurre a la utilizacin de la opinin de expertos, lo que permite
combinar el conocimiento de las personas sobre el rea o proceso en anlisis con
la poca evidencia o datos disponibles. Esta combinacin agrega el componente
subjetivo a los anlisis. Afortunadamente existen un sin nmero de instrumentos
que permiten minimizar la subjetividad de la informacin por parte del experto. La
Figura B.2 permite observar un esquema del proceso descrito.
Distribucin de
Frecuencias
Probabilidad Objetiva basada
en la abundante evidencia de la
muestra
Principal Fuentede
Informacin:
Datos de la Muestra
155
FIGURA 90. Caracterizacin Probabilstica Conocimiento Emprico del Proceso
Distribucin de
Frecuencias
Probabilidad Subjetiva basada
en la poca evidencia de la
muestra y en la experiencia del
estimador
Principal Fuentede
Informacin:
Opinion del Experto
Fuente. Gerencia de Incertidumbre.
Ntese que la evidencia disponible combinada con la opinin del experto permite
desarrollar un anlisis en el que pueden aparecer como resultado valores de los
que no se tiene evidencia previa, sino que son aportados por el experto producto
de su experiencia.
En la tarea de seleccionar la distribucin de probabilidad que ms se adapte a
una muestra de datos, siempre surge la gran pregunta: Cul es la distribucin
probabilstica que con mayor precisin pudiera representar los datos? Esta
pregunta da inicio al proceso de caracterizacin probabilstica de la variable, el
cual se discutir a continuacin.
B.1.1 Caracterizacin probabilstica de variables con informacin de campo.
Paso 1: Plantear las hiptesis de las distribuciones paramtricas que podran
hacer un buen ajuste con los datos.
La seleccin de las diferentes distribuciones de probabilidad que pudieran
representar la variable de inters es lo que se denomina la proposicin de
distribuciones hiptesis o hipotticas. La Figura No 1.11 es una excelente ayuda
para proponer distribuciones hiptesis.
156
En lneas generales, las distribuciones probabilsticas fueron concebidas
originalmente para aplicaciones especficas. Por ejemplo, en caso de las variables
continuas, la distribucin normal es una de las distribuciones ms importantes, ya
que una gran cantidad de variables aleatorias (particularmente en el campo
social) tiene un comportamiento normal, es decir, simtrico con respecto al punto
central de la distribucin.
Si la variable analizada depende de la tasa de ocurrencia de eventos en el
tiempo, la distribucin exponencial es de uso muy comn en aquellos casos
donde los eventos ocurren de una manera completamente aleatoria, y la tasa de
ocurrencia en el tiempo tiende a ser constante. Igualmente, para procesos en los
que la tasa de ocurrencia de eventos no tiende a ser constante, o presentan otro
tipo de comportamiento, existen distribuciones como la Weibull, la Lognormal e
inclusive la distribucin normal. La distribucin Lognormal es de mucha utilidad en
los casos en los que la variable aleatoria puede tomar valores que difieren los
unos de los otros en rdenes de magnitud.
En el caso de anlisis de inventarios, la distribucin de Poisson es de uso comn
para determinar el nmero de partes ptimos cuando el tiempo para la falla sigue
una distribucin exponencial.
En el caso de variables discretas, existen distribuciones con aplicaciones
especficas. Por ejemplo, si se trata de analizar el nmero de xitos que ocurren
en un nmero de eventos, la distribucin Binomial es la que mejor permite
analizar el proceso. Para ello, se debe tener en cuenta que la variable debe ser
discreta y que todos los valores deben tener la misma probabilidad de ocurrencia
(Ej. El lanzamiento de los dados). Adicionalmente, los resultados de muchos
sistemas fsicos pueden ser modelados con la distribucin uniforme.
157
Paso 2: Calcular los parmetros de cada una de las distribuciones hiptesis con
los datos de la muestra.
Una vez seleccionadas las distribuciones hiptesis tericas que pudieran
representar un conjunto de datos se procede a la estimacin de los parmetros de
cada una de ellas. Estos parmetros normalmente se obtienen con el mtodo de
mxima verosimilitud
[10]
Paso 3: Realizar alguna de las pruebas de bondad de ajuste.
En principio deben graficarse cada una de las curvas de las distribuciones
hiptesis tericas obtenidas con los parmetros estimados en el paso anterior, y
el histograma de los datos de las muestras de cada una de las variables.
Posteriormente debe calcularse para cada distribucin hiptesis el valor llamado
valor de la prueba y compararlo con el valor valor crtico.
Si el valor de la prueba es menor que el valor crtico entonces la distribucin
hiptesis se considera un adecuado ajuste y en consecuencia la hiptesis no es
rechazada. Si por el contrario, el valor de la prueba es mayor que el valor
crtico, la hiptesis es rechazada.
Paso 4: Seleccionar entre las distribuciones hiptesis no rechazadas, aquella que
tenga el valor de la prueba ms bajo.
B.1.2 Clculo de parmetros de las distribuciones de probabilidad a partir de
los datos de la muestra.
Una vez seleccionadas las distribuciones hiptesis tericas que pudieran
representar un conjunto de datos se procede a la estimacin de los parmetros de
158
cada una de ellas utilizando los datos de la variable de inters disponibles o las
opiniones de los expertos si fuese el caso.
En la caracterizacin de la variable de inters es muy til la estadstica
descriptiva. De los datos recolectados se pueden obtener algunos parmetros que
son muy tiles para inferir que distribuciones probabilsticas que pudieran
ajustarse a los mismos. Si los datos se ajustan a una distribucin normal o a una
distribucin Weibull con un parmetro de forma cercano a 4, entonces la media y
la mediana deben tener valores muy parecidos. Por el contrario, si los datos se
ajustan a distribuciones como la Lognormal, Exponencial o Weibull con parmetro
de forma cercano a 1, entonces los valores de la media y la mediana deben
presentar una diferencia considerable. Por ltimo se pudiera agregar que si los
datos se ajustan a una distribucin Exponencial, entonces la media y la
desviacin estndar suelen tener valores con muy poca diferencia entre s.
Para el clculo de los parmetros de las distribuciones hiptesis se utilizan las
ecuaciones de la Tabla B.1.
Tabla 27 Clculo de Parmetros
Fuente. Gerencia de Incertidumbre.
159
B.1.3 Pruebas de Bondad de Ajuste.
Una vez que se han definido las distribuciones hiptesis tericas que pudieran
representar a la variable aleatoria de inters, el siguiente paso consiste en
determinar cul de esas posibles distribuciones es la ms representativa del
conjunto de datos. Para ello se utilizan las llamadas pruebas de bondad de ajuste.
De manera sencilla puede decirse que la prueba de bondad de ajuste es una
comparacin entre la distribucin paramtrica seleccionada y el histograma de
frecuencia que se puede construir con los datos.
Bondad de ajuste puede definirse como la probabilidad de reproducir el conjunto
de datos a partir de una distribucin hiptesis seleccionada; en otras palabras, la
estadstica definida a partir de la bondad de ajuste permite establecer que tan
probable es que una funcin de distribucin de probabilidad seleccionada genere
el conjunto de datos del que se dispone. La estadstica basada en bondad de
ajuste es usualmente utilizada con sentido relativo mediante la comparacin de los
valores de bondad de ajuste de otras funciones de distribucin de probabilidad
para seleccionar la que mejor representa los datos.
Existen diferentes pruebas de bondad de ajuste dentro de las cuales se pueden
mencionar la prueba de Chi - Cuadrado, la de Kolmogorov - Smirnov y la de
Anderson Darling. La prueba de Chi Cuadrado es una de las ms comunes,
pero las otras, bajo ciertas condiciones, pueden proveer informacin ms
detallada y realista del ajuste.
Estas pruebas consideran las siguientes etapas:
Etapa 1: Graficar cada una de las curvas de las distribuciones hiptesis tericas
obtenida con los parmetros estimados en el paso anterior, con el histograma de
los datos de la muestra.
Etapa 2: Calcular para cada distribucin hiptesis el valor llamado valor del test y
compararlo contra el valor llamado valor critico.
160
Etapa 3: Si el valor del test es menor que el valor crtico entonces la distribucin
hipottica se considera un buen ajuste y la hiptesis no es rechazada. Si por el
contrario, el valor del test es mayor que el valor crtico, la hiptesis se rechaza.
B.1.3.1 Prueba de Chi Cuadrado (X
2
).
B.1.3.1.1 Calculo del Valor o Estadstica del Test X
2
La prueba de Chi Cuadrado es una de las pruebas de bondad de ajuste ms
comnmente utilizada.
El valor del test de Chi Cuadrado viene dada por la aplicacin de la siguiente
ecuacin:
Donde:
m = Nmero de clase
frec
i
= Valor de la frecuencia o prob. observada para una clase del histograma
p
i
= Probabilidad terica de observar X
i
calculada con la distribucin de densidad
de prob. hipottica f(x). (Ver Figura B.3)
FIGURA 91. Distribucin de los Datos Vs Distribucin Hipottica o Terica
2
X
2
1
e
2
1
) x ( f
=
X
f(X)
X
HISTOGRAMA DE FRECUENCIAS DISTRIBUCION PARAMETRICA
FUNCION
MATEMATICA
DE
PROBABILIDAD
F
R
E
C
U
E
N
C
I
A
S
x
i
frec
i
p
i
x
i
Frecuencia (frec
i
)
=funcin de densidad de
probabilidad hipottica
2
X
2
1
e
2
1
) x ( f
=
X
f(X)
X
HISTOGRAMA DE FRECUENCIAS DISTRIBUCION PARAMETRICA
FUNCION
MATEMATICA
DE
PROBABILIDAD
F
R
E
C
U
E
N
C
I
A
S
x
i
frec
i
p
i
x
i
Frecuencia (frec
i
)
=funcin de densidad de
probabilidad hipottica
Fuente. Gerencia de Incertidumbre.
=
m
i i
i i
p
p frec
X
1
2
2
) (
161
B.1.3.1.2 Clculo del Valor Crtico para la prueba de Chi Cuadrado
En el clculo del valor crtico para la prueba de Chi Cuadrado se busca
conseguir el valor correspondiente al percentil 1 - de una distribucin Chi
Cuadrado con N 1 grado de libertad (N es el nmero de intervalos o clases).
Estas soluciones estn tabuladas en la Tabla B.2 que se muestra a continuacin,
a la cual se entra con los grados de libertad (df en la tabla) y el nivel de
confidencia o percentil de confianza (Per Cent en la Tabla).
Tabla 28 Valores Crticos Test de X
2
Fuente. Gerencia de Incertidumbre.
Una vez que se hace el anlisis estadstico de Chi Cuadrado se compara el
valor obtenido con el valor crtico. Si dicho valor es mayor que el valor crtico la
hiptesis debe ser rechazada, es decir, la distribucin no hace buen ajuste.
162
Cuando se trabaja con distribuciones continuas esta prueba puede no ser la ms
adecuada, pero es ampliamente conseguida en los software comerciales. Su
debilidad estriba en que no hay un procedimiento claro para seleccionar el nmero
de intervalos. En algunos casos se pudiera llegar a diferentes conclusiones a partir
del mismo conjunto de datos dependiendo de los intervalos o nmero de clases.
Esta prueba arroja sus mejores resultados cuando las muestras son grandes.
B.1.3.2 Prueba de Kolmogorov Smirnov.
A diferencia de la prueba ChiCuadrado, la de KolmogorovSmirnov no agrupa los
datos en intervalos o clases. En su lugar, para la prueba se utiliza la funcin de
probabilidad acumulada hipottica seleccionada, la cual es comparada con la
funcin de probabilidad acumulada emprica proveniente de los datos, como se
muestra en la figura 92
FIGURA 92. Distribucin de los Datos Vs Distribucin Hipottica o Terica
0.0
0.2
0.4
0.6
0.8
1.0
1.2
0.0 1000.0 2000.0 3000.0 4000.0 5000.0 6000.0 7000.0
t iempo (hrs)
P
r
o
b
a
b
i
l
i
d
a
d
d
e
F
a
l
l
a
s
F(t) Weibul l F(t) Empiri ca F(ti )=i/ n
Fuente. Gerencia de Incertidumbre.
El hecho de que dicha prueba no dependa del nmero de intervalos la hace ms
poderosa que la prueba de ChiCuadrado. Sin embargo, es importante sealar
163
que la prueba de KolmogorovSmirnov no detecta consistentemente las
discrepancias que se pudieran presentar a nivel de las colas de la distribucin.
B.1.3.2.1 Clculo del Valor o Estadstica del Test de Kolmogorov - Smirnov
La estadstica para la prueba de KolmogorovSmirnov de uso ms comn es la
presentada por Law y Kelton (1982):
Donde
n = nmero total de datos; i=1, 2,3n
F (X
i
): Distribucin acumulada hipottica para el valor X
i
: Distribucin emprica
Nx
i
= Nmero de datos menores que X
i
.
En este punto es importante recordar que para realizar estos clculos, los datos de
la muestra deben ordenase en orden ascendente.
B.1.3.2.2 Clculo del Valor Crtico para las pruebas Kolmogorov Smirnov
A diferencia de la prueba de Chi Cuadrado, en la cual el valor crtico es el mismo
para todas las distribuciones , la prueba de Kolmogorov Smirnov incluye casos
especiales para la distribuciones Normal, Exponencial, Weibull y de Valor
Extremo. Para las distribuciones restantes el valor crtico es estimado utilizando
una prueba denominada todos los parmetros conocidos, la cual es ms
conservadora que las pruebas para distribuciones especficas.
164
Los valores crticos obtenidos de esta prueba, para el test de Kolmogorov-
Smirnov, estn tabulados en la Tabla B.3, que se muestra a continuacin, a la cual
se entra con n (tamao de la muestra) y el nivel de significancia.
Tabla 29 Valores Crticos Test de Kolmogorov-Smirnov
Fuente. Gerencia de Incertidumbre.
B.1.3.3 Prueba de Anderson Darling.
La prueba de Anderson Darling es muy similar a la prueba de Kolmogorov
Smirnov, la cual no depende tampoco del nmero de intervalos o clases. Esta
prueba tiene la ventaja adicional de que hace ms nfasis en los valores de las
colas.
B.1.3.3.1 Clculo del Valor del Test o Estadstica de la prueba Anderson-
Darling
La estadstica para la prueba de Anderson Darling viene dada por:
[ ]
+
= dx x f x x F x F A
n n
) (
) ( ) (
) (
2
Donde
165
)] (
1 )[ (
1
x F x F
=
n = Nmero total de datos
) (