Algunos conceptos y
resultados de Probabilidad
1. Ω ∈ F
2. Si A ∈ F, entonces Ac ∈ F
3. Si A1 , A2 , ..., An ∈ F, entonces A1 ∪ A2 ∪ ... ∪ An ∈ F
1. P (Ω) = 1
2. P (A) ≥ 0 ∀ A ∈ F
∞ n
3. Si A1 , A2 , ... ∈ F y Ai ∩Aj = ∅, i = j, entonces P ( i=1 Ai ) = i=1 P (Ai )
8
(d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(e) Desigualdad de Boole P ( ni=1 Ai ) ≤ ni=1 P (Ai )
(f) Fórmula Adición-Sustracción P ( ni=1 Ai ) = ni=1 P (Ai ) − i=j P (Ai ∩
n
Aj ) + i1 >i2 >i3 P (Ai1 ∩ Ai2 ∩ Ai3 ) + ... + (−1)n+1 P ( i=1 Ai )
P (A ∩ B)
P (A|B) =
P (B)
9
A.3. Variables aleatorias
Sea (Ω, F, P) un espacio de probabilidad. Una variable aleatoria es una fun-
ción X : Ω → R que es F − medible, es decir, que ∀x ∈ R, X −1 (−∞, x] =
{ω ∈ Ω : X(ω) ≤ x} ∈ F.
1. fX (x) ≥ 0 ∀ x ∈ R
2. x fX (x) = 1
1. fX (x) ≥ 0 ∀ x ∈ R
∞
2. −∞ fX (x)dx = 1
10
Por lo tanto, la función de distribución acumulativa conjunta es una función
con dominio IRk (espacio k− euclidiano) y contradominio el intervalo cerrado
[0, 1] .
Anteriormente se vio que la función de distribución acumulativa de una
variable aletoria unidimensional tiene ciertas propiedades; lo mismo sucede para
la distribución acumulativa conjunta, se verán a continuación dichas propiedades
para la función de dos variables.
Propiedades de la función de distribución acumulativa bivariada F (·, ·) .
(i) F (−∞, y) = lı́m F (x, y) = 0 ∀y, F (x, −∞) = lı́m F (x, y) = 0
x→−∞ y→−∞
∀x, y x→∞
lı́m F (x, y) = F (∞, ∞) = 1
y→∞
Observación. Fx (x) = Fx,y (x, ∞) y Fy (y) = Fx,y (∞, y) ; esto es, el conocimien-
to de la función de distribución acumulativa conjunta de X y Y implica el
conocimiento de las dos funciones de distribución acumulativa
marginal.
Observación. Fx (x) + Fy (y) − 1 ≤ FX,Y (x, y) ≤ Fx (x) Fy (y) para toda
x, y.
11
Definición A.8 (Variables aleatorias discretas conjuntas). La variable aleato-
ria k−dimensional (X1 , X2 , ..., Xk ) se define como una variable aleatoria disc-
reta k−dimensional si puede tomar valores solo sobre un número contable de
puntos (x1 , x2 , ...xk ) en el espacio real k−dimensional. También se suele de-
cir que las variables aleatorias X1 , X2 , ..., Xk son variables aleatorias discretas
conjuntas.
para (x1 , x2 , ...xk ), un valor de (X1 , X2 , ..., Xk ) y es igual a cero en otro caso.
Observación: fX1 ,...,Xk (x1 , ...xk ) = 1, donde la suma es sobre todas los
valores posibles de (X1 , ..., Xk ) .
Demostración.
Sea (x1 , y1 ) , (x2 , y2 ) , .... el conjunto de puntos
de posibles valores de (X, Y ) .
Si fX,Y (·, ·) . está dada, entonces FX,Y (x, y) = fX,Y (xi , yi ) , donde la suma
es sobre todas las i’s para las cuales xi ≤ x y yi ≤ y. Recíprocamente, si
FX,Y (·, ·) está dada, entonces para (xi , yi ) , un valor posible de (X, Y ) ,
12
son variables aleatorias conjuntamente distribuidas con valores (x1 , y1 ) (x2 .y2 ) , ....,
entonces
fX (xk ) = fX,Y (xi , yi ) y fY (yk ) = fX,Y (xi , yi )
yi Xi
para toda (x1 , x2 , ...xk ) . fX1 ,...,Xk (·, ..., ·) se define como la función de densidad
de probabilidad conjunta.
b2 b1
P [a1 < x1 ≤ b1 ; a2 < x2 ≤ b2 ] = fX1 ,...,Xk (x1 , .x2 ) dx1 dx2 .
a2 a1
13
Demostración.
Para una fX,Y (·, ·) dada, FX,Y (·, ·) puede obtenerse para cualquier (x, y)
por
y x
FX,Y (x, y) = fX,Y (u, v) dudv
−∞ −∞
Así mismo para una FX,Y (·, ·) dada, entonces fX,Y (·, ·) puede obtenerse por
∂ 2 FX,Y (x, y)
fX,Y (x, y) =
∂x∂y
para los valores x, y, donde FX,Y (·, ·) es diferenciable.
Similarmente,
fX,Y (x, y)
fX/Y (x/y) = si fY (y) > 0.
fY (x)
De la definición anterior se tiene que fX/Y (·/y) o fY /X (·/x) deben cumplir
con los propiedades de una función de densidad de probabilidad.
14
Definición A.14 (Función de densidad continua condicional). Si X y Y son
varibles aleatorias continuas conjuntamente distribuidas, entonces la distribu-
ción acumulativa condicional de Y dado X = x está definida como
y
fY /X (y/x) = fY /X (z/x) dz
−∞
Definición A.16 (Independencia Estocástica). Sea (X1 , X2 , ..., Xk ) sea una vari-
able aleatoria discreta k−dimensional.con función de densidad discreta conjun-
ta fX1 ,X2 ,..,Xk (·, ·, ..., ·) , X1 , X2 , ..., Xk son estocásticamente independientes si
y sólo si
k
Observación.
Muy a menudo se suele omitir el término ”estocástica”.
En el pasado se vió que la independencia de eventos estuvo cercanamente
relacionado al concepto de probabilidad condicional, de igual forma la inde-
pendencia de variables aleatorias esta cercanamente relacionada con la idea de
distribuciones condicionales de variables aleatorias.
Si X y Y son dos variables aleatorias independientes; entonces fX,Y (x, y) =
fX (x) fY (y) por definición de independencia; sin embargo fX,Y (x, y) = fY /X (y/x) fX (x)
por definición de densidad condicional, lo cual implica que fY /X (y/x) = fY (y) ;
esto es, la densidad condicional de Y dado X es la densidad incondicional de Y ,
por lo que para demostrar que dos variables aleatorias no son independientes,
es suficiente demostrar que fY /X (y/x) depende de x.
15
Teorema A.5 Si X1 , ..., Xk son variables aleatorias independientes y g1 (·) , ..., gk (·) ,
son k funciones tales que Yj = gj (Xj ) j = 1, 2, ..., k entonces Y1 , Y2 , ..., Yk son
independientes.
pues
(x − µX )2 · P(X = x) si X es discreta;
V ar(X) = x∞
(x − µX )2 · fX (x)dx si X es continua
−∞
16
A.5.3. Momentos
El k-ésimo momento de una variable aleatoria X se define como E(X k ) y se
puede calcular de la siguiente manera
xk · P(X = x) si X es discreta;
E(X k ) = x∞
xk · fX (x)dx si X es continua
−∞
V ar(X) = E (X − µX )2 = E X 2 − 2µX X + µ2X = E(X 2 )−2µX E(X)+µ2X = E(X 2 )−E2 (X)
17
tX (tX)2 (tX)3
E e = E 1 + tX + + + ...
2! 3!
t2 t3
= 1 + tE(X) + E(X 2 ) + E(X 3 ) + . . .
2! 3!
∂ tX t2
Entonces, ∂t E(e ) = E(X) + tE(X 2 ) + 3
2! E(X ) + . . ..
′
Evaluando en t = 0 se tiene que mX (0) = E(X).
∂2 tX
También nótese que ∂t2 E(e ) = E(X 2 ) + tE(X 3 ) + . . ..
′′
De nuevo, evaluando en t = 0 se tiene que mX (0) = E(X 2 ).
(k)
En general mX (0) = E(X k ), de aquí el nombre en particular.
Ejemplo A.1 (Función Generadora de momentos de la distribución Poisson)
Sea X una variable aleatoria con distribución P oisson(λ), es decir:
e−λ λx
fX (x) = I(x){0,1,2,..} con λ > 0
x!
Calcular E(X) y E(X 2 ).
∞
e−λ λx
mX (t) = E[etX ] = etx
x=0
x!
∞
(et λ)x
= e−λ
x=0
x!
t
= e−λ ee λ
t
= e−λ(e −1)
t
∴ mX (t) = e−λ(e −1)
18
A.5.5. Esperanza de g (X1 , ..., Xn )
Aquí, igual que antes se procederá a revisar la definición de esperanza matemáti-
ca de variables aleatorias k−dimensionales y posteriormente se verá lo relaciona-
do con respecto a la media y a la varianza para finalizar con el concepto de
esperanza matemática de una función de una variable aleatoria k−dimensional.
Definición A.17 (Esperanza matemática). Sea (X1 , X2 , ..., Xk ) una variable
aleatoria k−dimensional con densidad f(X1 ,X2 ,...,Xk ) (·, ....., ·) . El valor esperado
de una función g (:, ....·) de la variable aleatoria k−dimensional, denotada por
E [g (X1 , X2 , ..., Xk )] , está definida como
E [g (X1 , X2 , ..., Xk )] = g (x1 , x2 , ..., xk ) fX1 ,X2 ,...,xk (x1 , x2 , ..., xk )
19
Definición A.19 (Coeficiente de correlación). El coeficiente de correlación, de-
notado por ρ [X, Y ] o ρX,Y de dos variables aleatorias X y Y está definido como
Cov [X, Y ]
ρX,Y = .
σX σ Y
si X y Y son continuas, y
E [g (X, Y ) /X = x] = g (x, yj ) fY /X (y/x)
Observación: ∞
E [Y /X = x] = yfY /X (y/x) dy
−∞
(caso discreto), y
E [Y/X = x] = yj fY /X (yj /x)
(caso continuo).
E [g (Y )] = E [E [g (Y ) /X]]
y en particular
E [Y ] = E [E [Y /X]]
µY /X=x = µY /x
20
Definición A.22 (Varianza Condicional). La varianza condicional de Y dado
X = x está definida por
2
V ar [Y /X = x] = E Y 2 /X = x − (E [Y/X = x]) .
Teorema A.11 Sea (X, Y )una variable aleatoria bidimensional y g1 (·) , g2 (·)
funciones de una variable . Entonces
(i) E [g1 (Y ) + g2 (Y ) /X = x] = E [g1 (Y ) /X = x] + E [g2 (Y ) /X = x]
(ii) E [g1 (Y ) + g2 (X) /X = x] = g2 (x) E [g1 (Y ) /X = x]
si la esperanza existe para todos los valores de t1 , t2 , ...., tk tales que −h < tj < h
para alguna h > 0, j = 1, 2, ...k. El r−ésimo momento de Xj podría obtenerse
de la función mX1 ,X2 ,...,Xk (t1 , t2 , ..., tk ) derivandola r veces con respecto a tj y
′
entonces
r s tomando el límite cuando todas las t s se aproximan a cero. También
E Xi Xj se obtiene por derivar r veces con respecto a Xi y s veces con respecto
a Xj la función mX1 ,X2 ,...,Xk (t1 , t2 , ..., tk ).
21
Observación.
Independencia y Esperanza
Teorema A.12 Si X y Y son independientes y g1 (·) y g2 (· ) son dos funciones,
cada una de un solo argumento, entonces
Cov(X, Y )
ρxy =
V ar(X)V ar(Y )
Se puede probar que −1 ≤ ρxy ≤ 1.
22
A.6. Resumen de familias paramétricas
A.6.1. Uniforme discreta
Definición: Se dice que X variable aleatoria discreta tiene distribución uni-
forme discreta en el conjunto {1, 2, . . . , N }, se denota X ∼ U nif (N ), si su
función de densidad está dada por
1
fX (x) = P (X = x) = I{1,2,...,N} (x)
N
PROPOSICIÓN: Si X ∼ U nif (N ), entonces:
(N+1)(2N+1)
(c) E(X 2 ) = 6
N 2 −1
(d) V ar(X) = 12
A.6.2. Bernoulli
Definición: Se dice que X variable aleatoria discreta tiene distribución
Bernoulli con parámetro p ∈ (0, 1), se denota X ∼ Bnlli(p) ó X ∼ Ber(p)
ó X ∼ Bernoulli(p), si su función de densidad de probabilidad está dada por
1 − p si x = 0
fX (x) = P (X = x) = p si x = 1 = px (1 − p)1−x I{0,1} (x)
0 e.o.c
A.6.3. Binomial
Supóngase que se tienen n ensayos Bernoulli independientes cada uno con la
misma probabilidad de éxito p ∈ (0, 1). Sea X el número de éxitos en n ensayos
Bernoulli independientes. Nótese que
!
n x
P (X = x) = p (1 − p)n−x
x
23
Definición: Se dice que X variable aleatoria discreta tiene distribución bi-
nomial con parámetros n ∈ N+ y p ∈ (0, 1), se denota X ∼ Bin(n, p), si su
función de densidad de probabilidad está dada por
!
n x
fX (x) = P(X = x) = p (1 − p)n−x I{0,1,2,...,n} (x)
x
(se puede siempre fracasar ó siempre tener éxito)
n x
PROPOSICIÓN: fX (x) = x p (1 − p)
n−x
es creciente si x < (n + 1)p y
es decreciente si x > (n + 1)p.
A.6.4. Poisson
Definición: Se dice que X variable aleatoria discreta tiene distribución Pois-
son con parámetro λ > 0, se denota X ∼ P oisson(λ), si su función de densidad
de probabilidad está dada por
e−λ λx
fX (x) = P(X = x) = I (x)
x! {0,1,2,...}
PROPOSICIÓN: Si X ∼ P oisson(λ), entonces:
(a) fX es efectivamente función de densidad
t
(b) mX (t) = e−λ(1−e )
(c) E(X) = λ
(d) E(X 2 ) = λ(λ + 1)
(e) V ar(X) = λ
24
A.6.5. Geométrica
Supóngase que se tiene una sucesión infinita de ensayos Bernoulli independi-
entes, en donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea
X el número de fracasos antes del primer éxito. Entonces P(X = x) = (1 − p)x p.
1−p
(c) E(X) = p
1−p 2(1−p)2
(d) E(X 2 ) = p + p2
1−p
(e) V ar(X) = p2
r(1−p)
(c) E(X) = p
r(1−p)
(d) V ar(X) = p2
25
A.6.7. Hipergeométrica
Definición: Se dice que X variable aleatoria discreta tiene distribución
hipergeométrica con parámetros n, N, r ∈ N, se denota X ∼ HiperGeo(n, N, r),
si su función de densidad de probabilidad está dada por
r N−r
x
fX (x) = P(X = x) = Nn−x
I{0,1,...,min{n,r}} (x)
n
A.6.8. Logarítmica
Definición: Se dice que X variable aleatoria discreta tiene distribución loga-
rítmica con parámetro p ∈ (0, 1), se denota X ∼ Lg(p), si su función de densidad
de probabilidad está dada por
1 px
fX (x) = P(X = x) = − I (x)
log(1 − p) x {1,2,...}
ap 1
(c) E(X) = log(1−p) ,
donde a := − log(1−p)
(d) V ar(X) = ap(1−ap) 1
(1−p)2 = µ 1−p − µ , donde µ = E(X)
26
(a) fX es efectivamente función de densidad
1 bt
(b) mX (t) = t(b−a) (e − eat )
a+b
(c) E(X) = 2
a2 +ab+b2
(d) E2 (X) = 3
(b−a)2
(e) V ar(X) = 12
A.6.10. Exponencial
Definición: Se dice que X variable aleatoria continua tiene distribución
exponencial con parámetro λ ∈ R+ , se denota X ∼ exp(λ), si su función de
densidad de probabilidad está dada por
∞ Γ(α)
(iv) 0
xα−1 e−λx dx = λx
27
n→∞ √
(v) Forma asintótica de Stirling Γ(n + 1) −→ 2πnnn e−n , en particular
n→∞ √
n! −→ 2πnnn e−n
∞
(vi) Γ(2) = Γ(1) = 0 e−x dx = 1
Definición: Se dice que X variable aleatoria continua tiene distribución
gamma con parámetros r > 0 y λ > 0, se denota X ∼ Gamma(r, λ), si su
función de densidad está dada por
λr r−1 −λx
fX (x) = x e I(0,∞) (x)
Γ(r)
PROPOSICIÓN: Si X ∼ Gamma(r, λ), entonces:
(a) fX es efectivamente función de densidad
r
λ
(b) mX (t) = λ−t si t < λ
r
(c) E(X) = λ
r(r+1)
(d) E(X 2 ) = λ2
r
(e) V ar(X) = λ2
A.6.12. Ji-cuadrada
Definición: Se dice que X variable aleatoria continua tiene distribución Ji-
cuadrada con k grados de libertad si X ∼ Gamma(k/2, 1/2), se denota X ∼
χ2(k) , i.e. si su función de densidad está dada por
( 12 )k/2 k −1 −x/2
fX (x) = x2 e I(0,∞) (x)
Γ(k/2)
PROPOSICIÓN: Si X ∼ χ2(k) , entonces:
(c) E(X) = k
(d) E(X 2 ) = k(k + 2)
(e) V ar(X) = 2k
28
A.6.13. Distribución Beta
Definición: Se dice que X variable aleatoria continua tiene distribución
beta con parámetros α > 0 y β > 0, se denota X ∼ Beta(α, β), si su función de
densidad está dada por
1
fX (x) = xα−1 (1 − x)β−1 I(0,1) (x)
B(α, β)
1
donde B(u, v) = 0
tu−1 (1 − t)v−1 dt es conocida como la función Beta.
α(α+1)
(c) E(X 2 ) = (α+β+1)(α+β)
αβ
(d) V ar(X) = (α+β)2 (α+β+1)
Γ(α+r)Γ(α+β)
(e) E(X r ) = Γ(α)Γ(α+β+r)
A.6.14. Normal
Definición: Se dice que X variable aleatoria continua tiene distribución
normal con parámetros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ2 ), si su función
de densidad está dada por
" #
1 1
fX (x) = √ exp − 2 (x − µ)2 IR (x)
2πσ 2 2σ
PROPOSICIÓN: Si X ∼ N (µ, σ2 ), entonces:
(a) fX es efectivamente función de densidad
(b) E(X) = µ
(c) E(X 2 ) = σ 2 + µ2
(d) V ar(X) = σ 2
(e) mX (t) = exp µt + 12 t2 σ2
29
A.6.15. t de Student
Definición: Se dice que X variable aleatoria continua tiene distribución t
de Student con k grados de libertad, se denota X ∼ N (µ, σ2 ), si su función de
densidad está dada por
Γ( k+1
2 ) 1 1
fX (x) = √ k+1 IR (x)
k
Γ( 2 ) kπ 1 + x2 2
k
A.6.16. F de Fisher
Definición: Se dice que X variable aleatoria continua tiene distribución F
de Fisher con parámetros m, n > 0, se denota X ∼ F (m, n), si su función de
densidad está dada por
Γ( m+n m m/2 m−2
2 ) x 2
fX (x) = m+n IR (x)
Γ( m n
2 )Γ( 2 ) n 1 + (m
n )x
2
A.6.17. Log-normal
Definición: Se dice que X variable aleatoria continua tiene distribución log-
normal con parámetros µ ∈ R y σ 2 ∈ R+ , se denota X ∼ LgN (µ, σ 2 ), si su
función de densidad está dada por
$ % !2 &'
1 1 log(x) − µ
fX (x) = √ exp − I(0,∞) (x)
x 2πσ 2 2 σ
A.6.18. Logística
Definición: Se dice que X variable aleatoria continua tiene distribución
logística con parámetros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ), si su
función de densidad está dada por
e−(x−µ)/σ
fX (x) = IR (x)
σ(e−(x−µ)/σ )2
30
(a) fX es efectivamente función de densidad
(b) E(X) = µ
πσ 2
(c) E(X 2 ) = µ2 + 3
πσ 2
(d) V ar(X) = 3
A.6.19. Log-logística
Definición: Se dice que X variable aleatoria continua tiene distribución log-
logística con parámetros α, λ ∈ R+ , se denota X ∼ log − Logistic(α, λ), si su
función de densidad está dada por
λα(λt)α−1
fX (x) = I (x)
(1 + (λt)α )2 (0,∞)
31
(a) fX es efectivamente función de densidad
σ
(b) E(X) = α−1 , α>1
Γ(α−r)Γ(r+1)σ r
(c) E(X r ) = Γ(α) , α>r
ασ 2
(d) V ar(X) = α(α−1)2 (α−2) , α>2
σ2
(d) V ar(X) = (1+k)2 (1+2k) , α>2
32
A.6.22. Gompertz
La siguiente distribución la propuso Benjamin Gompertz para ajustar tablas
de mortalidad.
A.6.23. Makeham
Definición: Se dice que X variable aleatoria continua tiene distribución
Makeham con parámetros a, b, c ∈ R+ , se denota X ∼ Mak(a, b, c), si su función
de densidad está dada por
" #
cx b cx
fX (x) = (a + be )exp −ax − (e − 1) I(0,∞) (x)
c
33
A.6.25. Gumbel
Definición: Se dice que X variable aleatoria continua tiene distribución
Gumbel con parámetros µ ∈ R, σ > 0, se denota X ∼ Gum(µ, σ), si su función
de densidad está dada por
1 x−µ x−µ
fX (x) = exp(− )exp[−exp(− )]IR (x)
σ σ σ
PROPOSICIÓN: Si X ∼ Gum(µ, σ), entonces:
(a) fX es efectivamente función de densidad
(b) E(X) = µ − σψ(1)
π
(c) E(X 2 ) = µ2 + 6σ 2 − 2σψ(1) + (ψ(1))2
π
(d) V ar(X) = 6σ 2
A.6.26. Weibull
Definición: Se dice que X variable aleatoria continua tiene distribución
Weibull con parámetros µ ∈ R, σ > 0, α > 0, se denota X ∼ W ei(σ, α, µ), si su
función de densidad está dada por
α α−1 x−µ α
fX (x) = α (x − µ) exp −( ) I(µ,∞) (x)
σ σ
PROPOSICIÓN: Si X ∼ W ei(σ, α, µ), entonces:
(a) fX es efectivamente función de densidad
(b) E(X) = µ + σΓ(1 + α1 )
(c) E(X 2 ) = µ2 + 2σµΓ(1 + α1 ) + σ 2 Γ(1 + α2 )
(d) V ar(X) = σ 2 [Γ(1 + α2 ) − Γ2 (1 + α1 )]
A.6.27. Fréchet
Definición: Se dice que X variable aleatoria continua tiene distribución
Fréchet con parámetros µ ∈ R, σ > 0, α > 0, se denota X ∼ F rechet(σ, α, µ), si
su función de densidad está dada por
!α
α −α−1 σ
fX (x) = ασ (x − µ) exp − I(µ,∞) (x)
x−µ
PROPOSICIÓN: Si X ∼ F rechet(σ, α, µ), entonces:
(a) fX es efectivamente función de densidad
(b) E(X) = µ + σΓ(1 − α1 )
(c) E(X 2 ) = µ2 + 2σµΓ(1 − α1 ) + σ 2 Γ(1 − α2 )
(d) V ar(X) = σ 2 [Γ(1 − α2 ) − Γ2 (1 − α1 )]
34
A.7. Suma de variables aleatorias independientes
Considérense X1 , . . . , Xn variables aleatorias independientes con f.d.p. fXi (xi ).
n
Se desea determinar como se distribuye Y = X1 +· · ·+Xn = Xj . Se utilizará
j=1
la función generadora de momentos para esto
mY (t) = E etY
n
= E exp t Xj
j=1
= E etX1 +···+tXn
= E etX1 · · · · · etXn
= E etX1 · · · · · E etXn
= mX1 (t) · · · · · mXn (t)
n
= mXj (t)
j=1
35