Anda di halaman 1dari 254

Notas de Probabilidades y

Estadstica
Captulos 1 al 12
Vctor J. Yohai
Basadas en apuntes de clase tomados por Alberto Dboli, durante el ao 2003
Versin corregida durante 2004, con la colaboracin de Mara Eugenia Szretter
2 de Diciembre 2004
Captulo 1
Espacios de Probabilidad.
1.1. Experimentos aleatorios. Algunas considera-
ciones heursticas.
Se llamara experimento aleatorio a un experimento tal que (i) no se
puede preveer el resultado de un solo experimento, (ii) si se repite el experi-
mento varias veces, la frecuencia con la cual el resultado esta en un conjunto
A converge a un n umero.
Ejemplos.
1. El experimento consiste en arrojar una moneda. En este caso el con-
junto de todos los posibles resultados sera
= 0, 1,
0 corresponde a ceca y 1 a cara. Si se repite experimento muchas veces, la
frecuencia con que sale por ejemplo cara tiende a 0.5
2. El experimento consiste en lanzar un dado. En este caso el conjunto
de todos los posibles resultados sera
= 1, 2, 3, 4, 5, 6.
Si se tira el dado muchas veces, por ejemplo la fecuencia con que el
resultado esta en el conjunto A sera #A/6, donde #A representa el
cardinal de A.
3. El experimento consiste en lanzar una jabalina y registrar la marca
obtenida. En este caso el conjunto de todos los posibles resultados sera el
conjunto de reales positivos y la frecuencia con que el resultado este por
ejemplo en un intervalo [a, b] dependera del atleta.
4. Se elige al azar un alumno de primer grado de un colegio y se anota
su peso en kilos, x y la altura en metros y En este caso
= (x, y) R
2
: x > 0, y > 0.
1
2 VICTOR J. YOHAI
Como puede apreciarse los resultados pueden conformar un conjunto
nito o innito de cualquier cardinalidad.
Supongamos ahora que se hacen n repeticiones del experimento aleatorio.
Si A , sea C
n
(A) el n umero de veces que el resultado esta en A, luego
la frecuencia relativa del conjunto A se dene por
f
n
(A) =
C
n
(A)
n
.
En el caso de un experimento aleatorio, cuando n crece, esta frecuencia se
aproxima a un n umero que se llamara probabilidad de A y que denotaremos
por P(A).
Claramente
0 f
n
(A) 1,
de manera que
P (A) = lm
n
f
n
(A) ,
y entonces
0 P (A) 1.
Como veremos, en algunos casos, no se puede denir la probabilidad para
todo subconjunto de resultados.
Para precisar este concepto y estudiar sus propiedades formularemos la
teora axiomatica de probabilidades.
1.2. Axiomas de probabilidad
En primer lugar deniremos algunas propiedades que tendra la familia
de todos los conjuntos para los cuales esta denida su probabilidad. Esto
nos lleva al concepto de -algebra.
1.2.1.

Algebras.
Sea un conjunto. Deniremos el conjunto partes de , por T() =
A : A . Dado un conjunto A,denotaremos por A
c
el complemento de
A
Denicion. Sea una familia / de subconjuntos de , es decir /
T().Se dice que / es una -algebra sobre si satisface las siguientes
propiedades.
A1. /.
A2. Dado A / se tiene A
c
/.
A3. Sea A
1
, ..., A
n
, ... una sucesion de elementos de /. Entonces
A =

_
i=1
A
i
/.
NOTAS DE PROBABILIDADES 3
Propiedades de algebras
Propiedad 1.1. /.
Demostracion. Resulta de A1 y A2 .2
Propiedad 1.2. Si A
1
, ..., A
n
son elementos de / entonces
n
_
i=1
A
i
/.
Demostracion
Para ver esto supongamos que A
i
/ ; i = 1, 2, ..., n. Probaremos que
A =
n
_
i=1
A
i
/.
Denamos una sucesion numerable (B
i
)
i1
agregando el conjunto de
la siguiente manera
B
j
= A
j
, 1 j n,
B
k
= si k > n.
Entonces por ser / una -algebra se tendra que

i=1
B
i
/ y por lo
tanto
A =
n
_
i=1
A
i
=

_
i=1
B
i
/ .2
Propiedad 1.3. Si / es una -algebra, y A
1
, ..., A
n
, ... es una sucesion
de elementos de / entonces A =

i=1
A
i
/.
Demostracion. Esto resulta de que A = (

i=1
A
c
i
)
c
. 2
Propiedad 1.4. Si / es una -algebra, y A
1
, ..., A
n
son elementos de /
entonces A =

n
i=1
A
i
/.
Se demuestra igual que la propiedad 1.2.2
Propiedad 1.5. Si / es una -algebra, y A
1
y A
2
son elementos de /,
entonces A
1
A
2
/.
Demostracion. En efecto A
1
A
2
= A
1

A
c
2
/.
Propiedad 1.6. La algebra sobre mas chica posible es
/
0
= , ,
y la mas grande es
/
1
= T () .
Luego si / es una -algebra sobre , se tendra
/
0
/ /
1
.2
4 VICTOR J. YOHAI
Observacion. En el contexto de la teora de la medida, un elemento de
la algebra / se llama un conjunto medible.
Como veremos en la proxima subseccion, la probabilidad estara denida
para los elementos de una algebra.
1.2.2. Espacios de Probabilidad.
Denicion. Un espacio de probabilidad es una terna (, /, P) donde
es un conjunto, / es una -algebra sobre , y P : / [0; 1] es una
funcion que satisface:
1. P() = 1.
2.( -aditividad). Si (A
n
)
n1
es una sucesion de elementos de / disjuntos
dos a dos (A
i

A
j
= , si i ,= j), entonces
P(

_
i=1
A
i
) =

i=1
P(A
i
).
Observaciones.
1. El conjunto se denomina espacio muestral y se interpreta como el
conjunto de resultados posibles del experimento, los elementos de / se de-
nominan eventos, y corresponden a los subconjuntos de para los cuales
la probabilidad esta denida. Finalmente P se denomina funcion de prob-
abilidad, y dado A /, P(A) se interpreta como la probabilidad de que el
resultado del experimento este en A.
2. En el contexto de la teora de la medida, la terna (, /, P) corresponde
a un espacio de medida donde la medida P asigna el valor uno al espacio
total.
3. Si queremos formalizar la idea intiutiva de la probabilidad como lmite
de la frecuencia es importante observar que la frecuencia tiene la propiedad
de -aditividad. En principio veamos que debera ser aditiva
Sean A
1
, A
2
, ..., A
k
eventos disjuntos tomados de a dos, esto es, A
i

A
j
=
si i ,= j entonces
f
n
_
k
_
i=1
A
i
_
=
C
n
_

k
i=1
A
i
_
n
=

k
i=1
C
n
(A
i
)
n
=
k

i=1
f
n
(A
i
) .
La -aditividad ahora se deduce pasando al lmite.
Ejemplos de espacio de probabilidad.
1.-Sea un conjunto, / = T(). Dado x
0
, denimos: A
P(A) =
_
1 si x
0
A
0 si x
0
/ A.
_
NOTAS DE PROBABILIDADES 5
P se denota
x
0
y se dice que la probabilidad esta concentrada en x
0
o bien
que el unico punto de probabilidad positiva es x
0
.
2.- Sea = x
1
, x
2
, ..., x
n
, ... cualquier conjunto numerable, / = T(X) ,
y sea a
i
0, i = 1, 2, ..., una sucesion tal que

i=1
a
i
= 1.
Denimos para todo A
P(A) =

{i: x
i
A}
a
i
En este caso P dene una probabilidad y esta completamente determi-
nada por las probabilidades a
i
asignadas a cada elemento x
i
.
Propiedades de la funcion de probabilidad.
Propiedad 1.7 P () = 0.
Demostracion
Es inmediata, pues si tomamos A
i
= , para todo i N entonces por la
-aditividad
0 P () = P
_

_
i=1
A
i
_
=

i=1
P (A
i
) =

i=1
P () 1,
y esto solo se cumple en el caso de que P () = 0. 2
Propiedad 1.8. Sean A
1
, ...., A
n
eventos disjuntos. Luego P(
n
i=1
A
i
) =

n
i=1
P (A
i
) .
Demostracion
Tomemos la sucesion B
j
= A
j
si j = 1, ..., n y B
j
= si j > n. Aplicando
la propiedad de aditividad se obtiene el resultado.2
Propiedad 1.9. Si A / entonces
P (A
c
) = 1 P (A) .
Demostracion. Esto sale teniendo en cuenta que A y A
c
son disjuntos y
1 = P () = P (A A
c
) = P (A) +P (A
c
) .2
Propiedad 1.10. Consideremos dos eventos A
1
y A
2
. Entonces
P (A
1
A
2
) = P (A
1
) P
_
A
1

A
2
_
.
Demostracion
Como
A
1
= (A
1
A
2
) (A
1
A
2
)
6 VICTOR J. YOHAI
se obtiene
P (A
1
) = P (A
1
A
2
) +P(A
1

A
2
),
y de ah el resultado 2.
Propiedad 1.11. Si A
1
, A
2
son eventos y A
2
A
1
entonces
P(A
1
A
2
) = P(A
1
) P(A
2
).
y ademas
P(A
2
) P(A
1
).
Demostracion
Por la Propiedad 10 y el hecho de que A
1
A
2
= A
2
tenemos
P(A
1
A
2
) = P(A
1
) P(A
1
A
2
)
= P(A
1
) P(A
2
)
Ademas de aqu resulta
P(A
1
) = P(A
2
) +P(A
1
A
2
)
P(A
2
).2
Propiedad 1.12. Si A
1
, A
2
son eventos entonces
P (A
1
A
2
) = P (A
1
) +P (A
2
) P (A
1
A
2
) .
Demostracion
Escribimos A
1
A
2
como la siguiente union disjunta
A
1
A
2
= (A
1
A
2
) (A
1
A
2
) (A
2
A
1
) .
Entonces usando la Propiedad 1.10
P (A
1
A
2
) = P (A
1
A
2
) +P (A
1
A
2
) +P (A
2
A
1
) =
= P (A
1
) P (A
1
A
2
) +P (A
1
A
2
)
+P (A
2
) P (A
1
A
2
)
= P (A
1
) +P (A
2
) P (A
1
A
2
) . 2
Propiedad 1.13. Sean A
i
/, i = 1, 2, ..., k. Entonces
P
_
k
_
i=1
A
i
_

i=1
P (A
i
) .
Demostracion. De la Propiedad 1.12 se obtiene
NOTAS DE PROBABILIDADES 7
P (A
1
A
2
) = P (A
1
) +P (A
2
) P (A
1
A
2
) ,
y el resultado vale para k = 2. El resto de la demostracion se hace por
induccion y se deja como ejercicio.
Propiedad 1.14.( -subaditividad). Sea (A
n
)
n1
/ y A =

n1
A
n
. Entonces
P(A)

n=1
P(A
n
).
Demostracion
Denamos
B
0
= ,
B
1
= A
1
,
B
2
= A
2
A
1
,
B
3
= A
3
(A
1
A
1
),
...
...
B
n
= A
n

n1
_
i=1
A
i
.
Luego es inmediato que los B
i
son disjuntos dos a dos y
A =

_
n=1
B
n
.
Por la aditividad y el hecho de que B
n
A
n
, resulta P (B
n
) P (A
n
)
y entonces
P (A) =

n=1
P (B
n
)

n=1
P (A
n
) . 2
Propiedad 1.15. Sea (A
n
)
n1
una sucesion de eventos tales que A
n

A
n+1
para todo n y
A =

_
i=1
A
i
.
Luego
P(A) = lm
n+
P(A
n
).
Demostracion.
Como la sucesion es creciente entonces podemos transformar la union
en una union disjunta deniendo:
8 VICTOR J. YOHAI
B
0
= A
0
= , B
1
= A
1
A
0
, B
2
= A
2
A
1
, ...., B
k
= A
k
A
k=1
, ...
Luego
A =

_
k=1
B
k
,
y por lo tanto usando la aditividad y la Propiedad 1.112 se tiene
P (A) =

k=1
P (B
k
) = lm
n
n

k=1
P (B
k
) = lm
n
n

k=1
P (A
k
A
k1
)
= lm
n
_
n

k=1
P(A
k
)
n

k=1
P (A
k1
)
_
= lm
n
P (A
n
) .2
Propiedad 1.16. Sea (A
n
)
n1
una sucesion de eventos tal que A
n

A
n+1
para todo n y
A =

i=1
A
i
.
Entonces
P(A) = lm
n+
P(A
n
).
Demostracion.
Sea B
n
= A
c
n
. Luego (B
n
)
n1
es una sucesion creciente de eventos y
A
c
=

i=1
B
i
. Luego por la propiedad anterior
1 P(A) = P(A
c
)
= lm
n+
P(B
n
)
= lm
n+
(1 P (A
n
))
= 1 lm
n+
P(A
n
),
de donde se obtiene el resultado deseado.2
Denicion. Se llama lmite superior de una sucesion de conjuntos (A
n
)
n

al conjunto
A =

k1

_
n=k
A
n
,
y lmite inferior de la sucesion al conjunto
A =
_
k1

n=k
A
n
.
NOTAS DE PROBABILIDADES 9
Ademas
(A)
c
=
_
_
_
k1

n=k
A
n
_
_
c
=

k1
_

n=k
A
n
_
c
=
=

k1

_
n=k
A
c
n
= A
c
.
Es decir el complemento del lmite inferior de la sucesion (A
n
)
n1
es el lmite
superior de la sucesion (A
c
n
)
n1
.
Propiedad 1.17. Caracterizacion de los lmites superiores e inferiores
(a) Sea
A

= : esta en innitos conjuntos A


n
.
Luego A = A

(b) Sea
A

= : esta en todos los A


n
salvo en un n umero nito.
Luego A = A

.
(c) A A
Demostracion
(a) Supongamos que A

entonces para too k N se tiene que


n=k
A
n
de manera que A.
Recprocamente si / A

entonces se encuentraen a lo sumo un


n umero nito de conjuntos A
n
. Supongamos que A
n
0
sea el ultimo en el que
esta, es decir si n > n
0
entonces / A
n
para todo n > n
0
de manera que
/

_
n=n
0
+1
A
n
y entonces / A.
(b) Consideremos la sucesion de los complementos, es decir (A
c
n
)
n1
. Por
la observacion hecha anteriormente y el punto (a) se tiene que
A = (A
c
)
c
= : pertence a innitos A
c
n

c
= : no pertenece a innitos A
c
n

= : pertenece a lo sumo a un n umero nito de conjuntos A


c
n

= : pertenece a todos a todos los A


n
salvo un n umero nito
= A

.2
10 VICTOR J. YOHAI
(c) Se obtiene del hecho de que claramente A

.2
En lo que sigue lm
n
a
n
y lm
n
a
n
denotaran respectivamente el
lmite superior e inferior de la sucesion a
n
.
Propiedad 1.18. Dada una sucesion de eventos (A
n
)
n1
, se tiene
(a) P
_
A
_
lm
n
P (A
n
) .
(b) P (A) lm
n
P (A
n
) .
(c) Se dice que existe el lmite de la sucesion (A
n
)
n1
de conjuntos sii
A = A . En tal caso se tiene
P
_
A
_
= P (A) = lm
n
P (A
n
) .
Demostracion
(a) Como lo hicimos anteriormente consideremos
A =

k=1
_
ik
A
i
y escribamos
B
k
=
_
ik
A
i
.
Entonces la sucesion (B
n
)
n1
es decreciente y
A =

k1
B
k
.
Luego, como para todo i k se tiene A
i
B
k
, podemos escribir
P (B
k
) sup
ik
P (A
i
)
y entonces
inf
k1
P (B
k
) inf
k1
sup
ik
P (A
i
)
Luego, como P(B
k
) es decreciente, se tiene
P
_
A
_
= lm
k
P (B
k
) = inf
k1
P (B
k
)
inf
k1
sup
ik
P (A
i
) = lm
i
P (A
i
) .
(b) Se deja como ejercicio.
(c) De (a) y (b) tenemos que
P (A) lm
n
P (A
n
) lm
n
P (A
n
) P
_
A
_
.
Luego si A = A, resulta P (A) = P
_
A
_
y entonces
P (A) = lm
n
P (A
n
) = lm
n
P (A
n
) = P
_
A
_
.
Luego P (A) = P
_
A
_
= lm
n
P (A
n
) .2
NOTAS DE PROBABILIDADES 11
1.3.

Algebra generada por una familia de con-
juntos.
En general no se puede tomar como algebra / a T() para denir el
espacio de probabilidad. Esto siempre es posible si es a lo sumo numerable.
El siguiente Teorema muestra que dada una familia de subconjuntos
de , existe una menor algebra que contiene a .
Teorema 1.1. Dado un conjunto y una familia de subconjuntos
de , existe una algebra /

sobre tal que (i) /

y (ii) Si / es
otra algebra sobre tal que /, entonces /

/. Se dice entonces
que /

es la algebra sobre generada por .


Demostracion
Denotaremos a la familia de todas las algebras sobre que contienen
a por 1 . Entonces
1 = / : / es una algebra sobre y / .
Claramente 1 es no vaca, ya que T() 1. Denamos ahora
/

AR
/.
Primero mostraremos que /

es una algebra sobre .


Primero mostraremos que /

.En efecto, /, para toda / 1,


luego /

.
Sea ahora A /

, mostraremos que A
c
/

. En efecto, como A /,
para toda / 1, se tiene A
c
/, para toda / 1. Luego A
c
/

Sea una sucesion numerable de eventos A


1
, A
2
, ...., A
n
, ... que estan en
/

. Mostraremos que

i=1
A
i
/

. Dado / 1, se tiene A
i
/ para
todo i, y luego

i=1
A
i
/ tambien. Luego

i=1
A
i
/, para todo / 1
y entonces

_
i=1
A
i

AR
/ = /

.
Esto prueba que /

es una -algebra. Por otro lado si / es una algebra


y / , entonces / 1, y esto implica que /

/.2
algebra de Borel sobre los reales. Si tenemos un espacio
de probabilidad cuyo espacio muestral es el conjunto de n umeros reales
R, parece natural que la algebra contenga los conjuntos de la forma
(, x].Esto permitira calcular la probabilidad de que el resultado del ex-
perimento aleatorio correspondiente sea menor o igual que x. Esto motiva
la siguiente denicion.
Denicion. La algebra de Borel sobre R, que denotaremos por B, es
la algebra sobre R generada por los conjuntos de la forma A
x
= (, x],
para todo x R. Un conjunto B B se denomina boreliano.
12 VICTOR J. YOHAI
Propiedades de los borelianos.
Propiedad 1.19. Todo intervalo (a, b] es un boreliano.
Demostracion. Como
(a, b] = (, b] (, a],
por la Propiedad 1.5. (a, b] es un boreliano 2
Propiedad 1.20. Dado x R, x B.
Demostracion. Para esto se observa que para todo n N
I
n
= (x
1
n
, x] B.
Puesto que
x
1
n
x
resulta que
x =

n=1
I
n
B,
y el resultado se obtiene por las propiedades 1.19 y 1.3. 2
De las propiedades 1.19 y 1.20, se deducen inmediatamente las propiedades
1.21-1.23
Propiedad 1.21. (a, b) = (a, b] b B.
Propiedad 1.22. [a, b] = a (a, b] B.
Propiedad 1.23. [a, b) = a (a, b) B
Propiedad 1.24. Todo abierto es un boreliano
Demostracion.
Sea G R un abierto. Para todo x G existe un intervalo (a
x
, b
x
) tal
que x (a
x
, b
x
) G con a
x
y b
x
racionales. Por lo tanto G puede escribirse
como la union numerable de borelianos
G =
_
xG
(a
x
, b
x
),
y por lo tanto G B.2
Propiedad 1.25. Todo cerrado es un boreliano
Demostracion.
Sea F un cerrado. Entonces F
c
= G es un abierto y por Propiedad 1.24
se tiene que F
c
B. Ahora por ser algebra se obtiene que
F = (F
c
)
c
B.2
algebra de Borel en R
n
.
Denicion. La algebra de Borel sobre R
n
es la algebra sobre
R
n
generada por los conjuntos de la forma
NOTAS DE PROBABILIDADES 13
A
(x
1
,x
2
,...,x
n
)
= (, x
1
] (, x
2
] ... (, x
n
],
donde (x
1
, ..., x
n
) es una n-upla de n umeros reales. Sera denotada por B
n
.
Observacion.
De manera analoga al caso de la algebra de Borel sobre R, se pueden
mostrar las propiedades 1.26-127 que se dejan como ejercicios.
Propiedad 1.26. Cualquier rectangulo en R
n
de la formas
(a
1
, b
1
] (a
2
, b
2
] (a
n
, b
n
]
(a
1
, b
1
) (a
2
, b
2
) (a
n
, b
n
)
[a
1
, b
1
) [a
2
, b
2
) [a
n
, b
n
)
es un boreliano.
Propiedad 1.27. Todo abierto y todo cerrado en R
n
es un boreliano.
1.4. Espacios de probabilidad nitos o numerables.
Sea (, /, P) un espacio de probabilidad con a lo sumo numerable.
En este caso podemos tomar como / el conjunto de partes de (T()).
Denimos la funcion de densidad p, asociada a la probabilidad P por
p : [0, 1]
de la siguiente manera
p () = P () .
Propiedades de la funcion de densidad
Propiedad 1.28. La funcion de densidad determina la funcion de prob-
abilidad. Para todo A se tiene
P (A) =

wA
p () .
Demostracion. Si A entonces A se puede escribir como la siguiente
union disjunta
A =
_
A
,
donde cada conjunto /. Luego
P (A) =

A
P () =

A
p () .2
14 VICTOR J. YOHAI
Propiedad 1.29. Si es nito o numerable se cumple que

p () = 1.
Demostracion. En efecto por la propiedad 1.28
1 = P () =

w
p () .2
Denicion. Decimos que un espacio nito =
1
, ..,
n
es equiprob-
able sii
p (
i
) = p (
j
) , i, j.
Observacion.
Un espacio de probabilidad innito numerable no puede ser equiprobable.
En efecto, supongamos que =
1
,
2
, ...,
n
, ..., y p() = c. Luego por
la propiedad 1.28 se tendra
1 =

i=1
p(
i
) =

i=1
c,
lo que es un absurdo puesto que

i=1
c = o 0 seg un c > 0 o c = 0.
Propiedad 1.30. Si es un espacio de probabilidad equiprobable en-
tonces, la probabilidad de cualquier evento A se calcula por
P (A) =
#A
#
,
donde #A denota el cardinal de A.
Demostracion. Para ver esto supongamos que para todo se tenga
p () = c, entonces
1 =

p() =

c = c

1 = c #,
y luego,
c =
1
#
.
Ademas
P (A) =

wA
p() =

wA
c = c

wA
1 = c (#A) =
#A
#
.
Ejemplo. Hallar la probabilidad de que dado un conjunto de n personas,
dos personas cumplan a nos el mismo da. Se supondra que todos los a nos
NOTAS DE PROBABILIDADES 15
tienen 365 das y que las probabilidades de nacimiento en cualquier fecha
son iguales.
Supongamos que a cada persona se le asigna un n umero entre 1 y n y
sea x
i
el da del cumplea nos de la persona i. Luego 1 x
i
365, y podemos
considerar el siguiente espacio muestral
= (x
1
, x
2
, ..., x
n
) : x
i
N : 1 x
i
365.
donde N es el conjunto de n umeros naturales.
En vez de calcular la probabilidad de que dos personas cumplan el mismo
da, calculemos la del complemento, es decir la probabilidad de que todas
cumplan a nos en das distintos
A
c
= (x
1
, x
2
, ..., x
n
) : 1 x
i
365, x
i
,= x
j
i ,= j.
Se tiene
# = 365
n
Ademas
#A
c
=
_
365
n
_
n!.
La importancia de la combinatoria se ve en este punto; es necesario
contar con principios de enumeracion. En este caso, primero seleccionamos
los n dias distintos entre los 365 das posibles y luego por cada muestra se
obtienen n! formas distintas de distribuirlos entre n personas.
Las probabilidades que se obtienen usando esta formula pueden con-
tradecir la intuicion. Por ejemplo, si n = 20, P (A) 0,41, si n = 30,
P (A) 0,76 y si n = 40, P (A) 0,89.
1.5. Probabilidad condicional.
Sea (, /, P) un espacio de probabilidad, y consideremos dos eventos
A, B /, y supongamos que P (B) ,= 0.
Queremos estudiar como cambia la probabilidad de ocurrencia de A
cuando se conoce que otro evento B ha ocurrido. En este caso habra que re-
denir el espacio muestral considerando solamente los elementos de B como
posibles resultados.
Por ejemplo, consideremos el experimento de tirar un dado y pre-
guntemosnos acerca de la probabilidad de que salga un seis, sabiendo que
el dado escogido es un n umero par. En este caso la probabilidad no es 1/6,
puesto que tenemos la certeza de que el resultado esta en el conjunto 2, 4, 6
Como cada uno de estos tres resultados tienen identica probabilidad, como
se vera, la probabilidad de obtener el 6 sabiendo que el resultado es par
sera 1/3.
16 VICTOR J. YOHAI
Vamos a tratar de determinar cual debe ser la probabilidad de un evento
A condicional a que se conoce que B ha ocurrido, utilizando interpretacion
heurstica de la probabilidad como limite de la frecuencia con la cual
un evento ocurre. Para esto supongamos que se han hecho n repeticiones
independientes del experimento y denotemos con
n
B
: el n umero de veces en el que ocurre el resultado B,
n
AB
: el n umero de veces en el que ocurre el resultado A B.
Heursticamente la probabilidad condicional de A dado B,sera el lmite
de la frecuencia con la cual A ocurre en los experimentos donde B ocurre,
es decir el lmite de
n
AB
n
B
.
Luego, la probabilidad de que ocurra A condicional B sera
lm
n
n
AB
n
B
= lm
n
n
AB
n
n
B
n
=
lm
n
n
AB
n
lm
n
n
B
n
=
P (A B)
P (B)
.
Esto justica la siguiente denicion:
Denicion. Sea (, /, P) un espacio de probabilidad A, B / tal que
P (B) > 0. Se dene la probabilidad condicional de A dado B por
P (A[B) =
P (A B)
P (B)
.
El siguiente Teorema muestra que para cada B jo, P(.[B) es una funcion
de probabilidad.
Teorema 1.2
Fijado el evento B , tal que P(B) > 0, denamos

P : / [0, 1] por

P (A) = P (A[B)
para todo A / . Luego

P es una probabilidad.
Demostracion
(i)

P () = P ([B) =
P ( B)
P (B)
=
P (B)
P (B)
= 1
(ii) Sea (A
n
)
n1
, una sucesion de eventos disjuntos dos a dos, es decir si
NOTAS DE PROBABILIDADES 17
i ,= j, entonces A
i
A
j
= . Luego

P
_

_
n=1
A
n
_
= P
_

_
n=1
A
n
[B
_
=
P
__

_
n=1
A
n
_
B
_
P (B)
=
=
P
_

_
n=1
A
n
B
_
P (B)
=

n=1
P (A
n
B)
P (B)
=
=

n=1
P (A
n
B)
P (B)
=

n=1
P (A
n
[B) =

n=1

P (A
n
) . 2
1.6. Independencia de eventos.
Denicion. Sea (, /, P) un espacio de probabilidad y consideremos
A, B / Se dice que A y B son independientes sii
P (A B) = P (A) P(B).
Propiedad 1.31. (i) Si P(B) > 0, entonces A y B son independientes
si y solo si P(A[B) = P(A).(ii) Si P(B) = 0, dado cualquier A / se tiene
que A y B son independientes. La demostracion es inmediata.
La propiedad de independencia se generaliza para un n umero nito de
eventos.
Denicion. Se dice que los eventos A
1
, ..., A
k
son independientes sii
para cualquier sucesion de subndices (i
1
, ...i
h
), h k, con i
r
,= i
s
si r ,= s
se tiene que
P
_
_
h

j=1
A
i
j
_
_
=
h

j=1
P
_
A
i
j
_
.
Observaciones.
1. Para que tres eventos A
1
, A
2
y A
3
sean independientes se deben
cumplir las siguientes igualdades
P (A
1
A
2
) = P (A
1
) P (A
2
)
P (A
1
A
3
) = P (A
1
) P (A
3
)
P (A
2
A
3
) = P (A
2
) P (A
3
)
P (A
1
A
2
A
3
) = P (A
1
) P (A
2
) P (A
3
) .
2. No alcanza la independencia tomados de a dos.
18 VICTOR J. YOHAI
Como ejemplo tomemos =
1
,
2
,
3
,
4
espacio de probabilidad
equiprobable, es decir P (
i
) =
1
4
.
Entonces los conjuntos
A
1
=
1
,
2

A
2
=
1
,
3

A
3
=
2
,
3

son independientes tomados de a dos pero no en forma conjunta.


Mas precisamente, se cumple que
j : P (A
j
) =
1
2
A
i
A
j
=
k
para alg un k
y luego
P (A
i
A
j
) =
1
4
=
1
2

1
2
= P (A
i
) P (A
j
) .
Pero
A
1
A
2
A
3
= ,
y por lo tanto
0 = P (A
1
A
2
A
3
) ,= P (A
1
) P (A
2
) P (A
3
) =
1
8
.
Teorema 1.3. A
1
, ..., A
k
son eventos independientes si y solo si para
cualquier sucesion (i
1
, ...i
h
), h k, con i
r
,= i
s
si r ,= s y tal que
P
_
_
h

j=2
A
i
j
_
_
> 0,
se tiene que
P
_
_
A
i
1

j=2
A
i
j
_
_
= P (A
i
1
) . (1.1)
Demostracion.
Supongamos primero que A
1
, ..., A
k
son independientes y demostraremos
que se cumple (1.1). Sean A
i
1
, A
i
2
, ..., A
i
h
tales que i
r
,= i
s
si r ,= s y
P
_

h
j=2
A
i
j
_
> 0.
Entonces
P
_
_
A
i
1

j=2
A
i
j
_
_
=
P
_

h
j=1
A
i
j
_
P
_

h
j=2
A
i
j
_ =

h
j=1
P
_
A
i
j
_

h
j=2
P
_
A
i
j
_ = P (A
i
1
) .
NOTAS DE PROBABILIDADES 19
Supongamos ahora que A
1
, ..., A
k
son eventos que satisfacen la propiedad
del enunciado.
Queremos probar que entonces son independientes, es decir que
P
_
_
h

j=1
A
i
j
_
_
=
h

j=1
P
_
A
i
j
_
. (1.2)
Lo probaremos por induccion sobre h. Comenzaremos con h = 2. Dados
A
i
1
y A
i
2
con i
1
,= i
2
, puede suceder que (a) P(A
i
2
) = 0 o que (b) P(A
i
2
) >
0. En el caso (a) se tiene que como A
i
1
A
i
2
A
i
2
, resulta P(A
i
1
A
i
2
) = 0
y luego
P(A
i
1
A
i
2
) = P(A
i
1
)P(A
i
2
) (1.3)
En el caso (b) como vale (1.1) se tiene
P(A
i
1
[A
i
2
) =
P(A
i
1
A
i
2
)
P(A
i
2
)
= P(A
i
1
)
y luego tambien vale
P(A
i
1
A
i
2
) = 0 = P(A
i
1
)P(A
i
2
).
Esto muestra que (1.2) vale para h = 2.
Supongamos ahora que (1.2) vale para h y probemos que tambien vale
para h + 1.
Elegimos A
i
1
, A
i
2
, ..., A
i
h
, A
i
h+1
eventos. Consideramos dos casos
(a) Supongamos que P
_

h+1
j=2
A
i
j
_
= 0. En tal caso por la suposicion
que (1.2) vale para h conjuntos se tiene que
0 = P
_
_
h+1

j=2
A
i
j
_
_
=
h+1

j=2
P
_
A
i
j
_
.
Luego
h+1

j=1
P
_
A
i
j
_
= 0, (1.4)
y como

h+1
j=1
A
i
j

h+1
j=2
A
i
j
se tendra que
P
_
_
h+1

j=1
A
i
j
_
_
= 0. (1.5)
De (1.4) y (1.5) obtenemos que
P
_
_
h+1

j=1
A
i
j
_
_
=
h+1

j=1
P
_
A
i
j
_
.
20 VICTOR J. YOHAI
(b) Supongamos ahora que P
_

h+1
j=2
A
i
j
_
> 0. Entonces como estamos
suponiendo que (1.1) vale se tiene
P
_
_
A
i
1

h+1

j=2
A
i
j
_
_
= P (A
i
1
) ,
y luego
P
_

h+1
j=1
A
i
j
_
P
_

h+1
j=2
A
i
j
_ = P (A
i
1
) .
Equivalentemente
P
_
_
h+1

j=1
A
i
j
_
_
= P (A
i
1
) P
_
_
h+1

j=2
A
i
j
_
_
,
y como por la hipoteisis inductiva (1.2) vale para h, se deduce
P
_
_
h+1

j=1
A
i
j
_
_
= P (A
i
1
)
h+1

j=2
P
_
A
i
j
_
=
h+1

j=1
P
_
A
i
j
_
. 2
Denicion. Sea I un conjunto nito o numerable, una sucesion A
i

iI
se dice una particion de sii
1.
_
iI
A
i
=
2. Si i ,= j entonces
A
i
A
j
=
Teorema 1.4 (Teorema de la Probabilidad Total). Sea (, /, P)
un espacio de probabilidad, A
n

nI
/ una particion de con P(A
i
) > 0,
para todo i I y B / tal que P(B) > 0. Entonces
P (B) =

iI
P(A
i
)P (B[A
i
)
Demostracion
Como B se puede escribir como la siguiente union disjunta
B =
_
iI
(B A
i
) ,
NOTAS DE PROBABILIDADES 21
entonces como P(B[A
i
) = P(BA
i
)/P(A
i
), se tiene P(BA
i
) = P(A
i
)P(B[A
i
)
y por lo tanto
P (B) =

iI
P(A
i
)P (B[A
i
) .2
Teorema 1.5 ( Bayes). Sea (, /, P) un espacio de probabilidad y
A
i

1ik
/ una particion de con P(A
i
) > 0, 1 i k. Sea B /
con P(B) > 0.
Supongamos conocidas a priori las probabilidades P (B[A
i
) y P (A
i
) para
todo i. Entonces
P (A
i
[B) =
P (A
i
) P (B[A
i
)

k
j=1
P (A
j
) P (B[A
j
)
.
Demostracion
Usando el teorema de la probabilidad total teniendo en cuenta que
A
j

1jk
es una particion y aplicando la denicion de probabilidad condi-
cional y el Teorema 1.4 se obtiene
P (A
i
[B) =
P (A
i
B)
P (B)
=
P (A
i
) P (B[A
i
)

k
j=1
P (A
j
) P (B[A
j
)
.
Ejemplo de aplicacion del Teorema de Bayes.
Consideremos un test que detecta pacientes enfermos de un tipo espec-
co de enfermedad. La deteccion corresponde a que el test de positivo. El re-
sultado de un test negativo se interpreta como no deteccion de enfermedad.
Sea
A
1
: el evento el paciente seleccionado no tiene la enferemedad
A
2
: el evento el paciente seleccionado tiene la enfermedad
Entonces A
1
, A
2
constituye una particion del espacio de probabilidad
Consideremos ademas
T
+
: el evento el test da positivo
T

: el evento el test da negativo


Supongamos conocidas las probabilidades de ser sano o enfermo antes
de hacer el test (probabilidades apriori).
P (A
1
) = 0,99; P (A
2
) = 0,01.
Ademas supongamos que
P (T
+
[A
1
) = 0,01; P (T
+
[A
2
) = 0,99.
22 VICTOR J. YOHAI
Observacion.
Para un test perfecto se pedira
P (T
+
[A
1
) = 0; P (T
+
[A
2
) = 1.
Es decir, estamos suponiendo que el test no es perfecto.
Calculemos la probabilidad de que dado que el test detecta enfermedad
el paciente sea efectivamente enfermo (esta probabilidad se denomina prob-
abilidad a posteriori). De acuerdo al Teorema de Bayes se tiene
P (A
2
[T
+
) =
P (A
2
) P (T
+
[A
2
)
P (A
1
) P (T
+
[A
1
) +P (A
2
) P (T
+
[A
2
)
= 0,5.
y
P (A
1
[T
+
) = 1 P (A
2
[T
+
) = 0,5
La conclusion es que si el test da positivo, no hay una evidencia fuerte
de que el paciente este enfermo o sano ya que ambas probabilidades condi-
cionales son iguales a 0.50. Luego un test como el descripto no es util para
detectar la enfermedad.
Si logramos tener
P (T
+
[A
1
) = 0,001; P (T
+
[A
2
) = 0,999
la situacion cambia; en tal caso resulta P (A
2
[T
+
) = 0,91, que es mas
aceptable que la anterior.
Captulo 2
Variable Aleatoria.
2.1. Concepto de variable aleatoria.
En muchos casos interesa conocer solamente alguna caracterstica numeri-
ca del resultado del experimento aleatorio. Demos dos ejemplos: (1) el ex-
perimento consiste en tirar dos dados y los posibles resultados son =
(x, y) : x I
6
, y I
6
donde I
k
= 1, 2, ..., k y para cada resultado (x, y)
interesa solo la suma de los dados x +y. (2) El experimento consiste en un
tiro al blanco y el conjunto de los resultados es = (x, y) : x R, y R,
x e y son la abcisa y ordenada del punto donde pego el tiro tomando origen
(0, 0) el punto correspondiente al blanco. En este ejemplo solo interesa la
distancia al blanco, es decir (x
2
+y
2
)
1/2
Denicion. Sea (, /, P) un espacio de probabilidad. Una variable
aleatoria es una funcion X : R tal que para todo x R
X
1
((, x]) /. (2.1)
Observaciones
1. La condicion (2.1) permite calcularP( : X() x) = P(X
1
((, x])).
2. El concepto de variable aleatoria es esencialmente el mismo que el de
funcion medible en teora de la medida. Si (, /, ) es un espacio de medida
f : / R se dice medible sii para todo x vale que f
1
((, x])) /.
3. Si / es el conjunto de partes de , como es usual cuando es nito
o numerable, la condicion (2.1) se cumple trivialmente.
Teorema 2.1. Sea X una variable aleatoria sobre un espacio de proba-
bilidad (, /, P). Entonces vale que X
1
(B) / para todo B B. (B es
el conjunto de borelianos en R).
1. Demostracion. Como por denicion X
1
((, x]) /, basta con ver-
icar que
= A R : X
1
(A) /
23
24 VICTOR J. YOHAI
es una algebra. Si esto es cierto se tendra que B , puesto que
la algebra de Borel es la mas chica que contiene a las semirectas.
Veamos que esto es cierto
(a) R pues
X
1
(R) = /.
(b) Si A , entonces A
c
. Como X
1
(A) /, se tendra que
X
1
(A
c
) =
_
X
1
(A)

c
/.
(c) Sea A
n

nN
. Luego X
1
(A
n
) / para todo n y como / es un
algebra se tendra que
_
nN
X
1
(A
n
) /.
Luego
X
1
_
_
nN
A
n
_
=
_
nN
X
1
(A
n
) /.
(a), (b) y (c) prueban que es una -algebra.2
2.2. Espacio de probabilidad asociado a una varia-
ble aleatoria.
Sea un espacio de probabilidad (, /, P) y sea X : R una variable
aleatoria. Asociada a esta variable podemos denir un nuevo espacio de
probabilidad (R, B, P
X
) donde para todo B B se dene
P
X
(B) = P
_
X
1
(B)
_
.
Observese que P
_
X
1
(B)
_
esta denido ya que X
1
(B) esta en /.
Vamos a mostrar que P
X
es efectivamente una probabilidad. La funcion P
X
se denomina probabilidad inducida por X o distribucion de X.
Si a uno le interesa solo el resultado de la variable aleatoria, esto permite
trabajar en un espacio de probabilidad donde el espacio muestral es R y la
algebra es B, la algebra de Borel.
Teorema 2.2. P
X
es efectivamente una funcion de probabilidad.
Demostracion.
(a)
P
X
(R) = P
_
X
1
(R)
_
= P () = 1.
NOTAS DE PROBABILIDADES 25
(b) Si B
i

iN
B es una sucesion disjunta dos a dos, entonces X
1
(B
i
)
iN
tambien lo es. Luego
P
X
_
_
iN
B
i
_
= P
_
X
1
_
_
iN
B
i
__
= P
_
_
iN
X
1
(B
i
)
_
=
=

iN
P
_
X
1
(B
i
)
_
=

iN
P
X
((B
i
)) . 2
Deniremos el concepto de funcion medible
Denicion. Una funcion g : R R, se dice medible Borel sii para todo
x R
g
1
((, x]) B.
Observaciones.
1. Trabajaremos en este curso con funciones medibles Borel, de manera
que a veces nos referiremos a ellas simplemente con el nombre de medibles.
2. Si B B resultara g
1
(B) B. Este resultado se demuestra como el
analogo para variables aleatorias.
3. Considerando un espacio de probabilidad con = R y / = B es
inmediato que g es medible Borel es equivalente a que g es una variable
aleatoria.
Ejercicio Demostrar los siguientes resultados
Propiedad 2.1. Si g : R R es continua entonces g es medible.
Propiedad 2.2. Si g : R R es monotona entonces g es medible.
Propiedad 2.3. Si B es boreliano, su funcion caracterstica I
B
es me-
dible.
Propiedad 2.4. Sea f
n

n1
es una sucesion de funciones medibles.
Entonces
(a) Las siguientes funciones son medibles
f (x) = inf
nN
f
n
(x),
f (x) = sup
nN
f
n
(x).
(b) Tambien son medibles
f (x) = lm
n
f
n
(x) ,
f (x) = lm
n
f
n
(x) .
En particular si existe el lmite puntual
f (x) = lm
n
f
n
(x)
26 VICTOR J. YOHAI
es medible.
El siguiente teorema muestra que la composicion de una variable aleato-
ria con una funcion medible es una variable aleatoria.
Teorema 2.3. Si g : R R es medible y X : R es una variable
aleatoria, entonces g (X) : R es tambien una variable aleatoria.
Demostracion
Basta con observar que dado B B
[g (X)]
1
(B) = X
1
_
g
1
(B)
_
Como C = g
1
(B) B, resulta que tambien X
1
_
g
1
(B)
_
B.2
Como consecuencia de este teorema si g es continua y X es una variable
aleatoria resulta que g(X) tambien una variable aleatoria. Por ejemplo si X
es una variable aleatoria, entonces seno(X) , coseno(X) , a
X
, con a constante
son variables aleatorias.
Teorema 2.4. Si X, Y son variables aleatorias entonces
(1) X +Y , X Y son variables aleatorias.
(2) Si P (Y ,= 0) = 1 entonces X/Y es una variable aleatoria.
La demostraciones de 1 y 2 se veran mas adelante.
2.3. Funci on de distribucion de una variable aleato-
ria.
Denicion. Sea X una variable aleatoria. Se dene la funcion de dis-
tribucion asociada a X como la funcion F
X
: R [0, 1] dada por
F
X
(x) = P
X
((, x]) = P
_
X
1
((, x])
_
.
Observacion.
Como veremos la importancia de F
X
es que caracteriza la distribucion
de X. Es decir F
X
determina el valor de P
X
(B) para todo B B
Propiedades de la funcion de distribucion.
Las cuatro propiedades probadas en el Teorema 2.5 van a caracterizar
la funciones de distribucion.
Teorema 2.5. Sea X una variable aleatoria sobre (, /, P ) y sea F
X
su funcion de distribucion. Entonces se tiene
(1) F
X
es monotona no decreciente, es decir x
1
< x
2
implica F
X
(x
1
)
F
X
(x
2
) .
(2) lm
x
F
X
(x) = 1.
(3) lm
x
F
X
(x) = 0.
(4) F
X
es continua a derecha en todo punto de R.
NOTAS DE PROBABILIDADES 27
Demostracion.
(1) Si x < x

entonces
(, x] (, x

],
y por lo tanto
F
X
(x) = P ((, x]) P
_
(, x

]
_
= F
X
_
x

_
.
(2) En primer lugar veamos que
lm
n
F
X
(n) = 1.
Consideremos la sucesion monotona creciente de conjuntos
A
n
= (, n], n N.
Entonces
_
nN
A
n
= R.
Luego de acuerdo con la propiedad para sucesiones crecientes de eventos
lm
n
F
X
(n) = lm
n
P
X
(A
n
) = P
X
_
_
nN
A
n
_
= P
X
(R) = 1.
Ahora veamos que efectivamente lm
n
F
X
(x) = 1, esto es para todo
> 0 existe x
0
> 0 tal que si x > x
0
entonces se cumple [F
X
(x) 1[ < . O
equivalentemente
1 < F
X
(x) < 1 +.
Por 0 F
X
(x) 1, se cumple que para cualquier > 0, F
X
(x) < +1.
Por lo tanto solo tenemos que mostrar que existe x
0
> 0 tal que si x > x
0
entonces se cumple
1 < F
X
(x) .
Sabemos que dado > 0 existe un n
0
N tal que si n > n
0
entonces
1 < F
X
(n) .
Tomando x
0
= n
0
y teniendo en cuenta la monotona de F
X
, se tendra que
si x > x
0
entonces
1 < F
X
(n
0
) F
X
(x) .
(3) Se demuestra similarmente a (2).
En primer lugar se prueba que
lm
n
F
X
(n) = 0.
28 VICTOR J. YOHAI
Luego se considera la sucesion monotona decreciente que converge a
A
n
= (, n],
y se obtiene
lm
n
P
X
(A
n
) = 0.
Luego se procede como en (2)
(4) Queremos ver que F
X
es continua a derecha en cualquier punto x
0

R. Es decir, dado > 0 existe > 0 tal que si
0 < x x
0
<
entonces
F
X
(x
0
) F
X
(x) F
X
(x
0
) +.
La primer inecuacion es valida siempre ya que como x
0
< x entonces
F
X
(x
0
) F
X
(x
0
) F
X
(x). Basta entonces probar que F
X
(x)
F
X
(x
0
) +.
Consideremos la sucesion decreciente de conjuntos
A
n
=
_
, x
0
+
1
n
_
que satisface

nN
A
n
= (, x
0
].
Entonces
lm
n
F
X
_
x
0
+
1
n
_
= lm
n
P
X
(A
n
) = P
X
_

nN
A
n
_
= P
X
((, x
0
]) = F
X
(x
0
)
Luego existe n
0
N tal que si n > n
0
entonces
F
X
_
x
0
+
1
n
_
F
X
(x
0
) +
Si tomamos < 1/n
0
, entonces para todo x tal que 0 < x x
0
< se
tendra
F
X
(x) F
X
(x
0
+) F
X
_
x
0
+
1
n
0
_
F
X
(x
0
) +.2
Dada una funcion g : R R, denotemos por lm
xx
0

g(x) el lmite de
g(x) cuando x tiende a x
0
por la izquierda. Entonces tenemos la siguiente
propiedad de la funcion de distribucion.
NOTAS DE PROBABILIDADES 29
Propiedad 2.5. Para todo x
0
R se tiene que
lm
xx
0

F
X
(x) = F
X
(x
0
) P
X
(x
0
) .
Demostracion. Sea a = F
X
(x
0
) P
X
(x
0
) . Tenemos que mostrar que
dado > 0 existe > 0 tal que si x
0
< x < x
0
, entonces
a F
X
(x) a +. (2.2)
Tenemos que
a = P
X
((, x
0
]) P
X
(x
0
) = P
X
((, x
0
)).
Como x
0
< x < x
0
implica que (, x] (, x
0
), se tendra que
F
X
(x) = P
X
((, x]) P
X
((, x
0
)) = a.
Luego, para probar (2.2) bastara probar que x
0
< x < x
0
implica
a F
X
(x). (2.3)
Como la sucesion de intervalos A
n
= (, x
0
1/n] es creciente y
_
nN
A
n
= (, x
0
),
se tendra
lm
n
F
X
(x
0
1/n) = lm
n
P
X
(A
n
) = P
X
((, x
0
))
= a.
Luego existe n
0
tal que F
X
(x
0
1/n
0
) a . Sea = 1/n
0
y tomemos
x
0
< x < x
0
. Por la monotona de F
X
se tendra
a F
X
(x
0
1/n
0
) = F
X
(x
0
) F
X
(x),
y por lo tanto (2.3) se cumple. Esto prueba Propiedad 2.5.2
Propiedad 2.6. F
X
es continua a izquierda en x
0
si y solo si P
X
(x
0
) =
0.
Demostracion.
El resultado es inmediato a partir de la Propiedad 2.5.2
Teorema 2.6. Sea F
X
la funcion de distribucion de una v.a X. Entonces
el conjunto de puntos de discontinuidad de F
X
es a lo sumo numerable.
Demostracion. De acuerdo a la Propiedad 2.6, el conjunto de puntos de
discontinuidad esta dado por
A = x : P
X
(x) > 0.
30 VICTOR J. YOHAI
Para todo k N sea
A
k
=
_
x : P
X
(x) >
1
k
_
.
Entonces es facil mostrar que

_
k=1
A
k
= A.
Luego para demostrar el teorema bastara probar que para k N se tiene
que #A
k
< . En efecto, supongamos que para alg un k
0
existen innitos
puntos x
n

n1
tal que para todo n N se cumpla
P
X
(x
n
) >
1
k
0
.
Entonces si
B =
_
iN
x
i

se tendra
P
X
(B) =

i=1
P
X
(x
i
) >

i=1
1
k
0
= ,
lo que es un absurdo.2
Veremos ahora que toda funcion con las cuatro propiedades del Teo-
rema 2.5 es una funcion de distribucion para cierta variable aleatoria X
(no unica). Para eso se requiere el siguiente Teorema que daremos sin de-
mostracion.
Teorema 2.7. (de Extension) Sea F : R [0, 1] una funcion con las
cuatro propiedades del Teorema 2.5 Luego existe una unica probabilidad P
sobre (R, B) tal que para todo x R se tiene
P ((, x]) = F (x) .
Este Teorema no se demostrara en este curso ya que requiere teora de
la medida. La la probabilidad P se denomina extension de la funcion F.
Veremos ahora algunas consecuencias del Teorema de Extension.
Corolario 1.
Si X y X

son variables aleatorias tales que F


X
= F
X
. Entonces para
todo B B se tendra
P
X
(B) = P
X
(B) .
Demostracion.
Es consecuencia de la unicidad del teorema de extension.2
NOTAS DE PROBABILIDADES 31
Corolario 2.
Si F satisface las cuatro propiedades del Teorema 2.5, entonces existe
una variable aleatoria X (no necesariamente unica) tal que F = F
X
.
Demostracion.
De acuerdo al teorema de extension se puede denir un espacio de
probabilidad (R, B, P) de forma tal que para todo x R
F (x) = P ((, x]) .
Ahora consideramos la funcion identidad X : R R denida como
X (x) = x para todo x R. Entonces se cumple que
F
X
(x) = P
X
((, x]) = P(X
1
((, x])) = P((, x]) = F (x) . 2
32 VICTOR J. YOHAI
Captulo 3
Variables aleatorias
discretas y continuas.
Existen varios tipos de variables aleatorias. En este curso solo estudiare-
mos con detalle las discretas y las (absolutamente) continuas.
3.1. Variables aleatorias discretas.
Denicion. Se dice que una v.a. X es discreta sii existe A R nito o
numerable tal que P
X
(A) = 1.
Observacion. Ese conjunto A no tiene porque ser unico. Si se le agrega
un conjunto nito o numerable de probabilidad cero, seguira teniendo esta
propiedad. A continuacion vamos a encontrar el conjunto mas chico que
tiene esta propiedad.
Denicion. Sea X una variable aleatoria discreta. Se dene el rango
de X como el conjunto de los puntos de discontinuidad de la funcion de
distribucion, es decir por
R
X
= x R : P
X
(x) > 0.
Teorema 3.1. Sea X una variable aleatoria discreta. Luego (i) P
X
(R
X
) =
1,(ii) Si P
X
(A) = 1, entonces R
X
A.
Demostracion
(i) Sea A un conjunto a lo sumo numerable tal que P
X
(A) = 1. Luego A
se puede escribir como la siguiente union disjunta
A = (A R
X
) (AR
X
) .
Entonces
1 = P
X
(A)
= P
X
((A R
X
) (AR
X
))
= P
X
(A R
X
) +P
X
(AR
X
) . (3.1)
33
34 VICTOR J. YOHAI
Luego basta probar que
P
X
(AR
X
) = 0. (3.2)
El conjunto A R
X
es nito o innito numerable. Ademas para todo
x AR
X
se tiene que P
X
(x) = 0. Luego, como
AR
X
=
_
xAR
X
x,
resulta que
P
X
(AR
X
) =

xP
X
(AR
X
)
P
X
(x) = 0.
Luego hemos demostrado (3.2). Luego por (3.1) se tiene P
X
(A R
X
) = 1,
y luego tambien P(R
X
) = 1.
(ii) Sea un conjunto A numerable tal que P
X
(A) = 1. Supongamos que
exista x
0
R
X
tal que x
0
/ A entonces consideramos

A = A x
0
y se
obtiene que
P
X
(

A) = P
X
(A) +P
X
(x
0
) > P
X
(A) = 1,
lo cual es un absurdo. 2
La importancia de R
X
reside en el hecho de que para calcular la proba-
bilidad de un evento B solo interesan los puntos de B que estan en R
X
. En
este sentido se dice que la probabilidad se concentra en R
X
.
Teorema 3.2 Para todo B B se tiene
P
X
(B) = P
X
(R
X
B) .
Demostracion.
Podemos escribir B como la siguiente union disjunta
B = (R
X
B) (B R
X
) , (3.3)
y tomando probabilidad en ambos miembros se obtiene
P
X
(B) = P
X
(R
X
B) +P
X
(B R
X
) .
Pero
B R
X
(R
X
)
c
,
de manera que
P
X
(B R
X
) P
X
((R
X
)
c
) = 0.
Luego P
X
(B R
X
) = 0 y el Teorema resulta de (3.3).
Denicion. Sea X una variable aleatoria discreta. Se dene la funcion
de densidad de probabilidad asociada a la variable X como la funcion
p
X
: R [0, 1]
NOTAS DE PROBABILIDADES 35
tal que
p
X
(x) = P
X
(x) .
Tambien p
X
se suele llamar funcion de probabilidad puntual de X o funcion
de frecuencia de X.
Observacion.
La funcion de densidad satisface p
X
(x) > 0 sii x R
X
y determina
totalmente la probabilidad P
X
.
Para ver esto probaremos el siguiente Teorema.
Teorema 3.3. Si B B entonces
P
X
(B) =

xBR
X
p
X
(x) .
Demostracion. BR
X
se puede escribir como la siguiente union disjunta
B R
X
=
_
xBR
X
x.
Como B R
X
es nito o numerable se tiene
P
X
(B) = P
X
(R
X
B) =

xBR
X
p
X
(x) 2.
3.2. Ejemplos de distribuciones discretas.
3.2.1. Distribucion Binomial.
Supongamos que se repite n veces un experimento que puede dar lugar
a dos resultados: exito o fracaso. Supongamos que todos los experimentos
son independientes y tienen la misma probabilidad de exito . Sea X la
variable aleatoria denida como el n umero total de exitos. La distribucion
de esta variable se denomina binomial con n repeticiones y probabilidad de
exito . La denotaremos con Bi(, n) .
Para formalizar este experimento aleatorio tomaremos como espacio
muestral
= (
1
,
2
, ...,
n
) :
i
0, 1,
donde
i
= 1 indicara que el i-esimo experimento resulto exito y
i
= 0 que
fue fracaso. Como es nito podemos tomar como algebra / el conjunto
de partes de .
La variable X se puede denir por
X ((
1
,
2
, ...,
n
)) =
n

i=1

i
.
36 VICTOR J. YOHAI
El rango de esta variable es R
X
= 0, 1, ..., n. Obtendremos seguida-
mente su funcion de densidad. Sea 0 x n, el evento X = x esta dado
por
A
x
= (
1
,
2
, ...,
n
) :
n

i=1

i
= x.
En primer lugar determinaremos la cantidad de elementos del conjunto
A
x
. Claramente un elemento de A
x
queda determinado por los x lugares
entre los n posibles donde aparecen los unos. De manera que
#(A
x
) =
_
n
x
_
.
Observese que el espacio muestral no es equiprobable, por lo que la prob-
abilidad no se determina con el esquema casos favorables / casos igualmente
posibles.
Sea el resultado de un experimento cualquiera. Si = 0 entonces
P () = 1 y si = 1 entonces P () = . Esto puede escribirse de
manera mas compacta de la siguiente manera
P () =

(1 )
1
.
En primer lugar calculemos la probabilidad de un elemento arbitrario
del espacio muestral. Teniendo en cuenta la independencia de los resultados
de los distintos experimentos y que la ocurrencia de (
1
,
2
, ...,
n
) involucra
una interseccion de eventos se tiene que
P ((
1
,
2
, ...,
n
)) = P
_
n

i=1
en el experimento i el resultado es
i

_
=
n
i=1
P (
i
)
=
n
i=1

i
(1 )
1
i
=
=

n
i=1

i
(1 )
n

n
i=1

i
.
Ahora si = (
1
,
2
, ...,
n
) A
x
entonces

n
i=1

i
= x y queda que la
probabilidad de ocurrencia de cualquier elemento de A
x
es
p
X
() = p
X
((
1
,
2
, ...,
n
)) =
x
(1 )
nx
En denitiva como A
x
se puede escribir como la siguiente union disjunta
A
x
=
_
A
x

NOTAS DE PROBABILIDADES 37
entonces
p
X
() = P ( : X() = x)
= P (A)
=

A
x
P () =
= #(A
x
)
x
(1 )
nx
=
_
n
x
_

x
(1 )
nx
.
3.2.2. Distribucion Binomial Negativa (o Distribucion de Pas-
cal)
Consideremos, como en el caso de la distribucion binomial, un experi-
mento aleatorio cuyo resultado es exito con probabilidad y fracaso con
probabilidad 1. Supongamos que se hacen repeticiones independientes del
experimento hasta que ocurran k exitos. Los parametros de esta distribu-
cion son : probabilidad de exito y k : el n umero de exitos buscado.
Llamaremos X a la variable aleatoria denida como el n umero de experi-
mentos que hay que realizar para obtener los k exitos. La distribucion de
esta variable se denomina binomial negativa o de Pascal y se la denotara con
BN(, k). El rango de X es
R
X
= m N : m k
el cual es innito numerable.
Consideremos la sucesion variables aleatorias independientes Z
i
, i N
denidas por
Z
i
=
_
1 si el i-esimo experimento es exito
0 si el i-esimo experimento es fracaso,
y denimos las variables
Y
i
=
i

j=1
Z
j
,
Claramente Y
i
cuenta la cantidad de exitos que se alcanzaron en los primeros
i experimentos. Luego su distribucion es Bi(, i)
El evento X = x, o sea el evento denido como la cantidad de expe-
rimentos necesarios para alcanzar k exitos es x, puede escribirse como una
interseccion de dos eventos
X = x = Y
x1
= k 1 Z
k
= 1]
38 VICTOR J. YOHAI
Los dos eventos del lado derecho de la ultima ecuacion son independien-
tes. Luego, usando el hecho que Y
x1
tiene distribucion Bi(, x 1) resulta
para x k.
p
X
(x) = P (X = x)
= P (Y
x1
= k 1) P (Z
k
= 1)
=
_
x 1
k 1
_

k1
(1 )
xk

=
_
x 1
k 1
_

k
(1 )
xk
(3.4)
3.2.3. Distribucion geometrica.
Se llama distribucion geometica a la BN(, k), con k = 1. Luego es la
distribucion de la variable aleatoria X denida como el n umero de expe-
rimentos necesarios para alacanzar el primer exito. A esta distribucion la
denotarenos como G().
El rango de los valores posibles para la v.a. X es
R
X
= 1, 2, ..., n, ....
Reemplazando k = 1 en (3.4) se obtiene
p
X
(x) =
_
x 1
0
_
(1 )
x1
= (1 )
x1
.
Podemos vericar que

x=1
p
X
(x) =

x=1
(1 )
x1
=

x=1
(1 )
x1
=
=

j=0
(1 )
j
=
1
1 (1 )
= 1.
3.2.4. Distribucion hipergeometrica.
Consideremos una urna que contiene N bolillas de las cuales D son
negras y N D blancas. Se extraen secuencialmente (una a una) n bolillas
y se dene la variable X como el n umero total de bolilas negras extradas.
Si cada bolilla obtenida es repuesta en la urna antes de obtener la siguiente,
el resultado de cada extraccion es independiente de las anteriores, ya que
esos resultados no modican la composicion de la urna. Luego en este caso
NOTAS DE PROBABILIDADES 39
X tendra distribucion Bi(, n) con = D/N, ya que este n umero es la
probabilidad de sacar cada vez una bolilla negra.
Si despues de cada extraccion la bolilla obtenida no se repone, no hay
independencia en los resultados de las extracciones y la distribucion de X
se denomina hipergeometrica. La denotaremos por H(N, D, n).
Estudiemos el rango de esta distribucion. Por un lado podemos obser-
var que X no puede ser un n umero negativo, ni tampoco mayor que n, la
cantidad total de bolillas extraidas. Por lo tanto:
0 X n. (3.5)
Por otro lado, claramente a lo sumo se pueden extraer D negras, y luego
X D. (3.6)
Ademas el n umero de total de bolillas blancas extraidas debe ser menor
que N D. Por lo tanto tambien tenemos
n X N D. (3.7)
En denitiva de (3.5), (3.6) y (3.7) obtenemos
R
X
= x N : max (0, n N +D) x mn(n, D).
Podemos pensar que las D bolillas negras estan numeradas de 1 a D, y
las blancas de D + 1 a N. Luego si denotamos
I
N
= x N : 1 x N,
el resultado de extraer n bolillas sera un subconjunto de I
N
con cardinal n.
Luego, podemos tomar como espacio muestral
= A I
N
: #A = n.
Como todos estos subconjuntos tienen la misma probabilidad de ser ex-
trados, estaremos en un caso de resultados equiprobables. El cardinal de
es
_
N
n
_
.
El evento X = x correspondera a aquellos subconjuntos A que
contienen x bolillas negras y n x blancas. Para obtener el cardinal de
X = x procedamos de la siguiente manera. Primero consideremos el
n umero de subconjuntos de x bolas negras elegidas entre las D posibles.
Este n umero es
_
D
x
_
.
40 VICTOR J. YOHAI
Para cada uno de estos subconjuntos de x bolas negras hay
_
N D
n x
_
formas de elegir las restantes n x blancas. Luego
#X = x =
_
D
x
__
N D
n x
_
,
y por lo tanto
p
X
(x) =
#A
x
#
=
_
D
x
__
N D
n x
_
_
N
n
_ .
Ejercicio.
Sea n N jo y consideremos una sucesion de distribuciones hiperge-
ometricas H(N, D
N
, n), N N tales que
lm
N
D
N
N
= .
Entonces si p
H
N
es la densidad de probabilidad de una distribucion H(N, D
N
, n)
y p
B
la de una Bi(, n), se tiene
lm
N
p
H
N
(x) = p
B
(x) .
Es decir para N sucientemente grande la distribucion H(N, D
N
, n) se
puede aproximar por la distribucion Bi(, n) . Heursticamente, este resul-
tado puede interpretarse como que debido a que n es peque no con respecto
a N, la reposicion o no de las bolillas extradas no cambia substancialmente
la composicion de la urna.
3.2.5. Distribucion de Poisson.
La distribucion de Poisson se presenta cuanto se considera el n umero
de veces que ocuurre cierto evento en un intervalo determinado de tiempo.
Por ejemplo
(a) El n umero de clientes que entran en un determinado banco durante
un da.
(b) El n umero de accidentes automovilsticos que ocurren en la ciudad
de Buenos Aires por mes.
c) El n umero total de llamadas telefonicas que llegan a una central
tefonica entre las 15 hs y 16 hs de los das habiles.
NOTAS DE PROBABILIDADES 41
Para que las distribuciones de estas variables sean de Poisson, se requiere
un conjunto de supuestos que trataremos con mayor detalle mas adelante.
Por ahora solo indicamos su funcion de densidad. Par cada > 0, se
dene la distribucion de Poisson con parametro que simbolizaremos por
T() por la siguiente densidad de probabilidad
p
X
(x) = e

x
x!
para x N
0
,
donde N
0
es el conjunto de enteros no negativos
Es claro que

x=0
p
X
(x) =

x=0
e

x
x!
= e

x=0

x
x!
= e

= e
0
= 1.
3.2.6. Graco de una funcion de distribucion asociada a una
variable aleatoria discreta
Supongamos que el rango de X sea nito R
X
= x
1
, ..., x
n
y x
1
< <
x
n
. En tal caso la funcion de distribucion F
X
es una funcion no decreciente
escalonada, en los puntos de probabilidad positiva, x
j
, 0 j n.
Sea
c
i
=
i

j=1
p
X
(x
j
) ; 1 i n.
Luego se tendra
F
X
(x)
_
_
_
0 si x (, x
1
)
c
i
si x [x
i
, x
i+1
), 1 i n 1
1 si x [x
n
, ).
Ejercicio. Gracar la F
X
para una Bi(1/4,10).
3.3. Variables aleatorias absolutamente continuas.
Denicion. Se dice que una variable aleatoria X es continua sii F
X
es continua para todo x R.
Observacion. Esto es equivalente a pedir que la probabilidad en todo
punto es cero.
Denicion. Se dice que F
X
es absolutamente continua sii existe una
42 VICTOR J. YOHAI
funcion f
X
: R R
0
tal que f
X
es integrable Riemann sobre R y para
todo x R se tiene
F
X
(x) =
_
x

f
X
(t) dt.
La funcion f
X
se denomina funcion de densidad de la probabilidad aso-
ciada a X.
Propiedades de distribuciones continuas.
Propiedad 3.1. (a) Si f
X
es una funcion de densidad de probabilidad
para una variable aleatoria X entonces
_
+

f
X
(t) dt = 1.
(b) Recprocamente si f 0 es integrable Riemann sobre R y cumple
que
_
+

f (t) dt = 1,
entonces deniendo
F (x) =
_
x

f (t) dt.
se obtiene una funcion que resulta ser la funcion de distribucion de alguna
variable aleatoria X.
Demostracion:
(a) Resulta de
_
+

f
X
(t) dt = lm
x
_
x

f
X
(t) dt
= lm
x
F
X
(x)
= 1.
(b) Usando propiedades de las integrales de Riemann se puede mostrar
que F
X
satisface las cuatro propiedades del Teorema 2.5. Luego este resul-
tado se obtiene del Corolario 2 del Teorema 2.7. 2
Propiedad 3.2. Supongamos que F
X
es absolutamente continua. En-
tonces
P
X
((a, b]) =
_
b
a
f
X
(t) dt.
NOTAS DE PROBABILIDADES 43
Demostracion
P
X
((a, b]) = P
X
((, b]) P
X
((, a])
= F
X
(b) F
X
(a)
=
_
b

f
X
(t) dt
_
a

f
X
(t) dt
=
_
b
a
f
X
(t) dt.2
Propiedad 3.3. Si F
X
es absolutamente continua entonces es continua.
Demostracion. Primero supondremos que f
X
es acotada en un entorno
del punto x. Luego existe > 0 y M positivo tal que f(x) M para todo
x [x , x] . Luego para todo tenemos
P
X
(x) P((x , x])
=
_
x
x
f
X
(t) dt
M.
Como esto vale para todo , resulta P
X
(x) = 0. Luego F
X
es continua
en x.
Supongamos ahora que f
X
no es acotada en ning un entorno del punto
x. Luego
F
X
(x) =
_
x

f
X
(t) dt
se dene por
_
x

f
X
(t) dt = lm
yx
_
y

f
X
(t) dt
= lm
yx
F
X
(y),
y luego F
X
es continua en x.2
El nombre densidad nos recuerda la cantidad de masa por unidad de
longitud, area o volumen seg un el caso.
En este caso se puede decir que f
X
(x) indica la probabilidad por unidad
de longitud en las cercanas del punto x. Mas precisamente podemos enun-
ciar el siguiente Teorema
Teorema 3.4. Sea f
X
una funcion de densidad continua en x
0
, entonces
lm
h0
P
X
([x
0
h, x
0
+h])
2h
= lm
h0
1
2h
_
x
0
+h
x
0
h
f
X
(t) dt = f
X
(x
0
) .
Demostracion
44 VICTOR J. YOHAI
Sea
M
h
= maxf
X
(x) : x [x
0
h; x
0
+h]
y
m
h
= mnf
X
(x) : x [x
0
h; x
0
+h].
Por continuidad
f
X
(x
0
) = lm
h0
M
h
= lm
h0
m
h
. (3.8)
Por otro lado valen las desigualdades
2hm
h

_
x
0
+h
x
0
h
f
X
(t) dt 2hM
h
,
y dividiendo por 2h en todos los miembros queda:
m
h

1
2h
_
x
0
+h
x
0
h
f
X
(t) dt M
h
.
Luego, teniendo en cuenta (3.8) y pasando al lmite cuando h 0 se
obtiene
f
X
(x
0
) lm
h0
P
X
([x
0
h; x
0
+h])
2h
f
X
(x
0
) ,
de donde se deduce el Teorema.2
Teorema 3.5. Sea f
X
una funcion de densidad continua en x
0
y F
X
la
distribucion asociada. Entonces F
X
es derivable en x
0
y
F

X
(x
0
) = f
X
(x
0
)
Demostracion.
Se deduce de la anterior.
Comentario vinculado a la teora de la medida.
En este parrafo el signo
_
corresponde a la integral de Lebesgue. Mas
generalmente se denen distribuciones absolutamente continuas utilizando
funciones Borel medibles. Sea f : R R
0
una funcion Borel medible tal
que
_

f (t) dt = 1. (3.9)
Entonces se puede denir una funcion de distribucion absolutamente con-
tinua por
F(x) =
_
x

f (t) dt, (3.10)


Se puede demostrar que la funcion F denida por (3.10) cumple las cuatro
propiedades del Teorema 2.5 y es continua y derivable en casi todo punto
con derivada f(x). Ademas si P es la correspondiente probabilidad sobre R
NOTAS DE PROBABILIDADES 45
asociada a F y garantizada por el Teorema de Extension, dado cualquier
boreliano B se tendra
P(B) =
_
B
f (t) dt =
_

I
B
(t)f (t) dt,
donde I
B
(t) es la funcion indicadora del conjunto B.
3.4. Ejemplos de distribuciones continuas.
3.4.1. Distribucion uniforme en un intervalo.
Consideremos dos n umeros reales a < b. Luego la distribucion uniforme,
denotada por U(a, b), tiene como densidad
f
X
(x) =
_
k si x [a; b]
0 si x / [a; b] .
con k =
1
b a
> 0. Claramente
_

f
X
(x)dx =
_
b
a
kdx =
k
b a
= 1.
Ejercicio. Mostrar que la funcion distribucion de U(a, b) es
F
X
(x)
_

_
0 si x (, a)
x a
b a
si x [a; b)
1 si x (b, )
Ejercicio. Mostrar que no existe ninguna distribucion uniforme sobre
toda la recta.
En particular consideremos la distribucion uniforme U(0, 1) que tiene
como densidad
f
X
(x) =
_
1 si x [a; b]
0 si x / [a; b] .
La funcion de distribucion es en este caso
F
X
(x) =
_
_
_
0 si x (, 0]
x si x (0, 1]
1 si x (1, ).
(3.11)
46 VICTOR J. YOHAI
Observaciones.
1. Es claro que (3.11) es cierta puesto que si x (0, 1)
F
X
(x) =
_
x

f
X
(t) dt
=
_
0

f
X
(t) dt +
_
x
0
f
X
(t) dt =
= 0 +
_
x
0
1dt
= x.
2. Sea I = (c, d) (0, 1) Cual es la probabilidad de que X (c, d)?
P
X
([c < X < d]) = F
X
(d) F
X
(c) = d c.
Es decir, la probabilidad que esta distribucion asigna a cada intervalo
contenido en [0, 1] es su longitud.
3. De muchas maneras diferentes pueden generarse distribuciones uni-
formes. Por ejemplo podemos elegir dos n umeros A
1
, A
2
de ocho dgitos, y
denir A
3
por los ultimos ocho dgitos de A
1
A
2
. En general si ya hemos
denido A
1,
A
2
, ..., A
k
como enteros de ocho dgitos, podemos denir recur-
simamente A
k+1
como los ultimos ocho dgitos de A
k1
A
k
. Este proceso lo
podemos continuar hasta obtener A
n
para un n dado. Luego generamos n
n umeros con distribucion U(0,1) por
U
i
= A
i
10
8
, 1 i n.
Estos n umeros no seran aleatorios. Sin embargo se comportaran como
si fuesen variables aleatorias independientes con ditribucion U(0,1). En
particular, dados a y b tales que 0 < a < b < 1, se tendra que si n es
grande
#i : 1 i n, a < U
i
< b
n
sera aproximadamente ba. Es decir la frecuencia con la cual los U
i
estan en
un intervalo (a, b) es aproximadamente la probabilidad que la distribucion
U(0,1) asgna a ese intervalo.
3.4.2. Generacion de distribuciones a partir de la distribu-
cion uniforme en [0,1]
Vamos a mostrar como a partir de una variable aleatoria con distribucion
U(0, 1) se puede generar cualquier otra variable con cualquier funcion de
distribucion.
Para esto en primer lugar necesitamos algunas deniciones. Sabemos que
una funcion de distribucion no tiene por que ser continua y mucho menos
NOTAS DE PROBABILIDADES 47
biyectiva, de manera que en general su inversa no existe. Pero podemos
denir una funcion que tendra propiedades analogas.
Sea F : R [0, 1] una funcion que cumple con las cuatro propiedades
del Teorema 2.5 que caracterizan una funcion de distribucion y consideremos
y (0, 1) .
Denimos
A
y
= x R : F (x) y.
Observaciones.
1. Puede ocurrir que exista una preimagen va F del punto y : F
1
(y) ,=
. Si F es continua por Bolzano podemos asegurar que asume todos los
valores intermedios entre el 0 y el 1 y en consecuencia en alg un punto x
asumira el valor y.
2. Puede ocurrir tambien que no exista la preimagen. Por ejemplo si F
no es continua para algunos valores de y ocurrira que F
1
(y) = .
3. Puede ocurrir que existan innitas preimagenes. Basta con tomar una
funcion con las propiedades de funcion de distribucion que sea constante en
un intervalo. Para y igual a ese valor hay innitas preimagenes.
Ejercicio. Dar un ejemplo de cada una de las situaciones y dibujar el
graco correspondiente.
Teorema 3.6. Existe el nmo del conjunto A
y
.
Demostracion. Basta probar que A
y
,= y esta acotado inferiormente.
Comencemos probando que A
y
,= .
Sabemos que F satisface la propiedad (2) del Teorema 2.5 y por lo tanto
lm
n
F (n) = 1.
Como 0 < y < 1 existe n
0
N tal que
F (n
0
) y,
de manera que n
0
A
y
.
Ahora probaremos que A
y
esta acotado inferiormente. Por la propiedad
(3) del Teorema 2.5 se tiene que ,
lm
n
F (n) = 0.
Como y > 0 entonces existe n
0
N tal que
F (n
0
) < y. (3.12)
Ahora bien si x A
y
no puede ser que n
0
> x puesto que por mono-
tona (Propiedad (1) del Teorema 2.5) se cumplira
F (n
0
) F (x) y,
48 VICTOR J. YOHAI
en contradiccion con (3.12). En denitiva se tiene que si x A
y
, entonces
n
0
x, y por lo tanto A
y
esta acotado inferiormente 2.
En virtud de la existencia y unicidad del nmo podemos denir la si-
guiente funcion
Denicion. Dada
F : R [0, 1]
que satisface las propiedades de una funcion de distribucion (Propiedades
(1)-(4) del Teorema 3.5) se dene F
1
: (0, 1) R por
F
1
(y) = inf A
y
.
Propiedades de la funcion F
1
.
Propiedad 3.4.
(a) Dada una funcion de distribucion F, se tiene
F
_
F
1
(y)
_
y.
(b) El nmo del conjunto A
y
resulta ser el mnimo de A
y
, es decir
F
1
(y) = mnA
y
.
Demostracion.
Bastara probar (a), ya que en ese caso F
1
(y) pertenece al conjunto
A
y
. Por denicion de nmo existe una sucesion (x
n
)
nN
A
y
decreciente
que converge a F
1
(y), es decir tal que
lm
n
x
n
= F
1
(y) .
Por la propiedad de continuidad a derecha de F
lm
n
F (x
n
) = F
_
F
1
(y)
_
. (3.13)
Ahora, como para todo n N se tiene que x
n
A
y
sabemos que
F (x
n
) y,
y luego por (3.13) resulta
F
_
F
1
(y)
_
y, (3.14)
por lo tanto (a) queda demotrado. Esto implica F
1
(y) A
y
. Luego hemos
mostrado (a) y por lo tanto tambien hemos demostrado (b).2
Propiedad 3.5. Si F es continua entonces
F
_
F
1
(y)
_
= y.
Demostracion.
NOTAS DE PROBABILIDADES 49
Sabemos que F
_
F
1
(y)
_
y. Ahora supongamos que no se cumple la
igualdad, esto es que
F
_
F
1
(y)
_
> y.
Veremos que esto contradice el caracter de nmo del elemento F
1
(y) .
Tomemos un punto intermedio entre F
_
F
1
(y)
_
e y que llamaremos y

.
Entonces
y < y

< F
_
F
1
(y)
_
.
Por ser F continua, por el teorema de Bolzano se deduce que existe
x

(0, 1) tal que


F (x

) = y

.
Luego reemplazando en la inecuacion anterior se obtiene la desigualdad
y < F (x

) < F
_
F
1
(y)
_
.
Por un lado esto dice que x

A
y
y por otro teniendo en cuenta la
monotona de F resulta
x

< F
1
(y) .
Esto contradice que F
_
F
1
(y)
_
sea el mnimo, absurdo. 2
Propiedad 3.6. Dada una funcion de distribucion F, se cumple que
F
1
(F (x)) x.
Demostracion.
Es claro que para todo x se tiene que x A
F(x)
puesto que F (x)
F (x) . Sabemos que F
1
(F (x)) es el mnimo de A
F(x)
y luego
a A
F(x)
implica F
1
(F (x)) a.
En particular si tomamos a = x A
F(x)
se obtiene el resultado buscado.
2
Teorema 3.7 (Caracterizacion de A
y
como semirecta). Sea F una
funcion de distribucion y tomemos y (0, 1) jo. Los conjuntos
A
y
= x : F (x) y,
B
y
= x : x F
1
(y) = [F
1
(y) , +)
coinciden.
Demostracion. Sabemos por Propiedad 3.4 (b) que
F
1
(y) = mnA
y
.
Por otro lado es facil ver que si x A
y
y x

> x, entonces tambien


x

A
y
. Luego A
y
= [F
1
(y), ). 2
50 VICTOR J. YOHAI
Ejercicio. Probar que F
1
es monotona no decreciente y por lo tanto
medible.
Veremos ahora que dada cualquier funcion de distribucion F, a partir
de cualquier variable aleatoria con distribucion U(0, 1), se puede generar
otra variable aleatoria con funcion de distribucion F.
Teorema 3.8. Sea U una variable aleatoria con distribucion U(0, 1).
Luego si F es una funcion de distribucion (propiedades (1)-(4) del Teorema
2.5) se tiene que X = F
1
(U) tiene funcion de distribucion F
Demostracion. Usando el Teorema 3.7 y el hecho de que F
U
(u) = u, 0
u 1, se tiene
F
X
(x) = P
X
((, x]) = P
_
F
1
(U) x
_
= P (U F (x)) =
= F
U
(F (x)) = F (x) . 2
Ejercicio.
Sea X una variable con rango R
X
= N
0
(enteros no negativos) y sea
p
j
= p
X
(j) , j N
0
. Vericar que F
1
X
es de la forma
F
1
X
(y) =
_
0 si 0 < y p
0
i si

i1
j=0
p
j
< y

i
j=0
p
j
, i 1.
Comprobar que el resultado anterior vale en este caso.
El siguiente Teorema de demostracion inmediata es muy importante
Teorema 3.9. Sean X y X

dos variables aleatorias tales que F


X
= F
X
.
Consideremos una funcion g medible y consideremos las variables aleatorias
obtenidas componiendo
Z = g (X) ; Z

= g (X

) .
Entonces
P
Z
= P
Z
.
Demostracion.
Sea B B y probemos que
P
Z
(B) = P
Z
(B) .
Por el Corolario 1 del teorema de extension se tiene que para
P
Z
(B) = P
_
Z
1
(B)
_
= P
_
X
1
_
g
1
(B)
__
= P
X
_
g
1
(B)
_
.
NOTAS DE PROBABILIDADES 51
Por el Corolario 1 del teorema de extension se tiene que P
X
_
g
1
(B)
_
=
P
X

_
g
1
(B)
_
y luego
P
Z
(B) = P
X

_
g
1
(B)
_
= P
_
X
1
_
g
1
(B)
__
= P
_
Z
1
(B)
_
= P
Z
(B) .2
El siguiente resultado vale para funciones de distribucion continuas
Teorema 3.10. Si X es una variable aleatoria con distribucion F
X
con-
tinua y consideramos la variable aleatoria Y = F
X
(X) entonces Y tiene
distribucion U(0, 1).
Demostracion.
Consideremos una variable aleatoria U con distribucion U(0, 1) y sea
X

= F
1
X
(U) . Sabemos que X

tiene distribucion F
X
.
Luego por el Lema anterior las variables
Y = F
X
(X) , Y

= F
X
(X

)
tienen la misma distribucion.
Pero
Y

= F
X
(X

) = F
X
_
F
1
X
(U)
_
,
y siendo F
X
continua por Propiedfad 3.5 se tiene F
X
_
F
1
X
(U)
_
= U. Luego
Y

tiene distribucion U(0, 1) y por lo tanto, de acuerdo al Teorema 3.9


tambien Y 2.
3.4.3. Distribucion Normal N(,
2
).
La distribucion normal es tal vez la mas importante y sin lugar a dudas
la que se usa con mayor frecuencia. A veces este uso se hace de manera inade-
cuada sin vericar los supuestos que la identican. Veremos mas adelante la
importancia de esta distribucion. Adelantamos sin embargo, informalmente
que si Y
n

nN
es una sucesion de variables a independientes tales que
ninguna de ellas prevalezca sobre las otras, entonces la variable aleatoria
S
n
=
n

j=1
Y
j
es aproximadamente normal para n sucientemente grande. Esta distribu-
cion tiene mucha aplicacion en la teora de errores, donde se supone que el e-
rror total de medicion es la suma de errores que obedecen a diferentes causas.
La distribucion normal depende de dos parametros R y
2
R
>0
.
52 VICTOR J. YOHAI
En este captulo solo veremos la distribucion normal correspondiente a
= 0 y
2
= 1. En este caso la funcion de densidad es
f
X
(x) = K exp
_
x
2
2
_
,
donde K es una constante y exp(x) es la funcion exponencial e
x
. Calculare-
mos la constante K de forma tal que
1 =
_
+

K exp
_
x
2
2
_
dx,
y por lo tanto
K =
1
_
+

exp
_
x
2
2
_
dx
.
Sea
I =
_
+

exp
_
x
2
2
_
dx.
Para el calculo de esta integral podemos usar o bien residuos (teora
de analisis complejo) o bien calcular I
2
como integral doble a traves de un
cambio de variable a cordenadas polares. Optamos por la segunda forma
I
2
=
__
+

exp
_
x
2
2
_
dx
_ __
+

exp
_
y
2
2
_
dy
_
=
_
+

_
+

exp
_
x
2
2
_
exp
_
y
2
2
_
dxdy =
=
_
+

_
+

exp
_

_
x
2
+y
2
_
2
_
dxdy.
Ahora hacemos el cambio de variable
x(, ) = x = cos ()
y (, ) = y = sin()
Claramente se tiene
x
2
+y
2
=
2
La transformacion del cambio de variable T (, ) = (x(, ) , y (, )) =
( cos () , sin()) 0, 0 < 2 tiene matriz diferencial
DT (, ) =
_
x

_
=
_
cos () sin()
sin() cos ()
_
.
NOTAS DE PROBABILIDADES 53
Entonces su jacobiano
J (, ) = det (DT (, )) = det
_
cos () sin()
sin() cos ()
_
=
= cos
2
() + sin
2
() = .
En denitiva [J (, ) [ = y aplicando la formula de cambio de variables
en integrales m ultiples resulta
I
2
=
_
+

_
+

exp
_

_
x
2
+y
2
_
2
_
dxdy =
=
_
+
0
_
2
0
exp
_

2
2
_
dd =
= 2
_
+
0
exp
_

2
2
_
d = 2
_
+
0
exp
_

2
2
_
d.
Haciendo el cambio de variable
u =

2
2
,
du = d
se obtiene
I
2
= 2
_
+
0
exp(u) du
= 2
_
exp(u) [
+
0
_
= 2,
y por lo tanto
I =

2
Luego
f
X
(x) =
1

2
exp
_
x
2
2
_
.
3.4.4. Distribucion Exponencial.
Esta distribucion depende de un parametro que puede tomar cualquier
valor real positivo. Su funcion de densidad es
f(x) =
_
e
x
si x 0
0 si x < 0.
54 VICTOR J. YOHAI
Haciendo la transformacion y = x, dy = dx se obtiene
_

f(x)dx =
_

0
e
x
dx =
_

0
e
y
dy
= [e
y
]

0
= 0 + 1 = 1.
Se deja como ejercicio vericar que la correspondiente funcion de distribucion
es
F(x) =
_
1 e
x
si x 0
0 si x < 0.
(3.15)
La distribucion exponencial con parametro sera denotada por c().
Esta distribucion aparece generalmente cuando se trata de estudiar la
durabilidad de un mecanismo bajo el supuesto de que el sistema no se des-
gasta a lo largo del tiempo. Como ejemplo suele citarse a veces la duracion
de una lampara electrica. Sin embargo en este caso existe un cierto desgaste
propio de la lampara y su distribucion no es exactamente exponencial. Esta
distribucion es mas adecuada para modelar la duracion de los mecanismos
electronicos, ya que estos no tienen practicamente desgaste.
Para precisar el concepto de desgaste decimos que la distribucion de X
no tiene desgaste cuando dado a > 0 y b > 0 se tiene
P (X a +b[X a) = P (X b) .
Esto signica que la probabilidad de que llegue a durar hasta el tiempo
a + b, dado que ha llegado hasta el tiempo a, es igual a la probabilidad de
que haya durado hasta el tiempo b. Es decir el proceso no tiene memoria
del tiempo que estuvo funcionando (no recuerda que tan viejo es) y por
tanto, mientras funciona lo hace como si fuese nuevo.
Decimos por el contrario que hay desgaste si
P (X a +b[X a)
es una funcion decreciente de a.
Vamos a mostrar que la propiedad de falta de desgaste caracteriza a la
distribucion exponencial. Esto signica que las unicas distribuciones conti-
nuas y no negativas que tienen la propiedad de falta de desgaste son las
exponenciales.
Como X a +b X a = X a +b resulta que
P (X a +b[X a) =
P (X a +b X a)
P (X a)
=
P (X a +b)
P (X a)
.
Por lo tanto la propiedad de falta de desgaste se puede escribir como
P (X a +b)
P (X a)
= P (X b) ,
NOTAS DE PROBABILIDADES 55
o equivalentemente
P (X a +b) = P (X b) P (X a) . (3.16)
Si X tiene distribucion continua de P (X a) = F
X
(a) resulta
1 F
X
(a) = P (X > a) = P (X a) .
Entonces denimos
G
X
(a) = 1 F
X
(a) ,
y como la propiededad de falta de memoria es equivalente (3.16), esta se
puede escribir tambien como
G
X
(a +b) = G
X
(a) G
X
(b) (3.17)
para todo a 0, b 0.
En el caso en que X tiene distibucion exponencial por (3.15) se tiene
G
X
(x) = e
x
para todo x 0. El siguiente Teorema muestra que la propiedad de falta de
memoria caracteriza a las distribuiones exponenciales
Teorema 3.11. Sea X una variable aleatoria continua con valores no
negativos. Luego la propiedad de falta de memoria dada por (3.17) se cumple
si y solo si G
X
(x) = e
x
es decir si X tiene distribucion exponencial.
Demostracion. Supongamos primero que G
X
(x) = e
x
. Probaremos que
(3.17) se cumple. En efecto
G
X
(a +b) = e
(a+b)
= e
(a)+(b)
= e
a
e
b
= G
X
(a) G
X
(b) .
Supongamos ahora que (3.17) se cumple. Probaremos que G
X
(x) =
e
x
para alg un > 0.
En primer lugar veamos que para todo n, dados a
1
0, ..., a
n
0
entonces
G
X
_
n

i=1
a
i
_
=
n

i=1
G
X
(a
i
) .
Probaremos esta proposicion por induccion. Claramente vale para n = 2
por hipotesis.
Supongamos que vale para n y probemos que vale para n + 1.
56 VICTOR J. YOHAI
G
X
_
n+1

i=1
a
i
_
= G
X
_
n

i=1
a
i
+a
n+1
_
= G
X
_
n

i=1
a
i
_
G
x
(a
n+1
)
=
_
n

i=1
G
X
(a
i
)
_
G
X
(a
n+1
)
=
n+1

i=1
G
X
(a
i
) .
Ahora probaremos que para todo a 0 vale que
G
X
(a) = [G
X
(1)]
a
.
La estrategia es primero probarlo para cuando a es un entero no neg-
ativo, luego cuando es un racional no negativo y por ultimo cuando es un
n umero real no negativo.
Sea n N entonces
G
X
(n) = G
X
_
_
1 + 1 +... + 1
. .
n sumandos
_
_
= [G
X
(1)]
n
.
Ahora sea a =
m
n
Q el conjunto de los n umeros racionales. Entonces
G
X
(m) = G
X
_
n
m
n
_
= G
X
_
_
_
_
m
n
+... +
m
n
. .
n sumandos
_
_
_
_
= G
X
_
m
n
_
n
.
Entonces
G
X
_
m
n
_
= [G
X
(m)]
1
n
= [(G
X
(1))
m
]
1
n
= [G
X
(1)]
m
n
.
NOTAS DE PROBABILIDADES 57
Por ultimo consideremos a R
0
. Elijamos una sucesion (r
n
)
nN
Q
tal que r
n
a. Siendo G
X
continua resulta
G
X
(a) = lm
n
G
X
(r
n
)
= lm
n
(G
X
(1))
r
n
= (G
X
(1))
lm
n
r
n
= [G
X
(1)]
a
. (3.18)
Veamos que 0 < G
X
(1) < 1. Supongamos que G
X
(1) = 0. Luego por
(3.18) G
X
(a) = 0 para todo a 0. En particular G
X
(0) = 0 y luego
F
X
(0) = 1. Esto implica que P(X = 0) = 1 y luego X es discreta.
Supongamos ahora que G
X
(1) = 1. Luego por (3.18) tenemos que para
todo a 0 se tiene G
X
(a) = 1. Luego para todo a 0 resulta F
X
(a) = 0 y
entonces lm
x
F
X
(x) = 0, lo cual es un absurdo, ya que este lmite es 1.
Luego podemos denir
= log (G
X
(1)) ,
de manera que
G
X
(1) = e

Luego, usando (3.18), podemos escribir


G
X
(a) = [G
X
(1)]
a
= e
a
,
y el teorema queda probado.
3.5. Variables aleatorias mixtas.
Ademas de las variables discretas y absolutamente continuas existen
otros tipos de variables. Un estudio exhaustivo de los tipos de variables
aleatorias requiere algunos conocimientos de la teora de la medida. Aqui
introduciremos las variables mixtas cuya funcion distribucion es una com-
binacion convexa de funciones de una distribucion discreta y otra absoluta-
mente continua.
Denicion. Decimos que F es una funcion de distribucion mixta si
es una combinacion convexa de una distribucion absolutamente continua
y otra discreta. Mas precisamente, si existen , 0 < < 1 , F
1
funcion de
distribucion absolutamente continua, F
2
funcion de distribucion discreta tal
que
F = (1 ) F
1
+F
2
(3.19)
Teorema 3.12. Si F esta dada por (3.19) se tiene
58 VICTOR J. YOHAI
(a) F es una funcion de distribucion
(b) F no corresponde a la funcion de distribucion de una variable abso-
lutamente continua ni discreta.
Demostracion.
(a) Por el Corolario 2 de la Seccion 2.2 basta probar que F satisface las
Propiedades 1-4 del Teorema 2.5. Probemos primero que F es monotona no
decreciente. Sean x < x

. Luego como F
1
y F
2
son monotonas no decrecientes
se tendra F
1
(x) F
1
(x

) y como 1 > 0 resulta


(1 )F
1
(x) 1 )F
1
(x

). (3.20)
Del mismo se tiene que
F
2
(x) F
2
(x

). (3.21)
Sumando miembro a miembro (3.20) y (3.21) resulta qie F(x) F(x

).
Multiplicando por una constante se conserva la propiedad de que una
funcion es continua a derecha y sumando funciones continuas a derecha se
obtiene otra funcion continua a derecha. Esto prueba que F es continua a
derecha.
Por otro lado, tenemos que
lm
x+
F (x) = lm
x+
((1 ) F
1
+F
2
) (x)
= (1 ) lm
x+
F
1
(x) + lm
x+
F
2
(x)
= (1 ) + = 1
Finalmente, tambien vale que:
lm
x
F (x) = lm
x
((1 ) F
1
+F
2
) (x)
= (1 ) lm
x
F
1
(x) + lm
x+
F
2
(x)
= 0
Por lo tanto (a) queda probado
(b) Veamos ahora que F no corresponde a la funcion de de distribucion
de una variable absolutamente continua o discreta.
Sean P
i
, las probabilidades inducidas por las distribuciones F
i
, i = 1, 2 .
Luego si P es la probabilidad asociada a F, usando el Teorema 2.7 (Teorema
de extension) se puede probar (se deja como ejercicio) que
P(B) = (1 )P
1
(B) +P
2
(B) B B
1
.
NOTAS DE PROBABILIDADES 59
Sea R
2
el rango de una variable con distribucion F
2
. Por lo tanto R
2
es
numerable y P
2
(R
2
) = 1. Luego
P (R
2
) = (1 ) P
1
(R
1
) +P
2
(R
2
)
P
2
(R
2
)
=
> 0
Por lo que se deduce que F no corresponde a una distribucion abso-
lutamente continua, ya que estas asignan probabilidad 0 a todo conjunto
numerable.
Para ver que no es discreta veamos que sobre un conjunto numerable
arbitrario su probabilidad es menor que 1. Sea A un conjunto numerable,
luego, teniendo en cuenta que F
1
es absolutamente continua resulta que que
P
1
(A) = 0. Luego
P (A) = (1 ) P
1
(A) +P
2
(A)
P(A
2
)
< 1.
Como esto ocurre para todo A arbitrario, F no puede ser discreta.2
Ejemplo.
Sea U U [0, 1] y consideremos V = mn
_
U,
1
2
_
.
Entonces
F
V
(u) =
_
u si u <
1
2
1 si u
1
2
Claramente P (V = 1/2) = P(1/2 U 1) = 1/2 de manera que V no
es absolutamente continua. Tampoco es discreta.
Es facil ver que
F =
1
2
F
1
+
1
2
F
2
done F
1
es la distribucion de una U[0, 1/2) y F
2
la distribucion de uan
variable discreta que asigna probabilidad 1 a x =
1
2
.
Veremos como se puede generar una variable con la distribucion mixta
(3.19).
Teorema 3.13. Consideremos variables aleatorias independientes X
1
con distribucion F
1
, X
2
con distribucion F
2
y U que toma valores 0 y 1
con probabilidades 1 y respectivamente. Denimos la variable
X =
_
X
1
si U = 0
X
2
si U = 1
Luego F
X
(1 )F
1
+F
2
.
60 VICTOR J. YOHAI
Demostracion.
Teniendo en cuenta la independencia de las variablesresulta que
F
X
(x) = P
X
((, x])
= P (X x)
= P (X
1
x U = 0 X
2
x U = 1)
= P (X
1
x U = 0) +P (X
2
x U = 0)
= P (X
1
x)P(U = 0) +P( X
2
x)P (U = 1)
= (1 )P (X
1
x) +P (X
2
x) =
= (1 )F
1
(x) +F
2
(x) .2
Captulo 4
Vectores aleatorios.
4.1. Denicion de vector aleatorio.
En muchos casos interesa estudiar simultaneamente mas de una car-
acterstica del resultado de un experimento aleatorio. Supongamos que el
experimento consiste en elegir al azar alumnos de un determinado grado, y
que estamos interesados en estudiar el perl biologico de esos alumnos.
Podramos considerar que el perl se compone de la talla, el peso, presion
sangunea, frecuencia cardaca y capacidad respiratoria. Por lo tanto intere-
saran cinco variables aleatorias que deberan estudiarse simultaneamente.
Esto motiva la siguiente denicion de un vector aleatorio.
Denicion. Sea (, /, P) un espacio de probabilidad. Se dice que
X =(X
1
, X
2
, ..., X
k
) es un vector aleatorio de dimension k si para cada
j = 1, 2, ..., k se tiene que X
j
: R es una variable aleatoria.
Observese que si X = (X
1
, ..., X
k
) es un vector aleatorio de dimen-
sion k, entonces tambien puede ser interpretado como una funcion X :
R
k
. En efecto dado , el correspondiente valor de la funcion es
X() = (X
1
(), ..., X
k
()) R
k
.
Teorema 4.1. Para todo x =(x
1
, x
2
, ..., x
k
) R
k
se tendra
X
1
((, x
1
] (, x
2
] ... (, x
k
]) /.
Demostracion.
Sea B = (, x
1
] (, x
2
] ... (, x
k
].
61
62 VICTOR J. YOHAI
Entonces
X
1
(B) = : X() B
=
k

i=1
: X
i
() (, x
i
] =
=
k

i=1
X
1
i
((, x
i
]) .
Luego como por denicion de variable aleatoria para todo i se tiene
que X
1
i
((, x
i
]) / y / es una algebra se concluye que X
1
(B)
/.2
Recordemos que B
k
denota la algebra generada por los conjuntos de
R
k
de la forma
A
x
1
,x
2
,...,x
k
= (, x
1
] (, x
2
] ... (, x
k
]
En R
2
es facil vericar gracamente que los conjuntos de la forma
(a
1
, b
1
] (a
2
, b
2
] B
2
ya que se pueden escribir de la siguiente forma
(a
1
, b
1
] (a
2
, b
2
] = A
b
1
,b
2
A
a
1
,b
2
(A
b
1
,a
2
A
a
1
,a
2
) (4.1)
y que diferencias de conjuntos de una algebra son conjuntos de la alge-
bra.
Va a ser util observar que
A
a
1
,b
2
A
b
1
,b
2
(4.2)
A
a
1
,a
2
A
b
1
,a
2
(4.3)
y
(A
b
1
,a
2
A
a
1
,a
2
) A
b
1
,b
2
A
a
1
,b
2
. (4.4)
Ejercicio. Probar el siguiente Teorema
Teorema 4.2. Sea X un vector aleatorio de dimension k. Entonces si
B B
k
se tiene que X
1
(B) /.
NOTAS DE PROBABILIDADES 63
4.2. Espacio de probabilidad inducido.
Denicion. Dado el espacio de probabilidad (, /, P) y un vector
aleatorio X = (X
1
, ..., X
k
) se puede denir un nuevo espacio de probabil-
idad
_
R
k
, B
k
, P
X
_
donde dado B B
k
se dene
P
X
(B) = P
_
X
1
(B)
_
.
Ejercicio. Probar el siguiente Teorema.
Teorema 4.3. P
X
es una funcion de probabilidad sobre (R
k
, B
k
).
La demostracion es similar a la correspondiente a P
X
donde X es una
variable aleatoria. La probabilidad P
X
se denomina probabilidad inducida
por el vector X o distribucion de X.
4.3. Funci on de distribucion conjunta de un vector
aleatorio.
Dado un vector aleatorio X = (X
1
, ..., X
k
), se dene la funcion de dis-
tribucion conjunta del vector X como la funcion F
X
: R
k
[0; 1] dada
por
F
X
(x
1
, x
2
, ..., x
k
) = P
X
((, x
1
] (, x
2
] ... (, x
k
]) =
= P
_
k

i=1
: X
i
() x
i

_
.
Propiedades de F
X
.
Propiedad 4.1. F
X
es monotona no decreciente en cada componente.
Demostracion. Si x
i
< x

i
entonces
A
x
1
,...,x
i
,...,x
n
A
x
1
,...,x

i
,...,x
n
,
de manera que
F
X
((x
1
, ..., x
i
, ..., x
n
)) F
X
__
x
1
, ..., x

i
, ..., x
n
__
.2
Propiedad 4.2. Se tiene que
lm
x
1
,...,x
k

F
X
(x
1
, x
2
, ..., x
k
) = 1.
Demostracion. Sean sucesiones crecientes
x
1i

iN
, x
2i

iN
, ..., x
ki

iN
.
64 VICTOR J. YOHAI
Queremos probar que
lm
i+
F
X
(x
1i
, x
2i
, ..., x
ki
) = 1.
Ahora bien la sucesion de conjuntos
C
i
= (, x
1i
] (, x
2i
] ... (, x
ki
] (4.5)
es monotona no decreciente. Por otro lado
_
iN
C
i
= R
k
,
y en consecuencia
lm
i+
F
X
(x
1i
, x
2i
, ..., x
ki
) = lm
i
P
X
((, x
1i
] (, x
2i
] ... (, x
ki
]) =
= P
X
_
_
iN
C
i
_
= P
X
_
R
k
_
= 1. 2
Propiedad 4.3. Para todo i, 1 i k, se tiene que
lm
x
i

F
X
(x
1
, x
2
, ..., x
i
, ..., x
k
) = 0.
Demostracion. Sin perdida de generalidad lo mostraremos para i = 1. Para
este caso consideremos una sucesion monotona no creciente tal que y
j

jN

.
Entonces si denimos C
j

jN
por
C
j
= (, y
j
] (, x
2
] ... (, x
k
] (4.6)
se tiene que C
j+1
C
j
para todo j N, y ademas

jN
C
j
= .
Por lo tanto
lm
j
F
X
(y
j
, x
2
, .., x
k
) = lm
j
P
X
((, y
j
] (, x
2
] ... (, x
k
]) =
= P
X
_
_

jN
C
j
_
_
= P
X
()
= 0. 2
Propiedad 4.4. F
X
es continua a derecha.
NOTAS DE PROBABILIDADES 65
Demostracion. Sea (x
1
, x
2
, ..., x
k
) R
k
y consideremos sucesiones monotonas
decrecientes tales que
x
1i

iN
x
1
; x
2i

iN
x
2
; ...; x
ki

iN
x
k
Consideremos los conjuntos
C
i
= (, x
1i
] (, x
2i
] ... (, x
ki
].
Entonces
C
i+1
C
i
y

iN
C
i
= A
x
1
,...,x
k
.
Luego
lm
i
F
X
(x
1i
, x
2i
, ..., x
ki
) = lm
i
P(C
i
)
= P(A
x
1
,...,x
k
)
= F
X
(x
1
, x
2
, ..., x
k
) . 2
Las Propiedades 4.1, 4.2, 4.3 y 4.4 no caracterizan a una funcion de
distribucion de un vector aleatorio como ocurra para el caso de la funcion
de distribucion de una variable aleatoria.
Para jar ideas de porque sucede esto, pensemos en R
2
. Sea entonces
un vector aleatorio en R
2
X = (X
1
, X
2
) y F
X
su funcion de distribucion
conjunta. Sea A
x
1
x
2
= (, x
1
] (, x
2
] y C = (a
1
, b
1
] (a
2
, b
2
].
El rectangulo C puede ser escrito de la siguiente manera
C = (A
b
1
b
2
A
a
1
b
2
) (A
b
1
a
2
A
a
1
a
2
) .
Teniendo en cuenta las inclusiones
A
a
1
a
2
A
b
1
a
2
, (4.7)
A
a
1
b
2
A
b
1
b
2
(4.8)
y
(A
b
1
a
2
A
a
1
a
2
) (A
b
1
b
2
A
a
1
b
2
) , (4.9)
resulta que
P
X
(C)
= P
X
(A
b
1
b
2
A
a
1
b
2
) P
X
(A
b
1
a
2
A
a
1
a
2
)
= P
X
(A
b
1
b
2
) P
X
(A
a
1
b
2
) P
X
(A
b
1
a
2
) +P
X
(A
a
1
a
2
) .
66 VICTOR J. YOHAI
Como P
X
(A
x
1
x
2
) = F
X
(x
1
, x
2
),resulta
P
X
(C) = F
X
(b
1
, b
2
) F
X
(a
1
, b
2
) F
X
(b
1
, a
2
) +F
X
(a
1
, a
2
) .
Observaciones.
1. Para vericar las inclusiones (4.7), (4.8) y (4.9), se sugiere hacer un
dibujo.
2. Esto muestra que la probabilidad de el rectangulo C se determina por
el valor de F
X
sobre los vertices: es la suma de los valores sobre los
vertices de la diagonal principal menos la suma de los valores sobre los
vertices de la otra diagonal.
3. Luego dada una funcion de distribucion F
X
para todo a
1
< b
1
y a
2
< b
2
se debera cumplir
F
X
(b
1
, b
2
) F
X
(a
1
, b
2
) F
X
(b
1
, a
2
) +F
X
(a
1
, a
2
) 0. (4.10)
4. Veamos que esta propiedad no se deduce de las propiedades P1, P2,
P3 y P4. Para ello damos un ejemplo de una funcion que satisface P1,
P2, P3 y P4 pero no (4.10).
Sea F : R
2
[0, 1] denida por
F (x
1
, x
2
) =
_
1 si x
1
+x
2
1, x
1
0, x
2
0
0 si en otra parte.
Es facil vericar que esta funcion es (i) monotona no decreciente en cada
variable, (ii)
lm
x
1
, x
2

F (x
1
, x
2
) = 1,
(iii)
lm
x
i

F (x
1
, x
2
) = 0 para cualquier i = 1, 2,
y (iv) es continua a derecha. Pero si consideramos el rectangulo C = (0, 1]
(0, 1] entonces si F es una funcion de distribucion deberamos tener
P(C) = F (1, 1) +F (0, 0) (F (0, 1) +F (1, 0)) = 1 2 = 1.
Esto muestra que F no puede ser la funcion de distribucion de ning un
vector aleatorio en R
2
.
Para estudiar las propiedades faltantes vamos a necesitar la siguiente
denicion.
Denicion. Sea F una funcion de k variables. Si a
i
< b
i
se dene el
operador diferencia en la variable i por
NOTAS DE PROBABILIDADES 67

i
(a, b) F = F (x
1
, x
2
, ..., x
i1
, b, x
i+1
, ..., x
k
)F (x
1
, x
2
, ..., x
i1
, a, x
i+1
, ..., x
k
) .
Estos operadores se pueden aplicar en forma sucesiva. Por ejemplo

j
(a
j
, b
j
)
i
(a
i
, b
i
) F
=
j
(a
j
, b
j
) (F (x
1
, ..., x
i1
, b
i
, x
i+1
, ..., x
k
)
F (x
1
, ..., x
i1
, a
i
, x
i+1
, ..., x
k
))
=
j
(a
j
, b
j
) F (x
1
, x
2
, ..., x
i1
, b
i
, x
j+1
, ..., x
k
)

j
(a
j
, b
j
) F (x
1
, x
2
, ..., x
i1
, a
i
, x
i+1
, ..., x
k
)
= (F (x
1
, ..., x
i1
, b
i
, x
i+1
, ..., x
j1
, b
j
, x
j+1
, ..., x
k
)
F (x
1
, ..., x
i1
, b
i
, x
i+1
, ..., x
j1
, a
j
, x
j+1
, ..., x
k
))
(F (x
1
, ..., x
i1
, a
i
, x
i+1
, ..., x
j1
, b
j
, x
j+1
, ..., x
k
)
F (x
1
, ..., x
i1
, a
i
, x
i+1
, ..., x
j1
, a
j
, x
j+1
, ..., x
k
)).
Es facil ver que estos operadores conmutan, es decir

j
(a
j
, b
j
)
i
(a
i
, b
i
) F =
i
(a
i
, b
i
)
j
(a
j
, b
j
) F
Mas generalmente, si a
1
< b
1
, a
2
< b
2
, ..., a
k
< b
k
podemos considerar
la diferencia sucesiva

1
(a
1
, b
1
)
k1
(a
k1
, b
k1
)
k
(a
k
, b
k
) .
Observacion.
Podemos expresar la propiedad (4.10) en terminos del operador diferen-
cia como
P
X
((a
1
, b
1
] (a
2
, b
2
]) = (F
X
(b
1
, b
2
) F
X
(a
1
, b
2
)) (F
X
(b
1
, a
2
) F
X
(a
1
, a
2
))
=
1
(b
1
, a
1
) F
X
(x
1
, b
2
)
1
(b
1
, a
1
) F
X
(x
1
, a
2
)
=
2
(b
2
, a
2
)
1
(b
1
, a
1
) F
X
(x
1
, x
2
) 0
En general se puede probar el siguiente Teorema
Teorema 4.4. Sea F
X
la funcion de distribucion conjunta del vector
aleatorio X = (X
1
, ..., X
k
) y sean a
1
< b
1
, a
2
< b
2
, ..., a
k
< b
k
. Entonces se
tiene que
P
X
((a
1
, b
1
] (a
2
, b
2
] (a
k
, b
k
])
=
1
(b
1
, a
1
) ...
k1
(b
k1
, a
k1
)
k
(b
k
, a
k
) F
X
(x
1,
x
2
, ..., x
k
) 0.
Demostracion. Para probar el Teorema, consideremos para cada h, 0
h k los conjuntos de la forma
C
h
= (a
1
, b
1
] (a
2
, b
2
] (a
h
, b
h
] (, x
h+1
] (, x
k
].
68 VICTOR J. YOHAI
Se prueba por induccion que para todo h k
P
X
(C
h
) =
1
(b
1
, a
1
) ...
h1
(b
h1
, a
h1
)
h
(b
h
, a
h
) F (x
1
, x
2
, ..., x
h
, x
h+1
, ..., x
k
) .
(4.11)
Probaremos primero (4.11) para h = 1. Sea
C
1
= (a
1
, b
1
] (, x
2
] (, x
k
].
Luego
C
1
= (, b
1
](, x
2
] (, x
k
](, a
1
](, x
2
] (, x
k
],
y como el segundo conjunto esta incluido en el primero, se tiene
P
X
(C
1
) = P
X
((, b
1
] (, x
2
] (, x
k
] (, a
1
] (, x
2
] (, x
k
])
= F
X
(b
1
, x
2
, ..., x
k
) F
X
(a
1
, x
2
, ..., x
k
)
=
1
(b
1
, a
1
) F (x
1
, x
2
, ..., x
k
) .
Supongamos ahora que (4.11) vale para h = i < k. Probaremos que
tambien vale para h = i + 1.
Sea
C
i+1
= (a
1
, b
1
] (a
2
, b
2
] (a
i+1
, b
i+1
] (, x
i+2
] (, x
k
].
Claramente C
i+1
= C
(2)
i
C
(1)
i
, donde
C
(1)
i
= (a
1
, b
1
](a
2
, b
2
] (a
i
, b
i
](, a
i+1
](, x
i+2
] (, x
k
]
y
C
(2)
i
= (a
1
, b
1
](a
2
, b
2
] (a
i
, b
i
](, b
i+1
](, x
i+2
] (, x
k
].
Como ademas se tiene C
(1)
i
C
(2)
i
, se tendra
P
X
(C
i+1
) = P
X
(C
(2)
i
) P
X
(C
(1)
i
).
Como (4.11) vale para h = i tendremos
P
X
(C
i+1
) =
1
(b
1
, a
1
) ...
i
(b
i
, a
i
) F (x
1
, x
2
, ..., x
i
, b
i+1
, x
i+2
, ..., x
k
)

1
(b
1
, a
1
) ...
i
(b
i
, a
i
) F (x
1
, x
2
, ..., x
i
, a
i+1
, x
i+2
, ..., x
k
) .
Luego (4.11) vale para h = i + 1. Esto muestra que (4.11) vale para todo
h k. Haciendo h = k se obtiene el Teorema. 2
Luego podemos enunciar una propiedad adicional que satisface una fun-
cion de distribucion conjunta
Propiedad 4.5. Si F
X
es la funcion de distribucion conjunta del vector
aleatorio X = (X
1
, ..., X
k
) para todo a
1
< b
1
, , a
k
< b
k
se debe cumplir
que

1
(b
1
, a
1
) ...
k1
(b
k1
, a
k1
)
k
(b
k
, a
k
) F
X
(x
1,
x
2
, ..., x
k
) 0.
NOTAS DE PROBABILIDADES 69
El siguiente Teorema generaliza para vectores aleatorios el Teorema de
extension para variables aleatorias.
Teorema 4.5. Sea F : R
k
[0, 1] una funcion que satisface las propiedades
4.1, 4.2, 4.3, 4.4 y 4.5. Luego existe una unica funcion de probabilidad
P : B
k
[0, 1] , tal que para todo (x
1
, x
2
, ..., x
k
) R
k
se cumple
P ((, x
1
] (, x
2
] (, x
k
]) = F (x
1
, x
2
, ..., x
k
) .
Demostracion
No se dara la demostracion en este curso . Utiliza argumentos de la
Teora de la Medida.2
Corolario 1. Sean X = (X
1
, X
2
, ..., X
k
) y X

= (X

1
, X

2
, ..., X

k
) dos
vectores aleatorios. Supongamos que para todo x
1
, x
2
, ...x
k
se tiene que
F
X
(x
1
, ..., x
k
) = F
X
(x
1
, ..., x
k
).
Luego tambien se cumple que para todo B B
k
P
X
(B) = P
X
(B).
Demostracion.
Basta con observar que para todo (x
1
, ..., x
k
) R
k
F
X
(x
1
, x
2
, ..., x
k
) = F
X
(x
1
, x
2
, ..., x
k
)
= P
X
((, x
1
] (, x
2
] ... (, x
k
]) .
Por lo tanto como P
X
y P
X
son extensiones de F
X
deben coincidir por
unicidad de la extension. 2
Corolario 2. Si F satisface propiedades 4.1, 4.2, 4.3, 4.4 y 4.5. entonces
existe un vector aleatorio X = (X
1
, ..., X
k
) tal que
F
X
= F.
Demostracion.
Sea
_
R
k
, B
k
, P
F
_
el espacio de probabilidad tal que P
F
es la extension
de F. Luego para todo (x
1
, ..., x
k
) R
k
F (x
1
, x
2
, ..., x
k
) = P
F
((, x
1
] (, x
2
] (, x
k
]) .
Denimos el vector aleatorio X = (X
1
, ..., X
i
, ..., X
k
) de forma tal que
X
i
sea la proyeccion sobre la coordenada i-esima. Es decir X
i
: R
k
R
esta denida por
X
i
(x
1
, x
2
, ..., x
k
) = x
i
70 VICTOR J. YOHAI
Observemos que para todo i, 1 i k se tiene que
X
1
i
((, x
i
]) = R R (, x
i
] R R,
y que
F
X
(x
1
, x
2
, ..., x
k
)
= P
X
((, x
1
] (, x
2
] (, x
k
])
= P
F
(X
1
((, x
1
] (, x
2
] (, x
k
]))
= P
F
_
k

i=1
X
1
i
((, x
i
])
_
= P
F
((, x
1
] (, x
2
] (, x
k
])
= F (x
1
, x
2
, ..., x
k
) .2
4.4. Algunas propiedades de vectores aleatorios
Sea un vector X = (X
1
, ..., X
k
) con funcion de distribucion F
X
. El sigu-
iente Teorema muestra como se obtiene la funcion de distribucion del vector
formado con un subconjunto de componentes

X = (X
i
1
, X
i
2
, ..., X
i
h
) para
cualquier subconjunto de ndices 1 i
1
< i
2
< < i
h
k.
Teorema 4.6. Sea X = (X
1
, ..., X
k
) un vector aleatorio de dimension
k. Sea A = i
1
, ..., i
h
1, 2, ..., k y B = i : 1 i k, i / A = j
1
, ...j
r
].
Entonces, si

X = (X
i
1
, X
i
2
, ..., X
i
h
), se tiene
F

X
(x
i
1
, ...x
i
h
) = lm
x
j
1
,...,x
j
r

F
X
(x
1
, x
2
, ..., x
k
).
Demostracion. Para facilitar la notacion supongamos que A = 1, 2, ..., h
y luego B = h + 1, ..., k
Sean y
h+1,j

jN
, ..., y
k,,j

jN
, sucesiones crecientes tendiendo a .
Luego bastara probar que
lm
j
F
X
(x
1
, ...x
h
, y
h+1,j
, ..., y
k,j
]) = F

X
(x
1
, ..., x
h
). (4.12)
Consideremos la sucesion de eventos
C
j
= (, x
1
] (, x
h
] (, y
h+1,j
] (, y
k,j
]
es creciente y

_
j=1
C
j
= (, x
1
] (, x
h
] R R.
Luego
NOTAS DE PROBABILIDADES 71
F

X
(x
1
, ..., x
h
) = P

X
((, x
1
] (, x
h
])
= P
_
h

i=1
: X
i
() x
i

_
= P
__
h

i=1
: X
i
() x
i

_
k

i=h+1
: X
i
() R
__
= P
X
((, x
1
] (, x
h
] R R)
= lm
j
P
X
(C
j
)
= lm
j
P
X
((, x
1
] (, x
h
] (, y
h+1,j
] (, y
k,j
])
= lm
j
F
X
(x
1
, ...x
h
, y
h+1,j
, ..., y
k,j
]).
y luego (4.12) vale.2
Denicion. Diremos que g : R
k
R es medible Borel si para todo
x R se tiene que g
1
((, x]) B
k
.
Observacion. Una funcion medible Borel puede interpretarse como una
variable aleatoria en el espacio (R
k
, B
k
). Como en este curso solo consider-
amos funciones medibles Borel, se las llamara simplemente funcones medi-
bles
En particular se tendra
Teorema 4.7. Si g : R
k
R es continua entonces g es medible.
Demostracion.
Siendo (, x] cerrado se tiene que g
1
((, x]) B
k
y por lo tanto es
medible. 2
Ejercicio. Probar el siguiente teorema.
Teorema 4.8. Sea X = (X
1
, X
2
, ..., X
k
) un vector aleatorio sobre un
espacio de probabilidad (, /, P) y g : R
k
R una funcion medible.
Entonces Y = g (X) : R es una variable aleatoria.
Ahora podemos probar lo siguiente
Teorema 4.9. Si X e Y son varibles aleatorias, entonces
(i) Z = X +Y es una variable aleatoria.
(ii) Z = XY es una variable aleatoria.
(iii) Si P (Y = 0) = 0 entonces Z = X/Y es una variable aleatoria.
Demostracion.
Se trata de escribir a Z como imagen de X e Y usando una funcion g
medible.
72 VICTOR J. YOHAI
(i) Denimos g : R
2
R, g (x, y) = x+y. Como g es continua es medible.
Luego si tomamos W = (X, Y ) se tiene que Z = g (W) = X + Y es una
variable aleatoria.
La demostracion de (ii) y (iii) se deja como ejercicio.2
Denicion. Sea g : R
k
R
h
, es decir g = (g
1
, g
2
, ..., g
h
) tal que para
cada j = 1, 2, ..., h, g
j
: R
k
R.
Diremos que g es medible sii g
j
es medible para cada j = 1, 2, ..., h.
Teorema 4.10. Sea X = (X
1
, X
2
, ..., X
k
) un vector aleatorio y g :
R
k
R
j
una funcion medible. Entonces Z = g (X) es un vector aleatorio de
dimension j.
Demostracion.
Se deja como ejercicio.2
4.5. Independencia de variables aleatorias.
4.5.1. Algunas consideraciones heursticas.
Hemos visto con anterioridad lo que signicaba la independencia de even-
tos. Brevemente recordemos que una familia de eventos es independiente si
la ocurrencia de algunos de ellos no incide sobre la probabilidad de ocur-
rencia del otro. Mas precisamente, un conjunto de eventos A
1
, A
2
, ..., A
k
son
independientes si para toda eleccion 1 i
1
< i
2
< < i
h
k
P (A
i
1
A
i
2
A
i
h
) =
h
j=1
P
_
A
i
j
_
.
Ahora queremos denir la independencia de un conjunto de variables
aleatorias. Queremos dar respuesta a la pregunta en que medida la infor-
macion referida a una variable aleatoria X incide en el conocimiento de los
valores de la variable aleatoria Y . Por ejemplo la inacion y la emision
monetaria son independientes ? El peso de un individuo y su presion
sangunea son independientes? Para denir el concepto de independencia de
variables aleatorias utilizaremos la nocion de independencia de eventos.
Denicion. Sean X
1
, X
2
, , X
k
variables aleatorias, denidas sobre un
mismo espacio de probabilidad (, /, P) . Diremos que dichas variables son
independientes sii cualquiera sean los conjuntos B
1
, B
2
, , B
k
B (Borelianos
en R), los eventos X
1
j
(B
j
) , j = 1, 2, .., k son independientes.
Los dos siguientes teoremas dan caracterizaciones de la propiedad de
independencia de un conjunto de variables aleatorias.
Teorema 4.11. Las variables aleatorias X
1
, , X
k
son independientes
si y solo si para toda eleccion de conjuntos borelianos B
1
, B
2
, , B
k
vale
que
P
_
_
k

j=1
X
1
j
(B
j
)
_
_
=
k
j=1
P
_
X
1
j
(B
j
)
_
. (4.13)
NOTAS DE PROBABILIDADES 73
Demostracion.
Primero mostraremos que (4.13) es una condicion necesaria. En efecto,
si X
1
, , X
k
son independientes, (4.13) debe cumplirse por denicion de
independencia de eventos.
Ahora probaremos la suciencia de (4.13).
Debemos probar que (4.13) implica para cualquier subconjunto dendices
i
1
< i
2
< < i
h
, h < k que
P
_
_
h

j=1
X
1
i
j
_
B
i
j
_
_
_
=
h
j=1
P
_
X
1
i
j
_
B
i
j
_
_
.
Consideremos los conjuntos C
i
, 1 i k, denidos de la siguiente
manera
C
i
=
_
B
i
si si i coincide con alg un i
j
R si R en caso contrario.
Entonces dado que X
1
i
(R) = y P() = 1, se tiene que
P
_
_
h

j=1
X
1
i
j
_
B
i
j
_
_
_
= P
_
k

i=1
X
1
i
(C
i
)
_
=
k
i=1
P
_
X
1
i
(C
i
)
_
=
h
j=1
P
_
X
1
i
j
_
B
i
j
_
_
.2
Ahora escribiremos la misma proposicion de otra manera
Teorema 4.12. Las variables aleatorias X
1
, ..., X
k
son independientes
si y solo si para toda coleccion de borelianos B
1
, B
2
, ..., B
k
vale que
P
X
(B
1
B
2
B
k
) =
k
j=1
P
X
j
(B
j
) ,
donde X = (X
1
, X
2
, ..., X
k
) .
Demostracion.
Como P
X
j
(B
j
) = P(X
1
j
(B
j
)) por el Teorema 4.11 bastara mostrar que
P
X
(B
1
B
2
B
k
) = P
_
_
h

j=1
X
1
j
(B
j
)
_
_
.
74 VICTOR J. YOHAI
Para eso observamos que
P
X
(B
1
B
2
B
k
) = P(X
1
(B
1
B
2
B
k
))
= P
X
( : X() B
1
B
2
B
k
)
= P
X
( : (X
1
() , X
2
() , ..., X
k
()) B
1
B
2
B
k
)
= P
_
_
k

j=1
: X
j
() B
j

_
_
= P
_
_
h

j=1
X
1
j
(Bj )
_
_
.2
El siguiente teorema, da una condicion necesaria y suciente para la
independencia de un conjunto de variables que es mas simple de vericar.
Teorema 4.13. Una condicion necesaria y suciente para que las varia-
bles aleatorias X
1
, X
2
, ..., X
k
sean independientes es que para todo (x
1
, x
2
, ..., x
k
)
R
k
se cumpla que
F
X
(x
1
, x
2
, ..., x
k
) = F
X
1
(x
1
) F
X
2
(x
2
) ...F
X
k
(x
k
) , (4.14)
donde X = (X
1
, X
2
, ..., X
k
) .
Demostracion.
Para ver que (4.14) es una condicion necesaria para la independencia
de X
1
, ..., X
k
, basta aplicar el Teorema 4.12 a los conjuntos
B
1
= (, x
1
], B
2
= (, x
2
], ..., B
k
= (, x
k
].
Probaremos ahora la suciencia.
Consideremos los conjuntos del tipo
B
1
B
2
B
r
(, x
r+1
] (, x
r+2
] (, x
k
],
donde B
1
B
2
B
r
son borelianos en R.
Probaremos por induccion sobre r que vale la siguiente propiedad que
llamamos A
r
:
P
X
(B
1
B
2
B
r
(, x
r+1
] (, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
((, x
r+1
]) P
X
k
((, x
k
]) . (4.15)
Para r = 0, la condicion (4.15) vale por hipotesis, puesto que se reduce
a un producto de semirectas.
Supongamos que vale para r y probemos que vale para r + 1.
En primer lugar probemos que si (4.15) vale para r, tambien vale reem-
plazando (, x
r+1
] por R, esto es
P
X
(B
1
B
2
B
r
R (, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
]) =
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+2
((, x
r+2
]) P
X
k
((, x
k
]) . (4.16)
NOTAS DE PROBABILIDADES 75
Para mostrar esto podemos considerar una sucesion creciente de semirec-
tas C
n
= (, n]. Luego
R =

_
n=1
C
n
y la sucesion B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
], n =
1, 2, ... es monotona no decreciente en R
k
y vale
_
nN
B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
]
= B
1
B
2
B
r
R (, x
r+2
] (, x
k
]
Luego usando que vale A
r
tenemos que
P
X
(B
1
B
2
B
r
R (, x
r+2
] (, x
k
])
= lm
n
P
X
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
= lm
n
P
X
(B
1
)P
X
(B
2
) P
X
(B
r
)P
X
(C
n
)P
X
((, x
r+2
]) P
X
((, x
k
])
= P
X
(B
1
)P
X
(B
2
) P
X
(B
r
)P
X
(R)P
X
((, x
r+2
]) P
X
((, x
k
]),
que es lo que queramos probar.
Ahora probaremos A
r+1
. Es decir debemos probar que dados borelianos
B
1
, ...., B
r+1
y reales x
r+2
, ..., x
k
se tiene
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(B
r+1
) P
X
k
((, x
k
]) . (4.17)
Consideremos el conjunto
A = B
1
B
2
B
r
R (, x
r+2
] (, x
k
],
y distinguimos dos casos: (a) P
X
(A) = 0, (b) P
X
(A) > 0.
Consideremos primero el caso (a). Por (4.16)
0 = P
X
(A) = P
X
(B
1
B
2
B
r
R (, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
])
se tiene que
P
X
(B
i
) = 0 para alg un 1 i r
o bien
P
X
i
((, x
i
]) = 0 para alg un r + 2 i k.
En cualquiera de los dos casos el miembro derecho de (4.17) es 0.
76 VICTOR J. YOHAI
Supongamos que P
X
(B
i
) = 0 podemos suponer que i = 1, para jar
ideas. Entonces teniendo en cuenta que
B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
] B
1
R R,
obtenemos que
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
P
X
(B
1
R R) = P
X
1
(B
1
) = 0,
y luego el miembro izquierdo de (4.17) tambien es 0 y la igualdad se cumple.
Ahora si P
X
i
((, x
i
]) = 0, podemos suponer que i = k y proceder de
manera analoga. Luego (4.17) vale para el caso (a).
Consideremos el caso (b), es decir que P
X
(A) > 0. Denimos un nuevo
espacio de probabilidades (R, B, P

) de la siguiente manera: Para todo


B B denimos
P

(B) =
P
X
(B
1
B
2
B
r
B (, x
r+2
] (, x
k
])
P
X
(A)
.
Observese que los borelianos B
1
, B
2
, ...B
r
y los reales x
r+2
, ..., x
k
per-
manecen jos cuando se cambia B.
Veamos en primer lugar que efectivamente P

: B [0, 1] es una pro-


babilidad.
(i) Claramente
P

(R) =
P
X
(A)
P
X
(A)
=1.
(ii) Supongamos que (C
n
)
n1
B es una sucesion de borelianos disjuntos
dos a dos. Entonces
P

_
_
nN
C
n
_
=
P
X
_
B
1
B
2
B
r

_
nN
C
n
(, x
r+2
] (, x
k
]
_
P
X
(A)
=
P
X
_
_
nN
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
_
P
X
(A)
=

n=1
P
X
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
P
X
(A)
=

n=1
P
X
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
P
X
(A)
=

n=1
P

(C
n
) .
NOTAS DE PROBABILIDADES 77
Esto prueba que P

es una probabilidad.
Observemos que en la deduccion anterior se uso, ademas de que P es
una probabilidad, una propiedad de la teora de conjuntos, facil de probar:
B
1
B
2
B
r

_
nN
C
n
(, x
r+2
], (, x
k
]
=
_
nN
(B
1
B
2
B
r
C
n
(, x
r+2
], (, x
k
]) .
Ahora calcularemos el valor de P

sobre una semirecta.


Dado que A
r
es valida (hipotesis inductiva), si x R se tiene
P

((, x])
=
P
X
(B
1
B
2
B
r
(, x] (, x
r+2
], (, x
k
])
P
X
(A)
=
P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
((, x]) P
X
k
((, x
k
])
P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
])
= P
X
r+1
((, x]) .
Entonces por la unicidad de la extension como P
X
r+1
y P

coinciden en
las semirectas (, x] se tendra por el Teorema de extension que para todo
B B,
P

(B) = P
X
r+1
(B) .
En particular
P

(B
r+1
) = P
X
r+1
(B
r+1
) ,
y luego
P
X
r+1
(B
r+1
) =
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
]) .
.
Despejndo de la ecuacion anterior y usando que P
X
r+1
(R) = 1 obten-
emos
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
= P
X
r+1
(B
r+1
) P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+2
(B
r+2
) P
X
k
((, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(B
r+1
) P
X
k
((, x
k
]) ,
y luego tambien vale A
r+1
2.
4.5.2. Conservacion de la independencia por transformaciones.
El siguiente teorema prueba que la independencia se conserva por trans-
formaciones.
78 VICTOR J. YOHAI
Teorema 4.14. Sea (, /, P) un espacio de probabilidad sean X
1
, X
2
, ..., X
h
variables aleatorias independendientes. Si g
j
: R R, j = 1, 2, ..., h son fun-
ciones medibles entonces Y
1
= g
1
(X
1
) , Y
2
= g
2
(X
2
) , ..., Y
h
= g
h
(X
h
) tambien
son variables aleatorias independientes.
Demostracion.
Aplicamos la denicion de independencia. Dados B
1
, B
2
, ..., B
h
bore-
lianos arbitrarios queremos probar que los conjuntos
Y
1
1
(B
1
) , Y
1
2
(B
2
) ..., Y
1
h
(B
h
)
son eventos independientes.
Ahora bien para cada j = 1, 2, ..., h se tiene
Y
1
j
(B
j
) = X
1
j
_
g
1
j
(B
j
)
_
= X
1
j
(C
j
) ,
donde C
j
= g
1
j
(B
j
) . Como los C
j
, j = 1, 2, ..., h son borelianos, la inde-
pendencia de las variables X
j
implica que los eventos X
1
j
(C
j
) son inde-
pendientes. Luego las variables Y
1
, ...Y
h
son independientes.2
4.5.3. Independencia de vectores aleatorios.
Denicion. Sea (, /, P) un espacio de probabilidad. Sean X
1
, X
2
, ..., X
h
vectores aleatorios de dimensiones k
1
, k
2
, ..., k
h
respectivamente, esto es
X
i
: R
k
i
, i = 1, 2, ..., h
son vectores aleatorios. Diremos que el sistema de vectores es independiente
si dados B
1
B
k
1
, B
2
B
k
2
, ..., B
h
B
k
h
, borelianos arbitrarios en sus
respectivos espacios, los conjuntos X
1
j
(B
j
) , j = 1, 2, ..., h son eventos
independientes.
Las siguientes dos proposiciones dan condiciones necesarias y sucientes
para que un conjunto de vectores aleatorios sean independientes. Las dos
condiciones son analogas a las obtenidas para variables aleatorias.
Propiedad 4.6. Una condicion necesaria y suciente para que el con-
junto de vectores X
1
, X
2
, ..., X
h
, donde X
i
es de dimension k
i
sean indepen-
dientes es que para todo B
1
B
k
1
, B
2
B
k
2
, ..., B
h
B
k
h
se cumpla
P

X
(B
1
B
2
... B
h
) = P
X
1
(B
1
) P
X
2
(B
2
) ...P
X
h
(B
h
) ,
donde

X = (X
1
, X
2
, ..., X
h
) .
Demostracion.
Analoga a la demostracion de la proposicion correspondiente para vari-
ables aleatorias.2
NOTAS DE PROBABILIDADES 79
Propiedad 4.7. Una condicion necesaria y suciente para que un con-
junto de vectores X
1
, X
2
, ..., X
h
sean independientes es que para todo
(x
1,
x
2
, ..., x
h
) R
k
1
R
k
2
...R
k
h
se tenga
F

X
(x
1,
x
2
, ..., x
h
) = F
X
1
(x
1
) F
X
2
(x
2
) ...F
X
h
(x
h
) ,
donde

X = (X
1
, X
2
, ..., X
h
) .
Demostracion. Analoga a la demostracion de la proposicion correspon-
diente para variables aleatorias.2
Propiedad 4.8. Sean X
1
, X
2
, ..., X
h
un sistema de vectores aleato-
rios de dimensiones k
1
, k
2
, .., k
h
respectivamente. Sean g
1
, g
2
, ..., g
h
funciones
medibles, g
i
: R
k
i
R
j
i
, i = 1, 2, ..., h. Entonces los vectores aleatorios
Y
1
= g
1
(X
1
) , Y
2
= g
2
(X
2
) , ..., Y
h
= g
h
(X
h
) son independientes.
Demostracion. Analoga a la demostracion de la proposicion correspon-
diente para variables aleatorias.2
80 VICTOR J. YOHAI
Captulo 5
Vectores aleatorios discretos
y continuos.
Tal como ocurre con las variables aleatorias, existen distintos tipos de
vectores aleatorios.
5.1. Vectores aleatorios discretos.
Denicion. Sea X = (X
1
, X
2
, ..., X
h
) un vector aleatorio. Si dice que X
es discreto o bien que tiene distribucion discreta sii para cada i = 1, 2, ..., h,
X
i
es un variable aleatoria discreta.
Esto implica, de acuerdo a lo estudiado, que para cada i = 1, 2, ..., h
existe un conjunto nito o innito numerable R
X
i
tal que P
X
i
(R
X
i
) = 1.
La Proposicion 5.2 muestra que el conjunto
R

X
= R
X
1
... R
X
h
es nito o innito numerable y que P
X
(R

) = 1.
Necesitamos previamente demostrar la siguiente propiedad
Propiedad 5.1. Sean A
1
, ..., A
h
una sucesion nita de eventos tal que
para todo i, 1 i h, tal que P (A
i
) = 1. Entonces
P
_
h

i=1
A
i
_
= 1.
Demostracion.
Basta probar que la probabilidad del complemento es cero. Eso se sigue
inmediatamente dado que la probabilidad es subaditiva y P (A
c
i
) = 0. En
efecto, se tiene
0 P
__
h

i=1
A
i
_
c
_
= P
_
h
_
i=1
A
c
i
_

i=1
P (A
c
i
) = 0.
81
82 VICTOR J. YOHAI
Luego
P
__
h

i=1
A
i
__
= 1 P
__
h

i=1
A
i
_
c
_
= 1.2
Observacion. La Propiedad 5.1 tambien vale para una sucesion numerable
de eventos y su demostracion es analoga.
Propiedad 5.2. Sea X = (X
1
, X
2
, ..., X
h
) un vector aleatorio. Entonces
el conjunto
R

X
= R
X
1
... R
X
h
es nito o innito numerable y
P
X
(R

) = 1.
Demostracion. R

X
es a lo sumo numerable, porque un producto carte-
siano nito de conjuntos a lo sumo numerables es a lo sumo numerable.
Ademas
: X() R
X
1
... R
X
h
=
h

i=1
: X
i
() R
X
i
.
Luego por la Propiedad 5.1
P
X
(R

X
) = P
X
(R
X
1
... R
X
h
) = P (: X() R
X
1
... R
X
h
)
= P
_
h

i=1
: X
i
() R
X
i

_
= 1,
ya que P ( : X
i
() R
X
i
) = P
X
i
(R
X
i
) = 1 2.
De manera analoga a como lo hicimos para una sola variable se puede
buscar el mnimo conjunto que tiene propabilidad 1. Este conjunto puede
ser distinto de R

X
.
Ejemplo.
Consideremos un vector aleatorio X = (X
1
, X
2
) que asume los valores
(0, 0) , (1, 1) con la misma probabilidad 0,5. De esto se deduce que las vari-
ables aleatorias X
1
, X
2
a su vez asumen los valores 0 y 1 con probabilidad
0,5 para ambos. Ahora bien
R

X
= R
X
1
R
X
2
= (0, 0) , (1, 1) , (0, 1) , (1, 0).
Se ve que el conjunto R

X
puede ser reducido a R
X
= (0, 0) , (1, 1).
Mas generalmente si X es un vector discreto de dimension k, podemos
considerar el conjunto de los atomos de la probabbilidad,
R
X
= x :P
X
(x) > 0 R
X
1
... R
X
h
.
NOTAS DE PROBABILIDADES 83
El siguiente Teorema, cuya demostracion es analoga al Teorema 3.1 mues-
tra que R
X
es el minimo conjunto de probabilidad 1.
Teorema 5.1. Se tiene que P
X
(R
X
) = 1. Ademas si B B
k
es tal que
P
X
(B) = 1, entonces R
X
B.
5.1.1. Funci on de densidad de probabilidad conjunta.
Una vez obtenido el conjunto R
X
donde se concentra la probabilidad de
un vector aleatorio discreto, vamos a mostrar que de igual manera que en
el caso de una variable aleatoria, podemos determinar una funcion denida
ahora sobre R
k
que determina totalmente a P
X
.
Denicion. Sea X =(X
1
, X
2
, ..., X
k
) un vector aleatorio discreto. Se de-
ne la funcion densidad de probabilidad conjunta p
X
: R
k
[0, 1] , asociada
al vector X por
p
X
(x) = P
X
(x) .
Observacion.
De acuerdo a la denicion de R
X
se tendra
p
X
(x) =
_
> 0 si x R
X
0 si x / R
X
.
Como consecuencia de las anteriores observaciones y de manera analoga
a como lo hemos hecho para una sola variable se tiene el siguiente Teorema.
Teorema 5.2 Para todo B B
k
se tiene
P
X
(B) =

xBR
X
p
X
(x)
=

xBR

X
p
X
(x) .
Muchas veces es conveniente considerar el conjunto R

X
= R
X
1
R
X
2

R
X
k
en vez de R
X
.
Teorema 5.3. Sea B = B
1
B
2
B
k
, donde B
1
, . . . , B
k
son
borelianos en R. Entonces
(a)
P
X
(B) =

x
k
B
k
R
X
k

x
k1
B
k1
R
X
k1
...

x
1
B
1
R
X
1
p
X
(x
1
, x
2
, ..., x
k
) .
(b)

x
k
R
X
k

x
k1
R
X
k1
...

x
1
R
X
1
p
X
(x) = 1.
84 VICTOR J. YOHAI
Demostracion.
P
X
(B) =

xBR
X
p
X
(x)
=

xBR

X
p
X
(x)
=

xB(R
X
1
R
X
2
R
X
k
)
p
X
(x)
=

xB
1
R
X
1
B
2
R
X
2
B
k
R
X
k
p
X
(x)
=

x
k
B
k
R
X
k

x
k1
B
k1
R
X
k1
...

x
1
B
1
R
X
1
p
X
(x
1
, x
2
, . . . , x
k
) .
Luego (a) vale
En particular si tomamos B
i
= R, luego B = R
k
y
1 = P
X
_
R
k
_
=

xR
X
1
R
X
2
R
X
k
p
X
(x)
=

x
k
R
X
k

x
k1
R
X
k1
...

x
1
R
X
1
p
X
(x) ,
y luego (b) vale.2
5.1.2. Caracterizacion de la funcion de densidad marginal
asociada a un subconjunto de variables.
Se trata de determinar a partir de la funcion de densidad conjunta, la
marginal asociada a un subconjunto arbitrario de variables. Para jar ideas,
consideremos un vector aleatorio X = (X
1
, X
2
, . . . , X
h
, X
h+1
, . . . , X
k
) y un
subvector X

= (X
1
, X
2
, . . . , X
h
) .
Propiedad 5.3. La funcion de densidad marginal asociada al vector X

viene dada por la formula


p
X
(x) =

x
h+1
R
X
h+1

x
h+2
R
X
h+2
...

x
k
R
X
k
p
X
(x
1
, . . . , x
h
, x
h+1
, . . . , x
k
) .
Demostracion.
Aplicando la denicion de p
X
p
X
((x
1
, x
2
, . . . , x
h
)) = P
X
((x
1
, x
2
, . . . , x
h
))
= P
X
(x
1
x
2
x
h
R R) .
NOTAS DE PROBABILIDADES 85
Entonces de acuerdo al resultado anterior
p
X
((x
1
, x
2
, . . . , x
h
)) = P
X
(x
1
x
2
x
h
R R)
=

x
k
RR
X
k
...

x
h+1
RR
X
k+1
p
X
(x
1
, . . . , x
h
, x
h+1
, . . . , x
k
)
=

x
k
R
X
k
...

x
k+1
R
X
k+1
p
X
(x
1
, . . . , x
h
, x
h+1
, . . . , x
k
).2
Ahora vamos a dar una condicion necesaria y suciente de independencia
para el caso de variables aleatorias con distribucion discreta, en terminos de
la funcion de densidad conjunta y sus marginales.
Para esto recordemos que una condicion necesaria y suciente para que
el sistema de variables aleatorias X
1
, X
2
, ..., X
h
sea independiente es que
dados borelianos arbitrarios B
1
, B
2
, . . . , B
h
P
X
(B
1
B
2
B
h
) = P
X
1
(B
1
) P
X
2
(B
2
) . . . P
X
h
(B
h
) . (5.1)
Teorema 5.4. Sea X = (X
1
, X
2
, ..., X
h
) un vector aleatorio con dis-
tribucion discreta.
Una condicion necesaria y suciente para que el conjunto de variables
aleatorias X
1
, X
2
, . . . , X
h
con distribucion discreta sea independiente es que
para todo x = (x
1
, . . . , x
h
) R
h
p
X
(x) = p
X
1
(x
1
) p
X
2
(x
2
) . . . p
X
h
(x
h
) . (5.2)
Demostracion.
Es facil ver que (5.2) es necesaria. Tomando en particular los borelianos
B
j
= x
j
, j = 1, 2, ..., h y aplicando (5.1) se obtiene
p
X
(x) = P
X
((x
1
, x
2
, . . . , x
h
)) = P
X
(x
1
x
2
x
h
)
= P
X
1
(x
1
) P
X
2
(x
2
) . . . P
X
h
(x
h
)
= p
X
1
(x
1
) p
X
2
(x
2
) . . . p
X
h
(x
h
) .
Ahora veamos la suciencia. Tenemos que probar que si ocurre (5.2)
entonces las variables X
1
, ..., X
h
son independientes. Como (5.1) implica la
suciencia, bastara probar que (5.2) implica (5.1).
Como la demostracion para k = 2 es similar a la demostracion general
pero la notacion es mas simple, lo probaremos en este caso. Consideremos un
86 VICTOR J. YOHAI
vector de dos componentes X =(X
1
, X
2
) y sean B
1
, B
2
borelianos, entonces
P
X
(B
1
B
2
) =

x
1
B
1
R
X
1

x
2
B
2
R
X
2
p
X
(x
1
, x
2
)
=

x
1
B
1
R
X
1

x
2
B
2
R
X
2
p
X
1
(x
1
) p
X
1
(x
2
)
=
_
_

x
1
B
1
R
X
1
p
X
1
(x
1
)
_
_
_
_

x
2
B
2
R
X
2
p
X
1
(x
2
)
_
_
.2
Observacion.
En la ultima igualdad hemos usado la formula

(a,b)AB
ab =

aA

bB
ab =
_

aA
a
_

bB
b
_
5.2. Ejemplos de distribuciones discretas.
5.2.1. Distribucion Multinomial.
Supongamos que un experimento que tiene k posibles resultados se repite
n veces en forma independiente. Sean A
i
, i = 1, 2, ..., k, los posibles resultados
del experimento y p
i
la probabilidad que el resultado sea A
i
. Luego
k

i=1
p
i
= 1.
Existen una gran cantidad de ejemplos de este tipo de experimentos.
Por ejemplo si se tira un dado hay seis posibles resultados con la misma
probabilidad . Luego p
i
= 1/6, i = 1, ..., 6. Otro experimento puede ser se
registra el voto de n ciudadanos elegidos al azar en una eleccion donde hay
k candidatos. En este caso en principio los valores de los p
i
pueden ser
arbitrarios.
Denotamos con X
i
a la variable aleatoria cantidad de veces que ocurre
el resultado A
i
a lo largo de los n experimentos i = 1, 2, ..., k y forme-
mos el vector aleatorio X = (X
1
, X
2
, ..., X
k
) . Se dice que el vector aleatorio
X = (X
1
, ..., X
k
) tiene distribucion multinomial con k resultados distin-
tos con probabilidades p
1
, . . . , p
k
y n repeticiones y sera simbolizada por
/
k
(p
1
, ..., p
k
, n).
Como espacio muestral consideremos
= (i
1
, i
2
, . . . , i
n
) : i
j
N, 1 i
j
k,
donde i
j
indica el resultado que ocurrio en la jesima repeticion del exper-
imento.
NOTAS DE PROBABILIDADES 87
Por ejemplo si n = 4 y k = 3 la 4-upla (1, 3, 2, 3) indica que el resultado
A
1
ocurrio la primera vez y nunca mas, el resultado A
3
la segunda y cuarta
vez y el resultado A
2
la tercera.
Con este espacio muestral, las variables aleatorias X
j
: N estan
denidas por
X
i
((i
1
, i
2
, ..., i
n
)) = #j : i
j
= i.
y se tiene que
k

i=1
X
i
((i
1
, i
2
, ..., i
n
)) = n.
El espacio no es equiprobable. Vamos a encontar ahora la probabilidad
de cada elemento (i
1
, ..., i
n
) de .Consideremos los eventos
B
j
= en el experimento j el resultado fue i
j
, j = 1, ..., n
Vamos ahora encontrar la probabilidad P denida sobre .Luego el resul-
tado (i
1
, i
2
, ..., i
n
) es equivalente a la interseccion de B
j
, 1 j n. Como
suponemos independencia de los experimentos y el evento B
j
tiene proba-
bilidad p
j
,resulta
P ((i
1
, i
2
, ..., i
n
)) = p
i
1
p
i
2
...p
i
n
= p
X
1
((i
1
,i
2
,...,i
n
))
1
p
X
2
((i
1
,i
2
,...,i
n
))
2
p
X
k
((i
1
,i
2
,...,i
n
))
k
.
(5.3)
El rango de X es
R
X
=
_
(x
1
, ..., x
k
) : 0 x
i
n,
n

i=1
x
i
= n
_
Fijado x = (x
1
, ...x
k
) R
X
, calcularemos la probabilidad del evento
A = X
1
(x)
= (i
1
, i
2
, ..., i
n
) : X((i
1
, i
2
, ..., i
n
)) = (x
1
, x
2
, ..., x
k
).
El evento A ocurre cuando para cada i, 0 x
i
k, el resultado A
i
ocure x
i
veces en las n repeticiones del experimento. En particular si (i
1
, i
2
, ..., i
n
)
A, de acuerdo a (5.3) se tendra
P ((i
1
, i
2
, ..., i
n
)) = p
x
1
1
p
x
2
2
p
x
k
k
.
Luego todo los elementos de A tienen la misma probabilidad y por lo
tanto la probabilidad de A estara dada por la probabilidad de un elemento
88 VICTOR J. YOHAI
por su cardinal . Un argumento simple de combinatoria muestra que
#A =
_
n
x
1
__
n x
1
x
2
__
n x
1
x
2
x
3
_
...
_
x
k
x
k
_
=
=
n!
(x
1
)! (n x
1
)!
(n x
1
)!
(x
2
)! (n x
1
x
2
)!
(n x
1
x
2
)!
(x
3
)! (n x
1
x
2
x
3
)!
.,1
=
n!
(x
1
)! (x
2
)! (x
3
)!... (x
k
)!
.
Esto resulta del hecho de que para elegir un elemento de A hay que elegir
los x
1
lugares donde ocurrio A
1
entre los n, hay que elegir los x
2
lugares en
los que ocurrion A
2
entre los n x
1
restantes, etc.
Luego tendremos
p
X
(x
1
, x
2
, ..., x
k
) = P
X
(A) =
n!
(x
1
)! (x
2
)! (x
3
)!... (x
k
)!
.p
x
1
1
p
x
2
2
...p
x
k
k
.2
5.2.2. Distribucion Hipergeometrica Multivariada.
Consideremos N objetos que pueden clasicarse en k clases distintas
A
1
, A
2
, ..., A
k
.
Supongamos conocida la cantidad de objetos de cada clase, digamos D
1
de la clase A
1
, D
2
de la clase A
2
, ..., D
k
de la clase A
k
, y por lo tanto

k
i=1
D
i
= N. Supongamos que se realizan extracciones de n objetos y
sea X
i
la cantidad de objetos de la clase i que se obtuvieron en las n
extracciones. Consideremos el vector aleatorio X =(X
1
, X
2
, ..., X
k
) .
Existen dos posibilidades
(a) Las extracciones se hacen con reposicion. En este caso, el experimento
tiene distribucion multinomial con parametros p
1
, p
2
, ..., p
k
y n, donde p
i
=
D
i
/N.
b) Las extracciones se hacen sin reposicion. En este caso la distribucion se
denomina hipergeometrica multivariada y sera denotada por HGM
k
(D
1
, ..., D
k
, n).
El rango del vector X estara dado por
R
X
= (x
1
, x
2
, ..., x
k
) : 0 x
i
D
i
, x
1
+x
2
+ +x
k
= n.
Como cada n-upla tiene una probabilidad distinta, no sera conveniente
tomar como espacio muestral el conjunto de estas kuplas. Para construir
un espacio de probabilidad equiprobable procedemos de la siguiente manera.
Comenzamos enumerando todos los objetos de la siguiente manera. Los de
clase 1 por
M
1
= 1, 2, . . . , D
1
.
Los de la clase 2 por
M
2
= D
1
+ 1, D
1
+ 2, . . . , D
1
+D
2
.
NOTAS DE PROBABILIDADES 89
Los de la clase 3 por
M
3
= D
1
+D
2
+ 1, D
1
+D
2
+ 2, . . . , D
1
+D
2
+D
3
.
y nalmente los de la clase k por
M
k
=
_
k1

i=1
D
i
+ 1,
k1

i=1
D
i
+ 2, . . . ,
k

i=1
D
i
_
.
Denamos entonce el espacio muestral por
= A : A 1, ..., N, #A = n,
Si el conjunto A se interpreta como el conjunto de los n umeros de las bolillas
obtenidas, resultara que todos los elementos de son equiprobables. Por
ejemplo si N = 20 y n = 3 la probabilidad de extraer los elementos 1, 2, 17
o 2, 6, 8 es la misma.
El n umero de elementos de es la cantidad de subconjuntos de n ele-
mentos que se pueden formar con los N dados. Luego
#() =
_
N
n
_
Dado A , se dene X
i
(A) = #(A M
i
) , 1 i k, y X(A) =
(X
1
(A), ..., X
k
(A)). Consideremos ahora el evento
C = A : X(A) = (x
1
, x
2
, ..., x
k
).
El evento C representa todas las extracciones en las que resulta que hay
exactamente x
1
elementos de la clase A
1
, x
2
de la clase A
2
, ..., x
k
de la clase
A. Un argumento combinatorio simple muestra que el cardinal de C es
#(C) =
_
D
1
x
1
__
D
2
x
2
_
...
_
D
k
x
k
_
,
de manera que
p
X
(x
1
, x
2
, ..., x
k
) = P (C) =
_
D
1
x
1
__
D
2
x
2
_
...
_
D
k
x
k
_
_
N
n
_ .
5.3. Vectores Aleatorios de tipo absolutamente con-
tinuo.
Denicion. Sea (, /, P) un espacio de probabilidad y X =(X
1
, X
2
, ..., X
k
)
un vector aleatorio. Se dice que el vector es absolutamente continuo si exis-
te una funcion integrable sobre R
k
, f
X
: R
k
R
0
llamada funcion de
90 VICTOR J. YOHAI
densidad de la probabilidad P
X
tal que
F
X
(x
1
, x
2
, ..., x
k
) =
_
x
k

_
x
k1

...
_
x
1

f
X
(t
1
, t
2
, ..., t
k
) dt
1
dt
2
...dt
k
=
=
_

_
(,x
1
](,x
2
]...(,x
k
]
f
X
(t) dt,
donde t =(t
1
, t
2
, ..., t
k
) y dt = dt
1
dt
2
...dt
k
.
Tomando lmite cuando x
1
, ..., x
k
, se tendra
_
+

_
+

...
_
+

f
X
(t) dt = P
X
(R
k
) = 1.
El siguiente teorema da la probabilidad que un vector aleatorio tome valores
en un rectangulo k-dimensional.
Teorema 5.5. Supongamos que X = (X
1
, ..., X
k
) sea un vector aleatorio
absolutamente continuo con densidad f
X
. Sean a
1
< b
1
, a
2
< b
2
, a
3
<
b
3
, ..., a
k
< b
k
. Luego se tiene
P
X
((a
1
, b
1
] (a
2
, b
2
] ... (a
k
, b
k
])
=
_
b
k
a
k
_
b
k1
a
k1

_
b
1
a
1
f
X
(t
1
, t
2
, ..., t
k
) dt
1
dt
2
...dt
k
.
=
_

_
(a
1
,b
1
](a
2
,b
2
]...(a
k
,b
k
]
f
X
(t) dt,
Demostracion. Tenemos que mostrar que

k
(a
k
, b
k
)
1
(a
1
, b
1
) F
X
(x
1
, x
2
, ..., x
k
)
=
_
b
k
a
k
_
b
k1
a
k1

_
b
1
a
1
f
X
(t
1
, t
2
, ..., t
k
) dt
1
dt
2
...dt
k
.
Para esto bastara probar que para todo 1 h k se tiene

h
(a
h
, b
h
)
1
(a
1
, b
1
) F
X
(x
1
, x
2
, ..., x
h,
x
h+1
, ...x
k
)
=
_
x
k


_
x
h+1

_
b
h
a
h

_
b
1
a
1
f
X
(t
1
, t
2
, ..., t
h,
t
h+1
, ...t
k
) dt
1
dt
2
...dt
h
,
y esto se prueba por induccion en h.2
Observacion. Usando la integral de Lebesgue, se puede probar, medi-
ante teora de la medida e integracion que para todo boreliano B B
k
P
X
(B) =
_

_
B
f
X
(t) dt. (5.4)
Si se usa la integral de Riemman, la integral del segundo miembro de
(5.4) puede no existir. Unicamente existe si el borde de B tiene medida
NOTAS DE PROBABILIDADES 91
de Riemman 0. En cambio la correspondiente integral de Lebesgue siempre
existe. Desde el punto de vista practico en este curso solo se va a trabajar
con conjuntos B para los cuales la integral de Riemman existe.
La funcion de densidad de probabilidad tiene una interpretacion analoga
a la que hemos visto para el caso univariado. La siguiente propiedad dice
que en un punto de continuidad, el lmite de la probabilidad de un entorno
de un punto sobre su volumen, cuando el entorno se aproxima al punto es
el valor de la densidad en el punto. Mas precisamente
Teorema 5.6. Sea f
X
la funcion densidad asociada al vector aleatorio
X =(X
1
, X
2
, ..., X
k
) continua en el punto x
0
= (x
10
, x
20
, . . . , x
k0
) . Entonces
lm
h0
P
X
([x
10
h, x
10
+h] [x
k0
h, x
k0
+h])
(2h)
k
= f
X
(x
0
) .
Demostracion.
Es analoga al caso univariado y se deja como ejercicio.2
Observacion. Los entornos c ubicos se pueden reemplazar por otro tipo
de entornos, por ejemplo entornos esfericos. En el denominador habra que
poner el volumen correspondiente.
Bajo el supuesto de que la densidad sea continua, se puede escribir la
densidad como la derivada parcial cruzada de orden k de la funcion de
distribucion.
Teorema 5.7. Supongamos que f
X
sea continua en x
0
. Entonces
f
X
(x
0
) =

k
F
X
(x
1
, x
2
, . . . , x
k
)
x
k
x
k1
x
1

x=x
0
.
Demostracion.
Por Fubini se tiene
F
X
(x
1
, x
2
, ..., x
k
) =
_
x
k

_
x
k1


_
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
=
_
x
1

__
x
k

_
x
k1


_
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
2
. . . dt
k
_
dt
1
y aplicando el teorema fundamental del calculo resulta
F
X
(x
1
, x
2
, ..., x
k
)
x
1
=
_
x
k

_
x
k1


_
x
2

f
X
(x
1
, t
2
, . . . , t
k
) dt
2
. . . dt
k
.
=
_
x
2

__
x
k

_
x
k1


_
x
3

f
X
(x
1
, t
2
, . . . , t
k
) dt
3
. . . dt
k
_
dt
2
y aplicando nuevamente el teorema fundamental del calculo obtenemos
92 VICTOR J. YOHAI
F
X
(x
1
, x
2
, . . . , x
k
)
x
2
x
1
=
_
x
k

_
x
k1


_
x
2

f
X
(x
1
, x
2
, t
3
, . . . , t
k
) dt
3
. . . dt
k
.
Repitiendo lo mismo k veces se demuestra el Teorema.2
Denicion. Dado un boreliano B B
k
se dene su volumen de la
siguiente manera
V ol (B) =
_

_
B
dx
1
dx
2
. . . dx
k
=
_

_
B
dx.
Observacion. Un caso tpico de conjuntos con volumen 0 resulta ser un
punto en R, una recta en R
2
, un plano en R
3
y en general un hiperplano en
R
k
. Las uniones a lo sumo numerables de conjuntos de volumen cero tienen
volumen cero. En general cualquier subconjunto de R
k
de dimension j con
j < k tendra volumen 0. Por ejemplo las curvas en R
2
o las supercies en
R
3
.
Veremos que si el vector aleatorio es absolutamente continuo la funcion
de probabilidad asociada asigna probabilidad 0 a conjuntos cuyo volumen
es 0.
Teorema 5.8. Sea X un vector aleatorio de dimension k. Si B B
k
tal
que Vol(B) = 0 entonces P
X
(B) = 0.
Demostracion.
Sea
C
n
= x R
k
: f
X
(x) > n.
Es claro que si x C
n+1
entonces f
X
(x) > n + 1 > n de manera que
x C
n
, es decir la sucesion de conjuntos C
n

n1
es decreciente y ademas,
puesto que la funcion f
X
es nita en todo punto, se tiene

n=1
C
n
= .
Luego tambien se tendra
lm
n
P
X
(C
n
) = 0.
Podemos descomponer a B = (B C
n
) (B C
c
n
) . Como esta union es
disjunta, se tiene
P
X
(B) = P
X
(B C
n
) +P
X
(B C
c
n
) .
Ahora calculamos P
X
(B C
c
n
). Para ello observemos que para todo n
NOTAS DE PROBABILIDADES 93
N
P (B C
c
n
) =
_

_
BC
c
n
f
X
(x) dx
n
_

_
BC
c
n
dx
= nVol (B C
c
n
)
nVol (B)
= 0.
Entonces para todo n N resulta
P
X
(B) = P
X
(B C
n
) P
X
(C
n
) ,
de manera que pasando al lmite se concluye que P
X
(B) = 0.2
Observacion.
Existe una diferencia importante entre los vectores discretos y los ab-
solutamente continuos. Recordemos que un vector es discreto si y solo si
sus componentes son variables discretas. Esto no ocurre en el caso de los
vectores aleatorios absolutamente continuos. Para demostrarlo daremos un
contraejemplo.
Consideremos una variable aleatoria X
1
, con distribucion absolutamente
continua y sea X
2
= X
1
de manera que el vector X =(X
1
, X
2
) tiene como
componentes variables aleatorias con distribuciones absolutamente conti-
nuas. Ahora veamos que el vector X no puede tener distribucion absoluta-
mente continua.
Para ello observemos que
B = (x
1
, x
2
) R
2
: x
1
= x
2

es una recta en R
2
de manera que tiene volumen cero. Pero sin embargo
P
X
(B) = P ( : X
1
() = X
2
()) = P () = 1.
Teorema 5.9. Sea X =(X
1
, X
2
, ..., X
h
, X
h+1
, ..., X
k
) un vector aleatorio
de dimension k. Consideremos un subconjunto de coordenadas y formemos
el vector aleatorio asociado X

= (X
1
, X
2
, ..., X
h
). Entonces X

tambien es
absolutamente continuo y
f
X
(x
1
, x
2
, . . . , x
h
) =
_
+

_
+


_
+

f
X
(x
1
, x
2
, . . . x
h
, t
h+1
, . . . , t
k
) dt
h+1
dt
h+2
. . . dt
k
.
(5.5)
Demostracion. Tenemos que
94 VICTOR J. YOHAI
F
X
(x
1
, x
2
, . . . , x
h
)
= P
X
((, x
1
] (, x
2
] (, x
h
])
= P
X
_
_
(, x
1
] (, x
2
] (, x
h
] R R R
. .
kh factores
_
_
=
_

_
(,x
1
](,x
2
]...(,x
h
]RR...R
f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
=
_
+

_
+


_
+

_
x
h


_
x
1

f
X
(t
1
, t
2
, ..., t
k
) dt
1
. . . dt
h
dt
h+1
dt
h+2
. . . dt
k
Por lo tanto, usando Fubini, se tendra
F
X
(x
1
, x
2
, ..., x
h
)
=
_
+

_
+


_
+

_
x
h


_
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
1
. . . dt
h
dt
h+1
dt
h+2
. . . dt
k
=
_
x
h


_
x
1

__
+

_
+


_
+

f
X
(t
1
, t
2
, . . . , t
k
) dt
h+1
dt
h+2
. . . dt
k
_
dt
1
. . . dt
h
Luego tenemos que
F
X
(x
1
, x
2
, . . . , x
h
) =
_
x
h


_
x
1

f
X
(t
1
, t
2
, . . . , t
h
) dt
1
. . . dt
h
,
donde f
X
esta dada por (5.5). Esto prueba el Teorema. 2.
Observacion.
Por comodidad hemos escogido las primeras h componentes pero lo mis-
mo puede hacerse para una coleccion arbitraria de ellas. En el caso de una
distribucion bivariada X =(X
1
, X
2
) X

= X
1
f
X
1
(x
1
) =
_
+

f
X
(x
1
, x
2
) dx
2
.
El siguiente Teorema da una condicion necesaria y suciente para que
un conjunto de variables absolutamente continuas sean independientes.
Teorema. 5.10. Sean X
1
, ..., X
k
variables aleatorias absolutamente con-
tinuas con densidades f
X
1
, ..., f
X
k
. Luego estas variables son independientes
si y solo si el vector X = (X
1
, ...X
k
) tiene como densidad conjunta a la fun-
cion
f(x
1
, ..., x
k
) =
k

i=1
f
X
i
(x
i
).
NOTAS DE PROBABILIDADES 95
Demostracion. Como sabemos, por el Teorema 4.13, que X
1
, ..., X
k
son
independientes si y solo si
F
X
(x) =
k

i=1
F
X
i
(x
i
), (5.6)
por el Teorema 4.5 (Teorema de Extension para vectores aleatorios) bas-
tara probar que la funcion de distribucion F correspondiente a f esta dada
por (5.6). Vamos a mostrar que esto es cierto. En efecto, tenemos
F(x
1
, ..., x
k
) =
_
x
k

..
_
x
1

i=1
f
X
i
(x
i
)dx
1
...dx
k
=
k

i=1
_
x
i

f
X
i
(x
i
)dx
i
=
k

i=1
F
X
i
(x
i
),
y luego el Teorema queda probado2
El siguiente Teorema que se deja como ejercicio prueba una propiedad
similar para vectores.
Teorema. 5.11. Sean X
1
, ..., X
k
vectores aleatorios absolutamente con-
tinuos con densidades f
X
1
, ..., f
X
k
. Luego estos vectores son independientes
si y solo si el vector X

= (X
1
, ...X
k
) tiene como densidad a la funcion
f(x
1
, ..., x
k
) =
k

i=1
f
X
i
(x
i
).
96 VICTOR J. YOHAI
Captulo 6
Transformaciones de
variables y vectores
aleatorios.
En esta seccion estudiaremos como se obtienen las distribuciones de vari-
ables o vectores aleatorios obtenidos a partir de otros a traves de cierto tipo
de transformaciones.
6.1. Transformaciones monotonas de variables aleato-
rias.
Sea (, /, P) un espacio de probabilidad y X una variable aleatoria.
Consideremos una funcion g : R R continua y estrictamente monotona,
es decir, estrictamente creciente o bien estrictamente decreciente. Sabemos
que Y = g (X) es otra variable aleatoria. Queremos estudiar la relacion que
existe entre F
X
y F
Y
.
Caso de g estrictamente creciente.
La imagen de g (R) es un intervalo abierto (a, b) de longitud nita o bien
innita, es decir tambien puede ser y b = .El siguiente teorema da la
relacion entre F
X
y F
Y
.
Teorema 6.1. Sea g : R R una funcion estrictamente creciente y
sea (a, b) = g(R). Entonces si X es una variable aleatoria con funcion de
distribucion F
X
, la funcion de distribucion de Y = g(X) sera
F
Y
(y) =
_
_
_
0 si y a
F
X
_
g
1
(y)
_
si y (a, b)
1 si y b.
(6.1)
Demostracion. Sea a < y < b. Como g es estrictamente creciente se tendra
F
Y
(y) = P (Y y) = P (g (X) y) = P
_
X g
1
(y)
_
= F
X
_
g
1
(y)
_
.
97
98 VICTOR J. YOHAI
Si y a se tendra que : g(X()) y = y luego
F
Y
(y) = P( : g(X()) y) = 0.
Del mismo modo, si y b se tendra : g(X()) y = , y luego
F
Y
(y) = P( : g(X()) y) = 1.2
Caso de g estrictamente decreciente.
Nuevamente la imagen de g es un abierto (a, b) de longitud nita o
innita. En este caso tenemos el siguiente Teorema.
Teorema 6.2. Sea g : R R una funcion estrictamente decreciente
(a, b) = g(R). Entonces se tiene
(a) Si X es una variable aleatoria con funcion de distribucion F
X
, la
funcion de distribucion de Y = g(X) sera
F
Y
(y) =
_
_
_
0 si y a
1 P
_
X < g
1
(y)
_
si y (a, b)
1 si y b.
(6.2)
(b) Si ademas F
X
es continua se tendra
F
Y
(y) =
_
_
_
0 si y a
1 F
X
_
g
1
(y)
_
si y (a, b)
1 si y b.
(6.3)
Demostracion. (a) Como g es estrictamente decreciente se tiene para a <
y < b que
F
Y
(y) = P (Y y) = P (g (X) y) = P
_
X g
1
(y)
_
= 1P
_
X < g
1
(y)
_
.
Los casos y a y y b se demuestran como en el Teorema 6.1.
(b) En este caso se tiene
P
_
X < g
1
(y)
_
= P
_
X g
1
(y)
_
= 1 F
X
_
g
1
(x)
_
.2
Ahora caracterizaremos la funcion de densidad asociada a Y . Suponga-
mos que X tiene distribucion absolutamente continua con densidad f
X
y
ademas que g es derivable.
Teorema 6.3. Sea g : R R una funcion estrictamente creciente o
decreciente y derivable con g

(y) ,= 0. Sea (a, b) = g(R), entonces si X es


una variable aleatoria absolutamente continua con funcion de densidad f
X
,
la funcion de densidad de Y = g(X) sera
NOTAS DE PROBABILIDADES 99
f
Y
(y) =
_

_
0 si y a
f
X
_
g
1
(y)
_
[g

(g
1
(y)) [
si y (a, b)
0 si y b.
(6.4)
Demostracion. En el caso de que g es estrictamente creciente, (6.4) se
obtiene derivando (6.1) y observando que g

> 0. En el caso que g sea


estrictamente decreciente, derivando (6.3) y observando que g

< 0.2
Un caso especial de interes ocurre cuando g es una transformacion afn,
es decir cuando g (x) = cx +d con c ,= 0. En este caso Y = g (X) = cX +d
y g

(x) = c. Como a = y b = +, teniendo en cuenta que g


1
(y) =
y d
c
obtenemos
f
X
(y) =
1
[c[
f
X
_
y d
c
_
. (6.5)
6.1.1. Distribucion Normal
Hemos visto la distribucion de una variable normal standarizada X
N (0, 1) cuya funcion densidad es
f
X
(x) =
1

2
exp
_
x
2
_
.
Ahora vamos a denir para todo R y para todo R
>0
la distribu-
cion normal con media y varianza
2
que indicaremos con N(,
2
). Esta
distribucion es la que corresponde a Y = X +, donde X es N (0, 1) .
De acuerdo a (6.5) tendremos
f
Y
(y) =
1

f
X
_
y

_
=
1

2
exp
_

1
2
_
y

_
2
_
=
1

2
exp
_

(y )
2
2
2
_
.
El signicado de los parametros y se estudiara en el captulo 7.
Adelantemos que representa un desplazamiento horizontal de la densidad
e indica el centro de simetra de la misma. La densidad alcanza su maximo
en y a medida que nos alejamos de , la densidad va decreciendo. El
parametro , indica la dispersion de la variable respecto del centro. Un factor
grande achata la curva hacia el eje de abcisas, y en este caso la dispersion
es grande . Cuando es chico, la probablidad esta mas concentrada cerca
de .
100 VICTOR J. YOHAI
En la Figura 6.1 se muestran densidades normales con diferentes valores
de ilustrando el signicado de este parametro.
Ejercicio. Se deja como ejercicio mostrar que si Y tiene distribucion
N(,
2
), entonces Z = (Y )/ tiene distribucion N(0, 1). Esta trans-
formacion se llama estandarizacion de la variable Y y permite calcular las
probabilidades de cualquier distribucion N(,
2
) usando la distribucion
N(0, 1). Por ejemplo, sea Y con distribucion N(3, 4) y supongamos que
queremos encontrar P(3 < Y < 5). Luego Z = (Y 3)/2 es N(0, 1) y
tendremos
P(3 < Y < 5) = P
_
3 3
2
<
Y 3
2
<
5 3
2
_
= P(0 < Z < 1)
= (1) (0) = (1) (0)
donde es la funcion de distribucion de una N(0, 1). Usando una tabla
de la N(0, 1) encontramos que (0) = 0,50 y (1) = . Luego
P(3 < Y < 5) = 0,841 0,50 = 0,341
6.2. Transformaciones inyectivas de vectores aleato-
rios
Recordemos algunos resultados de calculo integral en varias variables.
Sea U R
k
un abierto y g : U R
k
una funcion inyectiva de manera que
g : U V = g (U) resulta biyectiva. Podemos representar g = (g
1
, ..., g
k
),
donde g
i
: U R. Luego existe g
1
: V U. Supongamos que g es
diferenciable en cada punto x U El jacobiano de g se dene por
J
g
(x) = det
_
_
_
_
_
_
_
_
_
_
g
1
(x)
x
1
g
1
(x)
x
2

g
1
(x)
x
k
g
2
(x)
x
1
g
2
(x)
x
2

g
2
(x)
x
k
.
.
.
.
.
.
.
.
.
.
.
.
g
k
(x)
x
1
g
k
(x)
x
2

g
k
(x)
x
k
_
_
_
_
_
_
_
_
_
_
,= 0.
Entonces si y V y J
g
_
g
1
(y)
_
,= 0, resulta que g
1
es diferenciable
en y y se tiene
J
g
1 (y) =
1
J
g
(g
1
(y))
.
El siguiente teorema permite realizar un cambio de variables para inte-
grales m ultiples.
NOTAS DE PROBABILIDADES 101
Figure 6.1
0
0.2
0.4
0.6
0.8
y
-4 -2 2 4
u
Densidad de la normal estndar (en lnea na), de la N (0, 4) en lnea gruesa y de la
N

0,
1
4

en lnea punteada.
1
102 VICTOR J. YOHAI
Teorema 6.4. Sea A U R
k
un conjunto tal que el borde tiene
medida de Riemann 0, f : U R una funcion continua, g : R
k
R
k
una funcion inyectiva y diferenciable tal que J
g
(x) ,= 0 para todo x A .
Entonces
_

_
A
f (x) dx =
_

_
g(A)
f
_
g
1
(y)
_
[J
g
1 (y) [dy.
donde dx = dx
1
dx
2
. . . dx
k
y dy = dy
1
dy
2
. . . dy
k
.
Sea ahora X = (X
1
, X
2
, ..., X
k
) un vector aleatorio con distribucion ab-
solutamente continua y sea f
X
su densidad. El siguiente teorema permi-
tira encontrar la distribucion del vector Y = g (X) .
Teorema 6.5. Sea X =(X
1
, X
2
, ..., X
k
) un vector aleatorio absoluta-
mente continuo con densidad f
X
tal que P
X
(U) = 1, donde U es un abierto
en R
k
. Sea g : U R
k
una funcion inyectiva diferenciable tal que para
todo x U se tiene J
g
(x) ,= 0. Luego el vector Y = g (X) tambien es
absolutamente continuo y su densidad esta dada por
f
Y
(y) = f
X
_
g
1
(y)
_
[J
g
1 (y) [I
V
(y) ,
donde V = g(U), e I
V
es la funcion indicadora del conjunto V.
Demostracion. Para esto bastara demostrar que para todo B B
k
P
Y
(B) =
_

_
B
f
X
_
g
1
(y)
_

J
g
1 (y)

I
V
(y) dy. (6.6)
Por denicion de funcion de densidad de X se tiene que
P
Y
(B) = P (Y B V )
= P (g (X) B V )
= P
_
X g
1
(B V )
_
=
_

_
g
1
(BV )
f
X
(x) dx.
Usando la formula de cambio de variables en integrales m ultiples resulta
P
Y
(B) =
_

_
g
1
(BV )
f
X
(x) dx
=
_

_
g(g
1
(BV ))
f
X
_
g
1
(y)
_

J
g
1 (y)

dy.
Sea g : U W y H W. Es facil ver que una condicion necesaria y
suciente para que g
_
g
1
(H)
_
= H es que H g (U). Como B V V =
NOTAS DE PROBABILIDADES 103
g(U) resulta g(g
1
(B V )) = B V y por lo tanto
P
Y
(B) =
_

_
g(g
1
(BV ))
f
X
_
g
1
(y)
_

J
g
1 (y)

dy
=
_

_
BV
f
X
_
g
1
(y)
_

J
g
1 (y)

dy
=
_

_
B
f
X
_
g
1
(y)
_

J
g
1 (y)

I
V
(y)dy.
Esto muestra que vale (6.6).2
El resultado anterior vale cuando g es diferenciable y biunvoca de un
abierto de R
k
en R
k
. Veamos ahora que ocurre cuando g es una funcion
diferenciable de un abierto de R
k
en R
j
con j ,= k. Si j > k nada podemos
hacer puesto que en tal caso el conjunto g(U) es un conjunto de dimension
k y por lo tanto tiene volumen 0. Luego como P
Y
(g(U)) = 1, Y no puede
ser un vector absolutamente continuo.
Consideremos ahora j < k y sea U un abierto en R
k
. Supongamos que
g = (g
1
, ..., g
j
) : R
k
R
j
, donde cada g
i
: U R, 1 i j, es una
funcion diferenciable. Trataremos de derivar la densidad f
Y
de Y = g(X).
Esto es posible si se pueden encontrar funciones diferenciables g
i
: R
k

R, i = j +1, ..., h tales que si llamamos g = (g


1
, ..., g
j
, g
j+1
, ...., g
k
) la funcion
g : R
k
R
k
resulte inyectiva y J
g
(y) ,=0 para todo y U. En, efecto en este
caso por el teorema anterior podremos encontrar la densidad de

Y = g(X)
que denominaremos f

Y
. Luego la densidad de Y sera
f
Y
(y
1
, ...y
j
) =
_

...
_

Y
(y
1
, ..., y
j
, y
j+1
..., y
k
)dy
j+1
...dy
k
.
Veamos un ejemplo del uso de este procedimiento. Sea X =(X
1
, X
2
) y
consideremos Y = X
1
+X
2
. Si denimos g : R
2
R por g (x
1
, x
2
) = x
1
+x
2
,
vemos que Y = g (X) . En este caso 1 = j < k = 2. Ahora consideremos
g : R
2
R
2
, denida por g (x
1
, x
2
) = (x
1
+x
2
, x
2
) e Y =(Y
1
, Y
2
) con Y
1
=
g (X) e Y
2
= X
2
. Luego estamos en las condiciones del teorema puesto que
g : R
2
R
2
es biyectiva, diferenciable y su Jacobiano es
J
g
(x
1
, x
2
) = det
_
1 1
0 1
_
= 1.
Luego tenemos g
1
(y
1
, y
2
) = (y
1
y
2
, y
2
).
En este caso U = V = R
2
, y entonces acuerdo al Teorema 6.5, se tendra
f
Y
(y) = f
X
_
g
1
(y)
_
[J
g
1 (y) [
= f
X
(y
1
y
2
, y
2
)
104 VICTOR J. YOHAI
y
f
Y
(y) =
_

f
X
(y y
2
, y
2
) dy
2
.
En el caso que X
1
y X
2
son independientes con densidades f
X
1
y f
X
2
,
se tendra
f
X
(x
1
, x
2
) = f
X
1
(x
1
)f
X
2
(x
2
),
y entonces f
Y
esta dado por
f
Y
(y) =
_

f
X
1
(y y
2
)f
X
2
(y
2
) dy
2
. (6.7)
La funcion f
y
dada por (6.7) se denomina convolucion de f
X
1
(x
1
) y
f
X
2
(x
2
).
6.3. Algunas aplicaciones a la distribucion normal.
Sea X = (X
1
, X
2
, ..., X
k
) un vector aleatorio tal que sus componentes
son variables aleatorias independientes con identica distribucion N(0, 1).
Sea A R
kk
una matriz ortogonal, es decir tal que A
1
= A

donde A

denota la traspuesta de la matriz A. Denimos la funcion g : R


k
R
k
dada
por g (x) = xA y consideramos el vector aleatorio Y = XA. El siguiente
Teorema muestra que la distribucion de Y es la misma que la del vector X.
Teorema 6.6. La distribucion de vector Y es la misma que la del vector
X.
Demostracion.
La funcion de densidad del vector X es
f
X
(x) =
1
_
(2)
k
k

i=1
exp
_

1
2
x
2
i
_
=
1
_
(2)
k
exp
_

i=1
x
2
i
_
=
1
_
(2)
k
exp
_

1
2
[[x[[
2
_
.
Sea g : R
k
R
k
denida por g (x) = xA, luego g
1
(y) = yA
1
= yA

.
Calculando el Jacobiano de g vemos que J
g
(x) = det A = 1, de manera
que por el Teorema 6.5 y el hecho de que por ser A

ortogonal [[g
1
(y) [[ =
NOTAS DE PROBABILIDADES 105
[[yA

[[ = [[y[[, la densidad de Y esta dada por


f
Y
(y) = f
X
_
g
1
(y)
_
[J
g
1 (y) [I
R
k (y)
= f
X
_
g
1
(y)
_
= exp
_

1
2
[[g
1
(y)[[
2
_
=
1
_
(2)
k
exp
_

1
2
[[y[[
2
_
.
Esto prueba el Teorema.2
El siguiente Teorema prueba que combinaciones lineales de variables
aleatorias normales independientes son normales.
Teorema 6.7.
(a) Sean X
1
, X
2
, ..., X
k
variables aleatorias independientes con distribu-
cion N(0, 1). Sean b
1
, . . . , b
k
n umeros reales, tales que

k
i=1
b
2
i
= 1, es decir
el vector b = (b
1
, . . . , b
k
)

R
k
tiene norma unitaria. Luego la variable
Z = b
1
X
1
+ +b
k
X
k
tambien distribucion N(0, 1).
(b) Sean Y
1
, Y
2
, ..., Y
k
variables aleatorias independientes tales que Y
i
tiene distribucion N(
i
,
2
i
), luego dados n umeros reales
1
...,
k
y , la
distribucion de Z =

k
i=1

i
Y
i
+ es
N
_
k

i=1

i
+,
k

i=1

2
i

2
i
_
.
Demostracion.
(a) Sea a
1
=(b
1
, b
2
, ..., b
k
)

, donde

indica traspuesto . Entonces [[a
1
[[ =
1. Podemos extender a
1
a una base ortonormal de R
k
. Es decir existen vec-
tores columnas a
2
, a
3
, ..., a
k
ortogonales y de norma 1 tales que a
1
, a
2
, ..., a
k

es una base de R
k
.
Luego la matriz B cuyas columnas son los vectores a
j
, j = 1, 2, ..., k
es una matriz ortogonal. Denamos el vector aleatorio Y = XB, y sea Y
i
la
componente iesima de Y. Por lo visto anteriormente las variables aleatorias
Y
i
, (i = 1, 2, ..., k) tambien son independientes con distribucion N (0, 1) . En
particular Y
1
=

k
i=1
b
i
X
i
= Z tiene distribucion N (0, 1) . Luego (a) queda
probado.
(b) Podemos escribir
Z =
k

i=1

i
Y
i

i
+ +
k

i=1

i
=
k

i=1

i
X
i
+,
donde X
i
= (Y
i

i
)/
i
y
= +

i
. (6.8)
106 VICTOR J. YOHAI
Sabemos que para i = 1, 2, ..., k las variables X
i
son independientes con
distribucion N (0, 1) . Luego podemos escribir a Z de la siguiente manera
Z = A
k

i=1

i
A
X
i
+,
donde A esta dada por
A =
_
k

i=1

2
i

2
i
_
1
2
. (6.9)
Sea b
i
=

i

i
A
, luego
k

i=1
b
2
i
=
k

i=1
_

i
A
_
2
=
1
A
2
k

i=1
(
i

i
)
2
= 1.
Denamos W =

k
i=1
b
i
X
i
. Luego de acuerdo a la parte (a) de este
teorema se tendra que
W =
k

i=1
b
i
X
i
tiene distribucion N (0, 1). Por lo tanto como
Z = A
k

i=1

i
A
X
i
+ = AW +
en virtud de la denicion de distribucion normal se tendra que Z tiene
distribucion N
_
, A
2
_
. Luego el teorema se deduce de (6.8) y (6.9).2
6.4. Transformaciones no inyectivas
Vamos a tratar el caso donde g no es inyectiva. En ese caso tenemos el
siguiente Teorema.
Teorema 6.8. Sea X =(X
1
, X
2
, ..., X
k
) un vector aleatorio absoluta-
mente continuo con densidad f
X
. Sean U
1
, U
2
, ..., U
h
abiertos disjuntos en
R
k
tales que P
X
(

h
i=1
U
i
) = 1 . Sea g :
h
i=1
U
i
R
k
una funcion tal que es
inyectiva y diferenciable en U
i
con J
g
(x) ,= 0 para todo x U
i
. Luego el vec-
tor Y = g (X) tambien es absolutamente continuo y su densidad esta dada
por
f
Y
(y) =
h

i=1
f
X
_
g
1
i
(y)
_
[J
g
1
i
(y) [I
V
i
(y) ,
donde V
i
= g (U
i
) , g
i
= g[
U
i
, g
1
i
: V
i
U
i
es la inversa de g
i
.
NOTAS DE PROBABILIDADES 107
Demostracion.. Bastara probar probar que para todo B B
k
se tiene
P
Y
(B) =
_

_
B
h

i=1
f
X
_
g
1
i
(y)
_
[J
g
1
i
(y) [I
V
i
(y) dy. (6.10)
Usando que los U
i
son disjuntos, que
P
_
k
_
i=1
U
i
_
= 1
y que
Y B X U
i
= Y B V
i
X U
i
= X g
1
i
(B V
i
)
obtenenemos
P
Y
(B) = P (Y B)
= P
_
h
_
i=1
Y B X U
i

_
=
h

i=1
P (Y B X U
i
)
=
h

i=1
P
_
X g
1
i
(B V
i
)
_
=
h

i=1
P
X
_
g
1
i
(B V
i
)
_
=
h

i=1
_

_
g
1
i
(BV
i
)
f
X
(x) dx
Como las funciones g
i
son biunvocas en cada U
i
, usando la formula de
cambio de variables en integrales m ultiples se tiene
108 VICTOR J. YOHAI
P
Y
(B) =
h

i=1
_

_
g
1
i
(BV
i
)
f
X
(x) dx
=
h

i=1
_

_
BV
i
f
X
_
g
1
i
(y)
_
[J
g
1
i
(y) [ dy
=
h

i=1
_

_
B
f
X
_
g
1
i
(y)
_
[ J
g
1
i
(y) [I
V
i
(y) dy
=
_

_
B
h

i=1
f
X
_
g
1
i
(y)
_
[ J
g
1
i
(y) [ I
V
i
(y) dy,
y por lo tanto se cumple (6.10).2
6.4.1. Distribucion Chi-cuadrado con un grado de libertad.
Sea X N (0, 1) y consideremos g : R R g (x) = x
2
. Denimos
Y = g (X) = X
2
. Sean U
1
= x : x < 0 y U
2
= x : x > 0. Luego
g
1
1
(y) =

y y g
1
2
(y) =

y.
En este caso V
1
= V
2
= R
>0
y
J
g
1
1
(y) =
1
2
y

1
2
,
J
g
1
2
(y) =
1
2
y

1
2
.
Luego teniendo en cuenta que
f
X
(x) =
1

2
exp
_

x
2
2
_
,
y que V
1
= V
2
= R
>0
, por el Teorema anterior se tiene
f
Y
(y) =
1

2
exp
_

y
2
_
1
2
y

1
2
I
V
1
(y) +
1

2
exp
_

y
2
_
1
2
y

1
2
I
V
2
(y)
=
1

2
exp
_

y
2
_
y

1
2
I
{y: y>0}
(y) .
A la distribucion de la variable Y la denominaremos distribucion Chi-cuadrado
con un grado de libertad, y lo notaremos por
2
1
.
6.5. Algunas distribuciones complementarias.
6.5.1. Distribucion Gamma.
En primer lugar introducimos la funcion Gamma (que denotaremos con
), que resulta ser una extension a los reales positivos de la funcion factorial
NOTAS DE PROBABILIDADES 109
denida sobre los n umeros naturales. La funcion : R
>0
R
0
se dene
por
() =
_
+
0
exp(x) x
1
dx.
Para probar la existencia de este integral la descomponemos como
() =
_
1
0
exp(x) x
1
dx +
_
+
1
exp(x) x
1
dx
= I
1
+I
2
.
Es facil ver que I
1
es nita, teniendo en cuenta que exp(x) 1 sobre
(0, 1)
I
1
=
_
1
0
exp(x) x
1
dx
_
1
0
x
1
dx =
x

1
0
=
1

.
Estudiaremos ahora la convergencia de I
2
. Observemos que el desarrollo de
Taylor de exp(x/2) esta dado por
exp
_
x
2
_
=

k=0
1
k!
_
x
2
_
k
.
Luego como todos los terminos son positivos, tenemos
exp
_
x
2
_

1
k!
_
x
2
_
k
para todo k N.
Entonces
x
k
C
k
exp
_
x
2
_
,
donde C
k
= k!2
k
. Tomamos ahora k
0
> 1, luego se obtiene
I
2
=
_
+
1
exp(x) x
1
dx

_
+
1
exp(x) x
k
0
dx

_
+
1
exp(x) C
k
0
exp
_
x
2
_
dx
C
k
0
_
+
1
exp
_
x
2
_
dx < .
Propiedad 6.1. Si > 0 entonces ( + 1) = ().
110 VICTOR J. YOHAI
Demostracion . Para ello integraremos por partes tomando u = x

; dv =
exp(x) dx. Luego se tiene v = exp(x) y du = x
1
, de donde resulta
( + 1) =
_
+
0
exp(x) x

dx
=
_
+
0
udv
= x
a
exp(x) [

0

_
+
0
(exp(x)) x
1
dx
= x

exp(x) [

0
+
_
+
0
exp(x) x
1
dx.
Como lm
x
x

exp(x) = 0, resulta que ( + 1) = () .


Propiedad 6.2. es una extension del factorial. Mas precisamente para
todo n N se tiene (n) = (n 1)!
Demostracion . La prueba se hace por induccion. Si n = 1 entonces
(1) = 1 = 0!. Supongamos ahora que la propiedad que vale para n y
veamos que entonces vale para n+1. Usando la Propiedad 6.1 y la hipotesis
inductiva tenemos
(n + 1) = n(n) = n((n 1)!) = n!,
con lo cual la propiedad queda demostrada.
Denicion. Dado > 0, se dene la distribucion Gamma con parame-
tros y 1 (sera denotada por (, 1)) como la distribucion absolutamente
continua cuya funcion densidad es
f (x) =
1
()
exp(x) x
1
I
[0,)
(x) .
De acuerdo con la denicion de la funcion Gamma es claro que f es una
densidad ya que
_
+

f (x) dx = 1.
Denicion. Dado > 0 y > 0 deniremos la distribucion Gamma con
parametros y (que denotaremos por (, )), a la distribucion de Y =
X/ donde X tiene distribucion (, 1) . Como g (x) = x/, De acuerdo a
NOTAS DE PROBABILIDADES 111
(6.5) y teniendo en cuenta que > 0 tendremos
f
Y
(y) = f
X
(y) =
=

()
exp(y) (y)
1
I
[0,)
(y) =
=

()
exp(y) y
1
I
[0,)
(y).
Observese que como (1) = 0! = 1, la distribucion (1, ) tiene como
densidad
f(y) = exp(y) I
[0,)
(y)
que es la distribucion exponencial con parametro . En laa Figura 6.2 mues-
tran varias densidades gamma
Recordemos que si X N (0, 1) entonces Y = X
2
tiene, de acuerdo a
lo probado en la subseccion anterior, una distribucion chi-cuadrado con un
grado de libertad. Mas precisamente probamos que
f
Y
(y) =
1

2
y

1
2
exp
_

y
2
_
I
[0,)
(y). (6.11)
Ahora bien si consideramos Z (1/2, 1/2) entonces su densidad es
f
Z
(z) =
_
1
2
_1
2

_
1
2
_ exp
_

z
2
_
y

1
2
I
[0,)
(z)
=
1

2
_
1
2
_ exp
_

z
2
_
y

1
2
I
[0,)
(z). (6.12)
Las densidades (6.11) y (6.12) dieren solo en una constante, luego deben
ser iguales Esto se muestra integrando las densidades sobre R, ya que ambas
integrales deben ser iguales a 1. Por lo tanto la distribucion
2
con un
grado de libertad coincide con la distribucion
_
1
2
,
1
2
_
. Ademas igualando
las constantes de ambas densidades se tiene la identidad
1

2
=
1

2
_
1
2
_,
o equivalentemente
_
1
2
_
=

.
Necesitaremos el siguiente Teorema
Teorema 6.9 Sea W =(W
1
, W
2
) un vector aleatorio y supongamos que
f
W
(w) = g
1
(w
1
) g
2
(w
2
) ,
donde g
1
es una funcion de densidad. Entonces
(a) f
W
2
= g
2
, y por lo tanto g
2
es una funcion de densidad.
112 VICTOR J. YOHAI
Figure 6.2
0
0.2
0.4
0.6
0.8
y
2 4 6 8
u
Densidad (3, 3) en lnea na,

2,
1
2

en lnea
punteada y (5, 1) en lnea gruesa.
1
NOTAS DE PROBABILIDADES 113
(b) f
W
1
= g
1
.
(c) Las variables W
1
y W
2
son independientes.
Demostracion. Como
_
+

g
1
(w
1
) dw
1
= 1,
se tiene que
f
W
2
(w
2
) =
_
+

g
1
(w
1
) g
2
(w
2
) dw
1
=
= g
2
(w
2
)
_
+

g
1
(w
1
) dw
1
= g
2
(w
2
) .
Esto prueba (a). Para ver (b) se usa el mismo argumento. Como (a) y
(b) implican que
f
W
(w
1
, w
2
) = f
W
1
(w
1
)f
W
2
(w
2
),
resulta que por el Teorema 5.10 W
1
y W
2
son independientes.2
Teorema 6.10. Sean Y
1
, Y
2
variables aleatorias independientes con dis-
tribuciones (
1
, ) y (
2
, ) respectivamente. Denamos W
1
= Y
1
+ Y
2
,
W
2
= Y
1
/(Y
1
+Y
2
). Entonces se tiene
(a) La distribucion de W
1
es W (
1
+
2
, )
(b) W
2
tiene densidad
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
[0,1]
(w
2
).
(c) W
1
y W
2
son independientes.
Demostracion. La demostracion se basa en el Teorema 6.5. Sea el abierto
U R
2
denido por U = (y
1
, y
2
) : y
1
> 0, y
2
> 0. Luego P
Y
(U) = 1 con
Y = (Y
1
, Y
2
) .
Consideremos la transformacion g : U R
2
denida por
g (y
1
, y
2
) =
_
y
1
+y
2
,
y
1
y
2
+y
1
_
.
Es facil ver que V = g(U) = (0, ) (0, 1) y
g
1
(w
1
, w
2
) = (w
1
w
2
, w
1
w
1
w
2
)
= (w
1
w
2
, w
1
(1 w
2
)) .
114 VICTOR J. YOHAI
Luego
J
g
1 (w
1
, w
2
) = det
_
w
2
1 w
2
w
1
w
1
_
= w
1
w
2
w
1
(1 w
2
)
= w
1
,
y por lo tanto [J
g
1 (w
1
, w
2
) [ = w
1
.
Consideramos ahora la densidad del vector Y = (Y
1
, Y
2
) . Como se supu-
so independencia entre Y
1
e Y
2
, esta densidad es el producto de las densidades
marginales y luego
f
Y
(y
1
, y
2
) =

1
+
2
(
1
) (
2
)
exp((y
1
+y
2
)) y

1
1
1
y

2
1
2
I
(0,)
(y
1
)I
(0,)
(y
2
).
Luego de acuerdo al Teorema 6.5 y por el hecho de que
I
V
(w
1
, w
2
) = I
(0,)(0,1)
(w
1
, w
2
) = I
(0,)
(w
1
)I
(0,1)
(w
2
)
se tiene
f
W
(w
1
, w
2
)
=

1
+
2
(
1
) (
2
)
exp(w
1
) (w
1
w
2
)

1
1
(w
1
(1 w
2
))

2
1
w
1
I
V
(w
1
, w
2
)
=
_

1
+
2
(
1
+
2
)
w

1
+
2
1
1
exp(w
1
) I
(0,)
(w
1
)
_

_
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
(0,1)
(w
2
)
_
= g
1
(w
1
)g
2
(w
2
)
donde
g
1
(w
1
) =

1
+
2
(
1
+
2
)
w

1
+
2
1
1
exp(w
1
) I
(0,)
(w
1
)
y
g
2
(w
2
) =
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
(0,1)
(w
2
).
El primer factor g
1
corresponde a una densidad (
1
+
2
, ) .
Por el Teorema 6.9 resulta que W
1
tiene distribucion (
1
+
2
, ) y
W
2
tiene como funcion de densidad a
g
2
(w
2
) =
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
(0,1)
(w
2
).
Este Teorema tambien implica que W
1
y W
2
son independientes.2
NOTAS DE PROBABILIDADES 115
6.5.2. Distribucion beta.
Denicion. Se dene la distribucion beta con parametros
1
y
2
, que
denotaremos por (
1
,
2
) , como la distribucion absolutamente continua
cuya funcion de densidad es:
f (w) =
(
1
+
2
)
(
1
) (
2
)
w

1
1
(1 w)

2
1
I
(0,1)
(w).
Observacion. Esta funcion es una densidad por el Teorema 6.10. Por
lo tanto podemos deducir que
_
1
0
(
1
+
2
)
(
1
) (
2
)
w

1
1
(1 w)

2
1
dw = 1,
y entonces se tiene
_
1
0
w

1
1
(1 w)

2
1
dw =
(
1
) (
2
)
(
1
+
2
)
.
En la Figura 3 se muestran varias densidades Beta
Teorema 6.11. Sean Y
1
, Y
2
, ..., Y
n
variables aleatorias independientes
tales que Y
i
tiene distribucion (
i
, ) . Entonces

n
i=1
Y
i
tiene distribucion
(

n
i=1

i
, ) .
Demostracion .
Se deduce de de la proposicion anterior usando induccion.2
A continuacion denimos las distribuciones chi-cuadrado con n grados
de libertad y la t- de Student. Ambas distribuciones son de gran importancia
en Estadstica. Volveremos mas adelante sobre ellas.
6.5.3. Distribucion Chi-cuadrado.
Supongamos que se tienen n variables independientes X
i
, i = 1, 2, ..., n
con distribucion N (0, 1) . Sabemos que cada Y
i
= X
2
i
tiene distribucion
2
con 1 grado de libertad, la cual que coincide con la distribucion (1/2, 1/2) .
Se dene la distribucion chi-cuadrado con n grados de libertad, que
simbolizaremos por
2
n
, como la distribucion de la variable aleatoria Y =

n
i=1
X
2
i
.
De acuerdo al Teorema 6.11 , como cada X
2
i
tiene distribucion
2
1
y estas
variables son independientes, se obtiene que Y tiene distribucion (n/2, 1/2) .
Por lo tanto la distribucion
2
n
coincide con la distribucion (n/2, 1/2) .
116 VICTOR J. YOHAI
Figure 6.3
0
0.5
1
1.5
2
2.5
3
3.5
y
0.2 0.4 0.6 0.8 1
u
Densidad de la (2, 2) en lnea na, (3, 6) en
lnea punteada y (10, 3) en lnea gruesa.
1
NOTAS DE PROBABILIDADES 117
6.5.4. Distribucion t de Student
Supongamos que U tiene distribucion N (0, 1) y V distribucion
2
n
con
U y V independientes. Luego se dene la distribucion de t de Student con
n grados de libertad, que simbolizaremos con t
n
, como la distribucion de
T =
U
_
V/n
.
En la Figura 6.4 se muestran varias densidades de Student para diferentes
grados de libertad
Se deja como ejercicio de la practica mostrar que la densidad de T es
f
T
(t) =

_
n+1
2
_

_
n
2
_

n
_
1 +
t
2
n
_

n+1
2
.
El graco de esta densidad es simetrico respecto al origen (funcion par)
y con forma de campana. Se puede probar que cuando n tiende a , f
T
converge a la densidad de la normal.
118 VICTOR J. YOHAI
Figure 6.4
0
0.1
0.2
0.3
0.4
y
-3 -2 -1 1 2 3
t
Densidad de la t
1
en lnea gruesa, t
5
en lnea
punteada y t
2
5 en lnea na.
1
Captulo 7
Esperanza Matematica.
7.1. Integral de Riemann-Stieltjes.
7.1.1. Denicion de la integral.
Sea f : [a, b] R y consideremos una particion del intervalo [a, b] que
llamaremos = x
0
, x
1
, . . . , x
n
tal que a = x
0
< x
1
< < x
n
= b.
Sea =
i

1in
una coleccion de puntos tal que
i
(x
i1
, x
i
] para
i = 1, 2, . . . , n, que se denominara seleccion en .
Denimos la suma de Riemann
S
b
a
(, ,f) =
n

i=1
f (
i
) (x
i
x
i1
) .
Se llama norma de la particion
[[[[ = max
1in
x
i
x
i1
.
Denicion. Se dice que f es integrable Riemann sobre [a, b] con valor
I =
_
b
a
f =
_
b
a
f (x) dx sii para todo > 0 existe > 0 tal que si [[[[ <
entonces
[S
b
a
(, ,f) I[ < .
Analogamente se dene la integral de Riemann-Stieltjes. Dadas g, F fun-
ciones denidas sobre [a, b] se dene la suma de Riemann-Stieltjes asociada
a la particion = x
i

0in
y la seleccion =
i

1in
de por
S
b
a
(, ,g, F) =
n

i=1
f (
i
) (F (x
i
) F (x
i1
)) .
Denicion. Se dice que existe la integral de Riemann-Stieltjes sobre [a, b]
con valor I =
_
b
a
gdF =
_
b
a
g (x) dF (x) sii para todo > 0 existe > 0 tal
119
120 VICTOR J. YOHAI
que si es una particion de [a, b] con [[[[ < y es cualquier seleccion en
entonces
[S
b
a
(, ,g, F) I[ < .
Observacion 7.1. Si F(x) = x, entonces la integral de Riemann-Stieltjes
es la integral de Riemann.
Observacion 7.2 Una condicion suciente, aunque no necesaria, para
que exista la integral de Riemann-Stieltjes, es que g sea continua en [a, b]
y F monotona en [a, b]. Si tomamos como F una funcion de distribucion el
ultimo requisito se cumplira.
Observacion 7.3 Otra condicion suciente (tampoco necesaria) para
que exista la integral de Riemann-Stieltjes es que (i) g sea continua en (a, b],
(ii) existe lm
xa
g (x), (iii) F sea monotona en [a, b] y (iv) F es continua en
a. En tal caso, vale que
_
b
a
gdF = lm
ca
_
b
c
gdF.
A continuacion damos algunas propiedades de la integral de Riemann
Stieltjes.
Propiedad 7.1. Linealidad de la Integral de Riemann-Stieltjes respecto
de g.
Si
_
b
a
g
1
dF y
_
b
a
g
2
dF existen y
1
,
2
R entonces
_
b
a
(
1
g
1
+
2
g
2
) dF
existe y ademas
_
b
a
(
1
g
1
+
2
g
2
) dF =
1
_
b
a
g
1
dF +
2
_
b
a
g
2
dF.
Propiedad 7.2. Linealidad de la Integral de Riemann-Stieltjes respecto de
F.
Si
_
b
a
gdF
1
y
_
b
a
gdF
2
existen y
1
,
2
R entonces
_
b
a
gd (
1
F
1
+
2
F
2
)
existe y ademas
_
b
a
gd (
1
F
1
+
2
F
2
) =
1
_
b
a
gdF
1
+
2
_
b
a
gdF
2
.
Propiedad 7.3. Aditividad respecto del dominio de integracion.
Sean a < b < c y supongamos que
_
b
a
gdF,
_
c
b
gdF y
_
c
a
gdF existen.
Entonces
_
c
a
gdF =
_
b
a
gdF +
_
c
b
gdF.
NOTAS DE PROBABILIDADES 121
Propiedad 7.4. Si F es no decreciente y g
1
g
2
sobre [a, b] entonces
_
b
a
g
1
dF
_
b
a
g
2
dF.
En particular teniendo en cuenta que [g[ g [g[ se obtiene la sigu-
iente
Propiedad 7.5. Si las dos integrales existen, entonces

_
b
a
gdF

_
b
a
[g[ dF
Estamos interesados en extender el dominio de integracion a toda la recta
o a semirectas. Esto lleva a la siguiente denicion.
Denicion. Supongamos que
_
b
a
gdF existe para todo a, b R. Decimos
que la integral impropia
_
+

gdF existe y es igual al n umero real I sii


lm
a; b+
_
b
a
gdF = I. (7.1)
De manera analoga se dene
_
+
a
gdF y
_
b

gdF. Tendremos el siguiente


teorema.
Teorema 7.1. Sea g 0 y F no decreciente. Entonces pueden ocurrir
dos cosas
(i)
M = sup
a,bR
_
b
a
gdF <
En este caso el lmite (7.1) existe y es nito.
(ii)
M = sup
a,bR
_
b
a
gdF =
En este caso el lmite (7.1) existe y es . Luego podemos denir
_
+

gdF =
.
Sea ahora g de signo arbitrario y F no decreciente. El siguiente teorema
es valido.
Teorema 7.2. Una condicion necesaria y suciente para que
_
+

gdF
exista es que

M = sup
a,bR
_
b
a
[g[ dF < .
122 VICTOR J. YOHAI
7.2. Denicion de Esperanza Matematica.
7.2.1. Algunas consideraciones heursticas.
Sea X una variable aleatoria discreta. Para jar ideas supongamos que
toma un n umero nito de valores, x
1
, x
2
, ..., x
k
, con probabilidades p
X
(x
1
), p
X
(x
2
), . . . ,
p
X
(x
k
).
Supongamos que se repite un experimento asociado a la variable aleatoria
X, n veces en forma independiente y que el resultado x
i
se obtiene n
i
veces,
1 i k. Entonces el promedio de todos los valores es
x
n
=
n
1
x
1
+n
2
x
2
+ +n
k
x
k
n
=
n
1
n
x
1
+
n
2
n
x
2
+ +
n
k
n
x
k
.
Luego pasando al lmite y dado que la frecuencia observada
n
j
n
se aprox-
ima a p
X
(x
j
) obtenemos
lm
n+
x
n
= lm
n+
_
n
1
n
x
1
+
n
2
n
x
2
+... +
n
k
n
x
k
_
= x
1
lm
n+
n
1
n
+x
2
lm
n+
n
2
n
+... +x
k
lm
n+
n
k
n
=
k

j=1
x
j
p
X
(x
j
) .
Esto motiva la denicion de la esperanza matematica de una variable disc-
reta.
7.2.2. Esperanza de una variable aleatoria discreta.
Denicion. Sea X una variable aleatoria con rango R
X
y distribucion
de probabilidad p
X
. Supongamos que

xR
X
[x[p
X
(x) < .
En tal caso denimos la esperanza matematica de la variable X de la
siguiente manera
E (X) =

xR
X
xp
X
(x) .
Observaciones.
1. Se sabe que la convergencia absoluta de la serie garantiza la conver-
gencia de la serie.
NOTAS DE PROBABILIDADES 123
2. Supongamos

xR
X
[x[p
X
(x) = . Denotemos con
R
+
X
= x R
X
: x > 0
R

X
= x R
X
: x < 0.
Entonces pueden ocurrir tres casos distintos.
a)

xR
+
X
xp
X
(x) = +y

xR

X
xp
X
(x) = .
b)

xR
+
X
xp
X
(x) = +y

xR

X
xp
X
(x) > .
c)

xR
+
X
xp
X
(x) < +y

xR

X
xp
X
(x) = .
En el caso (a) no se puede denir la esperanza de X. En el caso (b) se
puede denir E(X) = + en el (c) E(X) = . Es decir para que la es-
peranza este denida se requiere que

xR
+
X
xp
X
(x) o bien

xR

X
xp
X
(x)
sea nita.
7.2.3. Denicion general de esperanza matematica.
Ahora queremos denir la esperanza matematica, de manera mas gen-
eral. Supongamos primero que X es una variable aleatoria concentrada en
[a, b]. Es decir, supongamos que
P (a < X < b) = 1.
La idea que se utiliza para la denicion de la esperanza de esta variable es
la siguiente. Se dene una sucesion de variables aleatorias discretas X
n
que
la aproximan y luego como E(X
n
) esta denida para cada X
n
la esperanza
de X se dene por un paso al lmite.
Consideremos para cada n, una particion del intervalo [a, b] formada
por n intervalos de longitud (b a)/n. Para esto consideramos la particion

n
= x
n
0
, x
n
1
, ..., x
n
n
tal que a = x
n
0
< x
n
1
< ... < x
n
n
= b y x
n
i
x
n
i1
=
b a
n
.
Elegimos para cada i, 1 i n,
n
i
(x
i1
, x
i
] y denimos la variable
aleatoria
X
n
() =
n
i
si X() (x
n
i1
, x
n
i
].
Esta variable toma unicamente un n umero nito de valores:
n
i
, 1 i
n. Ademas
p
X
n
(
n
i
) = F
X
(x
n
i
) F
X
_
x
n
i1
_
.
Luego la esperanza de la variable X
n
viene dada por
E (X
n
) =
n

i=1

n
i
p
X
n
(
n
i
)
=
n

i=1

n
i
_
F
X
(x
n
i
) F
X
_
x
n
i1
__
= S
b
a
(
n
,
n
, id, F) ,
124 VICTOR J. YOHAI
con id (x) = x y se obtiene
lm
n+
E (X
n
) = lm
n+
S
b
a
(
n
,
n
, id, F
X
) =
_
b
a
xdF
X
.
Por lo tanto denimos la esperanza matematica de X por
E (X) =
_
b
a
xdF
X
.
Observacion.
Siendo la funcion id (x) = x continua y F monotona no decreciente, re-
sulta que
_
b
a
xdF existe siempre y por lo tanto tambien E (X) existe siempre.
Supongamos ahora que X es una variable aleatoria no acotada. El proble-
ma que ahora surge es que podra no existir
_
+

xdF. Sin embargo sabemos


que M =
_
+

[x[ dF siempre esta bien denida, eventualmente con el valor


+.
Si M < + denimos la esperanza de la variable X similarmente al
caso anterior por
E (X) =
_

xdF.
Si M = + hay tres casos y el analisis es analogo al que realizamos
anteriormente para variables discretas. Los tres casos son:
a)
_

0
xdF = + y
_
0

xdF = .
b)
_

0
xdF = + y
_
0

xdF > .
c)
_

0
xdF < + y
_
0

xdF = .
En el caso (a) la esperanza matematica de X no esta denida. En el caso
(b) se dene E(X) = +y en el (c) E(X) = . Nuevamente la esperanza
puede estar no denida y para su denicion se requiere que al menos una de
de las dos integrales
_

0
xdF o
_
0

xdF converja.
Con esta denicon general de esperanza matematica, para el caso de una
variable discreta se tienen dos deniciones diferentes. Probaremos ahora que
la denicion general de esperanza es una extension de la primera denicion
dada para el caso discreto, es decir que para variables aleatorias discretas
ambas deniciones coinciden.
Teorema 7.3. Sea F
X
la funcion de distribucion de una variable discreta
y g : R R continua. Luego
_
b
a
g(x)F
X
(x) =

xR
X
[a,b]
g(x)p
X
(x) . (7.2)
NOTAS DE PROBABILIDADES 125
Observacion.
Este resultado vale siempre, pero para facilitar la demostracion vamos a
probarlo para el caso en que R
X
[a, b] es nito para todo a y b. Esto se
cumple cuando las variables toman valores enteros como sucede, por ejemplo,
con las distribuciones Poisson, binomial, etc.
Demostracion.
Por la hipotesis supuesta R
X
[a, b] es un conjunto nito, digamos
R
X
[a, b] = z
1
, z
2
, ..., z
k
.
Llamemos a
= mn
2ik
z
i
z
i1
. (7.3)
Consideremos una particion
n
= x
n
i

0in
del intervalo [a, b], en n
intervalos iguales. Luego tenemos a = x
n
0
< x
n
1
< < x
n
n
= b y x
n
i
x
n
i1
=
(b a)/n . Teniendo en cuenta que [[
n
[[ = (b a)/n es claro que
lm
n+
[[
n
[[ = 0.
Sea n
0
tal que (b a)/n
0
< . Tomemos n > n
0
, luego |
n
| < , luego
por (7.3) en cada intervalo de
n
hay a lo sumo un elemento de R
X
[a, b] .
Va a ser fundamental para esta demostracion la eleccion de la seleccion

n
=
n
i

1in
de
n
. Procedemos de la siguiente manera.
1) Si
(R
X
[a, b]) (x
n
i1
, x
n
i
] ,=
se elige como
n
i
el unico punto de esta interseccion.
2) Si
(R
X
[a, b]) (x
n
i1
, x
n
i
] =

n
i
es cualquier punto de (x
i1
, x
i
].
Sea
A = i : (R
X
[a, b]) (x
n
i1
, x
n
i
] ,=
y por lo tanto
A
c
= i : (R
X
[a, b])
_
x
n
i1
, x
n
i

=
Entonces podemos realizar la siguiente descomposicion de S
b
a
(
n
,
n
, g, F)
S
b
a
(g, F,
n
,
n
) =
n

i=1
g(
n
i
)
_
F
X
(x
n
i
) F
X
_
x
n
i1
_
=

iA
g(
n
i
)
_
F
X
(x
n
i
) F
X
_
x
n
i1
_
+

iA
c
g(
n
i
)
_
F
X
(x
n
i
) F
X
_
x
n
i1
_
.
126 VICTOR J. YOHAI
Observemos que F
X
(x
n
i
) F
X
_
x
n
i1
_
= 0 si i A
c
ya que el intervalo
(x
i1
, x
i
] no contiene elementos de R
X
. Luego

iA
c
g(
n
i
)
_
F
X
(x
n
i
) F
X
_
x
n
i1
_
= 0,
y se obtiene
S
b
a
(
n
,
n
, g, F
X
) =

iA
g(
n
i
)
_
F
X
(x
n
i
) F
X
_
x
n
i1
_
. (7.4)
Ademas, como para i A, el valor
n
i
es el unico punto de R
X
en el
intervalo (x
n
i1
, x
n
i
], resulta
p
X
(
n
i
) = P
X
((x
n
i1
, x
n
i
]) = F
X
(x
n
i
) F
X
_
x
n
i1
_
.
Luego de (7.4) obtenemos
S
b
a
(
n
,
n
, g, F
X
) =

iA
g(
n
i
) p
X
(
n
i
).
Pero (
n
i
)
iA
coincide con z
j

1jk
= R
X
[a, b], y entonces para todo
n n
0
S
b
a
(
n
,
n
, g, F
X
) =
k

j=1
g(z
j
)p
X
(z
j
) =

xR
X
[a,b]
g(x)p
X
(x) . (7.5)
Como el miembro derecho de (7.5) no depende de n, obtenemos
_
b
a
xdF = lm
n
S
b
a
(
n
,
n
, g, F
X
) =

xR
X
[a,b]
xp
X
(x) .
Esto prueba (7.2) y por lo tanto el teorema queda demostrado. 2
Teorema 7.4. Supongamos que X es una variable aleatoria discreta y
que E (X) existe y es nita.
Entonces

xR
X
xp
X
(x) =
_
+

xdF
X
Demostracion. Teniendo en cuenta que

xR
X
xp
X
(x) = lm
a; b+

xR
X
[a,b]
xp
X
(x) ,
y que
_
+

xdF
X
= lm
a; b+
_
b
a
xdF
X
,
NOTAS DE PROBABILIDADES 127
bastara probar que para todo a < b

xR
X
[a,b]
xp
X
(x) =
_
b
a
xdF
X
.
Pero esto resulta del teorema 7.3 poniendo g(x) = x. 2
7.2.4. Esperanza matematica para una variable absolutamente
continua.
El siguiente Teorema prueba que en el caso de que X sea una variable
aleatoria absolutamente continua la E(X) se puede calcular a traves de una
integral de Riemann.
Teorema 7.5. Supongamos que
_

[x[f
X
(x) dx < . Luego
E (X) =
_

xf
X
(x) dx.
Demostracion. El teorema vale en general. Sin embargo, para facilitar la
demostracion, lo probaremos solo para el caso en que f
X
es continua.
Bastara ver que para todo intervalo [a, b] , a < b vale que
_
b
a
xf
X
(x) dx =
_
b
a
xdF
X
, (7.6)
ya que en tal caso el resultado se obtiene pasando al lmite.
Consideremos para cada n una particion de puntos equidistantes del
intervalo [a, b]

n
= x
n
0
, x
n
1
, ..., x
n
n

tales que a = x
n
0
< x
n
1
< ... < x
n
n
= b satisfaciendo x
n
i
x
n
i1
=
b a
n
.
Sabemos que F

X
(x) = f
X
(x) . Por el Teorema del Valor Medio, para
todo i, 1 i n, existe
n
i
(x
n
i
, x
n
i1
] tal que
F
X
(x
n
i
) F
X
_
x
n
i1
_
= f
X
(
n
i
)
_
x
n
i
x
n
i1
_
. (7.7)
Elegiremos la seleccion = (
n
i
)
1in
para formar las sumas de Riemann-
Stieltjes. Luego
S
b
a
(
n
,
n
, id, F
X
) = S
b
a
(
n
,
n
, x, F
X
) =
n

i=1

n
i
_
F
X
(x
n
i
) F
X
_
x
n
i1
__
,
(7.8)
y se tendra que
lm
n
S
b
a
(
n
,
n
, x, F
X
) =
_
b
a
xdF
X
. (7.9)
128 VICTOR J. YOHAI
Usando (7.7) y (7.8) obtenemos que S
b
a
(
n
,
n
, x, F
X
) es tambien una
suma de Riemann correspondiente a la funcion xf
X
(x) . En efecto
S
b
a
(
n
,
n
, x, F
X
) =
n

i=1

n
i
f
X
(
n
i
)
_
x
n
i
x
n
i1
_
= S
b
a
(
n
,
n
, xf
X
(x), x) .
Luego
lm
n
S
b
a
(
n
,
n
, x, F
X
) =
_
b
a
xf
X
(x) dx. (7.10)
De (7.9) y (7.10) se obtiene (7.6). 2
7.2.5. Algunas propiedades de la esperanza matematica
Propiedad 7.6. Sea X una variable aleatoria tal que P
X
(a) = 1.
Entonces
E (X) = a.
Demostracion.
Esto es inmediato teniendo en cuenta X es una variable discreta con
R
X
= a y p
X
(a) = 1. Luego
E (X) =

xR
X
xp
X
(x) = a.2
Propiedad 7.7. Sea (, /, P) un espacio de probabilidad y A /. En-
tonces E(I
A
) = P(A).
Demostracion. Como
I
A
() =
_
1 si A
0 si / A.
En este caso R
X
= 0, 1, p
X
(1) = P (A) , y p
X
(0) = 1 P (A) .
Entonces
E (I
A
) = 0 (1 P (A)) + 1P (A) = P (A) .2
El siguiente teorema permite la integracion por partes de una integral
de Riemann-Stieltjes.
Teorema 7.6. Integracion por partes. Sean g y F funciones denidas
sobre [a, b] tales que
_
b
a
gdF existe. Supongamos que g sea continua en a y
que F es acotada en [a, b] . Entonces
_
b
a
Fdg existe y
_
b
a
gdF = g (x) F (x) [
b
a

_
b
a
Fdg.
NOTAS DE PROBABILIDADES 129
Demostracion.
Tenemos que mostrar que
_
b
a
Fdg = g (x) F (x) [
b
a

_
b
a
gdF. (7.11)
Para eso habra que probar que dado > 0 existe > 0 tal que para
toda = x
i

0in
particion de (a, b] con [[[[ y toda =
i

0in
seleccion de puntos en , se tendra que

S
b
a
(, , F, g) g (x) F (x) [
b
a
+
_
b
a
gdF

< . (7.12)
Como
_
b
a
gdF existe, dado

2
podemos encontrar un
1
tal que si [[[[
1
para toda seleccion en tendremos que

S
b
a
(g, f, , )
_
b
a
gdF


2
. (7.13)
Como F es acotada en [a, b] existe un n umero real M > 0 tal que
[F (x)[ M
para todo x [a, b] . Por la continuidad de g en a, sabemos que existe
2
> 0
tal que si [x a[
2
entonces
[g(x) g(a)[ <

4M
.
Pongamos = mn(

1
2
,
2
). Sea = x
i

0in
una particion de (a, b], tal
que [[[[ y sea =
i

0in
una seleccion en la particion.
Vamos a mostrar que (7.12) vale. Sabemos que x
n1
<
n
b. Supon-
dremos que
n
< b. El caso
n
= b se demuestra analogamente. Tenemos
que
a = x
0
<
1
x
1
< <
i1
x
i1
<
i
x
i
< < x
n1
<
n
< x
n
= b.
Podemos construir una nueva particion

= x

0in+1
con
x

0
= a,
x

i
=
i
, 1 i n,
x

n+1
= b,
y denimos la seleccion

= (

i
)
1in+1
en

por

1
=
1
,

i
= x
i1
, 2 i n + 1.
Como
130 VICTOR J. YOHAI
[x

i
x

i1
[ = [
i

i1
[ [
i
x
i1
[ +[x
i1

i1
[
[x
i1
x
i
[ +[x
i1
x
i+1
[
< + = 2
1
, para 2 i n
[x

1
x

0
[ = [
1
a[ = [
1
x
0
[ [x
1
x
0
[ <
1
[x

n+1
x

n
[ = [b
n
[ = [x
n

n
[ [x
n
x
n1
[ <
1
tenemos que [[

[[
1
y entonces por (7.13) resulta

S
b
a
(

, g, F)
_
b
a
gdF

<

2
. (7.14)
Por otro lado tenemos
S
b
a
(

, g, F)=
n+1

i=1
g(

i
)
_
F(x

i
) F(x

i1
)

= g(

1
)F(x

1
) +
n

i=2
g(

i
)F(x

i
) +g(

n+1
)F(x

n+1
)
g(

1
)F(x

0
)
n+1

i=2
g(

i
)F(x

i1
)
= g(
1
)F(
1
) +
n

i=2
g(x
i1
)F(
i
) +g(b)F (b)
g(
1
)F(a)
= g(
1
)F(
1
) g(
1
)F(a) +
n

i=2
g(x
i1
)F(
i
)
+g(b)F (b)
n

i=1
g(x
i
)F(
i
)
= g(
1
) [F(
1
) F(a)]
n

i=1
[g(x
i1
) g(x
i
)] F(
i
)
+g(b)F (b) g (x
0
) F (
1
)
=
n

i=1
F(
i
) [g(x
i1
) g(x
i
)] +g(b)F (b) g(a)F (a)
+g(
1
) [F(
1
) F(a)] +g(a)F (a) g (a) F (
1
)
= S
b
a
(, ,F, g)+ g(x)F(x)[
b
a
+g(
1
) [F(
1
) F(a)] +g(a) [F (a) F (
1
)]
= S
b
a
(, ,F, g)+ g(x)F(x)[
b
a
+ [g(
1
) g(a)] [F(
1
) F(a)]
= S
b
a
(F, g, , )+ g(x)F(x)[
b
a
+r, (7.15)
NOTAS DE PROBABILIDADES 131
donde r = [g(
1
) g(a)] [F(
1
) F(a)] . Luego, como |

| < y [x

0
x

1
[ =
[a
1
[ <
2
se tendra
[g(a) g(
1
)[ /4M.
Ademas [F(x)[ M, y entonces obtenemos
[r[ = [F(
1
) F(a)[[g(
1
) g(a)[
2M

4M
=

2
.
Luego de (7.15) resulta.

S
b
a
(

, g, F) g(x)F(x)[
b
a
+S
b
a
(, ,F, g)



2
. (7.16)
De (7.14) y (7.16) resulta (7.12) y el teorema queda demostrado.2
Propiedad 7.8. Dada una funcion F monotona se tiene
_
b
a
dF = F (b) F (a) .
Demostracion.
Aplicando integracion por partes con g = 1 y dado que dg = 0, obten-
emos
_
b
a
dF = 1F (x) [
b
a

_
b
a
Fdg = F
X
(x) [
b
a
= F (b) F (a) .2
Teorema 7.7. Supongamos que
_
+

[x[dF
X
< . Entonces vale
(i)
lm
x+
x(1 F
X
(x)) = 0, (7.17)
y
(ii)
lm
x
xF
X
(x) = 0. (7.18)
Demostracion.
(i) A partir del hecho de que
_

[x[dF
X
es nita se deduce que las
colas tienden a cero, es decir
lm
b+
_
+
b
xdF
X
= 0, (7.19)
y
lm
a
_
a

xdF
X
= 0. (7.20)
132 VICTOR J. YOHAI
Usando la Propiedad 7.8 obtenemos
_
+
b
dF
X
= lm
d
_
d
b
dF
X
= lm
d
F
X
(d) F
X
(b) = 1 F
X
(b),
y entonces si b 0
_
+
b
xdF
X
b
_
+
b
dF
X
= b (1 F
X
(b)) 0 .
Luego
0 = lm
b
_
+
b
xdF
X
lm
b
b (1 F
X
(b)) 0.
Luego se deduce (7.17).
(ii) Se prueba de manera analoga y se deja como ejercicio. 2
Ahora estamos en condiciones de dar una expresion de la esperanza como
sumas de integrales de Riemann.
Teorema 7.8. Supongamos que
_

[x[dF
X
< . Entonces
E (X) =
_
+
0
(1 F
X
(x)) dx
_
0

F
X
(x) dx. (7.21)
Demostracion. Sabemos que
E (X) =
_
+
0
xdF
X
+
_
0

xdF
X
.
Estudiaremos cada integral por separado. Integrando por partes tenemos
que
_
b
0
xdF
X
= xF
X
(x) [
b
0

_
b
0
F
X
(x) dx
= bF
X
(b)
_
b
0
F
X
(x) dx
= bF
X
(b) +b b
_
b
0
F
X
(x) dx
= b (1 F
X
(b)) +b
_
b
0
F
X
(x) dx
= b (1 F
X
(b)) +
_
b
0
dx
_
b
0
F
X
(x) dx
= b (1 F
X
(b)) +
_
b
0
(1 F
X
(x)) dx.
NOTAS DE PROBABILIDADES 133
Luego pasando al lmite y teniendo en cuenta el resultado (7.17) se ob-
tiene
_
+
0
xdF
X
=
_
+
0
(1 F
X
(x)) dx.
Analogamente se prueba
_
0

xdF
X
=
_
+
0
F
X
(x) dx.
De estas dos ultimas igualdades se obtiene el teorema. 2
Propiedad 7.9. Sean X e Y dos variables aleatorias tal que P (X Y ) =
1, y tal que sus esperanzas E (X) , E (Y ) existen. Entonces
(1)
F
X
(t) F
Y
(t), t
y
(2)
E (X) E (Y ) .
Demostracion.
(1) Consideremos el evento U = : X () Y (). Claramente
P (U) = 1 y P (U
c
) = 0. Podemos escribir
Y t = (Y t U) (Y t U
c
) . (7.22)
y luego como P (Y t U
c
) P (U
c
) = 0, resulta
P(Y t) = P (Y t U) +P (Y t U
c
) (7.23)
= P (Y t U) . (7.24)
Si Y t U entonces X () Y () t de manera que
Y t U X t.
Tomando probabilidades y teniendo en cuenta (7.23) se obtiene que
P(Y t) = P (Y t U) P (X t) ,
o bien
F
Y
(t) F
X
(t) (7.25)
y por lo tanto (1) se cumple.
Tambien se tiene
1 F
X
(t) 1 F
Y
(t) , (7.26)
134 VICTOR J. YOHAI
y usando el Teorema 7.8 resulta
E (X) =
_
+
0
(1 F
X
(t)) dt
_
0

F
X
(t) dt,
E (Y ) =
_
+
0
(1 F
Y
(r)) dt
_
0

F
Y
(t) dt.
Luego la Propiedad 7.9 (2) se deduce de (7.25) y (7.26). 2
Supongamos que P (X = 0) = 1. Por la Propiedad 7.6 es claro que
E (X) = 0.
Ahora bien, del hecho de que E (X) = 0 no se deduce que P (X = 0) = 1.
Que condicion podemos agregar para que se cumpla? La propiedad 7.10
responde a esta pregunta.
Propiedad 7.10 E (X) = 0 y P (X 0) = 1 implica que P (X = 0) = 1.
Demostracion. Supongamos que esta propiedad no fuera cierta, luego
tendramos una variable aleatoria X tal que E (X) = 0, P (X 0) = 1 y
P (X = 0) < 1. Luego teniendo en cuenta que P (X 0) = 1 obtenemos
que P (X > 0) = P(X 0) P(X = 0) = 1 P(X > 0) = a > 0.
Ahora consideremos los eventos A
n
=
_
X >
1
n
_
. La sucesion A
n
es
monotona creciente ya que A
n
A
n+1
y ademas
X > 0 =
_
nN
A
n
,
de manera que
lm
n
P (A
n
) = P (X > 0) = a > 0.
Por lo tanto existe un n umero natural n
0
tal que P (A
n
0
) > a/2 y
entonces
E (X) =
_
+

xdF
X
=
_
+
0
xdF
X
=
_ 1
n
0
0
xdF
X
+
_
+
1
n
0
xdF
X

_
+
1
n
0
xdF
X

1
n
0
_
+
1
n
0
dF
X
=
1
n
0
_
1 F
X
_
1
n
0
__
=
1
n
0
P
_
X >
1
n
0
_
=
1
n
0
a
2
> 0.
NOTAS DE PROBABILIDADES 135
lo cual es un absurdo ya que contradice la hipotesis. 2
Observacion. La igualdad
_
+

xdF
X
=
_
+
0
xdF
X
se justica tenien-
do en cuenta que P (X 0) = 1.
Sea X una variable aleatoria discreta, R
X
su rango y p
X
su densidad. Sabemos
que
E (X) =

xR
X
xp
X
(x) .
El siguiente teorema permite hallar la esperanza de una variable aleatoria
Y que es funcion medible de otra variable aleatoria X sin necesidad de de
hallar antes la funcion de probabilidad puntual de la variable Y.
Teorema 7.7. Consideremos X un vector aleatorio discreto de dimen-
sion k y sea g : R
k
R una funcion medible . Denamos Y = g (X).
Entonces
E (Y ) =

xR
X
g (x) p
X
(x) .
Demostracion. Sea y g (R
X
) = R
Y
y denamos
A
y
= x R
X
: g (x) = y = g
1
(y) .
Es facil ver que la familia de subconjuntos A
y

yR
Y
es una particion
de R
X
, es decir R
X
=

yR
Y
A
y
y si y ,= y

entonces A
y
A
y
= .
Teniendo en cuenta que
p
Y
(y) = P
X
(A
y
) =

xA
y
p
X
(x) ,
y que para todo x A
y
se tiene g(x) = y, obtenemos
E (Y ) =

yR
Y
yp
Y
(y)
=

yR
Y
y

xA
y
p
X
(x)
=

yR
Y

xA
y
yp
X
(x)
=

yR
Y

xA
y
g (x) p
X
(x)
=

xR
X
g (x) p
X
(x) ,
y por lo tanto queda demostrado el Teorema. 2
136 VICTOR J. YOHAI
Ahora pasamos al caso absolutamente continuo. Sea X una variable
aleatoria absolutamente continua y f
X
su funcion de densidad. Sabemos
que
E (X) =
_
+

xf
X
(x) dx.
El siguiente teorema es el analogo al teorema anterior cuando X es un vector
absolutamente continuo.
Teorema 7.10. Sea X un vector aleatorio absolutamente continuo de
dimension k, con densidad f
X
. Sea g : R
k
R una funcion medible que
toma un conjunto a lo sumo numerable de valores y denamos Y = g (X) .
Luego
E (Y ) =
_
+

...
_
+

g (x) f
X
(x) dx
1
...dx
k
. (7.27)
Demostracion. Como en el teorema anterior consideramos la particion
A
y
= x R
X
: g (x) = y = g
1
(y) .
En este caso R
k
=

yR
Y
A
y
y si y ,= y

entonces A
y
A
y
= . Ademas
p
Y
(y) = P
X
(g
1
(y) = P
X
(A
y
) . Entonces usando que para x A
y
se
tiene g(x) = y, que ademas

yR
Y
I
A
y
(x) = 1
y que
P
X
(A
y
) =
_

_
A
y
f
X
(x) dx
1
. . . dx
k
(7.28)
NOTAS DE PROBABILIDADES 137
obtenemos
E (Y ) =

yR
Y
yp
Y
(y)
=

yR
Y
yP
X
(A
y
)
=

yR
Y
y
_

_
A
y
f
X
(x) dx
1
. . . dx
k
=

yR
Y
_

_
A
y
yf
X
(x) dx
1
. . . dx
k
=

yR
Y
_

_
A
y
g (x) f
X
(x) dx
1
. . . dx
k
=

yR
Y
_

_
R
k
g (x) f
X
(x) I
A
y
(x)dx
1
. . . dx
k
=
_

_
R
k
g (x) f
X
(x)
_
_

yR
Y
I
A
y
(x)
_
_
dx
1
. . . dx
k
=
=
_

_
R
k
g (x) f
X
(x) dx
1
. . . dx
k
. 2
Observacion. En la demostracion usamos (7.28). Como se comenta en
la observacion que sigue al Teorema 5.5, para demostrar esta propiedad para
todo boreliano se requiere teora de la medida y se debe usar la integral de
Lebesgue.
Propiedad 7.11. Sea X una variable aleatoria con esperanza nita. En-
tonces E (X +c) = E (X) +c.
Demostracion.
Sea Y = X +c. Supongamos primero que c > 0. Sabemos que F
Y
(x) =
F
X
(x c) .
Utilizando el Teorema 7.8 tenemos
E(Y ) =

_
0
(1 F
Y
(y))dy
0
_

F
Y
(y)dy
=

_
0
(1 F
X
(y c))dy
0
_

F
X
(y c)dy.
138 VICTOR J. YOHAI
Haciendo el cambio de variable x = y c dentro de las integrales, resulta
E(Y ) =

_
c
(1 F
X
(x))dx
c
_

F
X
(x)dx
=
0
_
c
(1 F
X
(x))dx +

_
0
(1 F
X
(x))dx
0
_

F
X
(x)dx +
0
_
c
F
X
(x)dx
= E(X) +
0
_
c
(1 F
X
(x))dx +
0
_
c
F
X
(x)dx
= E(X) +
0
_
c
dx
0
_
c
F
X
(x)dx +
0
_
c
F
X
(x)dx
= E(X) +
0
_
c
dx
= E(X) +x[
0
c
= E(X) +c.
El caso de c < 0 se demuestra de la misma manera. 2
Recordemos el concepto de convergencia uniforme.
Denicion. Sea (f
n
)
n1
una sucesion de funciones denidas sobre A un
conjunto cualquiera. Se dice que la sucesion de funciones (f
n
)
n1
converge
uniformemente a la funcion f sobre A sii para cada > 0 existe n
0
N tal
que si n n
0
entonces para todo x A
[f
n
(x) f (x) [ < .
Observacion. La diferencia con la convergencia puntual es que el n
0
en
este caso sirve para todo x, es decir solo depende de .
La convergencia uniforme implica la puntual pero no al reves. En parti-
cular nos interesa la convergencia uniforme de variables aleatorias. Hacemos
notar que el lmite puntual de funciones medibles, y en consecuencia el lmite
uniforme, tambien resulta ser una funcion medible.
Teorema 7.11. Sea (X
n
)
n1
una sucesion de variables aleatorias denidas
en (, A, P) que convergen uniformemente a una variable aleatoria X sobre
. Supongamos que E (X) existe. Entonces
lm
n+
E (X
n
) = E (X) .
NOTAS DE PROBABILIDADES 139
Observacion. La existencia de E (X) implica la existencia de E (X
n
)
para todo n a partir de un valor n
0
. Se deja como ejercicio.
Demostracion.
Sea ( /, P) el espacio de probabilidades donde estan denidas las varia-
bles aleatorias X
n
, n 1 y X. Teniendo en cuenta la convergencia uniforme
dado > 0 existe n
0
N tal que si n n
0
entonces
sup

[X
n
() X()[ < .
Esto signica que si n n
0
entonces
[X
n
() X()[ < , ,
o bien
X() < X
n
() < X() +, .
Por las propiedades 7.9 y 7.11 se obtiene que si n n
0
entonces
E (X) E (X
n
) E (X) +.
Por lo tanto lmE(X
n
) = E(X). 2
El siguiente teorema muestra que cualquier funcion medible puede aprox-
imarse por otra que toma un conjunto a lo sumo numerable de valores.
Teorema 7.12.
(i) Sea g : R
k
R una funcion tal que g(R
k
) es un conjunto nito
o numerable. Luego una condicion necesaria y suciente para que g
sea medible es que para todo y g(R
k
) = R
g
, se tenga que g
1
(y)
pertenezca a B
k
.
(ii) Dada una funcion g : R
k
R medible, existe una sucesion g
n
: R
k
R
de funciones medibles tales que R
g
n
es numerable, y [g
n
()g()[
1
n
para todo . Luego g
n
converge a g uniformemente.
(iii) Sea X un vector aleatorio de dimension k y sea Y = g(X) donde
g : R
k
R es una funcion medible. Entonces si g
n
: R
k
R es
una sucesion de funciones medibles que converge uniformemente a g,
resulta que Y
n
= g
n
(X) converge uniformemente a Y.
(iv) Dada una variable aleatoria X existe una sucesion de variables aleato-
rias discretas X
n
, n 1 que converge uniformemente a X.
Demostracion.
140 VICTOR J. YOHAI
(i) Sea y R
g
. Como y B, y R
g
, para que g sea medible es
necesario que g
1
(y) B
k
.Supongamos ahora que esta condicion se
cumpla. Entonces
g
1
((, x]) = g
1
((, x] R
g
)
=
_
y(,x]R
g
g
1
(y).
como (, x]R
g
es numerable y g
1
(y) B
k
, resulta g
1
((, x])
B
k
y por lo tanto g es medible.
(ii) Dado n, todo y R pertence a un intervalo de la forma (i/n, (i+1)/n)
para alg un i entero Luego denimos g
n
por
g
n
(x) =
(i + 1)
n
si g(x) (i/n, (i + 1)/n].
Luego [g
n
(x) g(x)[ 1/n y R
g
n
es numerable. Por otro lado
g
1
n
_
i + 1
n
_
= g
1
__
i
n
,
i + 1
n
__
pertenece a B
k
ya que g es medible. Por lo tanto por (i) g
n
es medible.
(iii) Se deja como ejercicio.
(iv) Por (ii) podemos encontrar una sucesion de funciones medibles g
n
:
R R tales que g
n
converja uniformemente a la funcion identidad
g(x) = x y tal que ademas tomen un conjunto a lo sumo numerable
de valores. Luego las variables X
n
= g
n
(X) son discretas y por (iii)
X
n
= g
n
(X) converge uniformemente a g(X) = X. 2
El siguiente teorema generaliza el Teorema 7.10 para una funcion g med-
ible cualquiera. La estrategia de la demostracion es la siguiente y sera usada
a menudo: se aproxima uniformemente a la funcion g por una sucesion de
funciones g
n
que toman un n umero a lo sumo numerable de valores y que
satisfacen la propiedad pedida. Luego usando que el Teorema 7.12 vale para
las funciones g
n
y pasando al lmite se demuestra que la propiedad vale para
g.
Teorema 7.13. Sea X =(X
1
, X
2
, . . . , X
k
) un vector aleatorio absolu-
tamente continuo con funcion de densidad f
X
y g : R
k
R una funcion
medible arbitraria. Si denimos la variable aleatoria Y = g (X) entonces
E (Y ) =
_
+


_
+

g (x) f
X
(x) dx.
NOTAS DE PROBABILIDADES 141
Demostracion.
Por el Teorema 7.12 (ii) existe una sucesion de funciones medibles g
n
tal que R
g
n
es a lo sumo numerable y que converge uniformemente a g.
Denimos las variables aleatorias Y
n
= g
n
(X) . Por el Teorema 7.12 (iii),
(Y
n
)
n
converge uniformemente a Y.
Como ya hemos demostrado en el Teorema 7.10 que esta propiedad vale
para funciones que toman un conjunto a lo sumo numerable de valores, se
tendra
E (Y
n
) =
_
+


_
+

g
n
(x) f
X
(x) dx.
Ademas por el Teorema 7.11 se tiene que lm
n
E(Y
n
) = E(Y ). Luego
bastara probar que
lm
n+
_
+


_
+

g
n
(x) f
X
(x) dx =
_
+


_
+

g (x) f
X
(x) dx.
(7.29)
Para probar esto observemos que

_
+


_
+

g
n
(x) f
X
(x) dx
_
+


_
+

g (x) f
X
(x) dx

_
+


_
+

(g
n
(x) g (x)) f
X
(x) dx

_
+


_
+

[(g
n
(x) g (x))[ f
X
(x) dx

1
n
_
+


_
+

f
X
(x) dx
. .
=1
=
1
n
,
y por lo tanto se cumple (7.29). 2
Ahora vamos a probar la linealidad de la esperanza.
Teorema 7.14. Sean X
1
y X
2
dos variables aleatorias con esperanza
nita. Entonces para todo escalar y vale que
E (X
1
+X
2
) = E (X
1
) +E (X
2
) .
Demostracion.
Primero probaremos el Teorema cuando X
1
y X
2
son discretas. Sean X
1
y X
2
variables aleatorias discretas con esperanza nita y sea Z = X
1
+X
2
.
Denamos g : R
2
R por
g (x
1
, x
2
) = x
1
+x
2
.
142 VICTOR J. YOHAI
Entonces si X = (X
1
, X
2
) se tiene que Z = g (X) . Denamos g
i
: R
2

R, i = 1, 2 por g
i
(x
1
, x
2
) = x
i
. Luego g(x) =g
1
(x)+g
2
(x). Usando el
Teorema 7.9 podemos escribir
E (Z) =

(x
1
,x
2
)R
X
g (x) p
X
(x)
=

(x
1
,x
2
)R
X
[g
1
(x) +g
2
(x)] p
X
(x)
=

(x
1
,x
2
)R
X
g
1
(x)p
X
(x) +

(x
1
,x
2
)R
X
g
2
(x)p
X
(x)
= E(g
1
(X)) +E(g
2
(X))
= E(X
1
) +E(X
2
).
Ahora bien, si X
1
y X
2
son variables aleatorias arbitrarias, entonces por
Teorema 7.12 (iii) podemos denir dos sucesiones de variables aleatorias
discretas (X
1n
)
n1
e (X
2n
)
n1
tales que convergen uniformemente a X
1
y
X
2
respectivamente.
Es facil ver que tambien se tendra que X
1n
+X
2n
converge uniforme-
mente a X
1
+X
2.
.
Hemos demostrado que para el caso de variables aleatorias discretas se
cumple la linealidad de la esperanza. Luego tenemos
E (X
1n
+X
2n
) = E (X
1n
) +E (X
2n
) . (7.30)
Aplicando el Teorema 7.11 se obtiene
lm
n
E (X
1n
+X
2n
) = E (X
1
+X
2
) , (7.31)
y
lm
n
E (X
jn
) = E(X
j
), j = 1, 2. (7.32)
Luego por (7.30), (7.31) y (7.32) se obtiene
E(X
1
+X
2
) = lm
n
E (X
1n
+X
2n
)
= lm
n
(E (X
1n
) +E (X
2n
))
= lm
n
E (X
1n
) + lm
n
E (X
2n
)
= E (X
1
) +E (X
2
) ,
y esto prueba el teorema. 2
NOTAS DE PROBABILIDADES 143
7.3. Esperanza del producto de variables aleato-
rias independientes.
Otro problema interesante es estudiar la esperanza de un producto de va-
riables aleatorias. Si las variables aleatorias X e Y tienen esperanzas nitas
y denimos la variable aleatoria Z = XY entonces nos podemos preguntar:
cuando vale que E (Z) = E (XY ) = E (X) E (Y )? Veremos en el siguiente
Teorema que una condicion suciente es la independencia de las variables X
e Y.
Teorema 7.15. Sean X e Y variables aleatorias independientes con
esperanza nita. Si Z = XY entonces
E (Z) = E (XY ) = E (X) E (Y ) .
Demostracion
En principio lo probaremos para el caso discreto. Luego aproximaremos
a X e Y por variables discretas uniformemente y probaremos el teorema
para el caso general pasando al lmite.
Sean X e Y variables aleatorias discretas independientes con esperanza
nita y denamos g : R
2
R
g (x, y) = xy.
Entonces como Z = g (X, Y ) , por el Teorema 7.9 resulta
E (Z) =

(x,y)R
(X,Y )
g (x, y) p
(X,Y )
(x, y)
=

(x,y)R
X
R
Y
xyp
(X,Y )
(x, y)
=

(x,y)R
X
R
Y
(xp
X
(x)) (yp
Y
(y))
=
_
_

xR
X
xp
X
(x)
_
_
_
_

yR
Y
yp
Y
(y)
_
_
= E (X) E (Y ) .
Observemos que R
(X,Y )
R
X
R
Y
pero para (x, y) R
X
R
Y
R
(X,Y )
se tiene p
(X,Y )
(x, y) = 0, lo que justica la segunda igualdad. La tercera se
justica por el hecho de que dado que X e Y son independientes se tiene
p
(X,Y )
(x, y) = p
X
(x)p
Y
(y).
Por el Teorema 7.12 (ii) existe una sucesion de funciones medibles g
n
:
R R que toman un conjunto a lo sumo numerable de valores y que
converge uniformemente a la funcion identidad g(x) = x. Consideremos las
144 VICTOR J. YOHAI
sucesiones de variables aleatorias discretas g
n
(X) = X
n
e Y
n
= g
n
(Y ) .
Dado que X e Y son independientes, se tiene que X
n
e Y
n
tambien lo son.
Luego como ya hemos probado que el teorema vale para el caso discreto
se tiene
E (X
n
Y
n
) = E (X
n
) E (Y
n
) .
Ahora como por el Teorema 7.12 (iii) X
n
converge uniformemente a X e
Y
n
converge uniformemente a Y se tendra
lm
n
E (X
n
Y
n
) = lm
n
E (X
n
) lm
n
E (Y
n
) = E (X) E (Y ) .
Luego basta probar que lm
n
E (X
n
Y
n
) = E (XY ). Para ver esto
observemos que
[E (X
n
Y
n
) E (XY ) [ = [E (X
n
Y
n
XY ) [
E [X
n
Y
n
XY [
= E [X
n
Y
n
X
n
Y +X
n
Y XY [
= E [X
n
(Y
n
Y ) +Y (X
n
X)[
E ([X
n
(Y
n
Y )[ +[Y (X
n
X)[)
E ([X
n
[ [Y
n
Y [) +E ([Y [ [X
n
X[) . (7.33)
Por la convergencia uniforme de X
n
a X y de Y
n
a Y tenemos
lm
n
max

[X
n
() X()[ = 0 (7.34)
y
lm
n
max

[Y
n
() Y ()[ = 0. (7.35)
Ademas como [X
n
[ [X[ uniformemente, resulta por el Teorema 7.11
lm
n
E([X
n
[) = E([X[). (7.36)
De (7.33), (7.34), (7.35) y (7.36) se obtiene que
lm
n
[E (X
n
Y
n
) E (XY ) [ = 0,
y esto prueba el teorema. 2
Damos a continuacion un ejemplo que muestra que la recproca es fal-
sa, es decir es falso que E (XY ) = E (X) E (Y ) implique que X e Y son
independientes.
Consideremos un vector (X, Y ) discreto tal que
R
(X,Y )
= (1, 0), (1, 0), (0, 1) , (0, 1)
NOTAS DE PROBABILIDADES 145
y tal que p(x, y) = 1/4 para cada (x, y) R
(X,Y )
.
Como para todo (x, y) R
(X,Y )
, se tiene xy = 0, resulta P(XY 0) = 1.
Luego E (XY ) = 0. Tambien se ve que R
X
= 1, 0, 1 y p
X
(1) = 1/4,
p
X
(0) = 1/2 y p
X
(1) = 1/4, por lo tanto resulta
E (X) = 1(1/4) + 0(1/2) + 1(1/4) = 0.
De manera que se cumple que
E (XY ) = E (X) E (Y ) = 0.
Pero X e Y no son independientes pues p
X
(1) =
1
4
= p
Y
(1) y dado que
(1, 1) / R
(X,Y )
se tiene p
(X,Y )
(1, 1) = 0.
Sin embargo si X, Y fueran independientes debiera cumplirse
p
(X,Y )
(1, 1) = p
X
(1)p
Y
(1) =
1
4
1
4
=
1
16
.
lo cual es una contradiccion. Por lo tanto X e Y no son independientes.
7.4. Una formula general para la esperanza de una
variable transformada
Teorema 7.16. Sea X una variable aleatoria con varianza nita y g :
R R tal que g(X) tiene esperanza nita. Supongamos ademas que existen
un n umero nito de puntos = d
0
< d
1
< < d
k
= , tales que en D
i
=
(d
i
, d
i+1
] la funcion g es continua y estrictamente creciente o estrictamente
decreciente o constante y que lm
xd
i
g (x) existe . Supongamos ademas que
en d
i
, 1 i k 1 la funcion g es continua o F
X
es continua. Luego se
tiene
E(g(X)) =

gdF
X
.
Demostracion. Podemos escribir
g(X) =
k

i=1
g(X)I
D
i
(X).
Vamos a ver que para probar el teorema bastara mostrar que
E(g(X)I
D
i
(X)) =
d
i+1
_
d
i
gdF
X
. (7.37)
146 VICTOR J. YOHAI
Es importante observar que de acuerdo a las observaciones 7.2 y 7.3 la
integral de Riemann-Stieltjes en el lado derecho de (7.37) existe. En efecto,
si (7.37) se cumple se tendra por el Teorema 7.14 y el hecho de que en los
puntos d
i
, 1 i k 1 la funcion F
X
o g es continua, que
E (g(X)) =
k

i=1
E(g(X)I
D
i
(X))
=
k

i=1
d
i+1
_
d
i
gdF
X
=

gdF
X
.
Veamos que (7.37) para el caso que g es constante en D
i
En este caso sea
c el valor de la funcion en D
i
. Luego g(X)I
D
i
(X) toma valores c con pro-
babilidad F
X
(d
i+1
) F
X
(d
i
) y 0 con probabilidad 1 (F
X
(d
i+1
) F
X
(d
i
)).
Luego
E(g(X)I
D
i
(X)) = c(F
X
(d
i+1
) F
X
(d
i
))
=
d
i+1
_
d
i
gdF
X
,
y por lo tanto (7.37) se cumple.
Veamos ahora que (7.37) vale en los intervalos D
i
donde g es estricta-
mente creciente.
Sean a

i
= lm
xd
i
g(x) y b

i
= lm
xd
i+1
g(x) donde lm
xa
indica lmite
cuando x tiende a a por la derecha y lm
xa
indica el lmite cuando x tiende
a a por la izquierda.
Sea Y
i
= g(X)I
D
i
(X). De acuerdo al Teorema 6.1
F
Y
i
(y) =
_
_
_
0 si y a

i
F
X
(g
1
i
(y)) si a

i
< y < b

i
1 si y b

i
,
(7.38)
donde g
i
es la restriccion de g a D
i
. Luego
E(Y
i
) =
_
b

i
a

i
ydF
Y
i
.
Como lm
aa

i
g
1
i
(a) = d
i
y lm
bb
g
1
i
(b) = d
i+1
, para probar (7.37) bas-
tara demostrar que para todo a

i
< a < b < b

i
se tiene
_
b
a
ydF
Y
=
g
1
i
(b)
_
g
1
i
(a)
g(x)dF
X
. (7.39)
NOTAS DE PROBABILIDADES 147
En efecto si (7.39), vale entonces resulta
E(Y
i
) =
_
b

i
a

i
ydF
Y
i
= lm
aa

i
,bb

i
_
b
a
ydF
Y
i
= lm
aa

i
,bb

i
g
1
i
(b)
_
g
1
i
(a)
g(x)dF
X
=
d
i+1
_
d
i
g(x)dF
X
.
y por lo tanto (7.37) vale.
Para mostrar (7.39) consideremos una sucesion de particiones
n
del
intervalo [a, b] en n intervalos de igual longitud. Entonces tenemos
n
Y
=
y
n
0
, y
n
1
, ..., y
n
n
con a = y
n
0
< y
n
1
< < y
n
n
= b e y
j+1
y
j
= 1/n,
1 j n. Tomemos una seleccion arbitraria de puntos en esta particion
y
n
j
<
n
j
y
n
j+1
, la llamamos
n
= (
n
j
)
1
jn
. Luego por 7.38 tenemos que
S
b
a
(
n
Y
,
n
, y, F
Y
) =
n

j=1

n
j
(F
Y
(y
n
j+1
) F
Y
(y
n
j
))
=
n

j=1

n
j
(F
X
(g
1
i
(y
n
j+1
)) F
X
(g
1
i
(y
n
j
))). (7.40)
Entonces como la funcion id (y) = y es continua en [a, b] y F
Y
es monotona,
existe la integral de Riemann-Stieltjes
_
b
a
ydF
Y
y se tiene que
lm
n
S
b
a
(
n
Y
,
n
, y, F
Y
) =
_
b
a
ydF
Y
. (7.41)
Llamemos ahora
x
n
j
= g
1
i
(y
n
j
), 0 j n,
n
j
= g
1
i
(
n
j
), 1 j n.
Luego por la monotona de g
1
i
obtenemos g
1
i
(a) = x
n
0
< x
n
1
< ... < x
n
n
=
g
1
i
(b) y x
n
j
<
n
j
x
n
j+1
. Por lo tanto
n
X
= x
n
0
, x
n
1
, ..., x
n
n
es una particion
de [g
1
i
(a), g
1
i
(b)] y
n
= (
n
j
)
1jn
una seleccion en esta particion. Ademas
[[
n
X
[[ = max
1jn
(x
n
j+1
x
n
j
)
= max
1jn
(g
1
i
(y
n
j+1
) g
1
i
(y
n
j
))
148 VICTOR J. YOHAI
tiende a 0 con n por la continuidad uniforme de g
1
i
en [g
1
i
(a), g
1
i
(b)] y el
hecho de que
lm
n
max
1jn
(y
n
j+1
y
n
j
) = 0.
Luego, como g es continua en [g
1
i
(a), g
1
i
(b)] y F
X
es monotona, existe
la integral de Riemann-Stieltjes
_
g
1
i
(b)
g
1
i
(a)
g(x)dF
X
y resulta que
lm
n
S
g
1
i
(b)
g
1
i
(a)
(
n
X
,
n
, g, F
X
) =
_
g
1
i
(b)
g
1
i
(a)
g(x)dF
X
. (7.42)
Finalmente observemos de (7.40) que
S
b
a
(
n
Y
,
n
, y, F
Y
) =
n

j=1

n
j
(F
X
(g
1
i
(y
n
j+1
)) F
X
(g
1
i
(y
n
j
)))
=
n

j=1
g(g
1
i
(
n
j
))(F
X
(x
j+1
) F
X
(x
j
))
=
n

j=1
g(
n
j
)(F
X
(x
j+1
) F
X
(x
j
))
= S
g
1
i
(b)
g
1
i
(a)
(
n
X
,
n
, g, F
X
). (7.43)
Luego de (7.41) (7.42) y (7.43) obtenemos (7.39), y por lo tanto (7.37)
queda demostrada para el caso que g es estrictamente creciente en D
i
.
Para el caso que g es estrictamente decreciente, tenemos que g es es-
trictamente creciente. Por lo tanto (7.37) vale para g y entonces
E(g(X)I
D
i
(X)) =
d
i+1
_
d
i
gdF
X
.
Pero esto es equivalente a
E(g(X)I
D
i
(X)) =
d
i+1
_
d
i
gdF
X
,
y luego (7.37) tambien vale. Esto prueba el teorema. 2
NOTAS DE PROBABILIDADES 149
7.5. Esperanza de distribuciones simetricas
El concepto de esperanza matematica esta ligado con el valor central
de la distribucion. Ciertas variables llamadas simetricas tienen un centro
natural. Por ejemplo aquellas que tienen densidad simetrica respecto a un
punto.
Denicion. Dada una variable aleatoria X cualquiera, se dice que tiene
distribucion simetrica respecto de si
P
X
([ x, )) = P
X
((, +x]). (7.44)
para todo x > 0.
Teorema 7.17. X tiene distribucion simetrica respecto de 0 si y solo si
F
X
= F
X
Demostracion. X tiene distribucion simetrica respecto de 0 si y solo si
P
X
([x, 0)) = P
X
((0, x]), x > 0. (7.45)
Se tiene
P
X
((0, x]) = F
X
(x) F
X
(0) (7.46)
y
P
X
([x, 0)) = P(x X < 0)
= P(x X > 0)
= P(0 < X x)
= F
X
(x) F
X
(0). (7.47)
Luego, de (7.45), (7.46) y (7.47) resulta que X tiene distribucion simetri-
ca respecto de 0 si y solo si
F
X
(x) F
X
(0) = F
X
(x) F
X
(0), x > 0. (7.48)
Tomando lmite cuando x tiende a innito resulta
1 F
X
(0) = 1 F
X
(0)
y luego
F
X
(0) = F
X
(0). (7.49)
De (7.48) y (7.49) resulta que que X tiene distribucion simetrica respecto
de 0 si y solo si
F
X
(x) = F
X
(x), x.2
Teorema 7.18. X tiene distribucion simetrica respecto de si y solo si
Y = X tiene distribucion simetrica respecto de 0.
150 VICTOR J. YOHAI
Demostracion. Sea x > 0. Se tiene
P
X
([ x, )) = P( x X < )
= P(x X 0)
= P(x Y 0)
= P
Y
([x, 0)),
y
P
X
((, +x]) = P( < X +x)
= P(0 < X x)
= P(0 < Y x)
= P
Y
((0, x]).
Luego P
X
([ x, )) = P
X
((, + x] es equivalente a P
Y
([x, 0)) =
P
Y
((0, x]) y por lo tanto el teorema es cierto 2.
Teorema 7.19. Si X tiene esperanza nita y tiene distribucion simetrica
respecto de , entonces E(X) =
Demostracion. Primero probaremos el teorema cuando = 0. En este
caso por el Teorema 7.14
E(X) = E(X). (7.50)
Ademas como F
X
= F
X
, y la esperanza depende solamente de la fun-
cion de distribucion se tendra
E(X) = E(X). (7.51)
De (7.50) y (7.51) resulta E(X) = E(X) = 0.
Supongamos ahora que X tenga distribucion simetrica respecto de .
Entonces X tiene distribucion simetrica respecto de 0. Luego usando
Propiedad 7.11 resulta
0 = E(X ) = E(X) ,
y el Teorema queda demostrado. 2
Teorema 7.20
(i) Si X es absolutamente continua, entonces X tiene distribucion simet-
rica respecto de si y solo si
f
X
( x) = f
X
( +x) . (7.52)
NOTAS DE PROBABILIDADES 151
(ii) Si X es discreta, entonces X tiene distribucion simetrica respecto de
si y solo si
p
X
( x) = p
X
( +x) .
Demostracion.
(i) Si llamamos Y = X, como f
Y
(x) = f
X
(x+), (7.52) es equivalente
a
f
Y
(x) = f
Y
(x) .
Por otro lado por las formulas de cambio de variable
f
Y
(x) = f
Y
(x).
Luego (7.52) es equivalente a f
Y
= f
Y
y esto es equivalente a F
Y
=
F
Y.
. Aplicando el Teorema 7.17 esto es equivalente a que Y sea simetri-
ca respecto de 0 y por Teorema 7.18 a que X sea simetrica respecto
de .
(ii) Es similar a (i). Se deja como ejercicio. 2
7.6. Mediana de una variable aleatoria.
Dijimos que la esperanza describe un valor central de una variable aleato-
ria. En particular, si la variable aleatoria X es simetrica y tiene esperanza
nita, entonces esta coincide con su centro de simetra. Una desventaja de
la esperanza es que es muy inestable, es decir es muy sensible a las peque nas
perturbaciones, peque nos cambios en la distribucion de la variable se ven
reejados en importantes cambios en los valores de la esperanza.
Otra desventaja de la esperanza es que puede ocurrir que no exista.
Incluso esto puede darse en el caso de una distribucion simetrica. Un ejemplo
de distribucion simetrica que no tiene esperanza es la distribucion de Cauchy.
Su densidad esta dada por
f (x) =
1

1
1 +x
2
.
Es facil ver que efectivamente es una densidad. Tenemos que
1

1
1 +x
2
=
2

_

0
1
1 +x
2
=
2

arctg(x)[

0
=
2

2
0)
= 1
152 VICTOR J. YOHAI
El graco de esta densidad es parecido al de la densidad normal aunque
las colas tienden a 0 mas lentamente. Es una funcion par y por lo tanto
simetrica respecto del eje y. Esta distribucion no tiene esperanza puesto que
un calculo sencillo prueba que
1

_
+
0
x
1
1 +x
2
dx =
1

_
0

x
1
1 +x
2
dx = +.
En efecto haciendo la tranformacion y = 1+x
2
en la primer integral se tiene
dy = 2xdx y entonces
1

_
+
0
x
1
1 +x
2
dx =
1
2
_
+
1
1
y
dy
=
1
2
log(y)[

1
= .
Por lo tanto la simetra no garantiza la existencia de la esperanza. En
este sentido no es una buena medida de centralidad, puesto que cualquier
medida de centralidad debiera coincidir con el centro de simetra de f
X
en
el caso de existir este.
Otra medida de centralidad es la mediana. Si existe un valor que deja la
misma probabilidad a su derecha que a la izquierda, ese valor es la mediana.
Esto se podra lograr siempre en el caso de una variable aleatoria continua.
Si X es simetrica entonces la mediana coincide con el centro de simetra.
Una denicion general de mediana es la siguiente.
Denicion. Se dice que m es una mediana de la variable aleatoria X si
se cumple que
(i)
P (X m)
1
2
y
(ii)
P (X m)
1
2
.
Veremos que siempre existe, y que si no es unica, el conjunto de las
medianas es conexo, es decir es un intervalo en R.
Para mostrar esto necesitaremos recurrir a la funcion
F
1
X
(y) = inf A
y
,
donde A
y
= x : F
X
(x) y. Hemos visto que el nmo es en verdad un
mnimo, de manera que F
X
_
F
1
X
(y)
_
y es decir
P
_
X F
1
X
(y)
_
y. (7.53)
NOTAS DE PROBABILIDADES 153
Probaremos ahora una propiedad adicional.
Teorema 7.21.
P
_
X F
1
X
(y)
_
1 y. (7.54)
Demostracion. Sea x < F
1
X
(y) , entonces, dado que F
1
X
(y) es el mnimo
de A
y
se tiene que F
X
(x) < y.
Luego si ponemos x = F
1
X
(y)
1
n
< F
1
X
(y) obtenemos
F
X
_
F
1
X
(y)
1
n
_
< y,
es decir
P
_
X F
1
X
(y)
1
n
_
< y.
La sucesion de eventos
A
n
= X F
1
X
(y)
1
n

es monotona no decreciente y ademas

_
n=1
A
n
= X < F
1
X
(y).
Luego pasando al lmite se tiene
lm
n
P
_
X F
1
X
(y)
1
n
_
y,
y ademas
lm
n
P
_
X F
1
X
(y)
1
n
_
= P
_
X < F
1
X
(y)
_
.
Por lo tanto
P
_
X < F
1
X
(y)
_
y,
o equivalentemente
P
_
X F
1
X
(y)
_
1 y. 2
Teorema 7.22. Sea X una variable aleatoria y F
X
su distribucion.
Entonces
(i)
F
1
X
_
1
2
_
es una mediana.
154 VICTOR J. YOHAI
(ii) Si m es mediana de X entonces
F
1
X
_
1
2
_
m.
(iii) Si m
1
y m
2
son medianas de X entonces para todo m (m
1
, m
2
), m
es mediana de X.
Demostracion
(i) Se deduce de (7.53) y (7.54) tomando y =
1
2
.
(ii) Si m es otra mediana, entonces como P (X m)
1
2
, resulta que
m A1
2
. Como F
1
X
_
1
2
_
= inf A1
2
resulta F
1
_
1
2
_
m.
(iii) Se deja como ejercicio. 2
Tambien se propone como ejercicio dar ejemplos de distribuciones en las
que el intervalo de las medianas sea cerrado a derecha y ejemplos en los que
sea abierto a derecha.
En el caso de que se trate de un intervalo podemos denir la mediana
central como el punto medio del intervalo. Es decir si el conjunto de medianas
es el intervalo [a, b) o el [a, b], la mediana central es m
c
(X) =
a +b
2
.
7.7. Varianza de una variable aleatoria.
La esperanza y la mediana de una variable aleatoria son caractersticas
de su distribucion que describen un valor central. Sin embargo, variables
aleatorias con distribuciones muy distintas pueden tener la misma esperanza.
Por ejemplo pueden diferir en cuan dispersos alrededor de la esperanza estan
los valores que toma la variable. Variables con la misma esperanza pueden
estar mas o menos dispersas. Esto nos lleva a denir otras caractersticas de
una variable aleatoria, que midan la dispersion alrededor de un valor central.
Tampoco existe una unica manera de medir dicha dispersion. Consid-
eremos una variable aleatoria X. Podramos considerar la distancia entre los
valores que toma X y su esperanza, es decir [X E (X)[ y como esto re-
sulta ser una variable aleatoria, calcular su esperanza E ([X E (X)[) . Sin
embargo, dado que la funcion valor absoluto no es derivable en el origen,
sera conveniente reemplazarla por la funcion cuadratica.
Denicion. Denimos la varianza de la variable aleatoria X por
Var (X) = E
_
(X E (X))
2
_
.
NOTAS DE PROBABILIDADES 155
Se la suele notar por
2
X
. La desviacion tpica o desvo estandar de una
variable aleatoria X es denida como la raz cuadrada de la varianza
ds (X) =
_
Var (X) =
X
.
Observacion.
Es Inmediato observar que Var(X) 0 pues se trata de la esperanza de
una variable aleatoria no negativa. Tambien es claro que siempre existe si
admitimos como medida el valor +.
La varianza tiene las siguientes propiedades.
Propiedad 7.12. Si X tiene varianza nita, entonces Var(X) = E
_
X
2
_

E
2
(X) .
Luego para el caso discreto resulta
Var (X) =

xR
X
x
2
p
X
(x)
_
_

xR
X
xp
X
(x)
_
_
2
,
y para el continuo
Var (X) =
_

x
2
f
X
(x)dx
__

xf
X
(x)dx
_
2
.
Demostracion.
Teniendo en cuenta las propiedades de la esperanza, se obtiene que:
Var (X) = E
_
(X E (X))
2
_
= E
_
X
2
2E (X) X +E
2
(X)
_
= E
_
X
2
_
2E (X) E (X) +E
_
E
2
(X)
_
= E
_
X
2
_
2E
2
(X) +E
2
(X)
= E
_
X
2
_
E
2
(X) .2
Propiedad 7.13. Var(X) = 0 es equivalente a P (X = E (X)) = 1.
Demostracion. Supongamos que Var(X) = E
_
(X E (X))
2
_
= 0. Como
(X E (X))
2
es no negativa, resulta por la Propiedad 7.10 que
P
_
(X E (X))
2
= 0
_
= 1.
Esto equivale a que
P (X E (X) = 0) = 1,
o
P (X = E (X)) = 1.
156 VICTOR J. YOHAI
Se deja como ejercicio probar que si
P (X = E (X)) = 1,
entonces Var(X) = 0. Para eso observese que la variable aleatoria (X
E (X))
2
es cero con probabilidad uno.2
Propiedad 7.14. Sea X una variable aleatoria e Y = X + , con ,
escalares. Entonces Var(Y ) =
2
Var(X) .
Demostracion. Como E(Y ) = E(X) + resulta
Var (Y ) = E
_
(Y E (Y ))
2
_
= E([X + (E(X) +)]
2
)
= E
_
[(X E(X))]
2
_
=
2
E
_
[X E(X)]
2
_
=
2
Var (X) .2
Se mostrara que en el caso de suma de variables aleatorias independi-
entes, la varianza es aditiva.
Propiedad 7.15. Sean X e Y variables aleatorias independientes. Luego si
Z = X +Y resulta Var(Z) =Var(X) +Var(Y ) .
Demostracion. Tenemos
Var (Z) = E
_
[Z E (Z)]
2
_
= E
_
[X +Y E (X) E (Y )]
2
_
= E
_
[(X E (X)) + (Y E (Y ))]
2
_
= E
_
[X E (X)]
2
_
+ 2E ([X E (X)] [Y E (Y )]) +E
_
[Y E (Y )]
2
_
= Var (X) + 2E ([X E (X)] [Y E (Y )]) + Var (Y ) .
Luego, bastara probar que
E ([X E (X)] [Y E (Y )]) = 0.
Usando la independencia de X e Y y teniendo en cuenta que
E (X E (X)) = 0 = E (Y E (Y )) ,
resulta
E ([X E (X)] [Y E (Y )]) = E (X E (X)) E (Y E (Y ))
= 0.2 (7.55)
NOTAS DE PROBABILIDADES 157
7.7.1. Esperanzas y varianzas de distribuciones normales
Calcularemos ahora E(Y ) y Var(Y ) para una variable Y con distribucion
N
_
,
2
_
.
Teorema 7.23. Si Y N
_
,
2
_
entonces E(Y ) = y Var(Y ) =
2
.
Demostracion. Tomemos primero una variable X con distribucion N(0, 1).
Mostraremos que E(X) = 0 y Var(X) = 1. La densidad de X es
f(x) =
1
(2)
1/2
e
x
2
/2
.
Como X es simetrica respecto de 0, para mostrar que E(X) = 0, bastara
mostrar que E([X[) < . Tenemos que
E([X[) =
_

[x[f(x)dx
= 2
_

0
xf(x)dx
=
2
(2)
1/2
_

0
xe
x
2
/2
dx. (7.56)
Denamos u = x
2
/2 y entonces du = xdx. Luego
E([X[) =
2
(2)
1/2
_

0
xe
x
2
/2
dx
=
2
(2)
1/2
_

0
e
u
du
=
2
(2)
1/2
_
e
u
[

0
_
(7.57)
=
2
(2)
1/2
< .
Vamos ahora a calcular la integral indenida
_
x
2
e
x
2
/2
dx.
Haciendo u = x y dv = xe
x
2
/2
dx para integrar por partes, se tiene du = dx
y por (7.57) v = e
x
2
/2
. Luego
_
x
2
e
x
2
/2
dx =
_
udv
= uv
_
vdu
= xe
x
2
/2
+
_
e
x
2
/2
dx.
158 VICTOR J. YOHAI
Luego
_

x
2
e
x
2
/2
dx = [xe
x
2
/2
]

+
_

e
x
2
/2
dx,
y como [xe
x
2
/2
]

= 0, resulta
_

x
2
e
x
2
/2
dx =
_

e
x
2
/2
dx.
Entonces se tiene
Var(X) =
_

x
2
f(x)dx
=
1
(2)
1/2
_

x
2
e
x
2
/2
dx
=
1
(2)
1/2
_

e
x
2
/2
dx
=
_

f(x)dx
= 1.
De acuerdo a su denicion, la distribucion N
_
,
2
_
es la distribucion
de Y = X + , con X N
_
,
2
_
. Luego E (Y ) = E (X) + = y
Var(Y ) =
2
Var(X) =
2
2.
Observacion De acuerdo a este resultado, los parametros de una dis-
tribucion normal coinciden con la esperanza y la varianza.
7.8. Covarianza
La ecuacion (7.55) motiva la denicion del concepto de covarianza.
Denicion. Sean X e Y variables aleatorias. Se dene la covarianza de
X e Y como
Cov (X, Y ) = E ([X EX] [Y E (Y )]) .
La siguientes propiedades 7.16 y 7.17 son inmediatas
Propiedad 7.16. Var(X +Y ) =Var(X) +Var(Y ) + 2Cov(X, Y ).
Propiedad 7.17. Si X , Y son independientes, Cov(X, Y ) = 0
La recproca es falsa: la covariaza igual a cero no garantiza la indepen-
dencia de las variables. Se puede dar el mismo contraejemplo que se uso luego
del Teorema 7.15 para mostrar que E(XY ) = E(X)E(Y ) no implica que X
e Y sean independientes.
NOTAS DE PROBABILIDADES 159
Diremos que dos variables aleatorias X e Y estan positivamente correla-
cionadas si Cov(X, Y ) > 0 y negativamente correlacionadas si Cov(X, Y ) <
0.
Si Cov(X, Y ) = E ([X EX] [Y E (Y )]) > 0, X EX y Y E (Y )
tienden a tener el mismo signo, es decir tienden a situarse del mismo lado
de sus respectivas esperanzas. Lo contrario ocurre si Cov(X, Y ) < 0.
Propiedad 7.18. Si X e Y son variables aleatorias y ponemos X

= X+
e Y

= Y + entonces
Cov
_
X

, Y

_
= Cov (X, Y ) .
Demostracion. Para probarlo observese que
X

E
_
X

_
= X + (E (X) +) = (X E (X)) ,
Y

E
_
Y

_
= Y + (E (Y ) +) = (Y E (Y )) .
Luego
E
__
X

E
_
X

_ _
Y

E
_
Y

__
= E ( [X E (X)] [Y E(Y )])
= E ([X E (X)] [Y E(Y )])
de donde se obtiene el resultado enunciado.2
Ahora enunciaremos la desigualdad de Cauchy-Schwarz para variables
aleatorias.
Teorema 7.24. Desigualdad de Cauchy-Schwarz. Sean X e Y variables
aleatorias. Entonces si las varianzas de ambas variables son nitas se tiene
E
2
(XY ) E
_
X
2
_
E
_
Y
2
_
, (7.58)
y la igualdad ocurre si y solo si existe tal que P(Y = X) = 1. Ademas
Cov
2
(X, Y ) Var(X)Var(Y ), (7.59)
y la igualdad ocurre si y solo si existen escalares , tal que
P (Y = X +) = 1. (7.60)
Demostracion.
Sea Z = Y X. Entonces
Q(a) = E
_
Z
2
_
=
2
E
_
X
2
_
+E
_
Y
2
_
2E (XY ) 0.
es un polinomio de segundo grado en , no negativo y como tiene a lo sumo
una raz su discriminante es no positivo.
= 4E
2
(XY ) 4E
_
X
2
_
E
_
Y
2
_
= 4(E
2
(XY ) E
_
X
2
_
E
_
Y
2
_
) 0.
160 VICTOR J. YOHAI
Luego
E
2
(XY ) E
2
(X) E
2
(Y ) 0,
de donde obtiene el resultado.
La igualdad se cumple si y solo si = 0. Esto ocurre si y solo si existe
un unico tal que Q() = 0. Esto es equivalente a que E((Y X)
2
) = 0,
y esto a que P(Y = X) = 1.
La desigualdad (7.59) se obtiene aplicando (7.58) a X

= X E(X) e
Y

= Y E(Y ). Luego resulta que la correspondiente igualdad se cumple


si y solo si existe tal que
P(Y E(Y ) = (X E(X)) = 1.
Poniendo = E(Y ) +E(X), esto es equivalente a (7.60). 2
Denicion. Dadas las variables aleatorias X e Y se dene el cuadrado
del coeciente de correlacion y se denota por
2
(X, Y ) a

2
(X, Y ) =
Cov
2
(X, Y )
Var (X) Var (Y )
.
Tambien denimos el coeciente de correlacion entre X e Y por
(X, Y ) =
Cov (X, Y )
[Var (X)]
1
2
[Var (Y )]
1
2
.
De la desigualdad de Cauchy-Schwarz se deduce la siguiente propiedad.
Propiedad 7.19. Se tiene que
0 (X, Y )
2
1
y por lo tanto
1 (X, Y ) 1.
Ademas (X, Y )
2
= 1 es equivalente a que para alg un y se tenga P(Y =
X + ) = 1, es decir a que haya una relacion lineal perfecta entre las
variables X e Y.
7.9. Distribucion Normal Bivariada.
En esta seccion vamos a denir la distribucion normal con medias, vari-
anzas y covarianzas arbitrarias.
Queremos denir la distribucion conjunta de un vector aleatorio Y =
(Y
1
, Y
2
) a partir de jar la distribucion marginal de cada una de sus co-
ordenadas y establecer un valor para la covarianza entre sus coordenadas.
Es decir que queremos que la distribucion conjunta del vector Y sea tal
NOTAS DE PROBABILIDADES 161
que Y
1
N
_

1
,
2
1
_
, Y
2
N
_

2
,
2
2
_
, y tal que Cov(Y
1
, Y
2
) =
12
, con las
constantes
1
,
2
,
1
,
2
y
12
prejadas arbitrariamente. Para que esto sea
posible se tendran que cumplir ciertas restricciones sobre estas constantes.
Los valores
1
,
2
no tienen deben cumplir ning un requisito en particular,
pero
2
1
> 0,
2
2
> 0 y
12
debe cumplir la desigualdad de Cauchy-Schwarz
que se puede escribir como

2
12

2
1

2
2
.
Ahora bien si queremos una distribucion bivariada absolutamente con-
tinua, no podra cumplirse
2
12
=
2
1

2
2
, ya que en este caso (Y
1
, Y
2
) estara
sobre una recta que es un conjunto de supercie 0. Luego se debera cumplir

2
12
<
2
1

2
2
.
Sea la matriz denida por
=
_

2
1

12

12

2
2
_
. (7.61)
Luego det () =
2
1

2
2

2
12
> 0.
Denamos la matriz de covarianza del vector Y por

Y
=
_
Var(Y
1
) Cov(Y
1
, Y
2
)
Cov(Y
2
, Y
1
) Var(Y
2
)
_
.
Luego queremos que

Y
= .
Como det() =
2
1

2
2

2
12
> 0 y
2
1
> 0, resulta simetrica y denida
positiva. Luego tiene al menos una raz cuadrada. Es decir existe una
matriz (no unica)
A =
_
a
11
a
12
a
21
a
22
_
(7.62)
tal que
= AA
t
, (7.63)
donde A
t
designa su traspuesta.
Estamos ahora en condiciones de construir el vector aleatorio buscado.
Lo haremos en el siguiente teorema.
Teorema 7.25. Sea R
22
una matriz denida positiva dada por
(7.61), = (
1
,
2
) R
2
. Sea A R
22
dada por (7.62) que cumple (7.63).
Sea X = (X
1
, X
2
) un vector aleatorio tal que X
1
y X
2
variables aleato-
rias independientes con distribucion N(0, 1) . Se dene el vector aleatorio
Y = (Y
1
, Y
2
) por
Y = XA
t
+.
Entonces resulta que
162 VICTOR J. YOHAI
(i) Y
1
tiene distribucion N
_

1
,
2
1
_
e Y
2
tiene distribucion N
_

2
,
2
2
_
.
(ii) Cov(Y
1
, Y
2
) =
12
.
(iii) La densidad del vector Y esta dada por
f
Y
(y) =
1
2 det ()
1
2
exp
_
1
2
(y )
1
(y )
t
_
.
(iv) La forma cuadratica Q(y) = (y )
1
(y )
t
es igual a
1
(1
2
)
_
(y
1

1
)
2

2
1
+
(y
2

2
)
2

2
2
2 (y
1

1
) (y
2

2
)
_
.
Demostracion.
(i) y (ii) Observemos que el vector Y satisface
Y
1
= a
11
X
1
+a
12
X
2
+
1
, (7.64)
Y
2
= a
21
X
1
+a
22
X
2
+
2
. (7.65)
Como E(X
1
) = E(X
2
) = 0, resulta
E (Y
1
) =
1
, E (Y
2
) =
2
.
Ademas como Cov(X
1
, X
2
) = 0, Var(X
1
) = Var(X
2
) = 1, resulta
Var (Y
1
) = a
2
11
Var (X
1
) +a
2
12
Var (X
2
) (7.66)
= a
2
11
+a
2
12
.
De modo analogo,
Var (Y
2
) = a
2
21
+a
2
22
, (7.67)
y como E(X
1
X
2
) = 0, resulta
Cov (Y
1
, Y
2
) = E([a
11
X
1
+a
12
X
2
] [a
21
X
1
+a
22
X
2
])
= a
11
a
21
E(X
2
1
) +a
12
a
22
E(X
2
2
) + (a
12
a
21
+a
11
a
22
)E(X
1
X
2
)
= a
11
a
21
+a
12
a
22
. (7.68)
Luego

Y
=
_
a
2
11
+a
2
12
a
11
a
21
+a
12
a
22
a
11
a
21
+a
12
a
22
a
2
21
+a
2
22
_
= AA
t
=
=
_

2
1

12

12

2
2
_
. (7.69)
NOTAS DE PROBABILIDADES 163
De acuerdo al Teorema 6.7, como Y
1
e Y
2
son combinaciones lineales
de normales independientes seran normales. Por (7.64), (7.66) y (7.69)
resulta que la distribucion de Y
1
es N
_

1
,
2
1
_
. Por (7.65), (7.67) y
(7.69) resulta que la distribucion de Y
2
es N
_

2
,
2
2
_
. Ademas, de (7.68)
y (7.69) resulta que Cov(Y
1
, Y
2
) =
12
. Esto prueba (i) y (ii).
(iii) Vamos a calcular la distribucion conjunta del vector Y.
Comencemos escribiendo la distribucion conjunta del vector X. Co-
mo X
1
y X
2
son independientes, la distribucion conjunta de X es el
producto de las marginales,
f
X
(x) =
1
2
exp
_
x
2
1
2
_
exp
_
x
2
2
2
_
=
1
2
exp
_

_
x
2
1
+x
2
2
_
2
_
=
1
2
exp
_
1
2
xx
t
_
,
donde xx
t
= [[x[[
2
.
Teniendo en cuenta que X = (Y)
_
A
t
_
1
se obtiene que el Ja-
cobiano de esta transformacion es J = 1/ det
_
A
t
_
. Ademas, como
= AA
t
se obtiene que (det (A))
2
= det () o sea det (A) = det ()
1
2
y
por lo tanto J = 1/ det ()
1
2
.
Entonces teniendo en cuenta que
_
A
t
_
1
A
1
=
1
y usando la
formula para transformaciones de vectores aleatorios dada en el teore-
ma 6.4, resulta
f
Y
(y) =
1
2 det ()
1
2
exp
_
1
2
(y )
_
A
t
_
1
A
1
(y )
t
_
=
1
2 det ()
1
2
exp
_
1
2
(y )
1
(y )
t
_
.
(iv) Para hallar la forma cuadratica, calculemos primero el determinante
de
det () =
2
1

2
2

2
12
=
2
1

2
2
_
1

2
12

2
1

2
2
_
=
2
1

2
2
_
1
2
_
.
Luego la inversa de viene dada por

1
=
1

2
1

2
2
(1
2
)
_

2
2

12

12

2
1
_
.
164 VICTOR J. YOHAI
Entonces la forma cuadratica se puede escribir como
(y )
1
(y )
t
= (y )
1

2
1

2
2
(1
2
)
_

2
2

12

12

2
1
_
(y )
t
=
1

2
1

2
2
(1
2
)
_
(y
1

1
)
2

2
2
+ (y
2

2
)
2

2
1

2 (y
1

1
) (y
2

2
)
12
] .
Luego se tiene
(y )
1
(y )
t
=
1
1
2
_
(y
1

1
)
2

2
1
+
(y
2

2
)
2

2
2
2

12

2
1

2
2
(y
1

1
) (y
2

2
)
_
=
1
1
2
_
(y
1

1
)
2

2
1
+
(y
2

2
)
2

2
2
2

2
(y
1

1
) (y
2

2
)
_
.2
Observacion. El teorema anterior se demostro para el caso de dos vari-
ables. Sin embargo la densidad normal multivariada de cualquier dimension
que se dene para vectores aleatorios Y R
k
tiene una expresion similar a
la escrita en el punto (iii).
Observacion. El maximo valor de f
Y
se logra cuando se hace mnimo
el exponente de la exponencial, esto es en y = . Por otro lado las curvas de
nivel f
Y
(y) = c (con c constante) son elipses cuyas direcciones principales
vienen dadas por los autovectores de
1
. Si la Cov(Y
1
, Y
2
) = 0 entonces, la
matriz es diagonal y las direcciones son paralelas a los ejes coordenados,
dando lugar a circunferencias como curvas de nivel en este caso.
Denicion. Se dice que el vector Y tiene distribucion normal bivariada
con media y matriz de covarianza denida positiva, que se denotara por
N
2
(,) si su funcion densidad es
f
Y
(y) =
1
2 det ()
1
2
exp
_
1
2
(y )
1
(y )
t
_
.
Captulo 8
Teora de la Prediccion.
8.1. Error cuadratico medio y predictores optimos
En esta seccion veremos como utilizar ciertas variables conocidas para
predecir otras variables que no se pueden observar en un determinado mo-
mento. Por ejemplo se quiere predecir la cantidad de lluvia que ma nana
caera en determinada region, utilizare otras variables que se puedan medir
hoy. Quisieramos encontrar el predictor que se aproxime mas a la variable
a predecir, entre todas los predictores pertenecientes a un conjunto dado.
Sea T un conjunto de predictores para la variable aleatoria Y que forman
un espacio vectorial. Cada elemento de T es una variables aleatoria observ-
able. Supongamos que se quiere predecir a Y a traves de

Y T. Como se
puede medir la bondad de un predictor

Y cualquiera? Se pueden considerar
las siguientes alternativas
Denicion. El error cuadratico medio del predictor

Y para predecir Y
esta dado por
ECM
_

Y , Y
_
= E
_
_
Y

Y
_
2
_
y el error absoluto medio
EAM
_

Y , Y
_
= E
_

Y

Y

_
.
Si usamos como criterio de bondad de un predictor el error cuadratico
medio, diremos que

Y
0
T es es un predictor optimo de Y en T , si dado
otro

Y T se tiene
ECM
_

Y
0
, Y
_
ECM
_

Y , Y
_
.
A continuacion damos un criterio suciente para obtener un predictor
optimo usando el criterio del error cuadratico medio.
165
166 VICTOR J. YOHAI
Teorema 8.1. Una condicion suciente para que

Y
0
T sea un predictor
optimo usando el criterio del error cuadratico medio es que
E
__
Y

Y
0
_

Y
_
= 0 (8.1)
para todo

Y T. Ademas, si

Y
0
satisface (8.1), es esencialmente el unico
predictor optimo. Es decir si

Y T satisface ECM
_

Y
0
, Y
_
=ECM
_

Y , Y
_
entonces P
_

Y =

Y
0
_
= 1.
Observacion.
La condicion (8.1 se puede interpretar como que el eror de prediccion
_
Y

Y
0
_
es ortogonal a todo elemento de T cuando el producto escalar esta
denido por < Y, X >= E(Y X) en el espacio de Hilbert de las variables
aleatorias.
Demostracion
Sea

Y T. Entonces
ECM
_

Y , Y
_
= E
_
_
Y

Y
_
2
_
= E
_
__
Y

Y
0
_
+
_

Y
0


Y
__
2
_
=
= E
_
_
Y

Y
0
_
2
_
+E
_
_

Y
0


Y
_
2
_
2E
__

Y
0


Y
__
Y

Y
0
__
.
Usando la condicion de ortogonalidad, como

Y
0


Y T se tiene
E
__

Y
0


Y
__
Y

Y
0
__
= 0,
y luego
ECM
_

Y , Y
_
= E
_
_
Y

Y
0
_
2
_
+E
_
_

Y
0


Y
_
2
_
E
_
_
Y

Y
0
_
2
_
= ECM
_

Y
0
, Y
_
,
y por lo tanto

Y
0
es optimo.
Ademas si

Y fuera tambien optimo se tendra E
_
_

Y
0


Y
_
2
_
= 0 y
siendo
_

Y
0


Y
_
2
0 resultara P
_

Y =

Y
0
_
= 12.
El siguiente Teorema simplica la vericacion de la condicion (8.1).
Teorema 8.2. Sea T. un espacio vectorial de predictores de la variable
aleatoria Y y sea

Y
1
, ...,

Y
k
una base de T. La condicion necesaria y y
suciente para que se cumpla (8.1) es que
E
__
Y

Y
0
_

Y
i
_
= 0, 1 i k. (8.2)
NOTAS DE PROBABILIDADES 167
Demostracion. Calaramente es una condicion necesaria.. Veamos que es
suciente Sea

Y cualquier elemento de T, entonces existen escalares

1,
...,
k
tal que

Y =

k
i=1

Y
i
. Luego si para i = 1, 2, ..., k se cumple que
E
__
Y

Y
0
_

Y
i
_
= 0,
resulta tambien que
E
__
Y

Y
0
_

Y
_
= E
_
_
Y

Y
0
_
k

i=1

Y
i
_
=
k

i=1

i
E
__
Y

Y
0
_

Y
i
_
= 0.2
8.2. Predictores constantes
Se pueden considerar distintos conjuntos de predictores. Comenzaremos
con los predictores constantes.
Sea (, /, P) un espacio de probabilidad, Y una variable aleatoria a
predecir y consideremos
T
1
=

Y :

Y es una variable aleatoria constante.
El siguiente Teorema determina el predictor optimo perteneciente a T
1
.
Teorema 8.3. El predictor

Y
0
= E(Y ) es el de menor error cuadratico
medio en T
1
. Ademas EMC(

Y
0
, Y ) =Var(Y ).
Demostracion. Una base de T
1
es

Y
1
donde

Y
1
= 1. Como
E
__
Y

Y
0
_
1
_
= E (Y E(Y )) = E(Y ) E (Y ) = 0,
resulta

Y
0
= E(Y ) el predictor de menor error cuadratico medio.
Ademas
EMC(

Y
0
, Y ) = E((Y

Y
0
)
2
)
= E((Y E(Y ))
2
)
= Var(Y ).2
Designamos el predictor optimo para Y en T
1
por

Y
0,C
. En la practica
unicamente se usa un predictor constante si no se observan otras variables
vinculadas a Y.
168 VICTOR J. YOHAI
8.3. Predictores lineales
Sea ahora (, /, P) un espacio de probabilidad, Y una variable aleatoria
a predecir y X otra variable aleatoria observada. Consideremos el siguiente
conjunto de predictores
T
2
=

Y :

Y = X +.
T
2
es el conjunto de variables aleatorias que se obtiene por una transfor-
macion lineal de la variable X . Claramente T
1
T
2
, y por lo tanto el error
cuadratico medio del predictor optimo en T
2
sera menor o igual que el del
predictor optimo en T
1
. Por esta razon, si denotamos por

Y
0,L
el predictor
optimo en T
2
,eresulta claro que
ECM
_
Y,

Y
0,L
_
ECM
_
Y,

Y
0,C
_
.
El siguiente Teorema caracteriza el predictor optimo en T
2
.
Teorema 8.4. (i) El predictor de menor error cuadratico medio en T
2
esta dado por

Y
0,L
= X + con
= E (Y ) E (X) (8.3)
y
=
Cov (X, Y )
Var (X)
. (8.4)
(ii) El error cuadrarico medio de

Y
0,L
esta dado por
ECM
_

Y
0,L
.Y
_
= Var (Y )
Cov
2
(X, Y )
Var (X)
. (8.5)
Demostracion. Una base de T
2
es

Y
1
,

Y
2
donde

Y
1
= X y

Y
2
= 1.
Luego el predictor optimo

Y
0,L
debe satisfacer
E ((Y X ) X) = 0 (8.6)
y
E ((Y X ) 1) = 0. (8.7)
De la condicion (8.6) se obtiene
EY ) E(X) = 0,
de donde resulta (8.3)
Ahora multiplicando (8.6) por E (X) resulta
E ((Y X ) E (X)) = 0,
NOTAS DE PROBABILIDADES 169
y restandola de (8.7) obtenemos
E ((Y X ) (X E (X))) = 0
Reemplazando por (8.3) obtenemos
E ((Y X E (Y ) +E (X)) (X E (X))) = 0,
y por lo tanto
E ((Y E (Y )) (X E (X)) (X E (X)) = 0.
Entonces distribuyendo la esperanza se obtiene
Cov (X, Y ) = E [(Y E (Y )) (X E (X))]
= E
_
(X E (X)
2
_
= Var (X) ,
y por lo tanto resulta (8.4).
Ahora calcularemos el error cuadratico medio de

Y
0,L
. Usando (8.3)
obtenemos
ECM
_

Y
0,L
, Y
_
= E
_
(Y X )
2
_
= E
_
(Y X E (Y ) +E (X))
2
_
=
= E
_
((Y E (Y )) (X E (X)))
2
_
=
= E ((Y E (Y )))
2
+
2
E ((X E (X)))
2
2E ((Y E (Y )) (X E (X))) .
Luego, usando (8.5) se obtiene
ECM
_

Y
0,L
, Y
_
= Var (Y ) +
2
Var (X) 2Cov (X, Y ) =
= Var (Y ) +
Cov
2
(X, Y )
Var (X)
2
Cov
2
(X, Y )
Var (X)
= Var (Y )
Cov
2
(X, Y )
Var (X)
.
Para evaluar cuanto mejora el error cuadratico medio cuando se usa

Y
0,L
170 VICTOR J. YOHAI
en vez de

Y
0,C
, calculemos su decrecimiento relativo
ECM
_

Y
0,C
, Y
_
ECM
_

Y
0,L
, Y
_
ECM
_

Y
0,L
, Y
_
=
Var (Y )
_
Var (Y )
Cov
2
(X,Y )
Var(X)
_
ECM
_

Y
0,C
, Y
_
=
Cov
2
(X,Y )
Var(X)
Var (Y )
=
Cov
2
(X, Y )
Var (X) Var (Y )
=
2
(X, Y ) .
Esto permite interpretar coeciente
2
(X, Y ) cono el decrecimiento rel-
ativo del error cuadratico medio cuando se usa un predictor lineal basa-
do en X en vez de un predictor constante. Por lo tanto
2
(X, Y ) mide la
utilidad de la variable X para predecir Y por una funcion lineal. Observe-
mos que nuevamente se obtiene la desigualdad de Cauchy-Schwarz. En efec-
to, como 0 ECM
_

Y
0,C
, Y
_
ECM(Y
0,L
, Y ) ECM
_
Y,

Y
0,L
_
, se obtiene
0
2
(X, Y ) 1.
Veremos ahora el signicado de los casos extremos
2
(X, Y ) = 1 y

2
(X, Y ) = 0.
2
(X, Y ) = 1 es equivalente a ECM
L
_
Y,

Y
0,L
_
= 0 y es-
to es equivalente E
_
_
Y

Y
0,L
_
2
_
= 0 y esto a
P
__
Y =

Y
0,L
__
= P ((Y = X +)) = 1.
Es decir
2
(X, Y ) = 1 es equivalente a que hay una relacion lineal
perfecta entre X e Y con probabilidad 1.
Existen dos posibilidades para
2
(X, Y ) = 1 o bien (X, Y ) = 1 o
(X, Y ) = 1. El signo de (X, Y ) coincide con el de Cov(X, Y ) que es el
mismo que el de la pendiente del predictor linear optimo. Luego (X, Y ) = 1
indica que la relacion entre la X y la Y es creciente y (X, Y ) = 1 que la
relacion es decreciente.
Veremos ahora como se interpreta
2
= 0. En este caso
ECM
_

Y
0,L
, Y
_
= ECM
_

Y
0,C
, Y
_
y Cov(X, Y ) = 0. Por lo tanto = 0, y se puede concluir que la variable X
no tiene utilidad para predecir Y cuando se utilizan predctores constantes.
Se deja como ejercicio probar que la recta Y = X+ pasa por el punto
(E (X) , E (Y )) ,es decir cuando X = E(X) la prediccion de Y es E(Y ).
Captulo 9
Esperanza y distribucion
condicional
9.1. Caso discreto
Sean dos variables aleatorias discretas X, Y denidas sobre un mismo
espacio de probabilidad (, /, P). Sea R
X
= x : p
X
(x) > 0 y R
Y
= y :
p
Y
(y) > 0. Luego, para cada x R
X
denimos la funcion de probabilidad
de Y condicional X = x como
p
Y |X
(y[x) =
p
XY
(x, y)
p
X
(x)
.
Para cada x R
X
jo esta funcion es una funcion de densidad de prob-
abilidad ya que

yR
y
p
Y |X
(y[x) =

yR
y
p
XY
(x, y)
p
X
(x)
=
1
p
X
(x)

yR
y
p
XY
(x, y) =
p
X
(x)
p
X
(x)
= 1,
y representa la distribucion de Y una vez conocido que el valor de X = x.
Si se tienen dos vectores discretos X = (X
1
, ..., X
k
) , Y = (Y
1
, ..., Y
h
)
podemos denir una nocion analoga. Sea R
X
= x R
k
: p
X
(x) > 0,
luego para todo x R
X
denimos
p
Y|X
(y[x) =
p
XY
(x, y)
p
X
(x)
, (9.1)
y tambien se tendra

yR
Y
p
Y|X
(y[x) = 1.
Sea ahora Y una varable aleatoria y X un vector aleatorio de dimension
k. La esperanza condicional de la variable Y condicional X = x se dene
171
172 VICTOR J. YOHAI
como la esperanza de Y utilizando como distribucion de esta variable la
distribucion determinada por (9.1). Es decir esta esperanza condicional se
dene por
E(Y [X = x) =

yR
y
yp
Y |X
(y[x). (9.2)
Este valor representa la esperanza de la variable Y una vez conocido que
el vector X ha tomado el valor x.
Llamemos g(x) = E(Y [X = x), luego g(x) : R
X
R. Vamos a denir
ahora una variable aleatoria que llamaremos esperanza de Y condicional X,
y que notaremos por E(Y [X). Esta variable se dene por
E(Y [X) = g(X).
Vamos ahora a mostrar el siguiente Teorema
Teorema 9.1. Si Y tiene esperanza nita, entonces se tiene que E(E(Y [X)) =
E(Y ).
Demostracion. Tenemos que
E(E(Y [X)) = E(g(X)) =

xRx
g(x)p
X
(x).
Utilizando que g(x) viene dado por (9.2), se tiene
E(E(Y [X)) =

xR
X
_
_

yR
Y
yp
Y |X
(y[x)
_
_
p
X
(x)
=

xR
X
_
_

yR
Y
y
p
XY
(x, y)
p
X
(x)
_
_
p
X
(x)
=

xR
X
_
_

yR
Y
yp
XY
(x, y)
_
_
=

yR
Y
y
_
_

xR
X
p
XY
(x, y)
_
_
=

yR
Y
yp
Y
(y)
= E(Y ).
Luego el Teorema queda demostrado. 2
Ejemplo. Supongamos que se hace una primera serie de n tiradas de
una moneda y sea X el n umero de caras obtenido. En base al resultado de
la primera serie de tiradas, se inicia una segunda serie de X tiradas. Sea Y
el n umero de caras obtenidas en esta segunda serie. Calcular la E(Y ).
NOTAS DE PROBABILIDADES 173
Si X = x, la distribucion de Y condicional X = x es binomial Bi(0,50, x).
Luego g(x) = E(Y [X = x) = 0,50x. Luego E(Y [X) = g(X) = 0,50X, y por
lo tanto E(Y ) = E(E(Y [X)) = 0,50E(X). Como X es Bi(0,50, n), entonces
E(X) = 0,5n. Por lo tanto E(Y ) = 0,25n.
Teorema 9.2. Si X, Y son dos vectores aleatorios independientes, en-
tonces se tiene
(i) p
Y|X
(y[x) = p
Y
(y)
(ii) Si Y es una variable aleatoria y E(Y ) existe y es nita entonces
E(Y [X = x) = E(Y ).
(iii) Sean X e Y son dos vectores aleatorios tales p
Y|X
(y[x) = p(y) para
todo x R
X
. Entonces p
Y
(y) = p(y), y X e Y son independientes.
Demostracion. (i) se deduce del hecho que p
Y|X
(y[x) = p
Y
(y) implica
que p
XY
(x, y) = p
X
(x)p
Y
(y). (ii) es inmediata
Para probar (iii) observemos que p
Y|X
(y[x) = p(y) implica que
p
XY
(x, y) = p
X
(x)p(y), (9.3)
y por lo tanto
p
Y
(y) =

xR
X
p
X
(x)p(y) = p(y)

xR
X
p
X
(x) = p(y).
Luego reemplazando en (9.3) se obtiene
p
XY
(x, y) = p
X
(x)p
Y
(y), (9.4)
y esto implica que X e Y son independientes. 2
Teorema 9.3. Si P(Y = c) = 1, entonces , cualquiera sea el vector X,
se tiene
(i) p
Y |X
(c[x) = 1.
(ii) E(Y [X = x) = c.
Demostracion. Tenemos que
X = x = (X = x Y = c) (X = x Y ,= c).
Como P(X = x Y ,= c) = 0, se tiene
p
X
(x) = P(X = x) = P(X = x, Y = c)
= p
XY
(x, c).
Por lo tanto
p
Y |X
(c[x) =
p
XY
(x, c)
p
X
(x)
= 1.
174 VICTOR J. YOHAI
Como en este caso R
Y
= c, se tiene
E(Y [X = x) =

yR
y
yp
Y |X
(y[x)
= cp
Y |X
(c[x)
= c,1
= c,
y el Teorema queda demostrado. 2
Sean ahora dos vectores aleatorios discretos, X = (X
1
, ..., X
k
)., Y =
(Y
1
, ..., Y
j
), y sea Z = h(X, Y), donde h : R
k+j
R es una funcion medible.
El siguiente Teorema muestra como se calcula E(Z[X = x).
Teorema 9.4. Sean X, Y dos vectores aleatorios de dimensiones k y j,
y sea h : R
k+j
R una funcion medible. Denamos la variable aleatoria
Z = h(X, Y) , y supongamos que tiene esperanza nita. Entonces para todo
x R
X
se tiene
E(Z[X = x) =

yR
Y
h(x, y)p
Y|X
(y[x).
.
Demostracion. Comenzaremos calculando la funcion de probabilidad con-
junta de (X, Z). Sea R
x
Z
= z : z = h(x, y) : y R
Y
, y para todo z R
x
Z
denamos A
x
z
= y : h(x, y) = z. Es facil ver que:
Si z ,= z

entonces A
x
z
A
x
z

= , y que
_
zR
x
Z
A
x
z
= R
Y
. (9.5)
Es inmediato que
p
XZ
(x, z) =
_
P(X = x, Y A
x
z
) =

yA
x
z
p
XY
(x, y) si x R
X
, z R
x
Z
0 en otro caso,
y luego, para x R
X
se tiene
p
Z|X
(z[x) =
p
XZ
(x, z)
p
X
(x)
=
_

yA
x
z
p
XY
(x,y)
p
X
(x)
si z R
x
Z
0 en otro caso,
y por lo tanto se tiene
p
Z|X
(z[x) =
_
yA
x
z
p
Y|X
(y[x) si z R
x
Z
0 en otro caso.
(9.6)
NOTAS DE PROBABILIDADES 175
Luego utilizando (9.6) se tiene
E(Z[X = x) =

zR
x
Z
z p
Z|X
(z[x)
=

zR
x
Z
z

yA
x
z
p
Y|X
(y[x)
=

zR
x
Z

yA
x
z
zp
Y|X
(y[x),
y como para y A
x
z
, se tiene h(x, y) = z, utilizando (9.5) obtenemos
E(Z[X = x) =

zR
x
Z

yA
x
z
h(x, y)p
Y|X
(y[x)
=

yR
Y
h(x, y)p
Y|X
(y[x),
probando por lo tanto el Teorema. 2
El Teorema 9.4 se puede interpretar como que E(Z[X = x) se calcula
como la esperanza de h(Y, x) ( variable aleatoria que depende unicamente
de la variable aleatoria Y, ya que x es tratada como si fuera constante)
utilizando p
Y|X
(y[x) como distribucion de Y
Vamos a ver que del Teorema 9.4 se deducen las siguientes propiedades
de la esperanza condicional.
Propiedad 9.1.. Sean X un vector aleatorio de dimension k y Y un
vector aleatorio de dimension j, y sea r : R
k
R y s : R
j
R. Entonces
se tiene
E(r(X)s(Y)[X = x) = r(x)E(s(Y)[X = x).
Demostracion. Utilizando el Teorema 9.4 con h(x, y) = r(x)s(y)se tiene
E(r(X)s(Y)[X = x) =

yR
Y
r(x)s(y)p
Y|X
(y[x)
= r(x)

yR
Y
s(y)p
Y|X
(y[x)
= r(x)E(s(Y)[X = x),
y luego la propiedad queda demostrada. 2
Propiedad 9.2. Sea X un vector aleatorio de dimension k, y sea r :
R
k
R. Luego E(r(X)[X = x) = r(x).
Demostracion. La demostracion resulta de la Propiedad 9.1 tomando
s(y) = 1, ya que entonces
E(r(X)[X = x) = r(x)E(1[X = x). Luego por el Teorema 9.3 resulta la
Propiedad 9.2.
176 VICTOR J. YOHAI
Propiedad 9.3. Si Y
1
e Y
2
son variables aleatorias con esperanza nita,
y X es un vector aleatorio, entonces
E(c
1
Y
1+
c
2
Y
2
[X = x) = c
1
E(Y
1
[X = x) +c
2
E(Y
2
[X = x).
Demostracion. Sea Y = (Y
1
, Y
2
) y denamos h(x, y) = c
1
y
1+
c
2
y
2
,
h
1
(x, y) = y
1
y h
2
(x, y) = y
2
. Entonces se tiene h(x, y) = c
1
h
1
(x, y) +
c
2
h
2
(x, y). Luego tenemos
E(c
1
Y
1
+c
2
Y
2
[X = x) = E(h(X, Y)[X = x)
=

yR
Y
h(x, y)p
Y|X
(y[x)
=

yR
Y
(c
1
h
1
(x, y) +c
2
h
2
(x, y))p
Y|X
(y[x)
= c
1

yR
Y
h
1
(x, y)p
Y|X
(y[x) +c
2

yR
Y
h
2
(x, y)p
Y|X
(y[x)
= c
1
E(h
1
(X, Y)[X = x) +c
2
E(h
2
(X, Y)[X = x)
= c
1
E(Y
1
[X = x) +c
2
E(Y
2
[X = x),
y la Propiedad 9.3 queda demostrada. 2
Propiedad 9.4. (i) Si P(Y 0) = 1, E(Y [X = x) 0
(ii) E(Y
2
[X = x) E
2
(Y [X = x)
(iii)Si E(Y
2
) < , entonces E(E
2
(Y [X)) <
Demostracion. (i) es imnmediato de la denicion.
Para demostrar (ii), observemos que por (i)
0 E((Y E(Y [X = x))
2
[X = x)
= E((Y
2
2Y E(Y [X = x) +E
2
(Y [X = x))[X = x)
= E(Y
2
[Xx) 2E(Y [X = x)E(Y [X = x)+E
2
(Y [X = x)
= E(Y
2
[Xx)E
2
(Y [X = x),
y luego (ii) queda demostrado.
Ahora demostraremos (iii). Observemos que por (ii)
E(Y
2
[X) E
2
(Y [X)
y luego
> E(Y
2
)
= E(E(Y
2
[X))
E(E
2
(Y [X)),
demostrando (iii).
NOTAS DE PROBABILIDADES 177
Propiedad 9.5. Sea Y una variable aleatoria discreta con esperanza
nita y X un vector aleatorio discreto de dimension k. Luego si g(x) =
E(Y [X = x), entonces para toda t : R
k
R medible tal que Y t(X) tiene
esperanza nita resulta
E((Y g(X))t(X)) = 0.
Demostracion. Sea Z = h(X, Y ) = (Y g(X))t(X). Luego bastara de-
mostrar que
E(Z) = 0.
Utilizando el Teorema 9.1 bastara demostrar que
E(Z[X) = 0. (9.7)
De acuerdo a la Propiedad 9.1, tenemos que
E(Z[X = x) = t(x)E((Y g(X))[X = x),
y por lo tanto
E(Z[X) = t(X)E((Y g(X))[X).
Luego para mostrar (9.7) bastara demostrar que
E(Y g(X)[X) = 0.
Pero esto es cierto ya que por Propiedades 9.2, 9.3 se tiene
E(Y g(X)[X) = E(Y [X) E(g(X)[X)
= E(Y [X) g(X)
= g(X) g(X)
= 0,
y por lo tanto queda demostrada esta propiedad. 2
Propiedad 9.6. Sea Y una variable aleatoria discreta varianza nita y X
un vector aleatorio discreto de dimension k. Luego

Y = g(X) = E(Y [X) es el
unico predictor con menor error cuadratico medio en la clase de predictores
T =

Y = t(X) : t medible, Var(t(X)) <
Demostracion. Se deja como ejercicio ver que T es un espacio vectorial.
Vamos a mostrar primero que g(X) T o sea que
Var(g
2
(X))) < . (9.8)
Pero esto resulta de Propiedad 9.4 (iii). Luego el resultado se obtiene
de Teorema 8.1 y Propiedad 9.4.2
178 VICTOR J. YOHAI
9.2. Caso general
Vamos ahora dar una denicion de E(Y [X) para el caso de una variable
Y cualesquiera , y un vector X cualquiera de dimension k. Ambos, Y y X
no tienen porque ser discretos ni absolutamente continuos
Denicion. La variable aleatoria esperanza de Y condicional X se dene
por E(Y [X) = g(X), donde g : R
k
R es una funcion medible tal que
E((Y g(X))t(X)) = 0 (9.9)
para toda t : R
k
R medible tal que Y t(X) tiene esperanza nita . Denire-
mos E(Y [X = x) = g(x).
La Propiedad 9.5 demostrada anteriormente muestra que en el caso de
Y y X discretos esta denicion coincide con la dada anteriormente, y por lo
tanto en este caso siempre existe.
El siguiente Teorema muestra que siempre existe una unica variable
aleatoria g(X) = E(Y [X) satisfaciendo (9.9).
Teorema 9.5. Sea Y una variable aleatoria con esperanza nita y sea
X un vector aleatorio cualquiera de dimension k. Luego:
(i) Siempre existe una funcion medible g : R
k
R satisfaciendo (9.9)
(ii) Si g
1
y g
2
son dos funciones medibles satisfaciendo (9.9), entonces
P(g
1
(X) = g
2
(X)) = 1.
Demostracion. (i) no lo demostraremos en general en este curso. Mas
adelante haremos una demostracion para el caso absolutamente continuo.
(ii) Sean g
1
y g
2
son dos funciones medibles satisfaciendo (9.9), entonces
E((Y g
1
(X))t(X)) = 0 (9.10)
y
E((Y g
2
(X))t(X)) = 0 (9.11)
para toda t(X) tal que Y t(X) tenga esperanza nita. Luego restando (9.11)
de (9.10) se obtiene
E((g
2
(X) g
1
(X))t(X)) = 0,
y tomando t(X) = g
2
(X) g
1
(X) resulta
E((g
2
(X) g
1
(X))
2
) = 0.
Esto implica que
P((g
2
(X) g
1
(X))
2
= 0) = P(g
2
(X) = g
1
(X))
= 1.
NOTAS DE PROBABILIDADES 179
2
Vamos ahora a demostrar que todas las propiedades de esperanza condi-
cional que valan para el caso discreto tambien valen para la denicion gen-
eral.
Teorema 9.6. Si Y tiene esperanza nita, entonces E(E(Y [X)) = E(Y ).
Demostracion. Apliquemos (9.9) con t(X) = 1. Luego se tiene
0 = E(Y g(X))
= E(Y ) E(g(X))
= E(Y ) E(E(Y [X)),
y por lo tanto se cumple el Teorema 9.7. 2
Teorema 9.7 Sean Y una variable aleatoria con esperanza nita y
X un vector aleatorio independientes. Entonces se tiene E(Y [X) = E(Y ).
Demostracion. Veamos que poniendo g(X) = E(Y ) se cumple (9.9). En
efecto dado que (Y E(Y )) y t(X) son independientes se tiene
E((Y E(Y ))t(X)) = E(Y E(Y ))E(t(X)).
Luego como E(Y E(Y )) = E(Y ) E(Y ) = 0, el Teorema 9.8 queda
demostrado.
Teorema 9.8. Si P(Y = c) = 1, entonces , cualquiera sea el vector X,
se tiene E(Y [X) = c.
Demostracion. Poniendo g(X) = c, resulta inmediatamente (9.9).
Vamos ahora a probar las propiedades 9.1-9.4 para la denicion general
de E(Y [X). 2
Propiedad 9.7. Sean X un vector aleatorio de dimension k y Y un
vector aleatorio de dimension j, y sea r : R
k
R y s : R
j
R. Entonces
se tiene
E(r(X)s(Y)[X) = r(X)E(s(Y)[X).
Demostracion. Vamos a probar que si ponemos g(X) = r(X)E(s(Y)[X),
entonces (9.9) se cumple. En efecto
E((r(X)s(Y) g(X))t(X)) = E((r(X)s(Y) r(X)E(s(Y)[X))t(X))
= E((s(Y) E(s(Y)[X))m(X)),
con m(X) = r(X)t(X). Luego por la denicion de E(s(Y)[X) obtenemos
E((s(Y)E(s(Y)[X))m(X)) = 0. Por lo tanto la propiedad queda demostrada. 2
Propiedad 9.8. Sea X un vector aleatorio de dimension k y sea r :
R
k
R, una funcion medible. Luego E(r(X)[X) = r(X).
Demostracion. See obtiene de la Propiedad 9.7 tomando s(Y) = 1. 2
180 VICTOR J. YOHAI
Propiedad 9.9. Si Y
1
e Y
2
son variables aleatorias con esperanza nita,
y X es un vector aleatorio, entonces
E(c
1
Y
1+
c
2
Y
2
[X) = c
1
E(Y
1
[X) +c
2
E(Y
2
[X).
Demostracion. Vamos a ver que se cumple (9.9) poniendo
g(X) = c
1
E(Y
1
[X) +c
2
E(Y
2
[X).
En efecto si Z = c
1
Y
1
+ c
2
Y
2
usando la linealidad de la esperanza y la
denicion de esperanza condicional se tiene
E((Z g(X))t(X)) = E((c
1
(Y
1
E(Y
1
[X)) +c
2
(Y
2
E(Y
2
[X))t(X))
= c
1
E((Y
1
E(Y
1
[X))t(X)) +c
2
E(Y
2
E(Y
2
[X))t(X))
= c
1
0 +c
2
0
= 0,
y la propiedad queda demostrada. 2
La generalizacion de propiedad 9.5 usando la denicion general de E(Y [X)
es obvia a partir de la denicion.
Propiedad 9.10. Sea Y una variable aleatoria con varianza nita y X
un vector aleatorio de dimension k. Luego

Y = g(X) = E(Y [X) es el unico
predictor con menor error cuadratico medio en la clase de predictores T =

Y = t(X) : t medible, Var(t(X)) <


Demostracion. Es to talmente similar a la Propiedad 9.6. 2
De acuerdo a esta propiedad E(Y [X) es el predictor de Y optimo basado
en cualquier funcion medible (lineal o no lineal) de X. Por esta razon lo
denotaremos con

Y
O,NL
.
9.3. Caso continuo
Supongamos ahora que tenemos dos vectores X = (X
1
, ...X
k
) e Y =
(Y
1
, ..., Y
j
) de dimensiones k y j respectivamente con distribucion conjunta
absolutamente continua y densidad f
X,Y
, y sea h : R
k+j
R una funcion
medible. Denamos la densidad de Y condicional X = x por
f
Y|X
(y[x) =
f
XY
(x, y)
f
X
(x)
.
Es facil ver que para cada x jo con f
X
(x) > 0, la funcion f
Y|X
(y[x) es
una densidad para el vector Y. Es decir se tendra
_

...
_

f
Y|X
(y[x)dy
1
...dy
j
= 1.
NOTAS DE PROBABILIDADES 181
El siguiente Teorema es una version para el caso continuo del Teorema
9.4.
Teorema 9.9. Sea Z = h(X, Y) una variable con esperanza nita, luego
se tiene que
E(Z[X = x) = g(x)
=
_

...
_

h(x, y)f
Y|X
(y[x)dy
1
...dy
j
.
Demostracion: Para facilitar la notacion en la demostracion, supondremos
que tanto X como Y son variables aleatorias en vez de vectores. Pero ex-
cepto por la notacion mas complicada, la demostracion para vectores es
similar,ya que solamente se deben reemplazar las integrales simples por in-
tegrales m ultiples.
De acuerdo a (9.9) sera suciente probar que
E((h(X, Y ) g(X))t(X)) = 0,
o equivalentemente
E((h(X, Y )t(X)) = E(g(X)t(X)). (9.12)
Por un lado tenemos que
E((h(X, Y )t(X)) =
_

h(x, y)t(x)f
XY
(x, y)dxdy. (9.13)
Ademas se tiene que
E(g(X)t(X)) =
_

g(x)t(x)f
X
(x)dxdy
=
_

__

h(x, y)f
Y |X
(y[x)dy
_
t(x)f
X
(x)dx.
=
_

h(x, y)t(x)f
XY
(x, y)dxdy. (9.14)
Ecuaciones (9.13) y (9.14) prueban (9.12). 2
Denicion . Sean dos vectores aleatorios X e Y de dimensiones k y j
respectivamente. Luego dado B
j
(conjunto Boreliano de dimension j),
la probabilidad de que Y B, condicional X = x que se denotara con
P
Y|X
(B[X = x) esta dado por
P
Y|X
(B[X = x) = E(I
B
(Y)[X = x),
donde I
B
es la funcion indicadora del conjunto B. La probabilidad de que
Y B, condicional X que se denotara por P
Y|X
(B[X) esta dado por
182 VICTOR J. YOHAI
P
Y|X
(B[X) = E(I
B
(Y)[X).
La justicacion de esta denicion esta dada por el hecho que
P
Y
(B) = E(I
B
(Y)).
En efecto I
B
(Y) toma valor 1 con probabilidad P
Y
(B) y 0 con proba-
bilidad 1 P
Y
(B). Luego E(I
B
(Y)) = 1P
Y
(B) + 0(1 P
Y
(B)) = P
Y
(B).
En el caso discreto, de acuerdo al Teorema 9.4, se tendra
P
Y|X
(B[X = x) = E(I
B
(Y)[X = x)
=

yR
Y
I
B
(y)p
Y|X
(y[x)
=

yR
Y
B
p
Y|X
(y[x).
En el caso absolutamente continuo, de acuerdo al Teorema 9.9 se tiene
P
Y|X
(B[X = x) = E(I
B
(Y)[X = x)
=
_

...
_

I
B
(y)f
Y|X
(y[x)dy
=
_
B
_
f
Y|X
(y[x)dy.
Obsevamos que f
Y|X
(y[x) actua como una verdadera densidad, en el
sentido de que para calcular la probabilidad condicional de un evento B hay
que integrar esta funcion sobre ese conjunto.
De acuerdo al Teorema 9.7 se tendra
E(P
Y|X
(B[X)) = P
Y
(B).
Para el caso discreto y continuo podemos denir la funcion de distribu-
cion de Y condicional X = x, la cual se denotara por F
Y|X
(y[x) y estaran
denidas respectivamente por
F
Y|X
(y[x) = P
Y|X
(
j

i=1
(, y
i
][X = x)
=

zR
Y
{z
1
y
1
}...{z
j
y
j
}
p
Y|X
(z[x).
NOTAS DE PROBABILIDADES 183
F
Y|X
(y[x) = P
Y|X
(
j

i=1
(, y
i
][X = x)
=
_
y
j

...
_
y
1

f
Y|X
(z[x)dy.
Es facil ver que para cada x jo F
Y|X
(y[x) es una verdadera funcion de
distribucion del vector Y, en el sentido que cumple con las propiedades que
caracterizan a una funcion de distribucion.
9.4. Varianza condicional
Denicion: Sea X = (X
1
, ..., X
k
) un vector aleatorio e Y una variable
aleatoria con varianza nita . Entonces la varianza de Y condicional X = x
se dene como
Var(Y [X = x) = E((Y E(Y [X = x))
2
[X = x),
y esta varianza puede considerarse como la varianza de variable X una vez
que se conoce que X = x. Denotemos por q(x) =Var(Y [X = x), luego
q : R
k
R. Llamaremos varianza condicional de Y condicional X a la
variable aleatoria
Var(Y [X) = q(X) = E((Y E(Y [X))
2
[X). (9.15)
Desarrollando el cuadrado en (9.15) y utilizando la Propiedad 9.10 se
obtiene
Var(Y [X) = E([Y
2
+E
2
(Y [X)2Y E(Y [X)][X)
= E(Y
2
[X)+E
2
(Y [X) 2E(Y [X)E(Y [X)
= E(Y
2
[X)E
2
(Y [X).
El siguiente Teorema vincula la varianza condicional al error cuadratico
medio del predictor optimo no lineal

Y
O,NL
= E(Y [X).
Teorema 9.10. Supongamos que Y es una variable aleatoria con varian-
za nita, X un vector aleatorio, y sea

Y
O,NL
= E(Y [X), el mejor predictorno
lineal de Y basado en X. Luego se tiene
(i) ECM(

Y
O,NL
, Y ) = E(Var(Y [X)).
(ii) E(Var(Y [X)) Var(Y ).
(iii) E(Var(Y [X)) =Var(Y ) si y solo si P(E(Y [X) = E(Y )) = 1.
184 VICTOR J. YOHAI
Demostracion. Aplicando el Teorema 9.7 y utilizando la dnicion (9.15)
se tiene
ECM(

Y
O,NL
, Y ) = E((Y E(Y [X))
2
)
= E(E((Y E(Y [X))
2
[X))
= E(Var(Y [X)),
y por lo tanto queda demostrado parte (i) del Teorema.
Como

Y
O,NL
es el predictor con menor error cuadratico medio en la clase
de predictores T =

Y :

Y = t(X),Var(t(X)) < , y como el predictor
optimo constante

Y
O,C
= E(Y ) T, se tiene
E(Var(Y [X)) = ECM(

Y
O,NL
, Y )
ECM(

Y
O,C
, Y )
= E((Y E(Y ))
2
)
= Var(Y )
y por un Teorema anterior la igualdad vale si y solo si P(

Y
O,NL
=

Y
O,C
) =
1. 2
Captulo 10
Convergencia de Variables
Aleatorias.
10.1. Convergencia de funciones
Comenzaremos recordaremos algunos tipos de convergencia en espacio
de funciones.
Denicion. Sea f
n

nN
una sucesion de funciones denidas sobre un
conjunto y que toma valores reales. Se dice que f
n
converge puntualmente
a otra funcion f si para todo y para todo > 0, existe n
0
N
dependiendo de y de tal que si n n
0
entonces [f
n
() f () [ < .
Observacion.
En general n
0
depende de y , es decir n
0
= n
0
(, ). Cuando la
eleccion de n
0
puede hacerse con independencia de , se tiene la siguiente
nocion de convergencia.
Denicion. Sea f
n

nN
una sucesion de funciones denidas sobre un
conjunto y que toma valores reales. Se dice que f
n
converge uniforme-
mente en a otra funcion f si para todo > 0, existe n
0
N tal que si
n n
0
entonces [f
n
() f () [ < para todo para todo A.
Observacion.
Es inmediato ver que si f
n

nN
converge uniformemente en entonces
f
nN
converge puntualmente. La recproca es falsa. Por ejemplo si deni-
mos f
n
() =
n
para [0, 1] entonces la sucesion converge puntualmente
a la funcion
f() =
_
0 si 0 < 1
1 si = 1
para todo [0, 1] pero no converge uniformemente en [0, 1].
Veremos ahora algunos tipos de convergencia para variables aleatorias
que hacen uso de la estructura del espacio de probabilidades
Existen varios tipos de convergencia, pero en este curso consideraremos
solo dosL convergencia casi segura y convergencia en probabilidad.
185
186 VICTOR J. YOHAI
10.2. Convergencia casi segura y en probabilidad.
Consideremos un espacio de probabilides (, /, P). Sea X
n

nN
una
sucesion de variables aleatorias denidas sobre este espacio y X otra variable
aleatoria tambien denida sobre el mismo espacio.
Denicion. Diremos que una sucesion de variables aleatorias X
n

nN
converge casi seguramente a otra variable aleatoria X (X
n
X c.s.) sii
P ( : X
n
() X ()) = 1. (10.1)
Observacion. En teora de la medida, este tipo de convergencia se
denomina convergencia en casi todo punto y se la nota X
n
X p.p.
Denicion. Diremos que una sucesion de variables aleatoriasX
n

nN
converge en probabilidad a otra variable aleatoria X sii para todo > 0 se
tiene
lm
n+
P ( : [X
n
() X()[ ) = 0. (10.2)
Notacion: Si la sucesion de variables aleatorias X
n

nN
converge en
probabilidad a la variable aleatoria X escribiremos X
n

p
X
Observaciones.
1. La convergencia en probabilidad signica que jado > 0 la prob-
abilidad que la distancia entre X
n
y X se puede hacer menor que con
probabilidad tan cercana a 1 como se quiera con tal de tomar n suciente-
mente grande. .
2. En Teora de la Medida la convergencia en probabilidad se denomina
convergencia en medida.
Teorema 10.1. Sea X
n

nN
una sucesion de variables aleatorias denidas
sobre un espacio de probabilidad (./, P) y X otra variable aleatoria deni-
da sobre el mismo espacio. Son equivalentes
(i) X
n

p
X
(ii) Para todo > 0 y todo > 0 existe n
0
N tal que si n n
0
entonces
lm
n+
P ([X
n
X[ ) .
(iii) Para todo > 0, existe n
0
N tal que si n n
0
entonces
lm
n+
P ([X
n
X[ ) .
Demostracion.
(ii) es equivalente a (i) como consecuencia directa de la denicion de
convergencia en probabilidad. La equivalencia entre (ii) y (iii) se deja como
ejercicio 2.
El siguiente Teorema establece que la convergencia casi segura (10.1)
implica la convergencia en probabilidad (10.2).
NOTAS DE PROBABILIDADES 187
Teorema 10.2. Sea X
n

nN
una sucesion de variables aleatorias denidas
sobre un espacio de probabilidad (./, P) y X otra variable aleatoria deni-
da sobre el mismo espacio. Entonces
(i) La sucesion X
n
converge casi seguramente a X sii
lm
m
P(

n=m
[X
n
X[ ) = 0. (10.3)
(ii) Si X
n
converge casi seguramente a X entonces X
n
converge en prob-
abilidad a la variable aleatoria X.
Demostracion
Llamemos A al conjunto de los puntos de donde X
n
() X().
Luego
A = : X
n
() X ().
Decir que A es equivalente a decir que para todo > 0 existe m N tal
que para todo n m se tiene [X
n
() X () [ < . Entonces, si para cada
> 0 denimos
B
n,
= : [X
n
() X () [ < .
el conjunto A resulta
A =

>0
_
_

_
m=1

nm
B
n,
_
_
.
En realidad como basta elegir tan chico como se quiera, nos podemos
limitar a tomar = 1/k . Luego tambien tenemos
A =

k=1
_
_

_
m=1

nm
B
n,
1
k
_
_
.
Sabemos que la convergencia casi segura se dene por P(A) = 1 o equiv-
alentemente por P(A
c
) = 0. Observemos que
A
c
=

_
k=1
_
_

m=1
_
nm
B
c
n,
1
k
_
_
.
Luego, como A
c
es una union numerable, P (A
c
) = 0 si y solo si para todo
k N se tiene
P
_
_

m=1
_
nm
B
c
n
1
k
_
_
= 0,
y como B
c
n,
es cereciente con ,esto es equivalente a que para todo > 0
P
_
_

m=1
_
nm
B
c
n,
_
_
= 0. (10.4a)
188 VICTOR J. YOHAI
Denamos
C
m,
=
_
nm
B
c
n,
.
Claramente, para todo > 0 la sucesion C
m,

m1
es monotona no decre-
ciente, de manera que
P
_
_

m=1
_
nm
B
c
n,
_
_
= P
_

m=1
C
m,
_
= lm
m
P (C
m,
) .
Luego se tendra que (10.4a) es equivalente a
lm
m
P (C
m,
) = 0,
y esto es equivalente a
lm
m
P
_
_
_
nm
B
c
n,
_
_
= 0
Pero como
B
c
n,
= [X
n
X[ ,
(i) queda demostrado.
(ii) Supongamos que X
n
X c.s. Luego se cumple (10.3) y como
[X
m
X[

n=m
[X
n
X[ ,
resulta
lm
m
P([X
m
X[ ) = 0.
Por lo tanto X
n

p
0. 2
Veremos que la recproca es falsa, incluso puede ocurrir que exista con-
vergencia en probabilidad, pero que el conjunto de los puntos donde haya
convergencia sea vaco.
10.3. Preservaci on de la convergencia por funciones
continuas
Los siguientes dos Teoremas muestran que las funciones continuas preser-
van los dos tipos de convergencia que hemos denido: convergencia en prob-
abilidad y convergencia casi segura.
Teorema 10.3. Sea g : R
2
R continua y supongamos que las suce-
siones de variables aleatorias (X
n
)
n1
, (Y
n
)
n1
convergen casi seguramente
NOTAS DE PROBABILIDADES 189
a las variables aleatorias X e Y. Entonces (g (X
n
, Y
n
))
n1
converge casi se-
guramente a la variable aleatoria g (X, Y ) .
Observacion. La propiedad vale en general para g : R
k
R continua. Si
_
X
(j)
n
_
n1
X
(j)
c.s para j = 1, 2, ..., k entonces
g
_
X
(1)
n
, X
(2)
n
, ..., X
(k)
n
_
g
_
X
(1)
, X
(2)
, ..., X
(k)
_
c.s.
Demostracion.
Sean A = : X
n
() X () y B = : Y
n
() Y (). Como
P (A) = P (B) = 1, tambien se tendra P (A B) = 1. En efecto
0 P ((A B)
c
) = P (A
c
B
c
) P (A
c
) +P (B
c
) = 0.
Ahora si AB entonces X
n
() X() y Y
n
() Y (). Luego,
por la continuidad de g se tiene g (X
n
() , Y
n
()) g (X () , Y ()) . Por
lo tanto
A B : g (X
n
() , Y
n
()) g (X () , Y ()),
y en consecuencia como
1 = P (A B) P ( : g (X
n
() , Y
n
()) g (X () , Y ())) 1,
el Teorema queda emostrado.2
Teorema 10.4. (a) Si i Y
n
Y c.s y X
n
X c.s entonces X
n
+Y
n

X +Y c.s.
(b) Si Y
n
Y c.s y X
n
X c.s entonces X
n
Y
n
XY c.s
(c) Si Y
n
Y c.s con P (Y = 0) = 0 y X
n
X c.s entonces
X
n
Y
n

X
Y
c.s.
Demostracion.
(a) y b() resultan de que las funciones g(x, y) = x+y y g(x, y) = xy son
continuas y (c) del hecho que g(x, y) = x/y es continua si y ,= 0. 2
Para demostrar una propiedad similar para la convergencia en proba-
bilidad necesitamos algunos resultados previos. Comenzamos probando que
toda variable aleatoria es acotada en probabilidad. Esto signica que X
esta dentro de un compacto, con probabilidad tan cercana a uno como se
quiera.2
Teorema 10.5. Sea X una variable aleatoria. Dado > 0 existe K tal
que
P ([X[ K) < .
Demostracion.
Consideremos la sucesion de conjuntos
A
n
= [X[ n.
190 VICTOR J. YOHAI
Esta sucesion es monotona decreciente, es decir, A
n+1
A
n
y ademas

n=1
A
n
= . Entonces
lm
n
P (A
n
) = 0.
Luego, dado > 0 existe n
0
N tal que P (A
n
0
) < , es decir
P (A
n
0
) = P ([X[ n
0
) < .
Luego el Teorema es cierto tomando K = n
0
.2
Probaremos ahora un resultado mas fuerte: Sucesiones de variables que
convergen en probabilidad estan acotadas en probabilidad uniformemente.
Teorema 10.6. Sea (X
n
)
n1
una sucesion de variables aleatorias que
converge en probabilidad a la variable aleatoria X. Entonces dado > 0
existe K tal que P ([X[ K) < y tal que para todo n
P ([X
n
[ K) < .
Observacion
Demostracion.
En primer lugar podemos hallar, de acuerdo al Teorema 10.5, K
0
de
forma tal que
P ([X[ K
0
) <

2
.
Teniendo en cuenta que
[X
n
[ [X
n
X[ +[X, [ (10.5)
se prueba facilmente que
[X
n
[ K
0
+ 1 [X
n
X[ 1 [X[ K
0
. (10.6)
En efecto, supongamos que
/ [X
n
X[ 1 [X[ K
0
.
Luego [X
n
X[ < 1 y [X[ < K
0
y por lo tanto por (10.16) resulta [X
n
[ <
K
0
+ 1.
Debido a que X
n

p
X en probabilidad podemos encontrar n
0
tal que
si n n
0
P ([X
n
X[ 1) <

2
.
Tomando probabilidades an ambos mienbros de (10.6) obtenemos
P (X
n
[ K
0
+ 1) P ([X
n
X[ 1) +P ([X[ K
0
)
<

2
+

2
=
NOTAS DE PROBABILIDADES 191
para todo n n
0
. Ademas por el Teorema 10.5, para cada i tal que 1
i n
0
, podemos encontrar K
i
tal que P([X
i
[ K
i
) . Luego tomando
K = max
_
max
1in
0
K
i
, K
0
+ 1
_
,
se obtiene la tesis. 2
Ahora estamos en condiciones de probar la propiedad de que las funciones
continuas conservan la convergencia en probabilidad.
Teorema 10.7. Sea g : R
2
R continua y supongamos que las suce-
siones (X
n
)
n1
, (Y
n
)
n1
convergen en probabilidad a las variables aleato-
rias X e Y. Entonces (g (X
n
, Y
n
))
n1
converge en probabilidad a la variable
aleatoria g (X, Y ) .
Observacion
Vale la misma observacion hecha para el caso de la convergencia casi
segura en cuanto a que el Teorema vale para funciones continuas denidas
en R
k
.
Demostracion.
Queremos probar que dado > 0 existe n
0
N tal que si n n
0
P ([g (X
n
, Y
n
) g(X, Y )[ ) < . (10.7)
De acuerdo al Teorema 10.5 podemos hallar un K tal que simultanea-
mente
P ([X
n
[ K) <

6
n
P ([X[ K) <

6
P ([Y
n
[ K) <

6
n
P ([Y [ K) <

6
.
Esto puede lograrse considerando primero un K
1
que cumpla con las dos
primeras, despues un K
2
que cumpla con las siguientes y tomando K =
maxK
1
, K
2
.
Sea
C = [K, K] [K, K] .
Dado que g es continua y C compacto entonces g es uniformemente
continua en C. Luego existe > 0 tal que si [x x

[ < , [y y

[ <
y [x[, [x

[, [y[, [y

[ K entonces
[g (x, y) g
_
x

, y

_
[ < . (10.8)
192 VICTOR J. YOHAI
Por la convergencia en probabilidad existe n
0
N tal que si n n
0
entonces
P ([X
n
X[ ) <

6
(10.9)
P ([Y
n
Y [ ) <

6
(10.10)
Esto se logra considerando un valor n
1
para la sucesion (X
n
)
n1
, un
valor n
2
para la sucesion (Y
n
)
n1
y luego tomando n
0
= maxn
1
, n
2
.
Ahora denimos los conjuntos
A
1n
= [X
n
X[
A
2n
= [Y
n
Y [
A
3n
= [X
n
[ K
A
4n
= [Y
n
[ K
A
5n
= [X[ K
A
6n
= [Y [ K.
Si bien A
5n
, A
6n
no dependen de n, usamos la notacion por conveniencia.
Vamos a mostrar que si llamamos
B =
6
_
i=1
A
in
,
entonces
[g (X
n
, Y
n
) g(X, Y )[ B.
Para esto debemos mostrar que en B
c
se tiene para todo n n
0
[g (X
n
, Y
n
) g(X, Y )[ < . (10.11)
En efecto, como
B
c
= (
6
_
i=1
A
in
)
c
=
6
i=1
A
c
in
,
resulta que cuando B
c
es cierto X
n
, X, Y
n
, Y estan en el compacto C y
ademas [X
n
X[ y [Y
n
Y [ . Luego por (10.8) resulta (10.11).
Luego para todo n n
0
P ([g (X
n
, Y
n
) g (X
n
, Y
n
) [ ) P(B)
6

i=1
P (A
in
) < 6

6
= ,
y el Teorema queda demostrado.2
Analogamente a lo observado para la convergencia casi segura se tienen
los siguientes corolarios.
NOTAS DE PROBABILIDADES 193
Teorema 10.8.
(a) Si i Y
n

p
Y y X
n

p
X c.s entonces X
n
+Y
n

p
X +Y.
(b) Si Y
n

p
Y y X
n

p
X c.s entonces X
n
Y
n

p
XY .
(c) Si Y
n

p
Y con P (Y = 0) = 0 y X
n

p
X entonces
X
n
Y
n

p
X
Y
Demostracion.
Similar al Teorema 10.4. 2
10.4. Ley debil de los grandes n umeros
Teorema 10.9. (Desigualdad de Markov) Sea X una variable aleato-
ria y g una funcion no negativa, par y no decreciente en el modulo, esto es
si [x[ > [y[ entonces g (x) g (y) . Supongamos ademas que g (X) tiene
esperanza nita, es decir que E (g (X)) < .
Entonces
P ([X[ )
E (g (X))
g ()
.
Demostracion
Consideremos el conjunto A = [ : [X()[ . Entoces A, A
c
es una
particion del espacio muestral . Luego I
A
(x) +I
A
c (x) = 1, y como todas
las variables son no negativas y g(x) nodecreciente en [x[, tenemos
g (X) = g (X) I
A
(X) +g (X) I
A
c (X)
g (X) I
A
(X)
g()I
A
(X) .
Luego tomando esperanza
E (g (X)) g () E (I
A
) = g () P ([X[ ) .
De esta desigualdad se obtiene inmediatamente obtiene el resultado buscado.2
En particular tomando g (x) = x
2
se obtiene la siguiente version de la
desigualdad de Tchebichev
P ([X[ )
E
_
X
2
_

2
.
Por otro lado si consideramos la variable aleatoria XE (X) obtenemos
la version (clasica) de la desigualdad de Tchebichev
P ([X E (X)[ )
E
_
[X E (X)]
2
_

2
=
Var (X)

2
.
Tomando complementos esta desigualdad puede escribirse como
P ([X E (X)[ < ) 1
Var (X)

2
.
194 VICTOR J. YOHAI
Luego si Var(X) es peque na (o sea hay poca dispersion), la probabilidad
de que la variable X tome valores en el intervalo (E (X) , E (X) +) se
hara grande.
Ahora estamos en condiciones de estudiar la ley de los grandes n umeros
en sus dos versiones: debil y fuerte. La importancia de estas leyes, es que
permite dar fundamento matematico a la argumentos heursticos que in-
terpreta la esperanza de una variable aleatoria como el valor al cual tiende
el promedio de varias realizaciones de la variable correspondientes a la
repeticion de experimentos independientes. Tambien permite fundamentar
la nocion heurstica de la probabilidad de un evento como el valor lmte
de las frecuencias trelativas con que ocurre el evento cuando se repiten
muchos experimentos independientes. La ley debil expresa estos resultados
en terminos de convergencia en probabilidad y la ley fuerte en termino de
convergencia casi segura.
Teorema 10.10 (Ley debil de los grandes numeros). Sea (X
n
)
n1
una sucesion de variables aleatorias no correlacionadas, es decir Cov(X
i
, X
j
) =
0 si i ,= j, tal que E (X
i
) =
i
y Var(X
i
) =
2
i
para cada i = 1, 2, ....Consideramos
la sucesion de variables aleatorias
_
X
n
_
n1
donde X
n
es el promedio de las
primeras n variables. Luego
X
n
=
1
n
n

i=1
X
i
,
y sea
n
= E(X
n
) dada por

n
=
1
n
n

i=1

i
.
Entonces si
lm
n
_
1
n
2
n

i=1

2
i
_
= 0, (10.12)
se tiene
X
n

n

P
0.
Demostracion
Se tiene que
Var(X
n
) =
1
n
2
n

i=1

2
i
,
y por Tchebichev
P([X
n

n
[ )
Var(X
n
)

2
=
1

2
n
2
n

i=1

2
i
.
NOTAS DE PROBABILIDADES 195
Tomando lmite resulta que
lm
n
P([X
n

n
[ )
1

2
lm
n
1
n
2
n

i=1

2
i
,
= 0
y luego el Teorema queda demostrado.2
Observaciones.
1 Si X
n
es una sucesion de variables aleatorias independientes, entonces
las variables X
n
son no correlacionadas y el Teorema puede aplicarse.
2. Una condicion suciente para que se cumpla (10.12) es que
2
i
sea
una sucesion acotada. En efecto, si
2
i
K para todo i, se obtiene
1
n
2
n

i=1

2
i

Kn
n
2
=
K
n
0.
En particular, est condicion se cumple si todas las variables tienen igual
varianza.
3. Si todas las variables tienen igual media digamos
i
= , se tiene que

n
= , y entonces X
n

P
0 es equivalente
X
n

p
.
4. En particular si X
n

n1
es una sucesion de variables no correla-
cionadas igualmente distribuidas con E(X
n
) = y Var(X
n
) =
2
, se ten-
dra X
n

p
.
5. Veremos ahora como esta ley debil permite fundamentar el concepto
de probabilidad de un evento. Sea (, /, P) un espacio de probabilidad y
A un evento. Supongamos que realizamos n experimentos independientes y
denimos
X
i
() =
_
1 si en el experimento i, A
0 si en el experimento i, / A.
Denamos
X
n
=
1
n
n

i=1
X
i
.
Se tiene
E (X
i
) = 1.P (A) + 0P (A
c
) = P (A) ,
y como X
2
i
= X
i
Var (X
i
) = E(X
2
i
) E(X
i
)
2
= E(X
i
) E(X
i
)
2
= P(A) = P(A)
2
P (A) (1 P (A)) .
196 VICTOR J. YOHAI
Luego, como ademas las variables X
i
son independientes, de acuerdo a
la ley debil de los grandes n umeros se tendra
X
n

P
E (X
i
) = P (A) . (10.13)
Observese que X
n
es la frecuencia relativa de ocurrencia del evento A.
Entonces (10.13) puede interpretarse como que la frecuencia relativa de
ocurrencia del evento A tiende en proabilidad a su probabilidad.
10.5. Ley fuerte de los grandes n umeros
Para probar la ley fuerte de los grandes n umeros necesitaremos algunos
Teoremas previos previos
Teorema 10.11 (Desigualdad de Kolmogorov). Sean X
1
, ..., X
n
variables independientes con E (X
i
) = 0. Supongamos que
2
i
=Var(X
i
) <
y consideremos las sumas parciales S
i
=

i
j=1
X
j
. Entonces
P
_
max
1in
[S
i
[
_

2
n

i=1

2
i
. (10.14)
Observacion.
Vamos a mostrar que la desigualdad de Kolmogorov es un renamiento
de la desigualdad de Tchebichev. Para ver esto, apliquemos la desigualdad
de Tchebichev a las variable aleatoria S
n
. Luego
P ([S
n
[ )
1

2
Var (S
n
) =
1

2
n

i=1

2
i
. (10.15)
Observemos que S
n
max
1in
[S
i
[ de manera que
[S
n
[ max
1in
[S
i
[ ,
y por lo tanto
P ([S
n
[ ) P
_
max
1in
[S
i
[
_
.
Luego resulta que (10.14) implica (10.15)
Demostracion.
Sea
A = max
1in
[S
i
[ ,
y consideremos para cada i los conjuntos
A
i
= [S
1
[ < , [S
2
[ < , ..., [S
i1
[ < , [S
i
[ .
NOTAS DE PROBABILIDADES 197
Estos eventos son disjuntos de a dos y forman una particion de A. Luego
A =
n
_
i=1
A
i
,
y por lo tanto se deduce que
I
A
=
n

i=1
I
A
i
.
Luego como S
2
n
I
A
c 0 se deduce que
S
2
n
= S
2
n
I
A
+S
2
n
I
A
c S
2
n
I
A
= S
2
n
n

i=1
I
A
i
.
Tomando esperanza en ambos miembros resulta
E
_
S
2
n
_

i=1
E
_
S
2
n
I
A
i
_
. (10.16)
Para cada termino S
2
n
I
A
i
resulta
S
2
n
I
A
i
= (S
i
+T
i
)
2
I
A
i
= S
2
i
I
A
i
+T
2
i
I
A
i
+ 2S
i
T
i
I
A
i
, (10.17)
donde
T
i
=
n

j=i+1
X
j
.
Vamos ahora a probar que E (S
i
T
i
I
A
i
) = 0. Por un lado observamos que
S
i
depende solo de X
1
, ...X
i
y lo mismo ocurre con I
A
i
. Como T
i
depende
solo de X
i+1
, ...X
n
, resulta que S
i
I
A
i
es independiente de T
i
. Luego como
E (T
i
) = 0 se obtiene
E (S
i
T
i
I
A
i
) = E ([S
i
I
A
i
] T
i
) = E (S
i
I
A
i
) E (T
i
) = 0. (10.18)
Tomando esperanza en (10.17)y teniendo en cuenta (10.18) y que en
A
i
se tiene [S
i
[
E
_
S
2
n
I
A
i
_
= E(S
2
i
I
A
i
) +E(T
2
i
I
A
i
)
E(S
2
i
I
A
i
)
E(I
A
i
)
= P(A
i
).
198 VICTOR J. YOHAI
Luego tomando esperanzas en (10.16) se obtiene
E
_
S
2
n
_

i=1
E
_
S
2
n
I
A
i
_

2
n

i=1
P (A
i
)
=
2
P (A) ,
o sea
P (A)
E
_
S
2
n
_

2
=
1

2
n

i=1

2
i
. 2
Para probar la ley fuerte de los grandes n umeros necesitamos tambien
el siguiente Teorema.
Teorema 10.12. Sea (X
n
)
n1
una sucesion de variables aleatorias. Una
condicion suciente para que
X
n
X c.s.
es que para todo > 0 exista una sucesion creciente de enteros positivos
r
1
< r
2
< ... < r
n
... que puede depender de tal que

i=1
P
_
_
r
i+1
1
_
n=r
i
B
c
n
_
_
< , (10.19)
donde B
n
= [X
n
X[ < .
Demostracion
Recordemos el resultado ya probado que
X
n
X c.s
sii
lm
m
P
_
_

_
nm
B
c
n
_
_
= 0. (10.20)
Supongamos que se cumple (10.19). Veremos que entonces se cumple
(10.20)
Sea > 0, entonces (10.19) implica que existe i
0
tal que

i=i
0
P
_
_
r
i+1
1
_
n=r
i
B
c
n
_
_
<
NOTAS DE PROBABILIDADES 199
Pero entonces
P
_
_

_
n=r
i
0
B
c
n
_
_
= P
_
_

_
i=i
0
r
i+1
1
_
n=r
i
B
c
n
_
_

i=i
0
P
_
_
r
i+1
1
_
n=r
i
B
c
n
_
_
< .
Esto implica que (10.20) se cumple. 2
Teorema 10.13. (Ley fuerte de los grandes n umeros).
Sea (X
n
)
n1
una sucesion de variables aleatorias independientes tal que
E (X
i
) =
i
y Var(X
i
) =
2
i
para cada i N. Consideremos la sucesion de
variables aleatorias
_
X
n
_
n1
denida por
X
n
=
1
n
n

i=1
X
i
y sus respectivas medias

n
= E(X
n
) =
1
n
n

i=1

i
.
Entonces si

i=1

2
i
i
2
< , (10.21)
se tiene
X
n

n
0 c.s..
Demostracion.
Basta probar el teorema suponiendo que para todo i,
i
= 0. Para ver
esto, supongamos que el terorema vale cuando para todo i,
i
= 0. Ahora
supongamos el caso general, esto es que para cada i, E(X
i
) =
i
. Considere-
mos nuevas variables Y
i
= X
i

i
. Entonces E (Y
i
) = 0 y Var(Y
i
) =var(X
i
) =

2
i
. Las variables Y
i
son independientes y luego se cumple Y
n
0 c.s. Pero
como Y
n
= X
n

n
, resulta tambien X
n

n
0 c.s. Luego para demostrar
el teorema podemos supondremos que
i
= 0 para todo i.
Usaremos el Teorema 10.12 tomando r
i
= 2
i1
. Luego si llamamos

i
= P
_
_
2
i
1
_
n=2
i1
B
c
n
_
_
,
bastara demostrar que

i=1

i
< .
200 VICTOR J. YOHAI
Observemos que si llamamos S
n
=

n
i=1
X
i
tenemos X
n
= S
n
/n. Luego

i
= P
_
_
2
i
1
_
n=2
i1
B
c
n
_
_
= P
_
_
2
i
1
_
n=2
i1
[X
n
[
_
_
= P
_
_
2
i
1
_
n=2
i1
[S
n
[ n
_
_

P
_
_
2
i
1
_
n=2
i1
[S
n
[ 2
i1

_
_
P
_
_
2
i
1
_
n=1
[S
n
[ 2
i1

_
_
(10.22)
Usando la desigualdad de Kolmogorov resulta
P
_
_
2
i
1
_
n=1
[S
n
[ 2
i1

_
_
= P
_
max
1n2
i
1
[S
n
[ > 2
i1
_

1
4
i1

2
2
i
1

j=1
Var (X
j
)

1
4
i1

2
2
i
1

j=1

2
j
. (10.23)
Entonces de (10.22) y (10.23 obtenemos para cada i

i

1
4
i1

2
2
i
1

j=1

2
j
,
y cambiando el orden de sumacion se tiene

i=1

i=1
1
4
i1

2
2
i
1

j=1

2
j
=
1

j=1

2
j

2
i
1j
1
4
i1
. (10.24)
NOTAS DE PROBABILIDADES 201
La desigualdad 2
i
1 j es equivalente a
i
log (j + 1)
log (2)
= i
0
(j) ,
y entonces podemos escribir

2
i
1j
1
4
i1
= 4

ii
0
(j)
1
4
i
= 4a
0
_
1
1
1
4
_
=
16
3
a
0
, (10.25)
donde a
0
es el primer termino de la serie geometrica.

ii
0
(j)
1
4
i
. (10.26)
Por otro lado 2
i
1 j implica que 4
i
j
2
, es decir para todos los
terminos de la serie geometrica (10.26) obtenemos
1
4
i

1
j
2
,
y en particular se tendra
a
0

4
j
2
. (10.27)
Entonces por (10.25 y (10.27) se tiene

2
i
1j
1
4
i1
=
16
3
a
0

16
3
1
j
2
=
16
3
1
j
2
,
y de acuerdo a (10.24) se tiene

i=1

i

16
3
2

j=1

2
j
j
2
< .
Esto prueba la Ley Fuerte de los Grandes N umeros. 2
Observaciones.
La condicion (10.21) se cumple si todas las varianzas estan acotadas.
En efecto, si existe una constante K tal que para todo i,
2
i
K entonces
como se tiene

i=1
1
i
2
< ,
202 VICTOR J. YOHAI
resulta

i=1

2
i
i
2
K

i=1
1
i
2
< .
Para el caso en que para todo i,
i
= ,
2
i
=
2
se cumple efectivamente
que

1
i
2
< ,
y por lo tanto
X
n
0 c.s,
o equivalentemente
X
n
c.s..
Todas las consideraciones posteriores a la ley debil que discuten co-
mo esta fundamenta las nociones heursticas de esperanza de un variable
aleatoria y de probabilidad de un evento siguen valiendo, reemplazando la
convergencia en probabilidad por convergencia casi segura.
10.6. Teorema de la Convergencia Dominada
Ahora daremos una demostracion del Teorema de Convergencia Domi-
nada (Lebesgue).
Antes necesitamos el siguiente caso particular.
Teorema 10.14
Sea (X
n
)
n1
una sucesion de variables aletorias, no negativas y Z una
variable aleatoria no negativa con E (Z) < que domina todos los termi-
nos de la sucesion , es decir 0 X
n
Z.
Entonces si X
n

P
0 se tiene
E (X
n
) 0.
Demostracion
Recordemos que si Z 0 la condicion de E (Z) < es equivalente a
_

0
zdF
Z
< y esto es equivalente a lm
k
_

k
zdF
Z
= 0.
Vamos a demostrar que dado > 0 existe n
0
tal que si n n
0
entonces
E (X
n
) < .
Dado K > 0 (arbitrario) particionamos al espacio de la siguiente manera
=
_
X
n


3
_
_
_

3
< X
n
K
_
_
X
n
> K.
Entonces
X
n
= X
n
I
{X
n
/3}
+X
n
I
{/3<X
n
K}
+X
n
I
{X
n
>K}


3
+KI
{X
n
>/3}
+ZI
{Z>K}
. (10.28)
NOTAS DE PROBABILIDADES 203
Tomando esperanza en ambos miembros se tiene
E (X
n
)

3
+KP
_
X
n
>

3
_
+E
_
ZI
{Z>K}
_
. (10.29)
Sea Y
K
= ZI
{Z>K}
, luego
F
Y
K
(y) =
_
_
_
0 si y < 0
F
Z
(K) si 0 y K
F
Z
(y) si y > K,
y entonces
E(ZI
{Z>K}
) = E(Y
K
) (10.30)
=
_
+
K
zdF
Z
. (10.31)
Dado que E (Z) < existe K
0
tal que
E
_
ZI
{Z>K
0
}
_
<

3
. (10.32)
Una vez elegido K
0
, usando que X
n

p
0, podemos encontrar n
0
tal que
para todo n n
0
se tiene
P
_
X
n
>

3
_
<

3K
0
.
Luego de (10.28), (10.29). (10.30) y (10.32) resulta que para todo n n
0
E (X
n
)

3
+K
0

3K
0
+

3
= ,
y el Teorema queda demostrado.2
Ahora probaremos el Teorema de la Convergencia Dominada en el caso
general
Teorema 10.15. Sea (X
n
)
n1
una sucesion de variables aleatorias tal
que existe un variable Z 0 con E (Z) < y [X
n
[ Z para todo n.
Entonces si X
n

P
X se tendra
E (X
n
) E (X) .
Demostracion
Debemos probar que
lm
n
[E (X
n
) E (X)[ = 0.
204 VICTOR J. YOHAI
Ahora bien, por una propiedad de la esperanza
[E (X
n
) E (X)[ = [E (X
n
X)[ E ([X
n
X[) ,
de manera que bastara con probar que
lm
n
E ([X
n
X[) = 0. (10.33)
Sea
Y
n
= [X
n
X[ 0,
luego como X
n

P
X resulta Y
n

P
0 .
Como
[X[ > Z + 1 [X
n
[ > Z [X
n
X[ > 1,
y dado P([X
n
[ > Z) = 0 se tendra para todo > 0
P([X[ > Z + 1) P([X
n
X[ > 1)
y por lo tanto como X
n

P
X
P([X[ > Z + 1) lm
n
P([X
n
X[ > 1) = 0.
Esto muestra que para todo > 0 se tiene P([X[ Z + 1) = 0
Luego con probabilidad 1 se tiene Y
n
[X
n
[+[X[ 2Z+1, y estamos en
la situacion del Teorema 10.14. Por lo tanto podemos concluir que E (Y
n
)
0. Luego (10.33) se cumple y el Teorema queda demostrado 2
Captulo 11
Convergencia en Distribucion
11.1. Denicion de convergencia en distribucion.
Tanto la convergencia casi segura como la convergencia en probabilidad
se basan en el concepto de proximidad entre variables aleatorias. Veremos
ahora un tipo de convergencia que se basa en la proximidad entre funciones
de distribucion.
Denicion. Sea F
n

n1
una sucesion de funciones de distribucion
denidas sobre R y F otra funcion de distribucion. Diremos que la sucesion
F
n
converge debilmente a F sii para todo punto x de continuidad de F existe
convergencia puntual. Es decir, si F es continua en x entonces
lm
n
F
n
(x) = F (x) .
Notacion. Si F
n

n1
converge debilmente en distribucion a F escribire-
mos
F
n

d
F.
Observacion
Recordemos que una funcion de distribucion denida sobre R se carac-
terza por las propiedades P1, P2, P3 y P4 y que el conjunto de puntos
donde es discontinua es a lo sumo numerable.
Denicion. Sea X
n

n1
una sucesion de variables aleatorias y F una
funcion de distribucion. Diremos que la sucesion X
n
converge en distribu-
cion a F sii F
X
n

n1
converge debilmente a F.
Notacion. Si X
n

n1
converge en distribucion a F escribiremos
X
n

D
F.
Observacion
Por extension tambien diremos que X
n

n1
converge en distribucion a
X sii F
X
n

D
F
X
.
205
206 VICTOR J. YOHAI
Al decir que X
n

n1
convergen en distribucion a X hay un abuso de
lenguaje puesto que las variables X
n
no se aproximan X, sino la funcion de
distribucion de X
n
se aproxima a la funcion de distribucion de X.
Consideremos el caso donde X e Y son dos variables independientes con
distribucion N (0, 1) . Denamos para todo n, X
n
= X entonces X
n

D
Y y sin embargo como las variables X e Y son independientes, X no se
aproxima a Y .
Veamos ahora la relacion que existe entre la convergencia en probabili-
dad y la convergencia en distribucion.
Teorema 11.1
Sea (X
n
)
n1
una sucesion de variables aleatorias y X otra variable aleato-
ria.
Entonces
X
n

P
X
implica que
X
n

D
X
Demostracion
Sea F
X
la funcion de distribucion de X y x un punto de continuidad.
Probemos primero que
X
n
x X x + [X
n
X[ . (11.1)
Para esto basta demostrar que si no esta en ninguno de los dos conjun-
to que forman la union en el miembro derecho, entonces no esta en X
n
x.
Sea tal que X() > x + y [X
n
() X()[ < . Luego
X
n
() = X() + (X
n
() X())
X() [X
n
() X()[
> x +
= x,
probando (11.1).
Tomado probabilidades en ambos mienbros se obtiene
F
X
n
(x) F
X
(x +) +P ([X
n
X[ ) .
Tomando lmite superior en ambos miembros y teniendo en cuenta que
lm
n
P ([X
n
X[ ) = 0 (11.2)
se obtiene
lm
n
F
X
n
(x) F
X
(x +) ,
y haciendo que 0, en virtud de la continuidad de F en x se tiene
lm
n
F
X
n
(x) F
X
(x) . (11.3)
NOTAS DE PROBABILIDADES 207
Ahora hacemos un razonamiento similar a izquierda de x. Consideramos
la inclusion
X x X
n
x [X
n
X[ .
Tomado probabilidades en ambos mienbros se obtiene
F
X
(x ) F
X
n
(x) +P([X
n
X[ ).
Tomando lmite inferior en ambos miembros y usando (11.2) se obtiene
F (x ) lm
n
F
X
n
(x) ,
y haciendo que 0, en virtud de la continuidad de F
X
en x
F (x) lm
n
F
X
n
(x) . (11.4)
De (11.3) y (11.4) resulta
lm
n
F
X
n
(x) F
X
(x) lm
n
F
X
n
(x) ,
y como
lm
n
F
X
n
(x) lm
n
F
X
n
(x) ,
debe ser
lm
n
F
X
n
(x) = lm
n
F
X
n
(x) = F
X
(x) .
Luego existe el lmite de F
X
n
en el punto x y ademas
lm
n
F
X
n
(x) = F (x) . 2
Observacion.
La recproca no vale en general. Pero si en el caso que P(X = C) = 1,
donde C es una constante. Luego tenemos el siguiente Teorema que como
ejercicio.
Teorema 11.2. Supongamos que X
n

D
X y P(X = C) = 1. Entonces
X
n

p
X.
11.2. Funciones caracterstica
Una herramienta muy importante para la demostracion del Teorema
Central del Lmite es la funcion caracterstica asociada a una distribucion.
Para esto necestaremos el concepto de variable aleatoria compleja.
208 VICTOR J. YOHAI
11.2.1. Variables aleatorias complejas
Denicion: Sea (, /, P) un espacio de probabilidad. Se dice que X
es una variable aleatoria compleja si X : C (C indica el conjunto de
n umeros complejos) es de la forma X = X
1
+ iX
2
con X
1
y X
2
variables
aleatorias reales.
Denicion. Sea la variable aleatoria compleja X = X
1
+ iX
2
, donde
X
1
y X
2
tienen esperanza nita. Denimos la esperanza de X como
E (X) = E (X
1
) +iE (X
2
) .
Observacion
E (X) C. La parte real e imaginaria de la esperanza son respectivamente Re (E (X)) =
E (X
1
) y ImE (X) = E (X
2
) .
Denicion. Diremos que dos variables aleatorias complejas X = X
1
+
iX
2
e Y = Y
1
+ iY
2
son independientes si el vector aleatorio X =(X
1
, X
2
)
es independiente del vector aleatorio Y =(Y
1
, Y
2
) .
Algunas propiedades
Veamos ahora que para variables aleatorias complejas independientes se
tiene el siguiente resultado.
Propiedad 11.1 Sean X = X
1
+ iX
2
e Y = Y
1
+ iY
2
dos variables
aleatorias complejas independientes. Entonces
E (XY ) = E (X) E (Y ) .
Demostracion
La demostracion se basa en el calculo directo usando la denicion y la
propiedad analoga para variables aleatorias reales independientes
E (XY ) = E [(X
1
+iX
2
) (Y
1
+iY
2
)]
= E [(X
1
Y
1
X
2
Y
2
) +i (X
2
Y
1
+Y
2
X
1
)]
= E (X
1
Y
1
X
2
Y
2
) +iE (X
2
Y
1
+Y
2
X
1
) =
= E (X
1
Y
1
) E (X
2
Y
2
) +iE (X
2
Y
1
) +iE (Y
2
X
1
) =
= E (X
1
) E (Y
1
) E (X
2
) E (Y
2
) +iE (X
2
) E (Y
1
) +iE (Y
2
) E (X
1
)
= (E (X
1
) +iE(X
2
))(E (Y
1
) +iE(Y
2
))
= E (X) E (Y ) .
Propiedad 11.2 Sea una variable compleja X = X
1
+iX
2
. Entonces
[E (X)[ E ([X[) .
Demostracion
Podemos suponer que E (X) ,= 0 pues en tal caso la desigualdad se
cumple.
Siendo E (X) = E (X
1
) +iE (X
2
) C podemos escribir
E (X) = re
i
NOTAS DE PROBABILIDADES 209
para cierto r > 0, 0 2.
Consideremos la variable aleatoria compleja Y = e
i
X y veriquemos
que su esperanza es real
E (Y ) = E
_
e
i
X
_
= e
i
E (X)
= r > 0.
Hemos probado con anteriorioridad que la propiedad se cumple para
esperanzas de variables aleatorias reales. Luego
[E (Y )[ E ([Y [) .
De aca se deduce la tesis, pues
[E (X)[ = r
= E (Y )
= [E (Y )[
E ([Y [)
= E ([X[) . 2
11.2.2. Denicion de funcion caracterstica y propiedades
Denicion Sea X una variable aleatoria y F
X
su funcion de distribucion.
Denimos la funcion carcterstica de X por la funcion
X
: R C asociada
a F
X
de la siguiente manera

X
(t) = E (exp(itX)) =
= E (cos (tX)) +iE (sin(tX)) .
Observacion
Como las variables cos (tX) , sin(tX) son acotadas, las esperanzas de
estas variables existen y son nitas.
El motivo de la introduccion de la funcion caracterstica es poder estudi-
ar mas facilmente la distribucion de suma de variables aleatorias independi-
entes. Mientras que la funcion de distribucion de esta suma ( que se obtiene
por convoluciones) puede ser muy complicada, su funcion caracterstica, co-
mo se desprende de la Propiedad 11.3 que damos a continuacion es muy
simple. Por otro lado como veremos mas adelante hay una correspondencia
biunvoca entre funcion de distribucon y funcion caracterstica. Luego cono-
ciendo la funcion caracterstica, de una variable aleatoria, tambien conoce-
mos su funcion de distribucion.
210 VICTOR J. YOHAI
Propiedad 11.3. Sean X e Y dos variables aleatorias independientes.
Entonces para todo t R

X+Y
(t) =
X
(t)
Y
(t) .
Demostracion.
Observando que exp(itX) , exp(itY ) son variables aleatorias indepen-
dientes se tiene

X+Y
(t) = E (exp(it (X +Y )))
= E (exp(itX) exp(itY )) =
= E (exp(itX)) E (exp(itY ))
=
X
(t)
Y
(t) . 2
Propiedad 11.4. Sea X una variable aleatoria. Entonces para todo
t R
[
X
(t)[ 1
Demostracion.
[
X
[ = [E (exp(itX))[
E ([exp(itX)[)
= E (1)
= 1.2
Propiedad 11.5.
X
(0) = E (1) = 1.
Demostracion.

X
(0) = E (1) = 1.2
Ahora enunciamos dos teoremas muy importantes. Las demostraciones
de estos teoremasse pueden encontrar en el libro de Barry R. James, Prob-
abilidade: um curso em nivel intermediario.
Teorema 11.3. Sean X e Y dos variables aleatorias.
Entonces si

X
=
Y
,
tambien se tiene
F
X
= F
Y
.
Teorema 11.4. (Teorema de Continuidad de Paul Levy). Sea
(X
n
)
n1
una sucesion de variables aleatorias, (F
X
n
)
n1
la correspondiente
sucesion de funciones de distribucion y (
X
n
)
n1
la correspondiente sucesion
de funciones caractersticas asociadas. Entonces
X
n

D
X
NOTAS DE PROBABILIDADES 211
si y solo si para todo t R

X
n
(t)
X
(t) .
Teorema 11.5. Sea X una variable aleatoria. Entonces
X
es continua
en todo punto.
Demostracion.
Sea t R y consideremos una sucesion (h
n
)
n1
R tal que h
n

0. Queremos probar que
lm
n

X
(t +h
n
) =
X
(t) .
Teniendo en cuenta que

X
(t +h
n
) = E (cos ((t +h
n
) X)) +iE (sin((t +h
n
) X)) ,
bastara con probar que si n + entonces
E (cos ((t +h
n
) X)) E (cos (tX)) ,
y
E (sin((t +h
n
) X)) E (sin(tX)) .
Probaremos que E (cos ((t +h
n
) X)) E (cos (tX)) cuando n +, la
otra propiedad es analoga.
Consideremos la sucesion de variables aleatorias
Y
n
= cos ((t +h
n
) X) .
Se comprueba facilmente que Y
n
esta dominada por la variable aleatoria Z =
1, es decir para todo n
[Y
n
[ = [cos ((t +h
n
) X)[ 1.
Ademas si Y = cos (tX), por la continuidad de la funcion coseno, se tiene
convergencia puntual de Y
n
a Y , es decir para todo
Y
n
() Y ().
Luego, por el Teorema de Convergencia Dominada se obtiene
E (Y
n
) E (Y ) . 2
Observacion.
Se puede probar algo mas fuerte:
X
es uniformemente continua (ver el
libro de Barry R. James).
212 VICTOR J. YOHAI
Veamos como opera una funcion caracterstica sobre una transformacion
an de la variable aleatoria.
Propiedad 11.6. Sea X una variable aleatoria e Y = aX +b. Entonces
para todo t R

aX+b
(t) = exp(ibt)
X
(at) .
Demostracion.
Para todo t R se tiene

Y
(t) =
aX+b
(t)
= E (exp(it (aX +b)))
= E (exp(it (aX)) exp(itb))
= exp(ibt) E (exp(i (ta) X))
= exp(ibt)
X
(at) . 2
Ahora queremos caracterizar a las funciones caractersticas a valores
reales. Para esto recordemos el concepto de variable aleatoria simetrica re-
specto del origen
Una variable aleatoria X se dice que es simetrica respecto del origen sii
para todo x 0 se tiene que
P (X x) = P (X x) . (11.5)
El siguiente Teorema permite dar una denicion equivalente
Teorema 11.6.
X
es real sii X es simetrica respecto del origen. En
este caso
X
es par
Demostracion.
Supongamos primero que X sea simetrica respecto del origen. Como para
todo t R

X
(t) = E (cos (tX)) +iE (sin(tX)) ,
para mostrar que
X
es simetrica bastara ver que E (sin(tX)) = 0.
Teniendo en cuenta que X es simetrica se tiene que F
X
= F
X
de manera
que E (g (X)) = E (g (X)) para cualquier g medible, entonces si para cada
t R se toma g (x) = sin(tx) se obtiene
E (sin(tX)) = E (sin(tX)) = E (sin(tX)) ,
y por lo tatno E (sin(tX)) = 0.
NOTAS DE PROBABILIDADES 213
Ademas,

X
(t) = E(cos(X(t)))
= E(cos(Xt))
=
X
(t).
Luego
X
es par.
Supongamos ahora que
X
es real, esto es E (sin(tX)) = 0. Entonces
teniendo en cuenta que la funcion coseno es par y la funcion seno impar
tendremos para todo t R

X
(t) = E (cos (tX)) +iE (sin(tX))
= E (cos(tX) ,
y

X
(t) = E (cos (t(X))) +iE (sin(t(X)))
= E (cos(tX) ) iE(sin(tX))
= E (cos(tX) )
Luego
X
(t) =
X
(t) y entonces por el Teorema 11.3, se obtiene que
F
X
= F
X
y por el Teorema 7.15 que X es simetrica respecto del origen 2
Denicion. Momentos de orden k. Sea X una variable aleatoria.
Denimos el momento de orden k > 0 de X como el n umero

k
= E
_
X
k
_
,
cuando este valor existe y el momento absoluto de orden k > 0 de X como
el n umero

k
= E
_
[X[
k
_
.
Observacion.
Si k es par entonces
k
=

k
. Ademas siempre se tiene que
k
<
sii

k
< , es decir la integrabilidad absoluta de [X[
k
equivale a la de X
k
.
En particular E(X )= y Var(X) =
2

2
1
.
Teorema 11.7. Si

k
< entonces para todo i < k se tiene

i
< .
Demostracion.
Sea i < k. Se tiene
[X[
i
= I
{|X|1}
[X[
i
+I
{|X|>1}
[X[
i
.
Como
I
{|X|
i
1}
[X[
i
I
{|X|1}
y
I
{|X|>1}
[X[
i
I
{|X|>1}
[X[
k
, [X[
k
214 VICTOR J. YOHAI
obtenemos
[X[
i
I
{|X|1}
+[X[
k
.
Tomando esperanza en ambos miembros resulta

i
P ([X[ 1) +

k
< ,
y esto demuestra el Teorema. 2
11.3. Momentos y funcion caracterstica
11.3.1. Derivaci on dentro del signo esperanza
Para hacer un desarrollo de Taylor de la funcion caracterstica, nece-
sitaremos sus derivadas. Como la funcion caracterstica esta denida como
una esperanza, sera conveniente encontrar condiciones bajo las cuales se
pueda intercambiar el orden en el que se deriva y se toma esperanza.
Sea g(x, t) una funcion de dos variables a valores reales, medible respecto
de la primera variable y derivable respecto de la segunda variable. Sea g
2
denida por
g
2
(x, t) =
g (x, t)
t
.
Sea X una variable aleatoria, entonces para cada t, Y
t
= g (X, t) es
tambien una variable aleatoria. Supongamos que E ([Y
t
[) < y considere-
mos la funcion h(t) = E (Y
t
) = E (g (X, t)) . El siguiente Teorema nos da
condiciones sucientes para que h

(t) = E (g
2
(X, t)) .
Teorema 11.8. Supongamos que en t = t
0
se cumplan las siguientes
condiciones (i) existe > 0 tal que
sup
|tt
0
|
[g
2
(X, t) [ Z,
donde E (Z) < ,(ii) Para todo x la funcion g
2
(x, t) es continua respecto a
la segunda variable en t = t
0
.Luego h

(t
0
) = E (g
2
(X, t
0
)) .
Demostracion.
Sea (r
n
)
n1
una sucesion de n umeros reales no creciente que converge a
0 y tal que [r
n
[ . Bastara demostrar que
lm
n+
h(t
0
+r
n
) h(t
0
)
r
n
= E (g
2
(X, t
0
)) .
Utilizando el teorema del valor medio existe r

n
= r

n
(X) tal que [r

n
(X)[
r
n
y tal que
g (X, t
0
+r
n
) g (X, t
0
)
r
n
= g
2
(X, t
0
+r

n
(X)) .
NOTAS DE PROBABILIDADES 215
Luego
lm
n
h(t
0
+r
n
) h(t
0
)
r
n
= lm
n
E
_
g (X, t
0
+r
n
) g (X, t
0
)
r
n
_
= lm
n
E (g
2
(X, t
0
+r

n
(X))) .
Por lo tanto bastara con mostrar que
lm
n
E (g
2
(X, t
0
+r

n
(X))) = E (g
2
(X, t
0
)) . (11.6)
Ahora bien r

n
(X) 0 y por la continuidad de g
2
en t = t
0
, g
2
(X, t
0
+r

n
(X))
n1
converge puntulamente a la funcion g
2
(X, t
0
) Ademas se cumple que
sup
nN
[g
2
(X, t
0
+r

n
(X))[ Z, con E (Z) < . Luego aplicando el teore-
ma de la convergencia dominada se obtiene (11.6). 2
11.3.2. Derivadas de la funcion caracterstica y momentos
Dada una variable aleatoria X, sabemos que
X
(t) = E (exp(itX)) . Procedamos
de manera ingenua, sin preocuparnos por la justicacion, y derivemos suce-
sivamente dentro del signo esperanza

(1)
X
(t) = E (iX exp(itX)) = iE (X exp(itX))

(2)
X
(t) = E
_
i
2
X
2
exp(itX)
_
= i
2
E
_
X
2
exp(itX)
_
...

(n)
X
(t) = E (i
n
X
n
exp(itX)) = i
n
E (X
n
exp(itX)) .
El siguiente Teorema permite justicar estas expresiones.
Teorema 11.9. Supongamos que

n
< . Luego se cumple que

(n)
X
(t) = i
n
E (X
n
exp(itX)) . (11.7)
Demostracion. Demostraremos el Teorema por induccion en n. Para n = 0
es cierto ya que
X
(t) = E exp(itX) por denicion. Supongamos que el
Teorema es cierto para n. Vamos a demostrar que es cierto para n + 1.
Supongamos que

n+1
< , luego por el Teorema 11.7

n
< y luego la
formula (11.7) es cierta para n. Entonces, tenemos que

(n)
X
(t) = i
n
E (X
n
exp(itX))
= i
n
(E(X
n
cos(tX)) +iE(X
n
sin(tX)). (11.8)
Sea g (x, t) = x
n
cos(tx). Luego g
2
(x, t) = x
n+1
sin(tx) es continua
y [g
2
(X, t)[ [X[
n+1
. Como E([X
n+1
[) < , por el Teorema 11.8 se
tendra que si h(t) = E(X
n
cos(tx)), entonces
h

(t) = E(g
2
(X, t)
= E(X
n+1
sin(tX)). (11.9)
216 VICTOR J. YOHAI
Similarmente si h

(t) = E(X
n
sin(tx)), luego
h

(t) = E(X
n+1
cos(tX)). (11.10)
Luego por (11.9), (11.10), derivando (11.8) se tendra

(n+1)
X
(t) = i
n
(h

(t) +h

(t)) (11.11)
= i
n
(E(X
n+1
sin(tX)) +iE(X
n+1
cos(tX)). (11.12)
Multiplicando por i y dividiendo por i se obtiene

(n+1)
X
(t) = i
n+1
((1/i)E(X
n+1
sin(tX)) +E(X
n+1
cos(tX)),
y usando que 1/i = i

(n+1)
X
(t) = i
n+1
(iE(X
n+1
sin(tX)) +E(X
n+1
cos(tX))
= i
n+1
E(X
n+1
exp(itX))
y por lo tanto el Teorema queda demostrado.2.
Observemos entonces que de acuerdo al Teorema 11.9 que si

n
<
resulta

(n)
X
(0) = i
n
E(X
n
)
= i
n

n
.
En particular

X
(0) = i
1
(11.13)
y

X
(0) =
2
. (11.14)
Ahora estamos en condiciones de probar que la funcion caracterstica de
la distribucion X N(0, 1) es su densidad salvo una constante.
11.4. Funci on caracterstica de una distribucion
normal.
Para la prueba del Teorema Central de Lmite, necesitamos calcular la
funcion caracteristica de una distribucion normal. Dado que si X N
_
,
2
_
se puede escribir como X = Y +, donde Y N(0, 1) de acuerdo Propiedad
11.4, solo se necesitara calcular
X
para el caso = 0 y
2
= 1.
Teorema 11.10. Sea X N(0, 1) . Luego la funcion caracterstica de X
es

(t) = exp
_

1
2
t
2
_
.
NOTAS DE PROBABILIDADES 217
Demostracion. Como X es simetrica respecto del origen,

es real y par.
Consideremos dos variables aleatorias independientes X
1
N(0, 1) , X
2
N(0, 1)
y denamos Y = u
1
X
1
+u
2
X
2
con u
1
0, u
2
0 . Entonces Y N
_
0, u
2
1
+u
2
2
_
.
Podemos expresar a Y como un m ultiplo de una variable N(0, 1). En
efecto
Y =
_
u
2
1
+u
2
2
Y
_
u
2
1
+u
2
2
=
_
u
2
1
+u
2
2
Z,
donde
Z =
Y
_
u
2
1
+u
2
2
tiene distribucion N(0, 1).
Calcularemos
Y
de dos manera distintas. Por un lado, usando Propiedad
11.4

Y
(t) =

u
2
1
+u
2
2
Z
(t) (11.15)
=

_
_
u
2
1
+u
2
2
t
_
. (11.16)
Por otro lado siendo Y suma de variables aleatorias independientes, us-
ando Propiedad 11.1 y recordando que u
1
0 y u
2
0, se tiene que

Y
(t) =
u
1
X
1
+u
2
X
2
(t)

u
1
X
1
(t)
u
2
X
2
(t) (11.17)
=

(u
1
t)

(u
2
t)
=

_
_
u
2
1
t
_

_
_
u
2
2
t
_
. (11.18)
De (11.15) y (11.18) se obtiene

_
_
u
2
1
+u
2
2
t
_
=

_
_
u
2
1
t
_

_
_
u
2
2
t
_
, (11.19)
y haciento t = 1

_
_
u
2
1
+u
2
2
_
=

_
_
u
2
1
_

_
_
u
2
2
_
(11.20)
Denamos g

como la composicion de

con la raz cuadrada, es decir


g

(u) =

_
u
_
.
Luego por (11.20) se tiene
g

_
u
2
1
+u
2
2
_
= g

_
u
2
1
_
g

_
u
2
2
_
.
218 VICTOR J. YOHAI
Luego, si ponemos v
1
= u
2
1
y v
2
= u
2
2
entonces para todo v
1
, v
2
0 obtenemos
g

(v
1
+v
2
) = g

(v
1
) g

(v
2
) . (11.21)
Entonces para todo v 0 se tiene
g

(v) = g

_
v
2
+
v
2
_
=
=
_
g

_
v
2
__
2
0.
Observacion. Ecuacion (11.21) recuerda la caracterizacion de la dis-
tribucion exponencial como una distrubucion confalta de memoria. Luego
para caracterizar a g

procederemos de igual manera.


Por induccion se puede probar que dados v
1
0, v
2
0, ..., v
n
0
entonces
g

_
n

i=1
v
i
_
=
n

i=1
g

(v
i
) . (11.22)
Luego usando (11.22) se obiene que para todo n natural
g

(n) = g

_
_
1 + 1 + +... + 1
. .
n veces
_
_
(11.23)
= [g

(1)]
n
(11.24)
Usando (11.22) y (11.23 se obtiene que para todo m y n naturales
[g

(1)]
n
= g

(n)
= g

_
m
n
m
_
= g

_
_
_
n
m
+
n
m
+... +
n
m
. .
m veces
_
_
_
=
_
g

_
n
m
__
m
,
y entonces
g

_
n
m
_
= [g

(1)]
n
m
.
Luego para todo r Q positivo se tiene
g

(r) = [g

(1)]
r
.
NOTAS DE PROBABILIDADES 219
Por la continuidad de g

y la densidad de Q en R,se concluye que para


todo x R
0
g

(x) = [g

(1)]
x
.
Ahora veamos que
0 < g

(1) < 1. (11.25)


Como g

(1) es real con 0 g

(1) 1 para demostrar (11.25) se de-


bera mostrar que g

(1) ,= 0 y que g

(1) ,= 1.
Supongamos que g

(1) = 0. Entonces para todo t R


0

t
_
= g

(t) = [g

(1)]
t
= 0.
Esto es absurdo, pues si t = 0 se tendra

(0) = 0 y seg un Propiedad


11.3

(0) = 1.
Supongamos que g

(1) = 1 entonces

(1) =

1
_
= g

(1)
= 1.
Ahora como

es real,

(1) = E (cos (X)) . Entonces g

(1) = 1 se
puede escribir como
E (1) = E (cos (X))
luego
E (1 cos (X)) = 0
Pero siendo la variable aleatoria 1 cos (X) no negativa se concluye que
P (cos (X) = 1) = 1.
Esto no puede ser cierto puesto que x R : cos (x) = 1 es un con-
junto de puntos numerable, de manera que como la ditribucion normal es
absolutamente continua, su probabilidad es cero.
Finalmente si ponemos c = log (g

(1)) entonces, c > 0 y g

(1) =
exp(c) . Luego
g

(t) = [g

(1)]
t
= exp(ct) , t 0.
Ademas

(t) = g

_
t
2
_
= exp
_
ct
2
_
, t 0
Como la funcion

(t) es par se tendra

(t) = exp
_
ct
2
_
, t.
220 VICTOR J. YOHAI
Derivando dos veces

)
(1)
(t) = 2ct exp
_
ct
2
_
,
(

)
(2)
(t) = 2c exp
_
ct
2
_
+ 4c
2
t
2
exp
_
ct
2
_
= 2c exp
_
ct
2
_ _
2ct
2
1
_
,
y evaluando en 0, de acuerdo a (11.14) se tendra
2c = (

)
(2)
(0)
=
2
= 1.
Por lo tanto obtenemos que c =
1
2
y el Teorema queda demostrado. 2
11.5. Teorema Central del Lmite
El Siguiente Lema da el desarrollo de Taylor de la funcion caracterstica
de una variable aleatoria X con E(X) = 0 y var(X) = 1.
Teorema 11.11. Sea X una aleatoria con E(X) = 0 y var(X) = 1.
Entonces

X
(t) = 1
t
2
2
+o
2
_
t
2
_
,
donde o
_
t
2
_
es una funcion tal que
lm
t0
o
2
_
t
2
_
t
2
= 0.
Demostracion. Sabemos que (0) = 1 y por (11.13) y (11.14) se tiene

X
(0) = 0 y

X
(0) = 1. Luego usando un desarrollo de Taylor de grado 2
en t = 0 se tiene

X
(t) =
X
(0) +

X
(0)t +

X
(0)
t
2
2
+o
2
(t
2
)
= 1
t
2
2
+o
_
t
2
_
.
Esto demuestra el Lema.2
11.5.1. Caso de variables independientes igualmente distribuidas
Teorema 11.12 (Teorema Central del Lmite.) Sea (X
n
)
n1
una
sucesion de variables aleatorias independientes identicamente distribuidas
NOTAS DE PROBABILIDADES 221
(i.i.d) con varianza nita . Llamemos = E (X
i
) y
2
=Var(X
i
) > 0 . Sean
las sumas parciales
S
n
=
n

i=1
X
i
y
Z
n
=
S
n
E (S
n
)
_
Var (S
n
)
. (11.26)
Entonces
Z
n

D
N(0, 1) . (11.27)
Observacion
La expresion (11.26) puede reformularse escribiendo
Z
n
=
X
n
E
_
X
n
_
_
Var
_
X
n
_
,
donde
X
n
=
1
n
n

i=1
X
i
es la variable aleatoria promedio aritmerico.
Demostracion
En primer lugar veamos que basta con probar el teorema suponiendo
que = 0 y
2
= 1.
Teniendo en cuenta la independencia de las X
i
y la denicion de S
n
se
tiene que
E (S
n
) = n,
Var (S
n
) = n
2
.
Luego (11.26) se puede escribir como
Z
n
=

n
i=1
(X
i
n)

n
=
1

n
n

i=1
_
X
i

_
=

n
i=1
X

n
,
donde
X

i
=
X
i

Clareamente las variables X

i
son i.i.d. con E(X

i
) = 0 y Var(X

i
) = 1.
Luego si el teorema vale para = 0 y
2
= 1 vale para y
2
arbitrarios.
222 VICTOR J. YOHAI
Supondremos entonces que = 0 y
2
= 1. De acuerdo al teorema de
continuidad de Levy y al Teorema 11.10, bastara probar que para todo
t R
lm
n+

Z
n
(t) = exp
_

t
2
2
_
(11.28)
Sabemos que como = 0 y
2
= 1, por el Lema anterior para todo i N
se tiene

X
i
(t) =
X
(t) = 1
t
2
2
+o
2
_
t
2
_
,
donde o
2
_
t
2
_
es una funcion tal que
lm
t0
o
2
_
t
2
_
t
2
= 0. (11.29)
Como las variables X
i
son independientes, podemos aplicar la propiedad
Propiedad 11.3 de las funciones caractersticas y se tiene que para todo n

S
n
(t) =
n

i=1

X
i
(t) =
_
1
t
2
2
+o
2
_
t
2
_
_
n
.
Finalmente teniendo en cuenta que = 0 y
2
= 1, resulta Z
n
= S
n
/

n.
Luego por la propiedad Propiedad 11.4 de las funciones caractersticas se
obtiene

Z
n
(t) =
S
n
_
t

n
_
=
_
1
t
2
2n
+o
2
_
t
2
n
__
n
.
De acuerdo a (11.28), bastara ver que la sucesion de funciones
lm
n
_
1
t
2
2n
+o
_
t
2
n
__
n
= exp
_

t
2
2
_
. (11.30)
Para ello escribamos la sucesion de carctersticas del siguiente modo

Z
n
(t) =
_
1
1
n
_
t
2
2
+o
2
_
t
2
n
_
n
__
n
,
y luego si hacemos
a
n
=
_
t
2
2
+o
2
_
t
2
n
_
n
_
,
entonces

Z
n
(t) =
_
1
a
n
n
_
n
.
NOTAS DE PROBABILIDADES 223
Se conoce del calculo elemental que si a
n
L entonces
_
1
a
n
n
_
n
exp(L) .
Por lo tanto, para mostrar (11.30) bastara mostrar que en nuestro caso
L = t
2
/2. Equivalentemente bastara con mostrar que
lm
n
o
2
_
t
2
n
_
n 0.
Pero esto resulta de escribir
o
2
_
t
2
n
_
n =
o
2
_
t
2
n
_
t
2
n
t
2
y de observar que como t
2
/n 0 cuando n ,de acuerdo a (11.29) se
tiene
lm
n+
o
_
t
2
n
_
t
2
n
= 0.
Esto prueba el Teorema.2
Observaciones.
Teniendo en cuenta que E
_
X
n
_
= n/n = y Var
_
X
n
_
= n
2
/n =

2
/n, podemos escribir las variables Z
n
de la siguiente manera
Z
n
=
X
n
E
_
X
n
_
_
Var
_
X
n
_
= n
1
2
(X
n
)

.
Luego, de acuerdo a (11.27) tenemos
n
1
2
(X
n
)


D
N (0, 1) . (11.31)
De acuerdo a la Ley Fuerte de los Grandes N umeros X
n
0 c.s., y
por lo tanto tambien
W
n
= (X
n
)/ 0 c.s..
Ademas, recordemos que convergencia casi segura implica convergencia en
distribucion. Al multiplicar W
n
por el factor n
1
2
, de acuerdo a (11.31) deja
de tender a 0 y tampoco tiende innito. Por eso se dice que la velocidad
224 VICTOR J. YOHAI
de convergencia de X
n
a es n
1

2
. Se deja como ejercicio probar que si
multiplicamos W
n
por n
1/2+
la sucesion converge a en probabilidad.
Es decir dado cualquier K > 0,tendremos
lm
n
P(n
1/2+
[W
n
[ > K) = 1
Tambien se deja como ejercicio que si multiplicamos W
n
por n
1/2
convege
en probabilidad a 0. El exponente 1/2es el n umero exacto por el para que
la sucesion no converga ni a 0 ni a .
11.5.2. Teorema Central del Lmite para variables no igual-
mente distribuidas
El Teorema Central del Lmite sigue valiendo bajo condiciones menos
rstrictivas. Se puede suprimir la hipotesis de que las distribuciones sena
identicas y a un debilitar la hipotesis de la independencia.
El Teorema de Lindeberg o Teorema Central del Lmite Fuerte da una
condicion suciente para que una sucesion de variables aleatorias indepen-
dientes no necesariamente identicamente distribuidas converga en distribu-
cion a la normal estandarizada. Enunciamos este importante teorema sin
demostracion.
Teorema 11.13 (Teorema Central de Lindeberg). Sean (X
n
)
n1
una sucesion de variables aleatorias independientes con E (X
i
) =
i
y Var(X
i
) =

2
i
para todo i N.Sea
s
2
n
=
n

i=1

2
i
= Var (S
n
) ,
donde como antes S
n
=

n
i=1
X
i
. Denamos las variable aleatorias cen-
tradas
Y
i
= X
i

i
.
Una condicion suciente para que
Z
n
=
S
n
E (S
n
)
_
Var (S
n
)

D
N(0, 1)
es que para todo > 0
lm
n+

n
i=1
_
{|y|s
n
}
y
2
dF
Y
i
s
2
n
= 0. (11.32)
Demostracion
Ver el libro citado de Barry R. James.
NOTAS DE PROBABILIDADES 225
Observacion.
La condicion (11.32) se llama condicion de Lindeberg. Notemos que
como E (Y
i
) = 0 y Var(Y
i
) =Var(X
i
) =
2
i
, se tiene
s
2
n
=
n

i=1

2
i
(11.33)
=
n

i=1
Var(Y
i
)
=
n

i=1
_
+

y
2
dF
Y
i
n

i=1
_
{|y|<s
n
}
y
2
dF
Y
i
+
n

i=1
_
{|y|s
n
}
y
2
dF
Y
i
. (11.34)
Luego, la condicion (11.32) es equivalente a que para todo > 0
lm
n

n
i=1
_
{|y|<s
n
}
y
2
dF
Y
i

n
i=1
_

y
2
dF
Y
i
= 1, (11.35)
lo cual de puede interpretar que la contribucion de y
i
a la varianza de S
n
proviene de los valores donde [Y
i
[
2

2
s
2
n
. Como s
2
n
=Var(S
n
) =Var(S

n
),
donde S

n
=

n
i=1
Y
i
, resulta que la contribucion de Y
2
i
a Var(S

n
) corre-
sponde basicamente de los puntos donde Y
2
i
< s
2
n
, es decir donde Y
2
i
es
peque na respecto a E(S
2
n
). Esto esta diciendo que con alta probabilidad Y
2
i
es peque no con respecto a S
2
n
. En particular de (11.32) se deduce que para
todo > 0, existe n
0
() tal que para todo n n
0
_
{|y|s
n
}
y
2
dF
Y
i
< s
2
n

para todo 1 i n. Por otro lado para todo 1 i n


_
{|y|<s
n
}
y
2
dF
Y
i
s
2
n
.
Luego para todo 1 i n y n n
0
se tiene

2
i
=
_
{|y|s
n
}
y
2
dF
Y
i
+
_
{|y|s
n
}
y
2
dF
Y
i
< 2s
2
n
,
y por lo tanto que para todo n n
0
max
1in

2
i

n
i=1

2
i
< 2.
Luego
lm
n
max
1in

2
i

n
i=1

2
i
= 0.
226 VICTOR J. YOHAI
Es decir que la varianza de cada variable, sobre la suma de las varianzas
tiende a 0.
Del teorema central del lmite de Lindeberg se deduce la siguiente version
del Teorema Central del Lmite.
Teorema 11.14. (Teorema Central del Lmite de Liapunov.) Sean
(X
n
)
n1
una sucesion de variables aleatorias independientes con E (X
i
) =
i
y varianza Var(X
i
) =
2
i
< tal que para alg un i
0
,
2
i
0
> 0. LLamemos
Y
i
= X
i

i
a las variable aleatoria centradas. Una condicion suciente
para que
Z
n
=
S
n
E (S
n
)
_
V ar (S
n
)

D
N(0, 1)
es que exista > 0 tal que
lm
n+

n
i=1
E
_
[Y
i
[
2+
_
s
2+
n
= 0.
Demostracion. Tenemos que
_
{|y|s
n
}
y
2
dF
Y
i
=
_
{|y|s
n
}
[y[
2+
[y[

dF
Y
i

n
_
{|y|s
n
}
[y[
2+
dF
Y
i

E([y
i
[
2+
)

n
y luego
n

i=1
_
{|y|s
n
}
y
2
dF
Y
i

1

n
n

i=1
E([y
i
[
2+
)
Dividiendo por s
2
n
se tiene

n
i=1
_
{|y|<s
n
}
y
2
dF
Y
i
s
2
n

s
2+
n
n

i=1
E([y
i
[
2+
),
y por lo tanto por la condicion de Liapunov
lm
n

n
i=1
_
{|y|s
n
}
y
2
dF
Y
i
s
2
n
= 0. (11.36)
Como
s
2
n
=
n

i=1
_
{|y|<s
n
}
y
2
dF
Y
i
+
n

i=1
_
{|y|s
n
}
y
2
dF
Y
i
,
NOTAS DE PROBABILIDADES 227
(11.36) es equivalente
lm
n

n
i=1
_
{|y|<
n
}
y
2
dF
Y
i
s
2
n
= 1,
que es la condicion de Lindemberg.2
Esta condicion es util cuando las variables tienen momentos nitos de
orden mayor que dos. Para la demostracion del Teorema de Liapunov ver
tambien el libro de Barry R. James.
Ejemplo. Consideremos ahora una sucesion de variables aleatorias(Y
n
)
n1
,
donde Y
n
tiene distribucion Bi(n, p) . Podemos pensar Y
n
como el n umero
de exitos en n experimentos identicos independientes, donde la probabilidad
de exito es p. Luego podemos escribir
Y
n
=
n

i=1
X
i
,
donde
X
i
=
_
1 si resulta exito en el i-esimo experimento
0 si no.
Claramente las variables X
i
son independientes e igualmente distribuidas
. Sabemos que P (X
i
= 1) = p y P (X
i
= 0) = 1p. E (X
i
) = p y Var(Y
i
) =
p (1 p) . Luego, estamos en condiciones de aplicar el Teorema Central del
Lmite para variables i.i.d.. Entonces
Y
n
E (Y
n
)
_
Var (Y
n
)
=
Y
n
np
_
np (1 p)

D
N(0, 1) .
Se puede probar que para n = 20 la distribucion normal es una buena
aproximacion de la binomial, de manera que a nes practicos se pueden usar
tablas normales para calcular probabilidades binomiales.
11.5.3. Una Aplicacion a la binomial.
Se realiza una encuesta para determinar el porcentaje p de votantes que
va a votar a un partido C. Se toma una muestra al azar de n votantes y
se observan los resultados. Designemos mediante X
i
, la variable que toma
el valor 1, si la intencion declarada del encuestado i es votar al partido C y
X
i
= 0 en caso contrario. Claramente P(X
i
= 1) = p
La variable
Y
n
=
n

i=1
X
i
da la cantidad de encuestados que dicen votar al partido C. La variable Y
n
es Bi(n, p)
228 VICTOR J. YOHAI
Como desconocemos el parametro p, podemos estimarlo a partir del
promedio
p
n
= X
n
=

n
i=1
X
i
n
Como E(X
i
) = p, por la ley de los grandes n umeros tendremos X
n
p
c.s.. Lo que queremos saber es cuan grande tiene que ser n para lograr una
precision determinada con cierta probabilidad. Mas precisamente supong-
amos que jemos una cota e para el error E
n
= X
n
p (por ejemplo e = ,05)
y supongamos que queremos conocer aproxmadamente la probabilidad de
que [E
n
[ e, es decir P([E
n
[ e).
Sabemos que
Z
n
=
Y
n
np
_
np (1 p)
=

n
i=1
X
i
np
_
np (1 p)
=

n
X
n
p
_
p (1 p)

D
N(0, 1) .
Llamemos
a
n
=

ne
_
p (1 p)
, (11.37)
y a la funcion de distribucion de una variable N(0, 1). Luego, como Z
n
se
comporta aproximadamente como una N(0, 1) para n grande, tenemos
P([E
n
[ e) = P([X
n
p[ e)
= P
_

n
[X
n
p[
_
p (1 p)

ne
_
p (1 p)
_
= P([Z
n
[ a
n
)

= (a
n
) (a
n
)
= (a
n
) (1 (a
n
))
2(a
n
) 1,
donde el signo

= indica aproximadamente. Supongamos ahora que quere-
mos saber que tama no de muestra se requiere para que P([E
n
[ e) sea
aproximadamente 1 , donde es un n umero peque no, por ejemplo .05.
Entonces se requerira un valor n tal que
2(a
n
) 1 = 1 ,
o equivalentemente
a
n
=
1
_
1

2
_
.
NOTAS DE PROBABILIDADES 229
Reemplazando a
n
de acuerdo a (11.37) tendremos

ne
_
p (1 p)
=
1
_
1

2
_
,
o equivalentemente
n =
p(1 p)
_

1
_
1

2
__
2
e
2
.
Como p es desconocido podemos elegir el valor mas mas desfavorable.
Como n depende en forma creciente de g(p) = p(1p) deberamos elegir el
maximo de esta funcion para 0 p 1. Observemos que g

(p) = 12p = 0,
razon por la cual el unico punto crtico es p = 1/2 , y como g

(p) = 2 < 0
corresponde a un maximo relativo Como en los extremos g(0) = g(1) = 0
y g(1/2) = 1/4, resulta qe el maximo absoluto de g esta en p = 1/2 y el
maximo de g es 1/4. Luego basta tomar n igual a
n =
_

1
_
1

2
__
2
4e
2
.
Por ejemplo si e = ,05 y = ,05, se tendra buscando en la tabla normal
que
1
(1 /2) =
1
(0,975) = 1,96, y luego
n =
_

1
_
1

2
__
2
4e
2
= 384,16.
Luego , como n tiene que ser entero, bastara tomar n = 385.
El valor n calculado nos asegura la probabilidad deseada, pero dado que
se reemplazo p(1p) por una cota superior este valor puede ser mas grande
que el estrictamente necesario. En la Seccion siguiiente veremos un Teorema
que nos permitira reemplazar p(1 p) por la estimacion X
n
(1 X
n
).
11.6. Teorema de Slutsky
El siguiente Teorema, llamado de Slutsky, tiene numerosas aplicaciones
en Estadstica.
Teorema 11.15. Sean (X
n
)
n1
e (Y
n
)
n1
dos sucesiones de variables
aleatorias tal que X
n

D
X e Y
n

P
c, donde X es una variable aleatoria
y c una constante. Entonces se tiene
(i)
X
n
+Y
n

D
X +c,
(ii)
X
n
Y
n

D
cX,
230 VICTOR J. YOHAI
(iii) Si c ,= 0 entonces
X
n
Y
n

D
X
c
.
Para probar el el Teorema 11.15 necesitaremos probar previamente los
Teoremas 11.16-11.21
Teorema 11.16. Sea (X
n
)
n1
una sucesion de variables aleatorias y
tal que X
n

D
X donde X es otra variable aleatoria. Entonces para todo
constante a R,se tieneaX
n

D
aX.
Demostracion
La demostracion la haremos distinguiendo tres casos: (i) a = 0, (ii) a > 0
y (iii) a < 0.
(i) Si a = 0, entonces es claro que aX = aX
n
= 0 y por lo tanto el
Teorema se cumple.
(ii) Sea a > 0. Queremos probar que para todo punto x de continuidad
de F
aX
vale que
lm
n+
F
aX
n
(x) = F
aX
(x) .
Calculamos la funcion de distribucion de aX
n
F
aX
n
(x) = P (aX
n
x)
= P
_
X
n

x
a
_
= F
X
n
_
x
a
_
,
y de manera analoga, la funcion de distribucion de aX
F
aX
(x) = F
X
_
x
a
_
.
Entonces s x es un punto de continuidad de F
aX
si y solosi
x
a
lo es de F
X
.
Ahora bien como X
n

D
X vale que para todo x punto de continuidad
de F
X
lm
n
F
X
n
(x) = F
X
(x) .
En particular eso vale para
x
a
. Esto demuestra el caso (i) a > 0.
(ii) Sea a < 0. Este caso resulta mas complicado de probar. Probaremos
en primer lugar que vale para a = 1 y despues pasaremos al caso general.
Queremos probar que si X
n

D
X entonces X
n
X
En primer lugar es facil ver que en general si X es una variable aleatoria
P (X < a) = F
X
(a) , donde F
X
(a) es el limite de F
X
(x), cuando x
tiende a a por la izquierda. Para eso basta con observar que
X < a =
n
_
i=1
X a
1
n
.
NOTAS DE PROBABILIDADES 231
La sucesion de conjuntos C
n
= X a
1
n
es monotona creciente y por lo
tanto
P (X < a) = lm
n
P
_
X a
1
n
_
= lm
n+
F
X
_
a
1
n
_
= F
X
(a) .
Calcularemos ahora F
X
y F
X
n
Por un lado
F
X
(x) = P (X x)
= P (X x)
= 1 P (X < x)
= 1 F
X
(x) .
Por otro lado y de manera analoga
F
X
n
(x) = 1 F
X
n
(x) .
Entonces tenemos que probar que si x es un punto de continuidad de
F
X
entonces
lm
n
[1 F
X
n
(x)] = 1 F
X
(x) ,
o equivalentemente tenemos que probar que si x es un punto de continuidad
de F
X
entonces
lm
n
F
X
n
(x) = F
X
(x) . (11.38)
ComoF
X
esta denida como
F
X
(x) = 1 F
X
(x) ,
resulta que x es un punto de de continuidad de F
X
si y solo si x
lo es de F
X
. Por lo tanto en los puntos donde F
X
es continua vale que
F
X
(x) = F
X
(x) . Por lo tanto (11.38) es equivalente a que
lm
n
F
X
n
(x) = F
X
(x) , (11.39)
en los puntos x para los cuales x es un punto de continuidad de F
X
.
Como x puede ser cualquiera, esto es equivalente a que
lm
n
F
X
n
(x) = F
X
(x) , (11.40)
232 VICTOR J. YOHAI
para todo punto x que sea de continuidad de F
X
.
Por la monotonia de F
X
n
se tiene que F
X
n
(x) F
X
n
(x) . Entonces
tomando lmite superior en ambos miembros y recordando que la hipotesis de
convergencia en distribucion implica que lmite lm
n
F
X
n
(x) = F
X
(x)
se obtiene
lmF
X
n
(x) lmF
X
n
(x)
= lm
n
F
X
n
(x)
= F
X
(x) . (11.41)
Observemos que como F
X
es continua en x entonces dado > 0 existe
> 0 tal que F
X
(x) < F
X
(x ) . Como el conjunto de puntos de
discontinuidad de F
X
es a lo sumo numerable, podemos elegir x de
forma tal que F
X
sea continua en x . Por la monotonia de F
X
n
resulta
F
X
n
_
x

_
F
X
n
(x ) .
Tomando lmite inferior y recordando que x es un punto de continudad
se obtiene
lmF
X
n
_
x

_
lmF
X
n
(x )
= lm
n
F
X
n
(x )
= F
X
(x )
> F
X
(x) .
Ahora haciendo que 0 se tiene
lmF
X
n
(x) F
X
(x) . (11.42)
Por lo tanto de (11.41) y (11.42) resulta
lmF
X
n
(x) F
X
(x) lmF
X
n
(x) .
Pero como siempre ocurre que lmF
X
n
(x) lmF
X
n
(x

) , resulta que
lmF
X
n
(x) = F
X
(x) = lmF
X
n
(x) ,
y entonces necesariamente existe lmF
X
n
(x) y ademas
lmF
X
n
(x) = F
X
(x) .
Esto demuestra (11.40
Ahora probaremos el Teorema para cualquier a < 0. Para eso escribimos
aX
n
= (a) (X
n
) .
NOTAS DE PROBABILIDADES 233
Entonces por un lado como X
n

D
X se tiene que X
n

D
X . Por
otro lado si a < 0 entonces a > 0 y por el caso (i) aX
n
= (a) (X
n
)
D
(a) (X) = aX.2
Denicion. Sea (X
n
)
n1
una sucesion de variables aleatoiras. Decimos
que la sucesion esta acotada uniformemtne en probabilidad si dado > 0
existe K > 0 tal que
P ([X
n
[ K) 1 .
Observacion. Recordemos que hemos probado que si X
n

P
X en-
tonces dado > 0 existe K > 0 tal que para todo n N
P ([X
n
[ K) 1
y
P ([X[ K) 1 .
Esto signica que si una sucesion (X
n
)
n1
converge en probabilidad
esta acotada uniformemente en probabilidad.
Para la convergencia en distribucion, se tiene un resultado analogo.
Teorema 11.17. Sea (X
n
)
n1
una sucesion de variables aleatorias y X
otra variable aleatoria tal que X
n

D
X. Entonces dado > 0 existe K
0
> 0
tal que para todo n N
P ([X
n
[ K
0
) 1
y
P ([X[ K
0
) 1 .
Demostracion.
Dado > 0 sabemos que existe K > 0 tal que
P ([X[ K) 1

2
Observemos que si para cierto K > 0 vale la desigualdad, entonces tam-
bien vale para cualquier K
1
> K. En efecto, como
[X[ K [X[ K
1
,
tomando probabilidades se tiene
1 P ([X[ K) P ([X[ K
1
) .
Luego, como el conjunto de puntos de discontinuidad de F
X
es a lo sumo
numerable, podemos elegir K de forma tal que F
X
sea continua en K y en
234 VICTOR J. YOHAI
K. Entonces
P ([X[ K) = P (K X K)
= P (K < X K)
= F
X
(K) F
X
(K) (11.43)
1

2
. (11.44)
Teniendo en cuenta la convergencia en distribucion de X
n
a X, resulta
lm
n
F
X
n
(K) = F
X
(K) ,
y
lm
n
F
X
n
(K) = F
X
(K) .
Por denicion de lmite existe n
1
N tal que si n n
1
entonces
F
X
n
(K) > F
X
(K)

4
(11.45)
y tambien n
2
N tal que si n n
2
entonces
F
X
n
(K) < F
X
(K) +

4
(11.46)
Luego tenemos
P ([X
n
[ K) = P (K X
n
K)
P (K < X
n
K)
= F
X
n
(K) F
X
n
(K) .
Sea n
0
= maxn
1
, n
2
. Luego de (11.43 ), (11.45 ) y (11.46 ) resulta que
si n n
0
se tiene
P ([X
n
[ K) F
X
n
(K) F
X
n
(K)
> F
X
(K)

4

_
F
X
(K) +

4
_
F
X
(K) F
X
(K)

2
1

2


2
= 1 .
Luego hemos conseguido la acotacion requerida para X y X
n
con n n
0
.
Finalmente para cada 1 j n
0
1, podemos encontrar un n umero K
j
> 0
tal que P ([X
j
[ K
j
) 1 . Entonces si ponemos
K
0
= maxK, K
1
, K
2
, ..., K
n
0
1

se cumple
P ([X
n
[ K
0
) 1 , n
NOTAS DE PROBABILIDADES 235
y
P ([X[ K
0
) 1 . 2
Teorema 11.18. Sea (X
n
)
n1
una sucesion de variables aleatorias uni-
formamente acotada en probabilidad y supongamos que Y
n

P
0 entonces
X
n
Y
n

P
0.
Demostracion
Utilizado las dos hipotesis dado > 0 existe K > 0 tal que
P ([X
n
[ K) 1

2
y n
0
N tal que para todo n n
0
se tiene
P
_
[Y
n
[

2K
_
<

2
.
Ahora observemos que
[X
n
Y
n
[ > [X
n
[ > K [Y
n
[

K
,
ya que si [X
n
[ K y [Y
n
[ < /K entonces [X
n
Y
n
[ .
Tomando probabilidades tenemos que para todo n n
0
resulta
P ([X
n
Y
n
[ > ) P ([X
n
[ > K) +P
_
[Y
n
[

K

_
<

2
+

2
= .
Esto prueba el Teorema.2
Teorema 11.19. Sean (X
n
)
n1
e (Y
n
)
n1
dos sucesiones de variables
aleatorias y X otra variable aleatoria tal que X
n

D
X y Y
n

P
0. Entonces
X
n
+Y
n

D
X.
Demostracion.
Queremos probar que si x es un punto de continuidad de F
X
entonces
lm
n+
F
X
n
+Y
n
(x) = F
X
(x) .
Sea > 0. Dado que el n umero de puntos de discontinuidad de F
X
es a
lo sumo numerable, siempre podemos elegir 0<
1
< tal que x+
1
sea sea
punto de continuidas de F
X
. Luego tenemos
X
n
+Y
n
x X
n
x +
1
[Y
n
[ >
1

236 VICTOR J. YOHAI


pues si X
n
> x +
1
y [Y
n
[
1
entonces X
n
+Y
n
> x.
Tomando probabilidades en ambos miembros
F
X
n
+Y
n
(x) F
X
n
(x +
1
) +P ([Y
n
[ >
1
) . (11.47)
Como
lm
n
F
X
n
(x +
1
) = F
X
(x +
1
),
y
lm
n
P (Y
n
>
1
) = 0,
se obtiene
lm(F
X
n
(x +
1
) +P (Y
n
>
1
)) = lm
n
F
X
n
(x +
1
) + lm
n
P (Y
n
>
1
)
= F
X
(x +
1
)
F
X
(x +).
Luego tomando lmite nferior en ambos miembros de (11.47) resulta
lmF
X
n
+Y
n
(x) F
X
(x +) ,
y haciendo 0 resulta
lmF
X
n
+Y
n
(x) F
X
(x) . (11.48)
Tomemos ahora
1
y tal que x
1
es un punto de continuidad de
F
X.
. Observamos que tambien vale
X
n
x
1
X
n
+Y
n
x [Y
n
[ >
1
,
ya que X
n
+ Y
n
> x y [Y
n
[ implica X
n
+ Y
n
> x y Y
n
de
manera que sumando X
n
> x .
Tomando probabilidades resulta
F
X
n
(x
1
) F
X
n
+Y
n
(x) +P([Y
n
[ >
1
),
y pasando al lmite inferior, como x
1
es un punto de continuidad de F
X
se obtiene
F
X
(x
1
) lmF
X
n
+Y
n
(x).
Ademas, como
F
X
(x ) F
X
(x
1
),
resulta
F
X
(x ) lmF
X
n
+Y
n
(x) .
Luego tomando lmite cuando 0, y dado que F
X
es continua en x,
tenemos
F
X
(x) lmF
X
n
+Y
n
(x) . (11.49)
NOTAS DE PROBABILIDADES 237
De (11.48) y (11.49 se obtiene
lmF
X
n
+Y
n
(x) F
X
(x) lmF
X
n
+Y
n
(x) ,
y esto implica que
lm
n
F
X
n
+Y
n
(x) = F
X
(x) . 2
Teorema 11.20. Sea (X
n
)
n1
una sucesion de variables aleatorias y X
otra variable aleatoria tal que X
n

D
X . Si a es constante, entonces
X
n
+a
D
X +a.
Demostracion.
Tenemos
F
X
n
+a
(x) = P (X
n
+a x)
= P (X
n
x a)
= F
X
n
(x a) ,
y
F
X+a
(x) = P (X +a x)
= P (X x a)
= F
X
(x a) .
Por lo tanto si x es un punto de continuidad de F
X+a
entonces x a es
un punto de continuidad de F
X
de manera que aplicando la hipotesis y lo
anterior
lm
n+
F
X
n
+a
(x) = lm
n+
F
X
n
(x a)
= F
X
(x a)
= F
X+a
(x) . 2
Ahora estamos en condiciones de probar el teorema se Slutzky
Teorema 11.21. Sea (X
n
)
n1
una sucesion de variables aleatorias tal
que X
n

p
c, donde c es una constante. Luego si g es una funcion medible
continua en c, se tiene
Y
n
= g(X
n
)
p
g(c)..
Demostracion. Dado > 0 existe > 0 tal que [x c[ implica [g(x)
g(c)[ . Luego
[g(x) g(c)[ > [x c[ > ,
y tomando probabilidades y limites
lm
n
P([g(x) g(c)[ > ) lm
n
P([x c[ > ) = 0.
238 VICTOR J. YOHAI
Luego
lm
n
P([g(x) g(c)[ > ) = 0,
y el Teorema queda probado.2
Demostracion delTeorema 11.15.
(i) Podemos escribir
X
n
+Y
n
= (X
n
+c) + (Y
n
c) .
Sabemos por el Teorema 11.20 que
X
n
+c
D
X +c,
y
Y
n
c
P
0.
y aplicando el Teorema 11.19
X
n
+Y
n

D
X +c.
(ii) Escibimos el producto de la siguiente manera
X
n
Y
n
= cX
n
+ (Y
n
c) X
n
.
Sea
Z
n
= (Y
n
c) X
n
,
y
U
n
= cX
n
.
Por un lado sabemos que (Y
n
c)
P
0 y que (X
n
)
n1
esta uniforme-
mente acotada en probabilidad entonces aplicando el Teorema 11.18 se tiene
que
Z
n

P
0,
y aplicando el Teorema 11.16
U
n

D
cX.
Finalmente, aplicando el Teorema 11.19
X
n
Y
n
= U
n
+Z
n

D
cX.
(iii) Como c ,= 0 y la funcion g(y) = 1/y es continua en y = c, resulta
por Teorema 11.21 que
1
Y
n

P
1
c
.
Luego como
X
n
Y
n
=
_
1
Y
n
_
X
n
.
(iii) resulta aplicando (ii).
Ahora daremos una aplicacion de estos conceptos resolviendo el siguiente
problema de Estadstica
NOTAS DE PROBABILIDADES 239
11.7. Aplicacion a intervalos de conanza
Problema Sea X una variable aleatoria respecto de la cual desconoce-
mos su funcion de distribucion F. Por ejemplo, puede tratarse del peso
de una lata de arvejas que es una variable aleatoria que varia de lata en
lata. La distribucion de X no tiene porque ser normal. Supongamos que
= E (X) y
2
=Var(X) son parametros desconocidos de la variable que
dependen de F. (los parametros de poblacion). Se toma una muestra aleato-
ria de tama no n, y se obtienen las variables aleatorias X
1
, X
2
, ..., X
n
. Estas
variables sean independientes e identicamente distribuidas con distribucion
F..
Como por la ley fuerte de los grandes n umeros que X
n
c.s,
podemos tomar como estimacion del parametro el promedio aritmetico de
las muestras X
n

n
= X
n
.
Este valor para n grande estara proximo a la media verdadera , y el
error sera
E
n
= X
n
.
Una pregunta natural es para un valor de n determinado, tratar de acotar
el error E
n
con probabilidad alta.
Teniendo en cuenta que la varianza se dene
2
= E
_
X
2
_
[E (X)]
2
podemos estimar la varianza de la siguiente manera

2
n
=

n
i=1
X
2
i
n

(

n
i=1
X
i
)
2
n
.
Teniendo en cuenta la ley de los grandes n umeros se tendra que

n
i=1
X
2
i
n
E(X
2
) c.s.,
y

n
i=1
X
i
n
E(X) c.s..
Luego como el cuadrado es una funcion continua se tendra

2
n
E(X
2
) E
2
(X) =
2
c.s.
Por el Teorema Central del Lmite

n
X
n


D
N(0, 1) . (11.50)
Como sabemos que
n

P
, se tendra

P
1. (11.51)
240 VICTOR J. YOHAI
Luego teniendo en cuenta (11.50 ) y (11.51 ), y aplicando el teorema
de Slutzky resulta
Z
n
=

n
X
n


n
=

n
X
n

D
N(0, 1) .
Es decir, si se reemplaza por su estimador
n
en (11.50), la convergencia
en distribucion no cambia.
Ahora consideremos un valor , 0 < < 1 llamado nivel de signicacion;
generalmente se toma = 0, 01 ; = 0, 05. Buscamos en la tabla de la
distribucion normal un valor z
/2
tal que P(Z > /2) = /2 donde Z es una
variable N(0, 1). Luego por simetra tambien se tendra P
_
Z < z
/2
_
=

2
.
Ahora bien si Z
n

D
Z con Z N(0, 1) entonces tambien Z
n

D
Z.
Como Z tambien es N(0, 1) tenemos que para n grande
P
_
z
/2
Z
n
z
/2
_
1 ,
donde indica aproximadamente es decir
P
_
z
/2

n
X
n

n
z
/2
_
1 ,
y despejando
P
_
X
n

z
/2

n

n
X
n
+
z
/2

n

n
_
1 . (11.52)
Luego jando se se puede garantizar que se encuentra en el intervalo
_
X
n

z
/2

n

n
; X
n
+
z
/2

n

n
_
.
sea aproximadamente 1 . Este intervalo se llama intervalo de conanza.
Observese que hay dos parametros que pueden variar, el nivel de signi-
cacion y el tama no de la muestra n. Cuando decrece z
/2
aumenta y
consecuentemente aumenta la longitud intervalo de conanza. Como contra-
partida tambien aumenta la probabilidad que contenga a . En cambio cuan-
do n crece y se mantiene el constante, la longitud del intervalo decrece,
tendiendo a 0 cuando n tiende a innito.
Observese que otra manera de escribir (11.52) es como
P
_
[E
n
[
z
/2

n

n
_
1 .
Es decir, la tenemos acotado el error [E
n
[ por z
/2

n
/

n con probabilidad
aproximada 1 .
Veremos ahora un teorema de convergencia en distribucion muy util.
NOTAS DE PROBABILIDADES 241
En primer lugar recordemos que si (X
n
)
n1
es una sucesion de variables
aleatorias i.i.d entonces

n
X
n


D
N(0, 1)
o equivalentemente por el Lema 1

n
_
X
n

D
N
_
0,
2
_
.
Supongamos que g sea una funcion continua en . Parece natural pregun-
tarse si

n(g(X
n
) g()) converge en distribucion y en caso de respuesta
positiva a que distribucion. El siguiente Teorema responde esta pregunta.
Teorema 11.22. Sea (Y
n
)
n1
una sucesion de variables aleatorias y
(a
n
)
n1
una sucesion de n umeros reales tal que a
n
. Consideremos la
sucesion de variables aleatorias Z
n
= a
n
(Y
n
) y supongamos que Z
n

D
X. Sea g : R R una funcion g con derivada continua en un entorno de .
Entonces
(a)
W
n
= a
n
(g (Y
n
) g ())
D
g

() X.
(b) Si X N
_
0,
2
_
entonces g

() X N
_
0, [g

(u)]
2

2
_
.
Demostracion.
(a) Por el Teorema 11.17, la sucesion a
n
(Y
n
) esta uniformemente
acotada en probabilidad. Si consideramoa a la sucesion a
n

n1
de n umeros
reales como una sucesion de variables aleatorias constantes; es claro que
1
a
n

p
0.
Luego de acuerdo al lema Teorema 11.18
(Y
n
) =
1
a
n
(a
n
(Y
n
))
p
0,
o equivalentemente
Y
n

p
.
Como g es continua y derivable en un entorno de podemos aplicar el
Teorema del Valor Medio y encontrar un punto intermedio
n
entre Y
n
y
tal que
W
n
= a
n
g

(
n
) (Y
n
) .
Ademas como Y
n

p
resulta que tambien
n

p
. Por la continuidad
de g

y el Teorema 11.21 se tiene


g

(
n
)
p
g

() .
242 VICTOR J. YOHAI
Aplicando la parte (ii) del Teorema de Slutzky se obtiene
W
n
= g

(
n
) Z
n
g

() X.
(b) Se deduce de (a) pues si X N
_
0,
2
_
entonces g

() X N
_
0, [g

()]
2

2
_
. 2
Captulo 12
Procesos de Poisson.
12.1. Procesos de punto.
Supongamos que observan sucesos que ocurren en el tiempo en forma
aleatoria. Por ejemplo, los sucesos pueden ser la llegada de clientes a un ne-
gocio, llamadas telefonicas que llegan a una central, la emision de particulas
por cierto material radioactivo, etc.
Mas formalmente, para cada valor t 0, denominemos X (t) la cantidad
de sucesos que ocurrieron desde un instante inicial 0 hasta t. Luego supon-
dremos que para cada t, X (t) es una variable aleatoria que toma valores
enteros no negativos. Ademas tendremos naturalmente que X(0) = 0, y si
t
2
> t
1
, entonces X(t
2
) X(t
1
). Todas las variables aleatorias X(t), t 0
estaran denidas sobre un mismo espacio de probabilidad (, /, P), pero
como la construccion de este espacio es sumamente complicada no daremos
detalles sobre el mismo. Digamos solamente que un posible espacio muestral
puede estar dado por
= : R
0
N
0
; donde es no decreciente y
continua a derecha.
Luego X puede pensarse entonces dependiendo de t R
0
y
, X(t) = X (t, ) = (t)
Los procesos X (t) que miden la candidad de veces que ocurre un suceso
hasta el tiempo t, se denominan procesos de punto.
12.2. Axiomatica de los Procesos de Poisson
Los procesos de Poisson, son procesos de punto particulares que satis-
facen los siguientes cuatro axiomas.
A1. Homogeneidad.
243
244 VICTOR J. YOHAI
Supongamos que t
2
> t
1
0, t
4
> t
3
0 y ademas t
4
t
3
= t
2
t
1
.
Entonces las variables aleatorias
X (t
2
) X (t
1
) y X (t
4
) X (t
3
)
tienen la misma distribucion. Observando que X (t
2
) X (t
1
) es el n umero
de sucesos queocurrieron entre t
1
y t
2
,E=esto signica que la distribucion
del numero de sucesos ocurridos en en un perodo de tiempo, depende solo
de la longitud de ese perodo.
A2. Independencia.
Consideremos dos periodos de tiempo esencialmente disjuntos (a lo sumo
pueden tener en com un un punto) [t
1
, t
2
] , [t
3
, t
4
] , t
1
< t
2
t
3
< t
4
. Entonces
las variables aleatorias
X (t
2
) X (t
1
) y X (t
4
) X (t
3
)
son independientes. Esto signica que el n umero de sucesos que ocurre en
un perodo de tiempo de tiempo [t
1
, t
2
] es independiente del n umero de
sucesos que ocurre en el perodo [t
3
, t
4
], donde t
3
t
2
. Luego el hecho de
tener informacion sobre el n umero de sucesos del perodo [t
1
, t
2
] no puede ser
utilizada para predecir el n umero de sucesos del perodo [t
3
, t
4
]. Los periodos
considerados no tienen porque ser de igual longitud.
Los axiomas A3 y A4 son de caracter mas tecnico.
A3. Sea
g
1
(t) = P (X (t) = 1) ,
entonces
g

1
(0) = > 0,
es decir
lm
t0
P (X (t) = 1)
t
= > 0.
Esto es equivalente a que
P (X (t) = 1) = t +o
1
(t) , (12.1)
donde
lm
t0
o
1
(t)
t
= 0. (12.2)
A4.
lm
t0
P (X (t) > 1)
t
= 0,
o equivalentemente existe o
2
(t) tal que
P (X (t) > 1) = o
2
(t) , (12.3)
NOTAS DE PROBABILIDADES 245
donde o
2
satisface
lm
t0
o
2
(t)
t
= 0. (12.4)
Para modelar un proceso real como un proceso de Poisson se requiere de
la vericacion de este conjunto de axiomas. Existen muchas procesos reales
que no responden a este modelo.
12.3. Distribucion de un proceso de Poisson
El siguiente teorema caracteriza la distribucion de los procesos de Poisson
Teorema 12.1. Si X (t) es un proceso de punto que satisface A1, A2,
A3 y A4 entonces X (t) tiene distribucion de Poisson con parametro t, es
decir X (t) P (t) .
Demostracion.
Para cada n dividimos el intervalo [0, t] en n subintervalos de igual lon-
gitud que denominaremos I
n
i
, 1 i n. Mas precisamente consideramos la
particion regular del interval [0, t] con n + 1 puntos

n
= 0,
t
n
,
2t
n
, ...,
(n 1) t
n
, t.
Esta particion determina n subintervalos
I
n
i
=
_
(i 1) t
n
,
it
n
_
, 1 i n.
El n umero de sucesos que ocurre en I
n
i
es
V
n
i
= X
_
it
n
_
X
_
(i 1) t
n
_
.
Por A1, las variables V
n
i
, 1 i n, tienen la misma distribucion que
X(t/n) y por el axioma A2 son independientes.
Para cada i denimos el vector aleatorio
Z
n
i
= (Z
n
i1
, Z
n
i2
, Z
n
i3
)
donde
Z
n
i1
=
_
1 si V
n
i
= 0
0 si V
n
i
,= 0,
Z
n
i2
=
_
1 si V
n
i
= 1
0 si V
n
i
,= 1,
Z
n
i3
=
_
1 si V
n
i
> 1
0 si V
n
i
1.
246 VICTOR J. YOHAI
El suceso Z
n
i1
= 1 indica que en el intervalo I
n
i
no ocurrio ninig un suceso,
Z
n
i2
= 1 que ocurrio solo 1, y Z
n
i3
= 1 que ocurrio mas de uno. Es claro que
siempre ocurre una y solo una de esas tres posibilidades y por lo tanto
Z
n
i1
+Z
n
i1
+Z
n
i1
= 1.
Por otro la distribucion del vector Z
n
i
es multinomial, digamos con paramet-
ros de probabilidad p
1n
, p
2n
, p
3n
y para una unica repeticion. Luego
Z
n
i
M (p
1n
, p
2n
, p
3n
, 1) ,
donde
p
1n
= P
_
X
_
t
n
_
= 0
_
,
p
2n
= P
_
X
_
t
n
_
= 1
_
,
p
3n
= P
_
X
_
t
n
_
> 1
_
.
Usando (12.2) y (12.3) resulta
p
2n
=
t
n
+o
1
_
t
n
_
, (12.5)
y
p
3n
= o
2
_
t
n
_
. (12.6)
Finalmente
p
1n
= 1 p
2n
p
3n
(12.7)
= 1
t
n
o
1
_
t
n
_
o
2
_
t
n
_
1
t
n
o
3
_
t
n
_
, (12.8)
donde
o
3
(t ) = o
1
(t ) +o
2
( t) .
Claramente, de (12.2) y (12.3) resulta
lm
t0
o
3
(t)
t
= 0. (12.9)
Como las variables V
n
i
, 1 i n son undependientes, y como el vector
Z
n
i
depende solo de V
i
, los vectores Z
n
i
, 1 i n tambien son independi-
entes.
NOTAS DE PROBABILIDADES 247
Ahora denimos las variables
Y
n
1
=
n

i=1
Z
n
i1
,
Y
n
2
=
n

i=1
Z
n
i2
,
Y
n
3
=
n

i=1
Z
n
i3
.
Claramente Y
n
1
es el n umero de intervalos en los que no ocurre ning un
suceso, Y
n
2
el n umero en los que ocurre exactamente uno e Y
n
3
el n umero
en los que ocurren mas de un suceso. Luego, la distribucion del vector Y
n
=
(Y
n
1
, Y
n
2
, Y
n
3
) es multinomial con parametros de probabilidad p
1n
, p
2n
, p
y3
y n repeticiones. Por lo tanto podemos escribir
Y
n
= (Y
n
1
, Y
n
2
, Y
n
3
) M (p
1n
, p
2n
, p
3n
, n) .
Sea A
n
el evento en ning un intervalo ocurre mas de un suceso . Es
decir
A
n
= Y
n
3
= 0.
Veremos que
lm
n
P (A
n
) = 1.
o equivamentemente
lm
n
P (A
c
n
) = 0.
Observemos que
A
c
n
=
n
_
i=1
Z
n
i3
= 1,
pues si en alg un intervalo ocurre el suceso mas de una vez entonces existe
alg un i tal que la variable Z
n
i3
= 1 y recprocamente.
Luego, como P(Z
n
i3
= 1) = p
3n
, usando (12.6) resulta
P (A
c
n
) = P
_
n
_
i=1
Z
n
i3
= 1
_

i=1
P (Z
n
i3
= 1) = np
3n
= no
2
_
t
n
_
.
248 VICTOR J. YOHAI
Como t/n 0, por (12.4) resulta
lm
n
P (A
c
n
) = lm
n
_
o
2
_
t
n
_
t
n
t
_
= t lm
n
_
o
2
_
t
n
_
t
n
_
0. (12.10)
Calculemos ahora la probabilidad de que hasta el momento t hayan ocur-
rido k sucesos. Tenemos
P (X (t) = k) = P (X (t) = k A
n
) +P (X (t) = k A
c
n
) .
Pasando al lmite y teniendo en cuenta (12.10) resulta
lm
n+
P
_
X (t) = k

A
c
n
_
= 0,
y entonces
P (X (t) = k) = lm
n+
P (X (t) = k A
n
) .
Pero es claro que el evento X (t) = k A
n
se caracteriza por
X (t) = k A
n
= Y
n
1
= n k, Y
n
2
= k, Y
n
3
= 0,
y luego
P (X (t) = k) = lm
n+
PY
n
1
= n k, Y
n
2
= k, Y
n
3
= 0.
Teniendo en cuenta que la ditribucion del vector Y
n
es M (p
1n
, p
2n
, p
3n
, n) ,
obtenemos
P (X (t) = k) = lm
n+
n!
(n k)!k!
p
nk
1n
p
k
2n
p
0
3n
=
1
k!
lm
n+
_
k

i=1
(n i + 1)
_
.
_
1
t
n
+o
1
_
t
n
__
nk
_

t
n
+o
2
_
t
n
__
k
Como
_

t
n
+o
2
_
t
n
__
k
=
1
n
k
_
t +no
2
_
t
n
__
k
,
tenemos
P (X (t) = k) =
1
k!
lm
n+
_
k

i=1
(n i + 1)
n
_
.
_
1
t
n
+no
1
_
t
n
__
nk
_
t +no
2
_
t
n
__
k
,
NOTAS DE PROBABILIDADES 249
o bien
P (X (t) = k) =
1
k!
lm
n
B
n
C
n
D
n
E
n
, (12.11)
donde
B
n
=
k

i=1
n i + 1
n
C
n
=
_
1
t
n
+o
1
_
t
n
__
n
D
n
=
_
1
t
n
+o
1
_
t
n
__
k
E
n
=
_
t +no
2
_
t
n
__
k
.
Comencemos calculando el lmite de B
n
lm
n+
B
n
= lm
n+
k

i=1
n i + 1
n
=
k

i=1
_
lm
n+
n i + 1
n
_
k

i=1
_
1 lm
n+
_
i 1
n
__
= 1
k
(12.12)
= 1. (12.13)
El lmite de C
n
se piede calcular de la siguiente manera
lm
n+
C
n
= lm
n+
_
1
t
n
+o
1
_
t
n
__
n
= lm
n+
_
1
1
n
_
t no
1
_
t
n
___
n
= lm
n+
_
1
a
n
n
_
n
.
donde
a
n
= t no
1
_
t
n
_
.
Como en (12.10 se puede demostrar que
lm
n
no
1
_
t
n
_
= 0,
250 VICTOR J. YOHAI
y entonces resulta
lm
n+
a
n
= t.
Por lo tanto
lm
n+
C
n
= lm
n+
_
1
a
n
n
_
n
= exp
_
lm
n
a
n
_
= exp(t) . (12.14)
Por otro lado, como t/n 0 y o
1
(t/n) 0, resulta
lm
n+
D
n
= lm
n+
_
1
t
n
+o
1
_
t
n
__
k
= 1
k
1. (12.15)
Finalmente, como lm
n+
no
2
(t/n) = 0, resulta
lm
n+
E
n
= lm
n+
_
t +no
2
_
t
n
__
k
= (t)
k
. (12.16)
Usando (12.11), (12.12, (12.14), (12.15) y (12.16) obtenemos
P (X (t) = k) = exp(t)
(t)
k
k!
.
Esto prueba que X (t) P (t) .2
12.4. Tiempos de espera
Sea T
1
la variable aleatoria denida como el tiempo necesario hasta que
ocurra el primer suceso . Calcularemos ahora su distribucion.
Teorema 12.2. T
1
tiene distribucion exponencial con parametro t
(E(t)).
Demostracion.
F
T
1
(t) = P (T
1
t)
= P (X (t) > 0)
= 1 P (X (t) = 0)
= 1 exp(t) .
NOTAS DE PROBABILIDADES 251
Luego T
1
E () .2
Otro problema de interes es la distribucion de los tiempos sucesivos de
ocurrencia de los sucesos. Denamos T
2
ecomo el tiempo de espera hasta
que ocurra el segundo suceso entonces T
2
T
1
tiene la misma distribucion
que T
1
. No daremos una demostracion formal de este hecho. Heurstica-
mente, este resultado puede justicarse de la siguiente manera. T
2
T
1
es el
tiempo de espera para el primero suceso luego del instante T
1
. Como por A1
el proceso es homogeneo, este tiempo de espera debera tener la misma dis-
tribucion que T
1
. Ademas por A2, T
1
esta determinado por X(t) con t t
1
y T
2
T
1
por X(t), t > T
1
, resulta que T
1
es independiente de T
2
T
1
.
Denamos ahora T
i
como el tiempo de espera para que ocurran i suce-
sos. Luego, un argumento similir puede aplicarse, y tendremos el siguiente
Teorema que enunciaremos sin demostracion.
Teorema 12.3. Las variables aleatorias T
1
, T
2
T
1
, T
3
T
2
, ..., T
i

T
i1
, ... son i. i. d. con distribucion E().
Corolario. El tiempo de espera T
i
tiene distribucion (i, ).
Demostracion.
Podemos escribir a la variable T
i
como una suma telescopica
T
i
= T
1
+ (T
2
T
1
) + (T
3
T
2
) +... + (T
i
T
i1
) .
Recordando que E () = (1, ) y teniendo en cuenta que T
i
una suma
de variables independientes todas (1, ) resulta que T
i
(i, ) . 2
12.5. Procesos de Poisson en el plano
Los procesos de Poisson se puede generalizar al plano. No vamos a de-
scribir estos procesos con detalle, pero daremos una breve presentacion. Un
ejemplo de este tipo de procesos podra ser los que representan la ubicacion
de los arboles en un bosque.
Consideramos ahora el plano en vez de la recta. Supongamos que
en ciertos puntos del plano ocurren sucesos en forma aleatoria, como por
ejemplo la presencia de un arbol. Luego para cada boreleano B del plano
tendremos la variable aleatoria X(B) que representa la cantidad de sucesos
que han ocurrido en B (por ejemplo, la cantidad de arboles). Los axiomas
de un proceso de Poisson en el plano son los siguientes
AP1. Homogeneidad.
Dado un boreliano, notemos con A su area. Supongamos que B
1
B
2

B
2
son boreleanos del plano tal que A(B
1
) = A(B
2
) entonces las variables
aleatorias
X (B
1
) y X (B
2
)
tienen la misma distribucion. Esto dice que la distribucion del numero de
sucesos que ocurre en una region del plano solo depende de su area.
252 VICTOR J. YOHAI
AP2. Independencia.
Consideremos dos borelianos del plano esencialmente disjuntos B
1
, B
2

B
2
, es decir tal que A(B
1
B
2
) = 0. Entonces las variables aleatorias
X (B
1
) y X (B
2
) son independientes. Esto signica que cuando las regiones
B
1
y B
2
tienen area en com un igual a 0, entonces la informacion de lo que
ocurre en una region B
1
no contiene ninguna informacion respecto de lo que
ocurre en la region B
2
.
AP3.
lm
A(B)0
P (X (B) = 1)
A(B)
= > 0,
o bien
P (X (B) = 1) = A(B) +o
1
(A(B)) .
AP4.
lm
A(B)0
P (X (B) > 1)
A(B)
= 0,
o equivalentemente existe o
2
(t) tal que
P (X (B) > 1) = o
2
(A(B)) .
El siguiente Teorema se demustra de manera totalmente analoga al cor-
respondiente para procesos de Poisson en la recta.
Teorema 12.4. Si X (B) es un proceso que satisface AP1, AP2, AP3 y
AP4 entonces la distribucion de X (B) es Poisson con parametro A(B) , X (B)
P (A(B)) .
Supongamos que se elija un punto cualquiera del plano (x
0
, y
0
), y sea D
1
la distancia al punto mas cercano donde ocurre un suceso (en el ejemplo,
sera la distancia al arbol mas proximo) , D
2
al punto donde ocurre segundo
suceso mas proximo,....,D
i
al punto donde ocurre el i-esimo suceso mas
proximo
El siguiente Teorema nos da la distribucion de D
2
1
Teorema 12.5. La distribucion de D
2
1
es E().
Demostracion.
Sea d > 0 y sea C el crculo con centro en (x
0
, y
0
) y radio d
1/2
. Decir
que D
1
d
1/2
es lo mismo que decir que en C ocurrio alg un suceso. Luego
D
2
1
d = D
1
d
1/2

= X(C) > 0
= X(C) = 0
c
NOTAS DE PROBABILIDADES 253
Luego tomando probabilidades y teniendo en cuenta que A(C) = d
P(D
2
1
d) = 1 P(X(C) = 0)
= 1 exp(A(C))
= 1 exp(d)
y por lo tanto D
2
1
tiene distribucion E().
El siguiente Teorema del cual no se dara demostracion es analogo al
correspondiente Teorema para procesos de Poisson en la recta.
Teorema 12.6. Las variables aleatorias D
2
1
, D
2
2
D
2
1
, D
2
3
D
2
2
, ..., D
2
i

D
2
i1
, ... son i. i. d. con distribucion E().
Como corolario tendremos
Corolario. La variale aleatoria D
2
i
tiene distribucion (i, ).

Anda mungkin juga menyukai