Anda di halaman 1dari 34

qwertyuiopasdfghjklzxcvbnmqwerty

uiopasdfghjklzxcvbnmqwertyuiopasd
 

fghjklzxcvbnmqwertyuiopasdfghjklzx
 

cvbnmqwertyuiopasdfghjklzxcvbnmq
Apuntes de clases del Prof. Emilio 
wertyuiopasdfghjklzxcvbnmqwertyui
Ramón Ortiz Trepowski 
 
Estadística II Facultad Politécnica UNA
opasdfghjklzxcvbnmqwertyuiopasdfg
 
Abril/2010 
 
 

hjklzxcvbnmqwertyuiopasdfghjklzxc
 

vbnmqwertyuiopasdfghjklzxcvbnmq
 

wertyuiopasdfghjlzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmqwertyuiopasdfghjklzxcv
bnmqwertyuiopasdfghjklzxcvbnmqw
ertyuiopasdfghjklzxcvbnmqwertyuio
pasdfghjklzxcvbnmqwertyuiopasdfgh
jklzxcvbnmrtyuiopasdfghjklzxcvbnm
qwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasd

 
Un Camino para Pensar en Probabilidad 

Capítulo 2 

Espacios muestrales, puntos muestrales, y eventos 

El punto inicial de una investigación es típicamente un experimento que podría ser tan simple 
como tirar un par de dados o tan complicado como conducir una encuesta de familias o firmas. 
Un experimento es un experimento aleatorio si satisface las siguientes condiciones: (1) todos 
los  posibles  y  distintos  resultados  son  conocidos  antes  de  que  ocurra  el  experimento,  de 
antemano;  (2)  el  resultado  específico  de  un  intento  no  es  conocido  de  antemano;  y  (3)  el 
experimento puede ser duplicado, en principio, bajo condiciones ideales. La totalidad de todos 
los  posibles  resultados  de  un  experimento  es  conocido  como  el  espacio  muestral  (denotado 
por  S )  y  sus  elementos  individuales  distintos  son  llamados  puntos  muestrales  o  eventos 
elementales. Así, cuando una moneda es arrojada dos veces, el espacio muestral (denotando 
la ocurrencia de cara con C y cruz con +) consiste de cuatro puntos muestrales CC, C+, +C y ++, 

esto es,  S = {CC , C +, +C , + +} .  

Un evento es un subconjunto de un espacio muestral y es un conjunto de puntos muestrales 
que representan varios posibles resultados de un experimento. Por ejemplo, cuando se arroja 
un par de dados, “la suma total de puntos igual a 9” es un evento representado por  los puntos 

muestrales  ( 3, 6 ) , ( 4,5 ) , ( 5, 4 ) y ( 6,3) , donde  el  primer  número  es  el  resultado  del  primer 

dado  y  el  segundo  número  es  el  resultado  del  segundo  dado.  El  evento  imposible  o  evento 
nulo  se  denota  por  ∅ .  Un  espacio  muestral  con  puntos  muestrales  finitos  o  contables  (con 
una correspondencia uno a uno con los enteros positivos) es llamado un espacio discreto. Un 
ejemplo  de  estos  espacios  muestrales  discretos  es  el  conjunto  de  36  puntos  muestrales  que 
resultan al arrojar dos dados. Un espacio continuo es uno con un número infinito no contable 
de puntos muestrales (esto es, tienen tantos elementos como números reales hay). Cuando se 
miden con exactitud, los posibles valores de la altura de una persona, la temperatura en una 
pieza, etc., son ejemplos de espacios continuos. 

  2
 
En  la  figura  2.1,  arrojando  una  moneda  dos  veces  es  representada  por  los  cuatro  puntos 

muestrales  ( 0, 0 ) , ( 0,1) , (1, 0 )   y  (1,1) ,  donde  1  se  refiere  a  cara  y  0  a  cruz.  Esta 

representación  gráfica  recibe  el  nombre  de  diagrama  de  Venn,  y  es  un  conveniente 
instrumento de análisis. 

Problemas de práctica. 

2.1. Si un par de dados son lanzados juntos, los resultados son de la forma  (1,1) , (1, 2 )  y así 

sucesivamente. Use un diagrama de Venn para representar el espacio muestral y los eventos 
“total de puntos es igual a 5” y “total de puntos es 10”. 

2.2. Una moneda es arrojada tres veces. Represente el espacio muestral y el evento “al menos 
dos caras.” 

Algunos Resultados de la Teoría de Conjuntos 

Definición 2.1. 

El  espacio  muestral  es  denotado  por  S . A = S implica  que  los  eventos  en  A deben  siempre 
ocurrir.  El  conjunto  vacío  es  un  conjunto  que  no  contiene  elementos  y  es  denotado  por  ∅ . 
A = ∅ implica que los eventos en  A no ocurren. 

El conjunto de todos los elementos que no están en  A es llamado el complemento de  A y está 

denotado por  Ac . Así,  Ac ocurre si y sólo si  A no ocurre. A veces  Ac S − A.  

El conjunto de todos los puntos que están en el conjunto  A o en el conjunto  B o en ambos es 


llamado la unión de los dos conjuntos y es denotado por  ∪. A ∪ B significa que el evento  A o 

el evento  B o ambos ocurre. Notemos que  A ∪ Ac = S .  

  3
 
El  conjunto  de  todos  los  elementos  que  están  en  A y  en  B al  mismo  tiempo  es  llamado  la 
intersección  de  ambos  conjuntos  y  está  representado  por  ∩. A ∩ B significa  que  ambos 
eventos  A y  B ocurren simultáneamente. 

A ∩ B = ∅ implica  que  A y  B no  pueden  ocurrir  simultáneamente.  A y  B se  dice  entonces 


que son disjuntos o mutuamente excluyentes. Notemos que  A ∩ Ac = ∅.  

A ⊂ B significa  que  A está  contenido  en  B o  que  A es  un  subconjunto  de  B, esto  es,  cada 
elemento de  A es un elemento de  B. En otras palabras, si un evento  A ha ocurrido, entonces 
B debe también haber ocurrido. 

Ejemplo 2.1. 

Tire una moneda dos veces. El espacio muestral es  S = {CC , C +, +C , + +} .  

A = exactamente una cara:  ( C +, +C ) .  

B = al menos una +: ( +C , C +, + + ) .  

A ∪ B = ( C +, +C , + + ) .  Notemos que  A ⊂ B.  

A ∩ B = ( C +, +C ) = A.  

A veces es útil dividir los elementos del conjunto  A es varios subconjuntos que son disjuntos. 
Tal  división  es  conocida  como  una  partición.  Si  A1   y  A2 son  tales  particiones,  entonces 

A1 ∩ A2 = ∅   y  A1 ∪ A2 = A.   Esto  puede  ser  generalizado  a  n   particiones;  A = ∪1n Ai con 

Ai ∩ Aj = ∅  para  i ≠ j.  

  4
 
Álgebra Booleana 

Las operaciones con conjuntos de unión, intersección y complementación satisfacen un cierto 
número de postulados que se enumeran más abajo. 

Identidad.  

Existen los conjuntos únicos  ∅ y  S tal que, para cada conjunto  A, A ∩ S = A y  A ∪ ∅ = A.  

Complementación. 

Para cada  A podemos definir un conjunto único  Ac tal que  A ∩ Ac = ∅ y  A ∪ Ac = S .  

Cerradura. 

Para cada par de conjuntos  A y  B , podemos definir conjuntos únicos  A ∪ B y  A ∩ B.  

Commutatividad. 

A ∪ B = B ∪ A; A ∩ B = B ∩ A.  

Asociatividad. 

( A ∪ B) ∪ C = A ∪ ( B ∪ C ). 

Distributividad. 

A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ). 

También,  A ∪ ( B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ C ) .  

Problemas de práctica. 

2.3. Use diagramas de Venn para verificar los siguiente (conocidas como leyes de Morgan): 

a)  ( A ∪ B ) = Ac ∩ B c .  Esto puede ser extendido a:  ⎡⎣ ∪ii=∞


c
⎤ i =∞ c
=1 Ai ⎦ = ∩ i =1 Ai .  
c

b)  ( A ∩ B ) = Ac ∪ B c .  Esto puede ser extendido a:  ⎡⎣ ∩ii=∞


c
⎤ i =∞ c
=1 Ai ⎦ = ∪ i =1 Ai .  
c

  5
 
2.4. Verifique usando diagramas de Venn  

A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ). 

Campos Borel y campos σ  

Es claro partiendo del estudio de las operaciones de conjuntos que mediante la combinación 
de conjuntos (o eventos) obtenemos otros conjuntos (o eventos). Para estar seguros de que si 
de cualquier manera combinamos eventos, el resultado es siempre otro evento, es esencial 
imponer alguna estructura matemática sobre el conjunto de todos los eventos (llamado campo 
y denotado por  F ) . De otra manera, la atribución de probabilidades a eventos puede algunas 

veces no tener sentido. Los conjuntos que tienen la estructura matemática requerida son 
conocidos como campos  σ ( o también como algebras  σ ) asociados con  S .  

Definición 2.2. 

Sea  F un conjunto no‐vacío de subconjuntos de  S que es también no‐vacío.  F se dice que es 


un campo  σ si las siguientes dos condiciones se dan: 

(1) si  A ∈ F , entonces  Ac ∈ F ,  

(2) si  Ai ∈ F  para  i = 1, 2,..., entonces  ⎡⎣ ∪ii=∞ ⎤


=1 Ai ⎦ ∈ F .  

La primera condición implica cerradura bajo la complementación (esto es que  Ac esté también 
en el campo) y la segunda condición implica cerradura bajo la unión contable. 

Ciertas propiedades simples son fácilmente derivadas de estas definición. 

Teorema 2.1. 

  6
 
La definición 2.2. implica lo siguiente: (1)  S ∈ F , (2)  ∅ ∈ F , y (3) si  Ai ∈ F para 

i = 1, 2,..., entonces  ⎡⎣ ∩ii=∞ ⎤


=1 Ai ⎦ ∈ F .  

Prueba: La primera propiedad sigue del hecho de que  A y  Ac estando en  F implica que 

S = A ∪ Ac está también en  F .  También,  ∅ = S c ∈ F .  

Finalmente, por la ley de Morgan: 

c
  ∩ii=∞ ⎡ i =∞ c ⎤
=1 Ai = ⎣ ∪ i =1 Ai ⎦  

la que, por definición 2.2., es un miembro de  F , estableciendo la última parte (3) del 

Teorema. 

Sigue de lo que se expuso más arriba que un campo  σ es un conjunto de subconjuntos de 
S que es cerrado bajo la complementación, la unión contable, y las intersecciones contables. 
También notemos que el más pequeño de los campos  σ es  ( S , σ ) .  

Se puede también chequear que el conjunto potencia, que está formado por todos los 
subconjuntos de  S , es ciertamente un campo  σ .  

Ejemplo 2.3. 

En el experimento de arrojar dos monedas del ejemplo 2.1., consideremos el conjunto 

A = {S , ∅, CC , ( C +, +C , + + )}.  Es fácilmente verificable que  A es un campo  σ . Sin 

embargo, el conjunto  B = {C +, +C} no es un campo  σ porque no contiene a  S , ∅ ó a 

⎡⎣( C +, +C ) ⎤⎦ .  
c

Lo que se puede hacer en el caso que partamos de  B es construir el mínimo campo 
σ generado por sus elementos. Esto puede ser alcanzado mediante la extensión de  B para 
incluir todos los eventos generados por las operaciones teóricas de conjuntos (uniones, 
intersecciones y complementaciones) sobre los elementos de  B.  Entonces el mínimo campo 

σ generado por  B es  FB = {S , ∅, {( C + ) , ( +C )} , {( CC ) , ( + + )}}  y lo denotamos por 

FB = σ ( B ) .  

  7
 
 

Esta forma de construir un campo  σ puede ser muy útil en los casos en los que los eventos de 
interés son menores que los que están dados por el conjunto potencia en el caso de un 
conjunto finito  S .  Por ejemplo, si estamos interesados en eventos con uno de cada C ó + no 
hay necesidad en definir el campo  σ para que sea el conjunto potencia, y  FB puede ser tan 

bueno para este trabajo con la ventaja que tiene menos eventos para atribuirles 
probabilidades. La utilidad de este método de construir campos  σ es mucho mayor en los 
casos en donde  S es infinito o incontable; en tales casos el método es indispensable. 

Problema de práctica 

2.5. En el ejemplo 2.1., construya el conjunto de poder asociado con  S , esto es, el conjunto de 
todos los subconjuntos de  S , y verifique que es un campo  σ .  

Ejemplo 2.4. 

En algunas situaciones, podemos tener más que un campo  σ asociado con un espacio 
muestral. Para ilustrar, supongamos que  x se refiere al ingreso anual de los hogares en una 
cierta población y que  x1 , x2 ,..., xN son los valores reales de los  N hogares en la población. 

Podemos formar diferentes subconjuntos de esta población agrupándolos alternativamente en 
intervalos de $5.000 ó $10.000.  

Campos Borel 

Consideremos el ejemplo donde  S es incontable y discutamos la construcción de un campo 
σ mínimo. 

En la teoría de la probabilidad, la utilidad de un campo  σ será evidente cuando lo 

construyamos para la línea real  R = { x : −∞ < x < ∞} .  Consideremos el conjunto 

  8
 
Ax = { z : z ≤ x} = ( −∞, x ] .  El conjunto complementario es  Axc = { z : z ∈ R y z > x} .  Para 

diferentes valores de  x,   Ax  y  Axc constituye una familia de conjuntos (y pertenecen a una 

clase más amplia conocida como conjuntos Borel). Empezando desde  Ax , si tomamos uniones 

contables e intersecciones de  Ax  y  Axc , podemos obtener un campo  σ sobre  R.  Tal campo 

σ es llamado un campo Borel (y denotado por  B).  

Esto nos enseña como podemos construir un campo  σ sobre  R . Sea  S la línea real 

R = { x : −∞ < x < ∞}  y el conjunto de eventos de interés sea  

  J = { Ax : x ∈ R} donde Ax = { z : z ≤ x} = ( −∞, x ] .  

La definición de campo  σ sugiere que si empezamos con los eventos  Ax ,  x ∈ R luego 

extendemos este conjunto para incluir  Axc y tomamos uniones contables de  Ax y de 

Axc debemos ser hábiles para definir un campo  σ sobre  R, σ ( J ) ‐ el mínimo campo 

σ gnerado por los eventos  Ax , x ∈ R.  Por definición  Ax ∈ σ ( J ) .  Si tomamos complementos 

de   Ax : Axc = { z : z ∈ R, z > x} = ( x, ∞ ) ∈ σ ( J ) .  Tomando uniones contables de 

Ax : ∪∞i =1 ( −∞, x − 1 n ] = ( −∞, x ) ∈ σ ( J ) .  Esto implica que  σ ( J ) es ciertamente un campo 

σ . Para mostrar que tan grande una colección  σ ( J ) es realmente podemos mostrar que los 

eventos de la forma  ( x, ∞ ) , [ x, ∞ ) , ( x, z ) para x < z , y { x} también pertenecen a  σ ( J ) , 

usando las operaciones teóricas como sigue: 

( x, ∞ ) = {( −∞, x ]} ∈ σ ( J ) ,
c

[ x, ∞ ) = {( −∞, x )} ∈ σ ( J ) ,
c

   
( x, z ) = {( −∞, x ] ∪ [ z, ∞ )} ∈ σ ( J ) ,
c

{ x} = ∩∞n=1 ( x, x − 1 n] ∈ σ ( J ) .
Esto muestra que no sólo que  σ ( J ) es un campo  σ sino que incluye casi cada subconjunto (o 

evento) concebible de  R, esto es, coincide con el campo  σ generado por cualquier conjunto 

de subconjuntos de  R , lo que nosotros denotamos por  B , esto es  σ ( J ) = B.  El campo 

  9
 
σ B desempeñará un papel muy importante en lo que sigue: le llamamos el campo Borel 
sobre  R.  

Problemas de práctica 

2.6. Verifique que para  x < z , el intervalo  ( x, z ] es un miembro de  B mediante la expresión 

del intervalo dado en términos del  Ax definido más arriba. 

Digamos que  

Az = {w : w ≤ z} = {( −∞, z ]}
Azc = {w : w ∈ R y w > z}
  Ax = {w : w ≤ x} = {( −∞, x ]}  
Axc = {w : w ∈ R y w > x}
( x, z ] = Axc ∩ Az

(
2.7. Sea  An ( x ) = x, x + (1 n ) ⎤⎦ .  ¿Cuál es el conjunto  B = ∩ ni==∞
1 An ( x ) ? ¿Es  B ∈ B ? 

Digamos que 

A1 ( x ) = ( x, x + 1 1]
   
A2 ( x ) = ( x, x + 1 2]

y así sucesivamente.  ∅ . Sí es. 

Espacios Medibles 

Caracterizando los atributos de un conjunto o de un espacio, a menudo queremos encontrar 
medidas numéricamente cuantificables. Por ejemplo, correspondiendo al conjunto 

A supongamos que definimos una función de conjunto  μ ( A ) que es simplemente el número 

de elementos en  A si el número es finito y  +∞ en otro caso. Esta es una medida de conteo y 


es un caso especial de las medidas en general. Formalmente, una medida una función de 
conjunto no negativa y contablemente aditiva  μ definida sobre un  F que tiene las siguientes 

propiedades: 

  10
 
(1)  μ ( A ) ≥ μ ( ∅ ) = 0  para todo  A ∈ F .  

(2) si  Ai ∈ F son conjuntos disjuntos (esto es que,  Ai ∩ Aj = ∅ para todo  i ≠ j ), entonces 

μ ( ∪1n Ai ) = ∑ i μ ( Ai ).  

Así,  μ : F → R. Un caso especial de tal medida que tiene la propiedad de que  μ ( S ) = 1 es 

llamado una medida de probabilidad. Otro ejemplo de una medida es la longitud de un 

intervalo real. Es llamado la medida de Lebesgue  ( λ )  y está definido sobre un campo Borel 

como 

  λ {( a, b )} = b − a para todo a < b.  

El par  ( μ , F ) es conocido como un espacio medible, esto es, un espacio en el cual una medida 

puede ser asignada. 

Probabilidad: Definiciones y Conceptos 

La probabilidad de un evento está definida en varias formas, todas ellas útiles para calcular 
probabilidades. 

Definición 2.3. (Definición Axiomática) 

La probabilidad de un evento  A ∈ F es un número real tal que 

(1)  P ( A ) ≥ 0  para  A ∈ F ,  

(2) la probabilidad de todo el espacio muestral  S es 1, que es,  P ( S ) = 1,  y 

(3) si  A1 , A2 ,..., An son eventos mutuamente excluyentes (que es,  Ai ∩ Aj = ∅  para todo 

i ≠ j ) , entonces  P ( A1 ∪ A2 ∪ ... An ) = ∑ i P ( Ai ), y esto se mantiene para  n = ∞ también. 

  11
 
 

El triplete  ( S , F , P ) se conoce como el espacio de probabilidad y  P es una medida de 

probabilidad. Se puede notar inmediatamente que  P (.) es simplemente una función que 

mapea elementos en  F al intervalo unitario  [ 0,1] .  

A pesar de que la definición axiomática de probabilidad es rigurosa, directamente no nos dice 
como asignar las probabilidades a eventos elementales. Esto es obtenido por dos otras 
definiciones. Todas las tres definiciones son usadas para calcular probabilidades de varios 
eventos. 

Definición 2.4. (Definición Clásica) 

Si un experimento tiene  n ( n < ∞ ) mutuamente excluyentes y resultados igualmente 

probables, y si  nA de estos resultados tienen un atributo  A (esto es, el evento  A ocurre en 

nA diferentes formas), entonces la probabilidad de  A es  nA n, denotado como  P ( A ) = nA n.  

Como un ejemplo, consideremos el experimento de arrojar un par de dados. El espacio 

muestral consiste de 36 puntos muestrales:  (1,1) , (1, 2 ) ,..., ( 6, 6 ) .  Cada una de ellas es 

igualmente probable y por lo tanto la probabilidad de cada uno de estos resultados es 
1 36. Luego consideremos el evento  A, ”el resultado total es 5.” Esto puede ocurrir en las 

cuatro siguientes formas mutuamente excluyentes,  (1, 4 ) , ( 2,3) , ( 3, 2 )  y  ( 4,1) .  Por lo tanto 

P ( A ) = 4 36.  

Definición 2.5. 

Sea  nA el número de veces que el evento  A ocurre en  n intentos de un experimento. Si existe 

un número real  p tal que  p = lim ( nA n ) , entonces  p es llamada la probabilidad de  A y es 


n →∞

denotada como  P ( A ) .  

  12
 
Así, la probabilidad de un evento es su frecuencia límite cuando un experimento es repetido 
indefinidamente. En la práctica, sin embargo, no es posible repetir un experimento un número 
infinito de veces. La utilidad de esta definición es, por lo tanto, cuando el número de 
observaciones es grande. Como una ilustración, la tabla 2.1 tiene la distribución del ingreso de 
los hogares de los Estados Unidos en 1987 (conocida como la distribución de frecuencias). 
Supongamos que podemos formar intervalos de ingreso desde 0‐4.999, 5.000‐9.999 y así 
sucesivamente, y calcular la fracción de los hogares que caen en cada intervalo. El porcentaje 
de hogares que caen en el grupo 40.000‐49.999 puede ser considerado como la probabilidad 
de que una familia que es elegida aleatoriamente tendrá un ingreso en ese intervalo. Con los 
porcentajes y los puntos medios de cada intervalo se construye un histograma. 

Ejemplo 2.5. 

En el experimento de arrojar una moneda dos veces, el espacio muestral 

S = {CC , +C , C +, + +} .  Podemos construir un campo  σ mediante la selección de los 

resultados uno o dos por vez, obteniendo sus complementos, e incluyendo los conjuntos  ∅  y 
S . Uno de tales campos  σ es 
F = {∅, S , ( + + ) , ( +C , C +, CC ) , ( CC ) , ( ++, +C , C + ) , ( +C , C + ) , ( ++, CC )}.  Es fácil 

verificar que las correspondientes probabilidades de los elementos de  F son 

( 0,1,1 4,3 4,1 4,3 4,1 2,1 2 ) .  El triplete  ( S , F , P ) es un espacio de probabilidad para este 


ejemplo. 

Probabilidad Subjetiva 

En muchas ocasiones, los individuos usan juicios personales para evaluar la relativa 
probabilidad de varios resultados. En la inferencia estadística, la practicalidad de este enfoque 
se deriva de usar creencias previas o nueva información para actualizar la especificación del 
modelo previo (actualización Bayesiana). 

La definición axiomática de la probabilidad nos capacita para derivar un cierto número de 
propiedades de la probabilidad, y estas se discuten a continuación. 

  13
 
 

Teorema 2.2. 

P ( Ac ) = 1 − P ( A ) .  

Prueba. 

A ∪ Ac = S y  A ∩ Ac = ∅ . Por los axiomas dos y tres,  P ( A ) + P ( Ac ) = P ( S ) ;  

P ( A ) + P ( Ac ) = 1.  Por lo tanto,  P ( Ac ) = 1 − P ( A ) .  

Teorema 2.3. 

P ( A ) ≤ 1.  

Prueba. 

P ( Ac ) ≥ 1  por el primer axioma. Desde esto y el teorema 2.2.,  P ( A ) ≤ 1.  

Teorema 2.4. 

P ( ∅ ) = 0.  

Prueba. 

S c = ∅. P ( S ∪ ∅ ) = 1 = P ( S ) + P ( ∅ ) , lo que implica que  P ( ∅ ) = 0.  

Teorema 2.5.  

Si  A ⊂ B, entonces la  P ( A ) ≤ P ( B ) .  

Prueba. 

( )
Si  A ⊂ B, entonces  B puede ser expresada como  B = A ∪ Ac ∩ B , los que son disjuntos. 

( ) (
Por lo tanto,  P ( B ) = P ( A ) + P Ac ∩ B ≥ P ( A ) porque  P Ac ∩ B ≥ 0.   )
Teorema 2.6. 

P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .  

  14
 
Prueba. 

( )
El conjunto  B puede ser particionado como  B = ( A ∩ B ) ∪ Ac ∩ B  y por lo tanto 

P ( B ) = P ( A ∩ B ) + P ( Ac ∩ B ) .  Por lo tanto  P ( Ac ∩ B ) = P ( B ) − P ( A ∩ B ) .  El conjunto 

A ∪ B  puede ser particionado como  A ∪ ( Ac ∩ B ) .  Por lo tanto 

P ( A ∪ B ) = P ( A ) + P ( B ) + P ( Ac ∩ B ) .  Sigue que 

P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ) .  

Problema de práctica 

2.8. Verificar usando un diagrama de Venn que 

P ( A ∪ B ∪ C ) = P ( A) + P ( B ) + P ( C ) − P ( A ∩ B ) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C ) .
 

Probabilidad Condicional 

Muy a menudo queremos calcular las probabilidades de eventos cuando es conocido que otro 
evento ha ya ocurrido. 

Definición 2.6. 

Sean  A y  B dos eventos en un espacio de probabilidad  ( S , F , P ) tal que  P ( B ) > 0.  La 

probabilidad condicional de  A dado que  B ha ya ocurrido, denotado por  P ( A B ) , está dada 

por  P ( A ∩ B ) P ( B ) .  

Así, estamos mirando al subespacio en el cual el evento  B ya ha ocurrido. Mediante la división 

por  P ( B ) , estamos normalizando los valores de las probabilidades de manera que sumen 1 

en el subespacio. Debe notarse que el espacio original de probabilidad  ( S , F , P ) permanece 

inalterado a pesar que nosotros nos enfocamos en el subespacio en cuestión el cuál es 

( S , F , P (. B ) ) .  
 

Ejemplo 2.6. 

  15
 
 

Secuencias y Conjuntos Límites de Eventos 

Cuando se conduce un experimento aleatorio, a menudo nos encontramos con una secuencia 

de conjuntos de eventos. Por ejemplo, consideremos el conjunto  An = [ x − n, x + n ]  para un 

valor fijo de  x.  Para diferentes valores de  n  esto define una secuencia de conjuntos. Los 


resultados de las repeticiones de experimentos también lleva a una secuencia de eventos. En 
tales casos es útil conocer que pasa en la medida que el número de experimentos se vuelve 
extraordinariamente grande. Las secuencias también aparecen cuando un experimento implica 
obtener observaciones a lo largo del tiempo. En este caso podríamos estar interesados en qué 
es lo que pasa “en el largo plazo.” La noción de secuencia de conjuntos y sus límites es 
formalizado en lo que sigue. Las aplicaciones de estos conceptos los realizaremos en el 
siguiente capítulo. 

Definición 2.8 

Una secuencia de conjuntos  A1 , A2 , A3 ,... es llamada monotónicamente creciente si 

A1 ⊂ A2 ⊂ A3 ⊂ ...  y monotónicamente decreciente si  A1 ⊃ A2 ⊃ A3 ⊃ ...  El conjunto límite 


está definido como sigue: 

Monotónicamente creciente:  lim An = ∪1∞ An .  


n →∞

Monotónicamente decreciente:  lim ∩1∞ An .  


n →∞

Teorema 2.9 

Si  A1 , A2 ,..., An ,...  es una secuencia monotónica, entonces 

  ( n →∞
)
P lim An = lim P ( An )  
n →∞

Prueba 

  16
 
Probaremos esto sólo para el caso de las secuencias monotónicamente crecientes. 
A1 ⊂ A2 ⊂ A3 ... El otro caso es similar. Definamos los conjuntos disjuntos 

B1 = A1 , B2 = A2 ∩ A1c  (esto es, todos los puntos en  A2 que están fuera de  A1 ),  B3 = A3 ∩ A2c , 

y así sucesivamente. Así,  An = An −1 ∪ Bn = ∪1n Bi  por inducción. 

P ( An ) = P ( ∪1n Bi ) = ∑1 P ( Bi ).  Por lo tanto, en la medida que 
n

n → ∞, lim ⎡⎣ P ( An ) ⎤⎦ = ∑1 P ( Bi ).  Por monotonicidad,  lim ( An ) = ∪1∞ Ai , lo cual es igual a 


∪1∞ Bi , porque  An = ∪1n Bi .  Por lo tanto,  P ⎡⎣lim ( An ) ⎤⎦ = P ( ∪1∞ Bi ) = ∑1 P ( Bi ).  Nosotros 


mostramos antes que  lim ⎡⎣ P ( An ) ⎤⎦ = ∑ P ( B ).  Por lo tanto,  lim P ( A ) = P ⎡⎣lim ( A )⎤⎦ .  



1 i n n

Ejercicio de práctica 

2.10 Sea  x cualquier punto en el intervalo  ( 0, α ) y  P ( x ≤ x0 ) = x0 α  para cualquier  x0 en 

ese intervalo. Defina el conjunto de todos los puntos en el intervalo  ( x0 − 1 n , x0 + 1 n )  como 

An .  Muestre que  An es una secuencia monotónica. ¿Es creciente o decreciente? ¿Cuál es el 

conjunto límite? Compute  P ( An ) .  Derive las implicaciones del Teorema 2.9 aplicado a la 

secuencia de conjuntos. 

Capítulo 3 

Variables aleatorias y sus distribuciones 

El modelo de probabilidad representado por  ( S , F , P ) es demasiado general para ser de uso 

práctico. Para una descripción completa, necesitamos enumerar cada elemento de  F y la 
probabilidad asociada. Esto hace la manipulación matemática de probabilidades demasiado 
complicada. Un enfoque más útil será medir atributos de los eventos cuantitativamente y 
usarlos en el cálculo de las probabilidades de los eventos. En el capítulo previo hemos visto 
varios ejemplos en los cuáles los eventos y sus probabilidades están asociadas con variables 
cuyos valores son medidos por un experimentador. El total de puntos cuando un par de dados 
es arrojado, el número de caras cuando una moneda es tirada, son ejemplos de tales variables. 
Variables de este tipo son conocidas como variables aleatorias o variables estocásticas y son 

  17
 
fundamentales para la teoría de probabilidades y para la estadística. No todas las variables 
pueden ser llamadas variables aleatorias. Para ilustrar, consideremos el experimento de 

arrojar una moneda dos veces y el espacio de probabilidad  ( S , F , P ) presentado en el ejemplo 

2.5. Sea  X el número de caras en dos intentos. Puede tomar sólo los valores 0, 1 y 2.  X (.)  

puede entonces ser pensada como una función de conjunto que mapea el espacio muestral 

S en  Rx = {0,1, 2} ∈ R.  Así tenemos que, 

  {+ +} → 0 {C +, + +} → 1 {CC} → 2  
Denotando el mapeo o función inversa por  X −1 (.) ,  tenemos que  X −1 (1) = {C +, +C} ∈ F , y 

así sucesivamente para los otros. Por lo tanto, hay una correspondencia entre  Rx y  S de forma 

tal que la estructura de los eventos es preservada. Esto no es verdadero, sin embargo, para la 

función de conjunto especifica  Y definida como  Y ( + + ) = Y ( C + ) = 1, Y ( CC ) = Y ( +C ) = 0,  

porque el mapeo o función inversa de esta función es  Y −1 (1) = {++, C +}  y 

Y −1 ( 0 ) = {CC , +C} , los cuales no son elementos del campo  σ F definido en el ejemplo 2.5. 

Por lo tanto, con respecto al campo  σ ,  Y (.)  no preserva la estructura de los eventos, 

mientras que  X (.)  sí lo hace.  Para que una variable aleatoria sea tal es importante que 

preserve la estructura de los eventos dado que de otra manera surgirán inconsistencias. La 
definición formal de una variable aleatoria está dada a continuación. 

Definición 3.1 

En términos simples, una variable aleatoria (también referida como una variable estocástica) 
es una función real valorada de conjuntos cuyo valor es un número real determinado por el 
resultado del experimento. El rango de una variable aleatoria es el conjunto de todos los 
valores que ella puede tomar. Más formalmente, en términos de la teoría de medidas, una 
variable aleatoria es una función real valorada de conjuntos que mapea  S en  R , y que 
satisface la condición de que para cada conjunto Borel  B ∈ B , la imagen inversa 

X −1 ( B ) ∈ F , donde 

  X −1 ( B ) = {s : s ∈ S y X ( s ) ∈ B}  

  18
 
Una variable aleatoria es por lo tanto una función real valorada (y por lo tanto no es realmente 
una variable) que mapea  S en la línea real  R y asigna un número real a cada  s ∈ S .  Más aún, 

el término “aleatoria” es realmente inapropiado porque la función  X (.)  no produce o retorna 

un valor aleatorio. Lo que distingue una variable aleatoria de otro tipo de variables es el hecho 
de que, para cualquier conjunto dado  B ∈ B , los correspondientes eventos deben estar en  F .  

Notemos que en el triplete  ( S , F , P ) , el espacio muestral  S corresponde ahora a la línea real 

R, y el campo  σ corresponde ahora al campo Borel  B.  Correspondiendo a la medida de 

probabilidad  P (.)  es posible definir una función de conjunto, llamemosla  Px (.) , que mapea el 

campo Borel  F en el intervalo unitario cerrado  [ 0,1] .  Por ejemplo, en el experimento de 

arrojar una moneda, la función de conjunto apropiada es 

Px ( X = 0 ) = 1 4, Px ( X = 1) = 1 2, Px ( X = 2 ) = 1 4, Px ( X = 1 ó X = 2 ) = 3 4, y así 

sucesivamente. La variable aleatoria  X nos permite trabajar con el nuevo espacio de 

probabilidades  ( R, B, Px ) el cuál es mucho más ameno para la manipulación matemática. 

Función de Distribución 

Si el espacio muestral es contable o incontablemente infinito, la función de probabilidad  Px  

todavía no es trabajable. Será por lo tanto útil construir una función puntual que pueda ser 
definida sobre intervalos continuos y que tenga la misma información que la función de 
probabilidad. Tal función es definida más abajo. 

Definición 3.2. 

La función real valorada  F ( x ) tal que  F ( x ) = Px {( −∞, x ]} = P ( X ≤ x )  para cada  x ∈ R  es 


llamada la función de distribución, también conocida como la función de distribución 
acumulada (o función de densidad acumulada), ó CDF. 

  19
 
 

F ( x ) sintetiza la probabilidad definida sobre el conjunto Borel  Ax = ( −∞, x ] . Provee la 

probabilidad de que una variable aleatoria asuma valores menores o iguales que un valor 
especificado. Notemos que la variable aleatoria  X en conjunto con la CDF transforma el 

triplete  ( S , F , P )  en  ( R, B, CDF ) .  

Como un ejemplo de una CDF, consideremos el experimento de arrojar un dado, y que  X sea 
el total de puntos. Los posibles valores de  X son 1,2,…,6, y cada uno es igualmente probable 

con una probabilidad de  1 6.  Rápidamente vemos que  F ( x ) es como se señala más abajo. 

x F ( x)

<1 0

i ≤ x < i +1 i 6 para i = 1, 2,...,5

x≥6 1

Teorema 3.1. 

P ( a < X ≤ b) = F (b) − F ( a ).  

Prueba. 

Sea  I1 ( −∞, a ]  y  I 2 ( a, b ] .  Entonces  I1  y  I 2 son disjuntos y por lo tanto 

P ( I1 ) + P ( I 2 ) = P ( I1 ∪ I 2 ) .  Pero  P ( I1 ∪ I 2 ) = F ( b )  y  P ( I1 ) = F ( a ) .  Por lo tanto, 

P ( a < x ≤ b) = P ( I2 ) = F (b ) − F ( a ).  

  20
 
Dada la CDF  F ( x ) este teorema nos capacita para asignar probabilidades a cualquier intervalo 

semi abierto  ( a, b ] . Otras propiedades de la CDF son listadas en los siguientes ejercicios de 

práctica y teoremas. 

Problemas de Práctica. 

3.1. Muestre que  F ( −∞ ) = 0  y  F ( +∞ ) = 1 , esto es, que  F ( x ) es normada. 

3.2. Muestre que  F ( x ) es monotónicamente no decreciente, esto es, que si  b > a entonces 

F (b) ≥ F ( a ).  

Teorema 3.2. 

Para cada  x ∈ R,   F ( x ) es continua a la derecha de  x . 

Prueba. 

(
Consideremos el intervalo  Bn = x, x + (1 n ) ⎤⎦  para  n > 0, el cual está abierto a la izquierda y 

cerrado a la derecha. Tenemos que  P ( Bn ) = F ⎡⎣ x + (1 n ) ⎤⎦ − F ( x ) .  También que  Bn +1 ⊂ Bn  

y por lo tanto  Bn es monotónicamente decreciente. Notemos que el  lim Bn = ∅ , esto es, el 


n →∞

conjunto límite de  Bn es el conjunto vacío (porque el intervalo está abierto en  x) . Por lo 

tanto,  P ( lim Bn ) = 0.  Por el teorema 2.9,  P ( lim Bn ) = lim P ( Bn ) .  Por lo tanto, 

⎡ ⎛ 1⎞ ⎤
  0 = P ⎡ lim Bn ⎤ = lim ⎢ F ⎜ x + ⎟ − F ( x ) ⎥ = F ( x + ) − F ( x )  
⎣ n→∞ ⎦ n→∞ ⎣ ⎝ n⎠ ⎦

donde  F ( x + ) es el límite del lado derecho de  F ( x ) en  x . Esto establece el teorema de que 

F ( x ) es continua desde la derecha en  x.  

Teorema 3.3 

  21
 
Si  F ( x ) es continua en  x ∈ R , entonces  P ( X = x ) = 0.  

Prueba. 

Primero definamos  Bn = ( x − 1 n , x + 1 n ] . Notemos que  Bn +1 ⊂ Bn .  Por lo tanto, por 

monotonicidad (Teorema 2.9), en la medida que  n → ∞, P ( lim Bn ) = lim P ( Bn ) .  Pero 

⎡ ⎛ 1⎞ ⎛ 1 ⎞⎤
  lim P ( Bn ) = lim ⎢ F ⎜ x + ⎟ − F ⎜ x − ⎟ ⎥ = 0  
⎣ ⎝ n⎠ ⎝ n ⎠⎦

porque  F ( x ) es continua en  x.  Por monotonicidad,  lim Bn = x, y por lo tanto 

P ( lim Bn ) = P ( X = x ) . Por lo tanto se deduce el resultado de que  P ( X = x ) = 0  cuando 

F ( x ) es continua en  x.  

Se concluye de este teorema que una variable aleatoria para la cual  F ( x ) es continua en 

todos los puntos de su rango asigna una probabilidad cero a cualquier  x.  

Examen de Estadística II 

17 de marzo de 2010 

Tiempo 45 minutos 

Tres temas. Un punto es igual a un tema. Total de puntos = 3. 

x0
1. Sea  x cualquier punto en el intervalo  ( 0, α )  y  P ( x ≤ x0 ) =  para cualquier  x0 en 
α
ese intervalo. Definamos el conjunto de todos los puntos en el intervalo 

⎛ 1 1⎞
⎜ x0 − , x0 + ⎟  como  An .  Muestre que  An es una secuencia monotónica. ¿Es 
⎝ n n⎠

  22
 
creciente o decreciente? ¿Cuál es conjunto límite de  An ? Compute  P ( An ) .  Derive las 

consecuencias del Teorema 2.9. (que se recuerda más abajo) para la secuencia de 
conjuntos. 
 

Ayuda: Teorema 2.9. 

Si  A1 , A2 ,..., An ,... es una secuencia monotónica, entonces: 

  ( n →∞
)
P lim An = lim P ( An )  
n →∞

2. Considere el experimento de arrojar simultáneamente dos monedas. Defina el espacio 
muestral  S específico para este experimento. Construya un campo  σ para el mismo. 
¿Cuál es el conjunto potencia asociado con  S ? ¿Es éste conjunto potencia asociado 
con  S un campo  σ ? 
3. La siguiente tabla se extrajo de las cifras del censo de 1970 de la población 
estadounidense. 
Población estadounidense en 1970

Área Total Blanca Afroamericana u otra

1. Urbana 149325 128773 20552

1.1. Áreas 118447 100952 17495


urbanizadas internas

1.1.1. Ciudades 63922 49547 14375


centrales

1.1.2. Periferia urbana 54525 51405 3120

1.2 Áreas urbanizadas 30878 27821 3057


externas

2. Rural 53887 48976 4911

Total 203212 177749 25463

  23
 
(Las cifras se expresan en miles). Si se elige una persona aleatoriamente de la población 
estadounidense en 1970, encuentre las probabilidades de los siguientes eventos: 

a) La persona es blanca. 
b) La persona vive en el área de una ciudad central. 
c) La persona vive en una periferia urbana, dado que es blanca. 
d) La persona es blanca, dado que vive en una periferia urbana. 
e) La persona vive fuera de un área urbana, dado que no es blanca. 
f) La persona no es blanca y vive en una ciudad central o es blanca y vive fuera de un 
área urbanizada. 
 

Distribuciones Discretas 

Distribuciones Continuas 

Al contrario de las variables aleatorias discretas que toman sólo valores específicos, una 
variable aleatoria continua puede tomar cualquier valor en un intervalo real. En esta sección 
estudiamos unos pocos casos de distribuciones continuas. El próximo capítulo tiene varios 
otros ejemplos de distribuciones discretas y continuas. 

Definición 3.4 

Para una variable aleatoria  X si existe una función no negativa  f ( x ) , definida sobre la línea 

real, tal que para cualquier intervalo  B,  

  P ( X ∈ B ) = ∫ f ( x )dx  
B

entonces se dice que  X tiene una distribución continua y la función  f ( x ) es llamada una 

función de densidad de probabilidad o simplemente la función de densidad (ó PDF). 

Problemas de práctica 

  24
 
 

3.5 Para una variable aleatoria continúa verifique lo siguiente: 

F ( x) = ∫ f ( u )du f ( x) = F′( x)
x

−∞
  ∞
 
f ( u ) du = 1 F ( b ) − F ( a ) = ∫ f ( u ) du
b
∫−∞ a

Distribución Uniforme en un Intervalo 

Una variable aleatoria  X para la cual la función de densidad  f ( x; a, b ) es una constante 

positiva  c en el intervalo  a ≤ X ≤ b es llamada la distribución uniforme sobre un intervalo. 

Para que  f ( x; a, b )  sea una  PDF ,  

∫ f ( x; a, b )dx = 1 = ∫ cdx = c ( b − a ).  
b b
 
a a

1
Por lo tanto,  f ( x; a, b ) =  uniformemente en  a ≤ x ≤ b.  Su función de distribución es 
(b − a )
una línea recta y está dada por 

x−a
F ( x; a, b ) = ∫ f ( x; a, b )dx =
b
  para a ≤ x ≤ b  
a b−a

Dos casos especiales de los parámetros son frecuentemente usados en las aplicaciones; 
a = 0, b = θ y a = −θ , b = θ .  La figura 3.3 grafica tanto la PDF como la CDF de la distribución 
uniforme. 

La distribución Normal 

La más ampliamente usada distribución en todas las aplicaciones de la estadística en la normal 
(también conocida como distribución Gaussiana) la cual tiene la siguiente densidad (exp es la 
función exponencial): 

1 ⎡ ( x − μ )2 ⎤
  f ( x; μ , σ ) = exp ⎢ − ⎥ −∞ < x < ∞ 
σ 2π ⎢⎣ 2σ 2 ⎦⎥

  25
 
( ) ( )
La distribución es escrita como  N μ , σ 2 , y decimos que  X ∼ N μ , σ 2 . Los valores de los 

dos parámetros  μ  y  σ 2 son generalmente desconocidos. Será visto más adelante que una 

variedad de distribuciones se aproximan a la distribución normal. El caso especial de la 
distribución normal cuando  μ = 0 y  σ = 1 es llamada la distribución normal estándar y su 

función de densidad es independiente de los parámetros: 

1 − x2 2
  f ( x) = e −∞ < x < ∞ 

La figura 3.4 es un gráfico de la distribución normal estándar la cuál es simétrica alrededor del 
origen y es acampanada. La CDF de la distribución normal estándar es: 

1 − ( y − μ )2 2
F ( x) = ∫
x
  e dy  
−∞

Esta integral no tiene una solución de forma cerrada por lo que requiere integración numérica. 
Para valores seleccionados de  z la Tabla B.3 presenta el área bajo la curva normal estándar a 

la derecha de  z (la cual es también  1 − F ( x ) ). 

Transformación de variables aleatorias 

En la inferencia estadística, las transformaciones de variables aleatorias son a menudo 
realizadas y por lo tanto necesitamos los medios a través de los cuales podemos derivar las 
distribuciones estadísticas de las variables transformadas partiendo de las distribuciones 
estadísticas que les corresponden a las variables originales. Así como se les exigía a las 
variables aleatorias que sean preservadoras de eventos, las funciones de transformación 
deben también tener la misma propiedad. En otras palabras, las transformaciones deben ser 
funciones mensurables. 

Definición 3.5 

  26
 
Una función  g ( X )   ⎡⎣ g ( X ) : R → R ⎤⎦ es llamada una función mensurable (ó  F mensurable) si 

{ }
el conjunto  x : g ( x ) ≤ y ∈ F para cada número real  y ∈ R.  

Así, una función  g ( X ) cuando es mensurable implica que podemos expresar la probabilidad 

de un evento  ⎡⎣ g ( X ) ≤ y ⎤⎦  en términos de la probabilidad de un evento en  F correspondiente 

a  X .  

Teorema 3.4 

Sea  FX ( x ) la CDF de la variable aleatoria  X y sea  Y = g ( X ) mensurable, diferenciable y 

monotónica. Entonces la CDF de  Y está dada por  ⎡⎣ h (Y ) es la inversa de g ( X ) ⎤⎦ .  

FY ( y ) = FX ⎡⎣ h ( y ) ⎤⎦ si g ( X ) es monotónicamente creciente
   
FY ( y ) = 1 − FX ⎡⎣ h ( y ) ⎤⎦ si g ( X ) es monotónicamente decreciente

Prueba. 

Probamos esto sólo para cuando  g ( X ) es monotónicamente creciente. 

FY ( y ) = P (Y ≤ y ) = P ⎡⎣ g ( X ) ≤ y ⎤⎦ .  Dado que la transformación es monotónicamente 

creciente, el evento  g ( X ) ≤ y es idéntico al evento  X ≤ h ( y )  (la función inversa existe dada 

la monotonicidad). Por lo tanto, 

  P ⎡⎣ g ( X ) ≤ y ⎤⎦ = P ⎡⎣ X ≤ h ( y ) ⎤⎦ = FX ⎡⎣ h ( y ) ⎤⎦  

Teorema 3.5 

  27
 
Digamos que los supuestos del Teorema 3.4 se mantienen.  En adición, supongamos que 
dx
f X ( x ) sea la PDF de  X ,  y que  ≠ 0.  Entonces la PDF de  Y = g ( X )  está dada por 
dy

⎡⎣ denotando la función inversa como X = h (Y ) ⎤⎦  

fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ cuando X es dicreta
  dx  
fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ cuando X es continua
dy

Prueba. 

La prueba es trivial para el caso discreto. Tenemos que 

P (Y = y ) = P ⎡⎣ X = h ( y ) ⎤⎦ = f X ⎡⎣ h ( y ) ⎤⎦ .  Para una variable aleatoria continua la PDF es la 

derivada de la CDF y por lo tanto, 

d
  fY ( y ) = FY ( y )  
dy

Pero  FY ( y ) = FX ⎡⎣ h ( y ) ⎤⎦  por el Teorema 3.4. Esto es, 

h( y )
  FY ( y ) = ∫ f X ( x )dx  
−∞

Diferenciando con respecto a  y y usando la regla de la cadena, 

  fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦ h′ ( y )  

dx
Pero  h′ ( y ) = .  Porque  fY ( y ) debe ser no negativa, tenemos que usar el valor absoluto de 
dy
la derivada. Por lo tanto, 

dx
  fY ( y ) = f X ⎡⎣ h ( y ) ⎤⎦  
dy

Ejemplo 3.5 

  28
 
( )
Sea  X una variable aleatoria distribuida como  N μ , σ 2 .  Consideremos la transformación 

Y = g(X ) =
( X − μ ) , la que tiene la inversa  X = h
(Y ) = μ + σ Y .  También tenemos que 
σ
dx
= σ .  Por el Teorema 3.5, la función de densidad de  Y está dada por  
dy

1 1 − y2 2
fY ( y ) = e− y 2σ =
2
  e  
σ 2π 2π

la cual es la normal estandarizada  N ( 0,1) .  Es facil verificar que la función de densidad normal 

general puede ser derivada de la función normal estándar mediante la transformación 
Y = μ +σ X. 

Ejemplo 3.6 

Apliquemos el Teorema 3.5 para derivar la distribución de  Y = e X , cuando  X es la normal 

estándar. Así 

1 − x2 2
  fX ( x) = e y X = ln Y  

Por lo tanto  fY ( y ) está dado por 

1
fY ( y ) = e −( ln y )
2
 
2
y > 0 
y 2π

La distribución de arriba es conocida como la distribución log normal. Puede notarse que el 

rango de  Y es la línea positiva real. Esto es así porque  Y = e X es no negativa. Esto es las 


fronteras de soporte  −∞ < x < ∞  son transformadas en  y > 0.  

Problema de práctica 

3.6 Derive la transformación que podría convertir una distribución uniforme sobre 

[ a, b ] en  [0,θ ]  y  [ −θ ,θ ].  


 

Características de las Distribuciones 

  29
 
Las funciones de densidad de probabilidades y la distribución acumulada de probabilidades 
determinan las probabilidades de las variables aleatorias en varios puntos o en diferentes 
intervalos. Muy a menudo estamos interesados en medidas resumen de donde la distribución 
está localizada, como está dispersa alrededor de algún valor promedio, si es o no simétrica 
alrededor de algún punto, y así sucesivamente. Las medidas numéricas que caracterizan a una 
distribución son a menudo muy útiles en el cálculo de probabilidades. En esta sección 
estudiamos una variedad de medidas de ubicación central y de dispersión. 

La integral de Stieltjes 

En la sección previa usamos la integral (conocida como la integral de Riemman) en el contexto 
de variables aleatorias continuas. En la teoría de probabilidades, un segundo tipo de integral 
(referida como la integral de Stieltjes) es ampliamente usada. Antes de desarrollar eso, 
hagamos una revisión de la integral de Riemman. Consideremos el intervalo cerrado 

[ a, b ] para cualquier par de números reales tal que  a < b , y una función valorada únicamente 


g ( x ) acotada en  [ a, b ] . Luego subdividamos  [ a, b ] en un número de intervalos mediante la 

inserción de puntos, denotados por  xi como sigue: 

  a = x0 < x1 < x2 < ... < xn = b  

La subdivisión es una partición y la más larga de las longitudes de los intervalos 

( Δxi = xi − xi −1 ) como la norma de la partición, denotada por  Δx .  Sea  wi cualquier punto en 

[ xi −1 , xi ] . Luego construyamos la siguiente suma (conocida como suma de Riemmann) 

  ∑ g ( w ) Δx = ∑ g ( w )( x − x )  
i i i i i −1

Notemos que cada partición de  [ a, b ] rinde una suma de Riemman diferente. Si el límite de 

esta suma en la medida que la norma de esta partición va a cero existe, es llamada la integral 

de Riemman de  g ( x ) .  Se escribe como 

∫ g ( x ) dx = lim ∑ g ( w ) Δx  
b
  i i
a x →0

No hay razón del porqué debemos limitarnos a nosotros mismos para multiplicar  g ( wi ) sólo 

por la longitud del intervalo  [ xi −1 , xi ] . Supongamos que reemplazamos  Δxi  por 

  30
 
ΔF ( x ) = F ( xi ) − F ( xi −1 ) , donde  F ( x ) es cualquier función valorada únicamente. Así, si el 

límite existe, la integral análoga es 

∫ g ( x )dx = ∑ g ( w ) ⎡⎣ F ( x ) − F ( x )⎤⎦  
b
  lim i i i −1
a ΔF ( x ) → 0

La integral de arriba es llamada la integral de Stieltjes. En el contexto de la teoría de 

probabilidades, podríamos elegir  F ( x ) para que sea la CDF. La ventaja de la integral de 

Stieltjes con respecto a la CDF es que no tenemos que distinguir entre una variable aleatoria 
discreta y continua. La integral está bien definida en ambos casos. 

Esperanza Matemática 

Supongamos que tiramos un dado y que recibimos el pago del cuadrado del resultado, esto es, 
si obtenemos un 3 recibimos un pago de 9 dólares y así sucesivamente. Si tiramos el dado 
indefinidamente, en promedio, ¿cuánto esperaríamos ganar por intento? Para responder 
preguntas de este tipo introducimos el concepto de esperanza matemática. 

Definición 3.6 

Sea  X una variable aleatoria sobre  ( S , F, P ) , con  f ( x ) como la PDF, y  g ( x ) una función 



valorada únicamente. Si la integral de Stieltjes  ∫ g ( x )dF  existe, es llamada el valor 
−∞

esperado (o esperanza matemática) de  g ( X ) y es denotado por  E ⎡⎣ g ( X ) ⎤⎦ .  En el caso de 

una variable aleatoria discreta esto toma la forma de  E ⎡⎣ g ( X ) ⎤⎦ = ∑ g ( x ) f ( x )  y en el 
i i i


caso continuo,  E ⎡⎣ g ( X ) ⎤⎦ = ∫ g ( x ) f ( x ) dx.  
−∞

  31
 
Intuitavemente, obtenemos un promedio ponderado de  g ( X ) , siendo los pesos las 

correspondientes probabilidades. En el ejemplo de arrojar el dado de arriba, es fácilmente 

verificable que  E X 2 =( ) 91
6

La Media de una Distribución 

En el caso especial de  g ( X ) = X es muy interesante. El valor esperado de  X es una medida 

de locación central y es llamada la media de una distribución (usualmente denotada por  μ ). 

Así,  μ = E ( X ) .  

Ejemplo 3.7 (media de una distribución continua uniforme) 

Para la distribución uniforme sobre un intervalo tenemos que 

1
  f ( x) = a < x < b 
b−a
b
x 1 ⎡ x2 ⎤ b+a
μ = E(X ) = ∫
b
  dx = ⎢ ⎥ =  
a b−a 2 ⎣ b − a ⎦a 2

Ejemplo 3.8 (media de la distribución normal) 

Sea  X una variable aleatoria normal general con densidad 

1 ⎡ ( x − μ )2 ⎤
  f ( x) = exp ⎢ − ⎥ 0< x <∞ 
σ 2π ⎢⎣ 2σ 2 ⎥⎦

∞ 1 ⎡ ( x − μ )2 ⎤
  E(X ) = ∫ x exp ⎢ − ⎥ dx  
−∞
σ 2π ⎢⎣ 2σ 2 ⎥⎦

Haciendo la sustitución  y =
( x − μ )  tenemos, 
σ

  32
 
∞ ⎡ 1 ⎤ ∞ 1 − y2 2 ∞ 1 − y2 2
E(X ) = ∫ (μ +σ y) ⎢ e− y 2 ⎥ σ dy = μ ∫ dy + σ ∫ y
2
  e e dy  
−∞
⎣ σ 2π ⎦ −∞
2π −∞

El segundo integrando es una función impar  ⎡⎣ esto es, g ( − y ) = − g ( − y ) ⎤⎦  y por lo tanto la 

segunda integral es cero. Para ver esto más claramente, la segunda integral puede ser escrita 
como 

0 1 − y2 2 ∞ 1 − y2 2
  ∫ −∞
y

e dy + ∫ y
0

e dy  

Estableciendo  u = − y en la segunda integral, se convierte en 

−∞ 1 −u 2 2 0 1 −u 2 2
  ∫ 0
u

e du = − ∫ u
−∞

e du  

la que se cancela con la primera integral haciendo el resultado neto igual a cero. 

Por lo tanto,  E ( X ) = μ  para  N μ , σ 2 .   ( )
 

Ahora enunciamos un número de propiedades fáciles de demostrar de la esperanza 
matemática. 

Teorema 3.6 

1. Si  c es una constante,  E ( c ) = c.  

2. Si  c es una constante,  E ⎡⎣cg ( X ) ⎤⎦ = cE ⎡⎣ g ( X ) ⎤⎦ .  

3. E ⎡⎣u ( X ) + v ( X ) ⎤⎦ = E ⎡⎣u ( X ) ⎤⎦ + E ⎡⎣ v ( X ) ⎤⎦ .  

4. E ( X − μ ) = 0,  donde  μ = E ( X ) .  

Problema de práctica 

3.7 Pruebe el Teorema 3.6. También, derive el valor de  b (una constante) para lo cual 

E ⎡( X − b ) ⎤ es mínimo. 
2
⎣ ⎦
 

  33
 
  

  34