Estadística avanzada - Guía de distribuciones discretas

ESTADSTICA AVANZADA GUIA DE ESTUDIO
ESTADSTICA AVANZADA
1. Principales leyes de distribucin de variables aleatorias
1.2 Introduccin
1.4 Distribuciones discretas
o 1.4.2 Distribucin de Bernoulli
1.4.2.1 Observacin
o 1.4.4 Distribucin binomial
1.4.4.1 Ejemplo
o 1.4.6 Distribucin geomtrica ( o de fracasos)
1.4.6.1 Observacin
1.4.6.2 Observacin
1.4.6.3 Ejemplo
1.4.6.4 Observacin
o 1.4.8 Distribucin binomial negativa
1.4.8.1 Ejemplo
1.4.8.2 Observacin
o 1.4.10 Distribucin hipergeomtrica
1.4.10.1 Observacin
o 1.4.12 Distribucin de Poisson (o de los sucesos raros)
1.4.12.1 Ejemplo
1.6 Reproductividad de familias de v.a.
1.8 Distribuciones continuas
o 1.8.2 Distribucin uniforme o rectangular
o 1.8.4 Distribucin exponencial
1.8.4.1 Ejemplo
1.8.4.2 Ejemplo
o 1.8.6 Distribucin normal o gaussiana
1.8.6.1 Observacin
1.8.6.2 Observacin
1.8.6.3 Proposicin (Cambio de origen y escala)
1.8.6.4 Ejemplo
1.8.6.5 Proposicin
1.8.6.6 Aproximacin a la normal de la ley binomial
1.8.6.7 Ejemplo
1.8.6.8 Ejemplo
o
DR. ADOLFO GUTIERREZ SOSA
1.8.8 Distribucin
1.8.8.1 Observacin
1.8.8.2 Ejemplo
1.8.8.3 Teorema (Cochran)
o 1.8.10 Distribucin de Student
o 1.8.12 La distribucin
de Snedecor
1.10 Problemas
o
1.2 Introduccin
Como complemento al captulo anterior en el que definimos todos los conceptos
relativos a variables aleatorias, describimos en ste las principales leyes de
probabilidad que encontramos en las aplicaciones del clculo de probabilidades.
Atendiendo a la clasificacin de las v.a. en discretas y continuas describiremos
las principales leyes de probabilidad de cada una de ellas, las cuales constituirn
el soporte subyacente de la inferencia estadstica y a las que ser necesario
hacer referencia en el estudio de dicho bloque. Iniciamos este captulo con el
estudio de las distribuciones para v.a. discretas.
1.4 Distribuciones discretas

La distribucin de probabilidad describe el comportamiento de una variable
aleatoria. A menudo, las observaciones que se generan en diferentes
experimentos estadisticos tienen el mismo tipo general de comportamiento,
en consecuencia las v. a. discretas asociadas con estos experimentos se
pueden describir con la misma distribucin de probabilidad y, por lo tanto,
se representan usando una sola formula.
Las distribuciones en realidad describen varios fenmenos de la vida real. En un
estudio sobre la prueba de la eficacia de un nuevo frmaco, el numero de
pacienetes curados entre todos los pacientes que utilizaron tal
medicamento, sigue aproximadamente una distribucin binomial. En un
ejemplo industrial, cuando se probo una muestra de articulos
seleccionados de un lote de produccin,
el numero de articulos
defectuosos de la muestra, por lo general, puede modelarse como una v. a.
hipergeometrica. En un problema de control estadistico de calidad, el
experimentador senalara un corrimiento en la media del proceso cuando
los datos observacionales excedan ciertos limites. El numero de muestras
requeridas para generar una falsa alarma sigue una distribucin geometrica
que es un caso especial de distribucin binomial negativa. El numero de
leucocitos de una cantidad fija de una muestra de sangre de un individuo
es comnmente aleatorio y podria describirse mediante la distribucin de
Poisson.
1.4.2 Distribucin de Bernoulli

Consiste en realizar un experimento aleatorio una sla vez y observar si cierto
suceso ocurre o no, siendo p la probabilidad de que esto sea as (xito) y q=1-p
el que no lo sea (fracaso). En realidad no se trata ms que de una variable
dicotmica, es decir que nicamente puede tomar dos modalidades, es por ello
que el hecho de llamar xito o fracaso a los posibles resultados de las pruebas
obedece ms una tradicin literaria o histrica, en el estudio de las v.a., que a la
situacin real que pueda derivarse del resultado. Podramos por tanto definir
este experimento mediante una v.a. discreta Xque toma los valores X=0 si el
suceso no ocurre, y X=1 en caso contrario, y que se denota
Un ejemplo tpico de este tipo de variables aleatorias consiste en lanzar una

moneda al aire y considerar la v.a.
Para una v.a. de Bernouilli, tenemos que su funcin de probabilidad es:
y su funcin de distribucin:
Su funcin caracterstica es:
Los principales momentos de la X los podemos calcular directamente
o bien usando la funcin caracterstica y la proposicin de la pgina
1.4.2.1 Observacin
En este caso tan simple no se aprecia la ventaja de usar la funcin caracterstica
en el clculo de momentos, pero en las prximas leyes de probabilidad que son
ms complicadas, esta ventaja se har manifiesta.
Ejercicio
Sea X una v.a. cuya f.d.p.esta dada por f ( x; k ) 1/ k , x 1, 2,..., k . Probar que la
1 k
media y la varianza de X son, respectivamente,

x y
k x 1
1 k
2 ( x )2 .
k x 1

6.4.4 Distribucin binomial
Se dice que una v.a. X sigue una ley binomial de parmetros n y p,
, si es la suma de n v.a. independientes de Bernouilli con el mismo parmetro, p:
Esta definicin puede interpretarse en el siguiente sentido: Supongamos que
realizamos n pruebas de Bernouilli, Xi, donde en todas ellas, la probabilidad de
xito es la misma (p), y queremos calcular el nmero de xitos, X, obtenidos el el
total de las n pruebas. Su ley de probabilidad es6.1 En la Figura 6.1 se representa
la funcin de probabilidad de una variable binomial.
Figura: Funcin de probabilidad de una variable

binomial cunado n es pequeo.
Figura: Funcin de probabilidad de una variable

binomial cuando n es grande.
Por tanto, su funcin de distribucin es
El modo ms simple de calcular la funcin caracterstica nos lo da el teorema de

la pgina , que afirma que la funcin caracterstica de la suma de variables
independientes es el producto de las funciones caractersticas de estas:
Los principales momentos de X los calculamos ms fcilmente a partir de

(prop. pgina 5) que de su propia definicin:
1.4.4.1 Ejemplo
Un mdico aplica un test a 10 alumnos de un colegio para detectar una
enfermedad cuya incidencia sobre una poblacin de nios es del 10%. La
sensibilidad del test es del 80% y la especificidad del 75%. Cual es la
probabilidad de que exactamente a cuatro personas le de un resultado positivo?
Si en la muestra hay cuatro personas a las que el test le da positivo, cul es la
probabilidad de que entre estas, exactamente dos estn sanas? Calcular la
probabilidad de que el test suministre un resultado incorrecto para dos personas.
Calcular la probabilidad de que el resultado sea correcto para ms de 7
personas.
Solucin:
Los datos de que disponemos son:
donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a cuantas

personas el test le dar un resultado positivo, tendremos que calcular
,
para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no
estarlo forman una coleccin exhaustiva y excluyente de sucesos):
Sea X1 la v.a. que contabiliza el nmero de resultados positivos. Es claro que

llamando
, se tiene que X sigue una distribucin binomial
Por ello la probabilidad de que a cuatro personas le de el resultado del test

positivo es:
Si queremos calcular a cuantas personas les dar el test un resultado positivo

aunque en realidad estn sanas, hemos de calcular previamente
sea, el ndice predictivo de falsos positivos:
,o
Es importante observar este resultado. Antes de hacer los clculos no era

previsible que si a una persona el test le da positivo, en realidad tiene una
probabilidad aproximadamente del
de estar sana. Sea X2 la variable
aleatoria que contabiliza al nmero de personas al que el test le da positivo, pero
que estn sanas en realidad. Entonces
Por ltimo vamos a calcular la probabilidad p3 de que el test de un resultado

errneo, que es:
La variable aleatoria que contabiliza el nmero de resultados errneos del test

es
Como la probabilidad de que el test sea correcto para ms de siete personas, es

la de que sea incorrecto para menos de 3, se tiene
1.4.4.2 Ejemplo
Un fabricante sabe que, en promedio, 20% de los tostadores electricos que
fabrica requeriran reparaciones dentro de un ao despus de su venta. Cuando

se seleccionan al azar 20 tostadores, encuentre los numeros adecuados x y y
tales que:
(a) la probabilidad de que al menos x de ellos requieran reparaciones sea menor
que 0.5
(b) la probabilidad de que al menos y de ellos no requieran reparaciones sea
mayor que 0.8.
Solucion
o
Con p=0.2 y n=20, la v. a. X que denota el numero de tostadores

que requieren reparaciones despus de un ao es binomial y la
probabilidad pedida es:
P ( X x) 0.5
Lo que conduce utilizando las tables de la binomial a: X 4
o
Siendo Y los tostadores que no requieren reparaciones con

probabilidad p 0.8 , Y se distribuye binomialmente y la
probabilidad pedida es
P (Y y ) 0.8
lo que conduce, utilizando las mismas tables de la distribcion binomial,
a Y 2
1.4.4.3 Ejemplo.
Sean las variables aleatorias independientes X 1 ~ B( n1 , p)
y X 2 ~ B(n2 , p ) .
Hallar la f.d.p. conjunta de Y1 X 1 X 2 y Y2 X 2 , y despues, halle la f.d.p.
marginal de Y1 .
Solucion:
Por definicin,
f ( y1 , y2 ) f ( y1 | y2 ) f ( y2 )
que en terminos de probabilidad es lo mismo que

P (Y1 y1 , Y2 y2 ) P(Y1 y1 | Y2 y2 ) P (Y2 y2 )
Pero, P (Y1 y1 | Y2 y2 ) P ( X 1 y1 y2 ) . Entonces,
P (Y1 y1 , Y2 y2 ) P( X 1 y1 y2 ) P (Y2 y2 )
Como ambas distribuciones son binomiales, entonces,
n1
y1 y2
(1 p ) n1 y1 y2
p
y1 y2
P ( X 1 y1 y2 ) P (Y2 y2 )
n2
y2
n2 y2
p (1 p )
y2
Es decir,
n1
y1 y2
(1 p) n1 y1 y2
p
y1 y2
P (Y1 y1 , Y2 y2 )
n1
y1 y2
Para
n2
y2
n2 y2
p (1 p)
y2
n2
y1
n1 n2 y1
p (1 p )
y2
y1 y2 0,1,..., n2
y y2 0,1,..., n2 . Luego la funcion de densidad de

probabilidad marginal de Y1 X 1 X 2 esta dada por
n1
n2
y1
n1 n2 y1
p (1 p )
y2 0 y1 y2
y2
n2
n
n2
p y1 (1 p ) n1 n2 y1 1

y2 0 y1 y2
y2
fY1 ( y1 )
n2
n1 n2
y1
n1 n2 y1
p (1 p )
y
1
Lo que prueba que Y1 es ta bien binomial

1.4.6 Distribucin geomtrica ( o de fracasos)
Consideramos una sucesin de v.a. independientes de Bernouilli,
Una v.a. X sigue posee una distribucin geomtrica,

, si esta es la
suma del nmero de fracasos obtenidos hasta la aparicin del primer xito en la
sucesin
. Por ejemplo
De este modo tenemos que la ley de probabilidad de X es
1.4.6.1 Observacin
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesin
es una
progresin geomtrica de razn q, a la que podemos aplicar su frmula de
sumacin:

1.4.6.2 Observacin
En la distribucin geomtrica el conjunto de posibles valores que puede tomar la
variable ( ) es infinito numerable, mientras que en la de Bernouilli y en la
binomial, estos eran en nmero finito.
La funcin caracterstica se calcula teniendo en cuenta que de nuevo aparece la
sumacin de los trminos de una progresin geomtrica, pero esta vez de razn
eit q:
La media y varianza de esta variable aleatoria son:
1.4.6.3 Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el
nacimiento de una hija. Calcular el nmero esperado de hijos (entre varones y
hembras) que tendr el matrimonio. Calcular la probabilidad de que la pareja
acabe teniendo tres hijos o ms.
Solucin: Este es un ejemplo de variable geomtrica. Vamos a suponer que la
probabilidad de tener un hijo varn es la misma que la de tener una hija hembra.
Sea X la v.a.
Es claro que
Sabemos que el nmero esperado de hijos varones es

el nmero esperado en total entre hijos varones y la nia es 2.
, por tanto
La probabilidad de que la pareja acabe teniendo tres o ms hijos, es la de que

tenga 2 o ms hijos varones (la nia est del tercer lugar en adelante), es decir,
Hemos preferido calcular la probabilidad pedida mediante el suceso

complementario, ya que sera ms complicado hacerlo mediante la suma infinita

1.4.6.4 Observacin
La distribucin exponencial tambin puede ser definida como el nmero de
pruebas realizadas hasta la obtencin del primer xito (como hubiese sido ms
adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo
comprobar que X slo puede tomar valores naturales mayores o iguales a 1, y
que:
1.4.8 Distribucin binomial negativa

Sobre una sucesin de v.a. de Bernouilli independientes,
se define la v.a. X como el nmero de fracasos obtenidos hasta la aparicin de r

xitos en la sucesin
. En este caso se dice que X sigue una ley de
distribucin binomial negativa de parmetros r y p y se denota del modo:
. Su ley de probabilidad se deduce siguiendo el esquema:
De nuevo, el conjunto de posibles valores de esta v.a. discreta es

.

Su funcin caracterstica es
y sus momentos ms importantes los obtenemos derivando esta ltima:
1.4.8.1 Ejemplo
Para tratar a un paciente de una afeccin de pulmn han de ser operados en
operaciones independientes sus 5 lbulos pulmonares. La tcnica a utilizar es tal
que si todo va bien, lo que ocurre con probabilidad de 7/11, el lbulo queda
definitivamente sano, pero si no es as se deber esperar el tiempo suficiente
para intentarlo posteriormente de nuevo. Se practicar la ciruga hasta que 4 de
sus 5lbulos funcionen correctamente. Cul es el valor esperado de
intervenciones que se espera que deba padecer el paciente? Cul es la
probabilidad de que se necesiten 10 intervenciones?
Solucin: Este es un ejemplo claro de experimento aleatorio regido por una ley
binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4
lbulos sanos, y ste es el criterio que se utiliza para detener el proceso.
Identificando los parmetros se tiene:
Lo que nos interesa es medir el nmero de intervenciones, Y, ms que el

nmero de xitos hasta el r-simo fracaso. La relacin entre ambas v.a. es muy
simple:
Y=X+r
Luego
Luego el nmero esperado de intervenciones que deber sufrir el paciente es de

11. La probabilidad de que el nmero de intervenciones sea Y=10, es la de que
X=10-4=6. Por tanto:
1.4.8.2 Observacin
La distribucin binomial negativa tambin se puede definir como el nmero de
pruebas hasta la aparicin de r xitos. Como el nmero de pruebas contabiliza
tanto los xitos como los fracasos se tendra segn sta definicin que
1.4.10 Distribucin hipergeomtrica

Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas
espaolas (N=40 naipes), de las cuales nos vamos a interesar en el palo de oros
(D=10 naipes de un mismo tipo). Supongamos que de esa baraja extraemos n=8
cartas de una vez (sin reemplazamiento) y se nos plantea el problema de
calcular la probabilidad de que hayan k=2 oros (exactamente) en esa extraccin.
La respuesta a este problema es
En lugar de usar como dato D es posible que tengamos la proporcin existente,

p, entre el nmero total de oros y el nmero de cartas de la baraja
de modo que podemos decir que
Este ejemplo sirve para representar el tipo de fenmenos que siguen una ley de
distribucin hipergeomtrica. Diremos en general que una v.a. X sigue una
distribucin hipergeomtrica de parmetros, N, n y p, lo que representamos
del modo
, si su funcin de probabilidad es
1.4.10.1 Observacin
Cuando el tamao de la poblacin (N) es muy grande, la ley hipergeomtrica
tiende a aproximarse a la binomial:
El valor esperado de la hipergeomtrica es el mismo que el de la binomial,
sin embargo su varianza
no es exactamente la de la binomial, pues est corregida por un factor,

que tiende a 1 cuando
. A este factor se le denomina factor de
correccin para poblacin finita.
1.4.10.2 Ejemplo

Una compania tiene 300 empleados de los cuales 240 son miembros del
sindicato de trabajadores. 8 empleados son escogidos al azar para servir en un
comit que administrara el fondo de pensiones. Calcule la probabilidad de que
mas de la mitad de los integrantes del comit sean sindicalizados.
Solucin
De acuerdo con los datos, N=300, K=240 y n=8. Si X es la variable aleatoria que
denota el numero de miembros del comit que estan sindicalizados, entonces
P ( X 4) 1 P( X 3)
Pero N y K son muy grandes y n muy pequeo en comparacin con N;
utilizamos, entonces, la aproximacin binomial de la hipergeometrica. Esto
quiere decir que X ~ Bin(n 8; p K / N 0.8) . Asi:
P ( X 4) 1 P ( X 3) 1 0.0104 0.9896
El resultado final se ha obtenido directamente de la tabla binomial.
1.4.12 Distribucin de Poisson (o de los sucesos raros)

Una v.a. X posee una ley de distribucin de probabilidades del tipo Poisson
cuando
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir,
obtenindose como la distribucin lmite de una sucesin de variable binomiales,
, donde
,y
(por tanto
La demostracin de esto consiste en
).
En general utilizaremos la distribucin de Poisson como aproximacin de

experimentos binomiales donde el nmero de pruebas es muy alto, pero la
probabilidad de xito muy baja. A veces se suele utilizar como criterio de
aproximacin:
La ley de Poisson la podemos encontrar tabulada en la tabla nmero 2, para

ciertos valores usuales de .
La funcin caracterstica de
es

de lo que se deduce que valor esperado y varianza coinciden
1.4.12.1 Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000.
Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya ms
de 3 personas con dicha enfermedad. Calcular el nmero esperado de
habitantes que la padecen.
Solucin: Si consideramos la v.a. X que contabiliza el nmero de personas que
padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede
ser muy bien aproximado por un modelo de Poisson, de modo que
As el nmero esperado de personas que padecen la enfermedad es
Como
, existe una gran dispersin, y no sera extrao encontrar que
en realidad hay muchas ms personas o menos que estn enfermas. La
probabilidad de que haya ms de tres personas enfermas es:
1.6 Reproductividad de familias de v.a.

Las variables aleatorias relacionadas entre si por uno o ms parmetros
mediante f, o lo que es equivalente segn el teorema de Fourier (pgina ),
mediante su funcin caracterstica, las hemos agrupado en familias de v.a. que
hemos denotado de modo genrico
. Para cualquier tipo de familia de
v.a.
, diremos que esta reproductiva respecto al parmetro p, si al
considerar
independientes, donde
se tiene
que la suma de todas ellas es una v.a. de la misma familia, pero con parmetro
Por ejemplo
no es reproductiva con respecto a p, ya que la suma de dos
v.a. de esa familia no sigue una distribucin de Bernouilli. Sin embargo la familia
lo es con respecto al parmetro
, ya que
Un modo sencillo de ver si una familia de distribuciones es reproductiva con

respecto a algn parmetro es analizar su funcin caracterstica utilizando el
teorema de la pgina . Por ejemplo el mismo resultado se puede obtener para
la distribucin binomial teniendo en cuenta que
Utilizando el mismo argumento, tenemos que otra distribuciones reproductiva es

.
1.8 Distribuciones continuas
En esta seccin estudiaremos las distribuciones ms importantes de v.a.
continuas unidimensionales. El soporte de una v.a. continua se define como
aquella regin de
donde su densidad es no nula,
distribuciones que enunciaremos, podr ser bien todo

un segmento de la forma
. Para las
,
1.8.2 Distribucin uniforme o rectangular

1.8.4 Distribucin exponencial
o 1.8.4.1 Ejemplo
o 1.8.4.2 Ejemplo
1.8.6 Distribucin normal o gaussiana
o 1.8.6.1 Observacin
o 1.8.6.3 Proposicin (Cambio de origen y escala)
o 1.8.6.4 Ejemplo
o 1.8.6.5 Proposicin
o 1.8.6.1 Aproximacin a la normal de la ley binomial
o bien

o
o
1.8.1.7 Ejemplo
1.8.6.8 Ejemplo
1.8.8 Distribucin
o 1.8.8.2 Ejemplo
o 1.8.8.3 Teorema (Cochran)
1.8.10 Distribucin de Student
1.8.12 La distribucin de Snedecor
1.8.2 Distribucin uniforme o rectangular

Se dice que una v.a. X posee una distribucin uniforme en el intervalo [a,b],
si su funcin de densidad es la siguiente:
Con esta ley de probabilidad, la probabilidad de que al hacer un experimento

aleatorio, el valor de X este comprendido en cierto subintervalo de [a,b] depende
nicamente de la longitud del mismo, no de su posicin. Cometiendo un
pequeo abuso en el lenguaje, podemos decir que en una distribucin uniforme
la probabilidad de todos los puntos del soporte es la misma 6.2.
Teniendo en cuenta que si
la funcin de distribucin de
es:
Figura: Funcin de densidad y de distribucin de
La funcin caracterstica es
Como esta distribucin es muy simple, vamos a calcular sus momentos ms

usuales directamente a partir de la definicin, en lugar de usar la funcin
caracterstica:
1.8.4 Distribucin exponencial

La distribucin exponencial es el equivalente continuo de la distribucin
geomtrica discreta. Esta ley de distribucin describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento,

sabiendo que,
el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que
ello ocurra en un instante tf, no depende del tiempo transcurrido
anteriormente en el que no ha pasado nada.
Ejemplos de este tipo de distribuciones son:
El tiempo que tarda una partcula radiactiva en desintegrarse. El

conocimiento de la ley que sigue este evento se utiliza en Ciencia para,
por ejemplo, la datacin de fsiles o cualquier materia orgnica mediante
la tcnica del carbono 14, C14;
El tiempo que puede transcurrir en un servicio de urgencias, para la
llegada de un paciente;
En un proceso de Poisson donde se repite sucesivamente un experimento
a intervalos de tiempo iguales, el tiempo que transcurre entre la
ocurrencia de dos sucesos consecutivos sigue un modelo probabilstico
exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos
dos veces una herida importante.

Concretando, si una v.a. continua X distribuida a lo largo de
funcin de densidad es
, es tal que su
se dice que sigue una distribucin exponencial de parmetro
Figura: Funcin de densidad, f, de una
Un clculo inmediato nos dice que si x>0,
luego la funcin de distribucin es:
Figura: Funcin de distribucin, F, de

, calculada
como el rea que deja por debajo de s la funcin de densidad.
Para calcular el valor esperado y la varianza de la distribucin exponencial,

obtenemos en primer lugar la funcin caracterstica
para despus, derivando por primera vez
y derivando por segunda vez,
Entonces la varianza vale
1.8.4.1 Ejemplo
En un experimento de laboratorio se utilizan 10 gramos de
. Sabiendo que
la duracin media de un tomo de esta materia es de 140 das, cuantos idas
transcurrirn hasta que haya desaparecido el
de este material?
Solucin: El tiempo T de desintegracin de un tomo de

distribucin exponencial:
es una v.a. de
Como el nmero de tomos de

existentes en una muestra de 10 gramos
es enorme, el histograma de frecuencias relativas formado por los tiempos de
desintegracin de cada uno de estos tomos debe ser extremadamente
aproximado a la curva de densidad, f. Del mismo modo, el polgono de
frecuencias relativas acumuladas debe ser muy aproximado a la curva de su
funcin de distribucin F. Entonces el tiempo que transcurre hasta que el
material radiactivo se desintegra es el percentil 90, t90, de la distribucin
exponencial, es decir
Figura: Como el nmero de tomos (observaciones) es

extremadamente alto en 10 gramos de materia, el histograma
puede ser aproximado de modo excelente por la funcin de
densidad exponencial, y el polgono de frecuencias
acumuladas por la funcin de distribucin.
del

1.8.4.2 Ejemplo
Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una
distribucin exponencial con media de 16 aos. Cul es la probabilidad de que
a una persona a la que se le ha implantado este marcapasos se le deba
reimplantar otro antes de 20 aos? Si el marcapasos lleva funcionando
correctamente 5 aos en un paciente, cul es la probabilidad de que haya que
cambiarlo antes de
aos?
Solucin: Sea T la variable aleatoria que mide la duracin de un marcapasos en

una persona. Tenemos que
Entonces
En segundo lugar
Luego como era de esperar, por ser propio a un mecanismo exponencial,
o sea, en la duracin que se espera que tenga el objeto, no influye en nada el

tiempo que en la actualidad lleva funcionando. Es por ello que se dice que ``la
distribucin exponencial no tiene memoria".
1.8.6 Distribucin normal o gaussiana

La distribucin gaussiana, recibe tambin el nombre de distribucin normal, ya
que una gran mayora de las v.a continuas6.3 de la naturaleza siguen esta
distribucin. Se dice que una v.a. X sigue una distribucin normal de
parmetros y
de densidad es:
, lo que representamos del modo
6.4
si su funcin
1.8.6.1 Observacin
Estos dos parmetros y
coinciden adems con la media (esperanza) y la
varianza respectivamente de la distribucin como se demostrar ms adelante 6.5:
La forma de la funcin de densidad es la llamada campana de Gauss.
Figura: Campana de Gauss o funcin de densidad de una v.a. de distribucin

normal. El rea contenida entre la grfica y el eje de abcisas vale 1.
Para el lector es un ejercicio interesante comprobar que sta alcanza un nico

mximo (moda) en
, que es simtrica con respecto al mismo, y por tanto
, con lo cual en coinciden la media, la mediana y

la moda, y por ltimo,calcular sus puntos de inflexin.
El soporte de la distribucin es todo , de modo que la mayor parte de la masa
de probabilidad (rea comprendida entre la curva y el eje de abcisas) se
encuentra concentrado alrededor de la media, y las ramas de la curva se
extienden asintticamente a los ejes, de modo que cualquier valor ``muy alejado"
de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los parmetros
indica la posicin de la campana (parmetro de centralizacin);
Figura: Distribuciones gaussianas con diferentes medias e igual

dispersin.
(o equivalentemente, ) ser el parmetro de dispersin. Cuanto

menor sea, mayor cantidad de masa de probabilidad habr concentrada
alrededor de la media (grafo de f muy apuntado cerca de
mayor sea ``ms aplastado" ser.
) y cuanto
Figura: Distribuciones gaussianas con igual media pero varianza

diferente.
La funcin caracterstica de la distribucin normal, se comprueba ms adelante

que es
Como consecuencia, la distribucin normal es reproductiva con respecto a los

parmetros
,y
, ya que
1.8.6.2 Observacin
Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la
encontramos en la mayora de los fenmenos que observamos en la naturaleza,
por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a
el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad,
hay que apuntar un hecho negativo para esta ley de probabilidad:
La funcin
no posee primitiva6.6 conocida6.7.
Las consecuencias desde el punto de vista prctico son importantes, ya que eso
impide el que podamos escribir de modo sencillo la funcin de distribucin de la
normal, y nos tenemos que limitar a decir que:
sin poder hacer uso de ninguna expresin que la simplifique. Afortunadamente

esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho
puede ser calculado con tanta precisin (decimales) como se quiera, pero para
esto se necesita usar tcnicas de clculo numrico y ordenadores. Para la
utilizacin en problemas prcticos de la funcin de distribucin F, existen ciertas
tablas donde se ofrecen (con varios decimales de precisin) los valores F(x)
para una serie limitada de valores xi dados. Normalmente F se encuentra
tabulada para una distribucin Z, normal de media 0 y varianza 1 que se
denomina distribucin normal tipificada:
En el caso de que tengamos una distribucin diferente

Z haciendo el siguiente cambio:
, se obtiene
De manera general se tiene6.8:

1.8.6.3 Proposicin (Cambio de origen y escala)
Sean
. Entonces
Este resultado puede ser utilizado del siguiente modo: Si

interesa calcular
, y nos
1.
Hacemos el cambio
y calculamos
2.
Usamos la tabla 3, relativa a la distribucin
aproximado)
3.
Como
para obtener (de modo

tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad
buscada.
1.8.6.4 Ejemplo
Supongamos que cierto fenmeno pueda ser representado mediante una v.a.
, y queremos calcular la probabilidad de que Xtome un valor entre
39 y 48, es decir,
Comenzamos haciendo el cambio de variable
de modo que
Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que

hemos mencionado anteriormente.
1.8.6.5 Proposicin
Sea
. Entonces
Demostracin
Por ser la normal una ley de probabilidad se tiene que
es decir, esa integral es constante. Con lo cual, derivando la expresin anterior

con respecto a
luego
se obtiene el valor 0:
Para demostrar la igualdad entre la

y
, basta con aplicar la misma
tcnica, pero esta vez derivando con respecto a
:
Luego
Para demostrar el resultado relativo a la funcin caracterstica, consideramos en

primer lugar la v.a. tipificada de X,
y calculamos
Como
, por la proposicin 5 deducimos que
1.8.6.6 Aproximacin a la normal de la ley binomial

Se puede demostrar (teorema central del lmite) que una v.a. discreta con
distribucin binomial,
se puede aproximar mediante una distribucin

normal si n es suficientemente grande y p no est ni muy prximo a 0 ni a 1.
Como el valor esperado y la varianza de X son respectivamente
aproximacin consiste en decir que
utilizar para poder realizar esta aproximacin es:
, la
. El convenio que se suele
aunque en realidad esta no da resultados muy precisos a menos que realmente

nsea un valor muy grande o
figuras 6.10 y 6.11.
. Como ilustracin obsrvense las
Figura: Comparacin entre la funcin de densidad de una

v.a. continua con distribucin
y el diagrama
de barras de una v.a. discreta de distribucin

para
casos en que la aproximacin normal de la binomial es
vlida. Es peor esta aproximacin cuando p est prximo
a los bordes del intervalo [0,1].
Figura: La misma comparacin que en la figura anterior,

pero realizada con parmetros con los que damos la
aproximacin normal de la binomial es mejor.

1.8.6.7 Ejemplo
Durante cierta epidemia de gripe, enferma el
de la poblacin. En un aula
con 200 estudiantes de Medicina, cul es la probabilidad de que a lo sumo 40
padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes
con gripe.
Solucin: La v.a. que contabiliza el nmero de alumnos que padece la gripe es
cuya media es
y su varianza es
. Realizar los
clculos con la ley binomial es muy engorroso, ya que intervienen nmeros
combinatorios de gran tamao, y potencias muy elevadas. Por ello utilizamos la
aproximacin normal de X, teniendo en cuenta que se verifican las condiciones
necesarias para que el error sea aceptable:
As aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN

tenemos:
Tambin es necesario calcular

exactamente como:
. Esta probabilidad se calcula
Dada la dificultad numrica para calcular esa cantidad, y como la distribucin

binomial no est habitualmente tabulada hasta valores tan altos, vamos a utilizar
su aproximacin normal, XN. Pero hay que prestar atencin al hecho de que XN
es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En
particular,
lo que ha de ser interpretado como un error de aproximacin. Hay mtodos ms

aproximados para calcular la probabilidad buscada. Por ejemplo, podemos
aproximar
por el valor de la funcin de densidad de XN en ese punto

(es en el nico sentido en que se puede entender la funcin de densidad de la
normal como una aproximacin de una probabilidad). As:
Por ltimo, otra posibilidad es considerar un intervalo de longitud 1centrado en el

valor 60 del que deseamos hallar su probabilidad y hacer:
1.8.6.8 Ejemplo
Segn un estudio, la altura de los varones de cierta ciudad es una v.a. X, que
podemos considerar que se distribuye segn una ley gaussiana de valor
esperado
y desviacin tpica
tengamos asegurado que el

comprendidos en l.
Solucin: Tenemos que
. Dar un intervalo para el que
de los habitantes de la ciudad estn
. Si buscamos un intervalo
donde estar seguros de que el

de los habitantes tengan sus alturas
comprendidas en l hay varias estrategias posibles:
1.
Podemos tomar el percentil 50, ya que este valor deja por debajo suya a
la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definira
como:
donde
El valor z0,5 lo podemos buscar en la tabla 3 (distribucin

obtiene
) y se
Por tanto podemos decir que la mitad de la poblacin tiene una altura
inferior a
. Este resultado era de esperar, ya que en la
distribucin es simtrica y habr una mitad de individuos con un peso
inferior a la media y otro con un peso superior (figura 6.12). Esto puede
escribirse como:
El
de la poblacin tiene un peso comprendido en el intervalo

.
Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin

tiene un peso comprendido en l. Como se observa, no es un tamao
ptimo, en el sentido de que el intervalo es demasiado grande (longitud
infinita a la izquierda).
2.
Anlogamente podemos considerar el percentil 50, y tomar como intervalo
aquellos pesos que lo superan. Por las mismas razones que en el
problema anterior, podremos decir:
El

.
3.
Los anteriores intervalos, an dando un resultado correcto, no son
satisfactorios en el sentido de que son muy grandes, y no tienen en
cuenta la simetra de la distribucin normal para tomar un intervalo cuyo
centro sea . Vamos a utilizar entonces otra tcnica que nos permita
calcular el intervalo centrado en la media, y que adems ser el ms
pequeo posible que contenga al
de la poblacin.
Para ello observamos que la mayor parte de probabilidad est

concentrada siempre alrededor de la media en las leyes gaussianas.
Entonces podemos tomar un intervalo que contenga un
probabilidad del lado izquierdo ms prximo a la media, y un
derecho (figura 6.13).
de
del
Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin

tiene un peso comprendido en l. En este caso el intervalo es ms
pequeo que el anterior y est centrado en
Esto se puede describir como el intervalo
donde x0,25 es el valor que deja por debajo de s al

de la masa de
probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que
deja por debajo al
de las observaciones). Del mismo modo que antes
estos valores pueden ser buscados en una tabla de la distribucin normal,
tipificando en primera instancia para destipificar despus:
donde
En una tabla encontramos el valor z0,75, y se destipifica:
Anlogamente se calculara
donde
Por la simetra de la distribucin normal con respecto al origen, tenemos

que z0,25= - z0,75.Luego

En conclusin:
El
[168,25,181,75].
De entre los tres intervalos que se han calculado el que tiene ms inters es el
ltimo, ya que es simtrico con respecto a la media, y es el ms pequeo de
todos los posibles (ms preciso). Este ejemplo es en realidad una introduccin a
unas tcnicas de inferencia estadstica que trataremos posteriormente,
conocidas con el nombre de ``estimacin confidencial'' o ``clculo de intervalos
de confianza''.
1.8.6.9. Ejemplo
Las perdidas por mora en los pagos de un almacen de articulos
electrodomesticos durante un ao siguen una distribucion aproximadamente
normal con media $50.000, y el 95.44% de las perdidas oscilan entre $40.000 y
$80.000. Calcule la desviacion estandar dela distribucion.
Solucion
Sea X la v.a. que denota las perdidas por mora en los pagos del almacen
durante el ano en cuestion. Entonces, de acuerdo con los datos
P (40.000 X 80.000) 0.9544
Es decir,
40.000 50.000 X 80.000 50.000
0.9544
30.000
10.000
P
Z
0.9544 .
equivale
a
Lo
que
P k Z l 0.9544 , con l 3k ; lo que equivale a decir que k 1

luego, 10.000 .
sea,
10000
,
1.8.8 Distribucin
, la v.a. X=Z2 se distribuye segn una ley
Si consideramos una v.a.

de probabilidad distribucin
representa como
Si tenemos n v.a. independientes
con un grado de libertad, lo que se
, la suma de sus cuadrados
respectivos es una distribucin que denominaremos ley de distribucin

n grados de libertad,
La media y varianza de esta variable son respectivamente:
y su funcin de densidad es:
con

Los percentiles de esta distribucin que aparecen con ms frecuencia en la
prctica los podemos encontrar en la tabla 5.
Figura: Funcin de densidad de

pequeos de n.

de n.
para valores
para valores grandes
En consecuencia, si tenemos
, v.a. independientes, donde cada
, se tiene
1.8.8.1 Observacin
La ley de distribucin
muestra su importancia cuando queremos determinar
la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor
central siguiendo un mecanismo normal. Como ilustracin tenemos el siguiente
ejemplo:
1.8.8.2 Ejemplo
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados
bastantes aproximados con la realidad, aunque existe cierta cantidad de error
que se distribuye de modo normal con media 0 y desviacin tpica
.
Se realizan mediciones de los niveles de glucemia dados por el instrumento en

un grupo de n=100 pacientes. Nos interesa medir la cantidad de error que se
acumula en las mediciones de todos los pacientes. Podemos plantear varias
estrategias para medir los errores acumulados. Entre ellas destacamos las
siguientes:
1.
Definimos el error acumulado en las mediciones de todos los pacientes
como
Cul es el valor esperado para E1?

2.
Definimos el error acumulado como la suma de los cuadrados de todos
los errores (cantidades positivas):
Cul es el valor esperado para E2?

A la vista de los resultados, cul de las dos cantidades, E1 y E2, le parece ms
conveniente utilizar en una estimacin del error cometido por un instrumento.
Solucin:
Suponiendo que todas las mediciones son independientes, se tiene que
De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a
tender a compensarse entre unos pacientes y otros. Obsrvese que si no
fuese conocido a priori, podramos utilizar E1, para obtener una aproximacin de
Sin embargo, el resultado E1 no nos indica en qu medida hay mayor o menor

dispersin en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo
siguiente:
En este caso los errores no se compensan entre s, y si

podra ser estimado de modo aproximado mediante
no fuese conocido,
Sin embargo, no obtenemos ninguna informacin con respecto a
En conclusin, E1 podra ser utilizado para calcular de modo aproximado , y E2

para calcular de modo aproximado
. Las dos cantidades tienen inters, y
ninguna lo tiene ms que la otra, pues ambas formas de medir el error nos
aportan informacin.
El siguiente resultado ser de importancia ms adelante. Nos afirma que la
media de distribuciones normales independientes es normal pero con menor
varianza y relaciona los grados de libertad de una v.a. con distribucin
los de un estadstico como la varianza (pgina ):
, con
1.8.8.3 Teorema (Cochran)

Sean
v.a. independientes. Entonces
EJERCICIOS DE PROBABILIDAD
Sea X una distribucin normal estandarizada. Pruebe que el cuadrado de X es
2
2
una variable aleatoria distribuida chi-cuadrado: X ~ (1)
Sol. /
Sea Y X 2 . Entonces, X Y . Tenemos que:
FY ( y ) P (Y y ) P( X 2 y ) P y X
PX ( X
y ) PX ( X y ) FX
y F y
X
Se sabe que fY y F 'Y ( y ) . Esto nos lleva a:

fY y
d
1
FY ( y )
fX
dy
2 y
y 21y f y
X
1
2 y
1 y/2
1
e
2
2 y
1 y/2
e
1
y (1/ 2) 1e y / 2
1 1/ 2
2
2
La ltima expresin es la forma distribucional de una Chi-cuadrado con un

grado de libertad.
Sean
X1
X2
dos variables independientes tales que
Y X 1 X 2 ~ , tambin independientes. Pruebe que X 2 ~
2
X
X 1 ~ 2X
Sol. /
etX1 e tX 2
M Y (t ) E etY E et ( X1 X 2 ) E
t(X X )
etX1 e tX 2 .
Pero como X 1 y X 2 son dos variables independientes, E e 1 2 E
As,
e tX 2
M Y (t ) E etX1 E
2
Pero X 2 Y ~ , lo que implica que su funcin generadora de momentos es
M Y (t ) 1 2t
/ 2
. As,
1 2t
/ 2
1 2t
1 / 2
M X 1 (t )
Despejando M X1 (t ) obtenemos:
P (obtener _ i _ ptos.)
(6 i ) 2 (5 i) 2
52
1 2t 1 2t / 2 1 2t / 2
(t )
/ 2
1 2t
/ 2
M X2
lo que prueba que X 2 es una variable aleatoria distribuida chi-cuadrada con

2 1 grados de libertad.
1.8.10 Distribucin de Student

La distribucin -Student se construye como un cociente entre una normal y la
raz de una 2 independientes. De modo preciso, llamamos distribucin tStudent con n grados de libertad, tn a la de una v.a. T,
donde
,
. Este tipo de distribuciones aparece cuando
tenemos n+1 v.a. independientes
y nos interesa la distribucin de
La funcin de densidad de
es
Figura: Funcin de densidad de una de Student
La distribucin de Student tiene propiedades parecidas a
1. Es de media cero, y simtrica con respecto a la misma;

2. Es algo ms dispersa que la normal, pero la varianza decrece hasta 1
cuando el nmero de grados de libertad aumenta;
Figura: Comparacin entre las funciones de densidad de
3. Para un nmero alto de grados de libertad se puede aproximar la

distribucin de Student por la normal, es decir,
Figura: Cuando aumentan los grados de libertad, la distribucin de

Student se aproxima a la distribucin normal tipificada.
4. Para calcular
en lugar de considerar una primitiva de esa funcin y determinar la

integral definida, buscaremos el resultado aproximado en una tabla de la
distribucin
1.8.12 La distribucin
de Snedecor
Otra de la distribuciones importantes asociadas a la normal es la que se define

como cociente de distribuciones
independientes. Sean
v.a. independientes. Decimos entonces que la variable
sigue una distribucin de probabilidad de Snedecor, con (n,m) grados de

libertad. Obsrvese que
La forma ms habitual en que nos encontraremos esta distribucin ser en el

caso en que tengamos n+m v.a. independientes
y as
De esta ley de probabilidad lo que ms nos interesa es su funcin de

distribucin:

y para ello, como en todas las distribuciones asociadas a la normal, disponemos
de una tabla (la nmero 6) donde encontrar aproximaciones a esas cantidades
Es claro que la distribucin de Snedecor no es simtrica, pues slo tienen

densidad de probabilidad distinta de cero, los punto de
. Otra propiedad
interesante de la distribucin de Snedecor es:
1.10 Problemas
Ejercicio 1..1. Para estudiar la regulacin hormonal de una lnea metablica se
inyectan ratas albinas con un frmaco que inhibe la sntesis de protenas del
organismo. En general, 4 de cada 20 ratas mueren a causa del frmaco antes de
que el experimento haya concluido. Si se trata a 10 animales con el frmaco,
cul es la probabilidad de que al menos 8 lleguen vivas al final del
experimento?
Ejercicio 1..2. En una cierta poblacin se ha observado un nmero medio anual
de muertes por cncer de pulmn de 12. Si el nmero de muertes causadas por

la enfermedad sigue una distribucin de Poisson, cul es la probabilidad de
que durante el ao en curso:
1.
Haya exactamente 10 muertes por cncer de pulmn?
2.
15 o ms personas mueran a causa de la enfermedad?
3.
10 o menos personas mueran a causa de la enfermedad?
Ejercicio 1..3. Daando los cromosomas del vulo o del espermatozoide,
pueden causarse mutaciones que conducen a abortos, defectos de nacimiento,
u otras deficiencias genticas. La probabilidad de que tal mutacin se produzca
por radiacin es del 10%. De las siguientes 150 mutaciones causadas por
cromosomas daados, cuntas se esperara que se debiesen a radiaciones?
Cul es la probabilidad de que solamente 10 se debiesen a radiaciones?
Ejercicio 1..4. Entre los diabticos, el nivel de glucosa en sangre X, en ayunas,
puede suponerse de distribucin aproximadamente normal, con media 106
mg/100 ml y desviacin tpica 8 mg/100 ml, es decir
1.
Hallar
2.
Qu porcentaje de diabticos tienen niveles comprendidos entre 90 y
120 ?
3.
Hallar
4.
Hallar
5.
Hallar el punto x caracterizado por la propiedad de que el 25% de todos
los diabticos tiene un nivel de glucosa en ayunas inferior o igual a x.
Ejercicio 1..5. Una prueba de laboratorio para detectar herona en sangre tiene
un 92% de precisin. Si se analizan 72 muestras en un mes, cul es la
probabilidad de que:
1.
60 o menos estn correctamente evaluadas?

2.
menos de 60 estn correctamente evaluadas?
3.
exactamente 60 estn correctamente evaluadas?
Ejercicio 1..6. El 10% de las personas tiene algn tipo de alergia. Se
seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la
probabilidad de que, al menos, 12 tengan algn tipo de alergia. Hallar la
probabilidad de que, como mximo, 8 sean alrgicos a algo.
Ejercicio 1..7. La probabilidad de muerte resultante del uso de pldoras
anticonceptivas es de 3/100.000. De 1.000.000 de mujeres que utilizan este
medio de control de natalidad:
1.
Cuntas muertes debidas a esta causa se esperan?
2.
Cul es la probabilidad de que haya, como mximo, 25 de estas
muertes?
3.
Cul es la probabilidad de que el nmero de muertes debidas a esta
causa est entre 25 y 35, inclusive?
Ejercicio 1..8. La probabilidad de presentar una caracterstica gentica es de
1/20.
1.
Tomando una muestra de 8 individuos, calcular la probabilidad de que 3
individuos presenten la caracterstica.
2.
Tomando una muestra de 80 personas, cul ser la probabilidad de que
aparezcan ms de 5 individuos con la caracterstica?
Ejercicio 1..9. Se supone que en una cierta poblacin humana el ndice ceflico
i, (cociente entre el dimetro transversal y el longitudinal expresado en tanto por
ciento), se distribuye segn una Normal. El 58% de los habitantes son
dolicocfalos (i 75), el 38% son mesocfalos (75 < i 80) y el 4% son
braquicfalos (i > 80). Hllese la media y la desviacin tpica del ndice ceflico
en esa poblacin.
Ejercicio 1..10. Se supone que la glucemia basal en individuos sanos, Xs sigue
una distribucin
mientras que en los diabticos Xd, sigue una distribucin
Si se conviene en clasificar como sanos al 2% de los diabticos:

1.
Por debajo de qu valor se considera sano a un individuo? Cuntos
sanos sern clasificados como diabticos?
2.
Se sabe que en la poblacin en general el 10% de los individuos son
diabticos cul es la probabilidad de que un individuo elegido al azar y
diagnosticado como diabtico, realmente lo sea?
Ejercicio 1..11. Supngase que se van a utilizar 20 ratas en un estudio de
agentes coagulantes de la sangre. Como primera experiencia, se dio un
anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin
marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del
estudio y se les tom al azar sin reemplazamiento. Cul es la probabilidad de
que de las 12 elegidas 6 tengan la droga y 6 no la tengan?
Preguntas 1 y 2. La distribucin de probabilidad conjunta de

y
p x , y
0
0
5
10
( X, Y) es:
5
0.02
0.04
0.01
10
0.06
0.15
0.15
15
0.02
0.20
0.14
Se puede decir que:

a) X e Y son independientes
c) P(X 0) 0.2
0.10
0.10
0.01
b)
d)
X e Y son dependientes
b) y c)
P(Y 5 | X 5) es igual a:
0.21
b)
0.304
c)
0.69
d)
1
Preguntas 3 y 4. Sean
y
X e Y variables aleatorias independientes, con f x 3 x 2 , 0 x 1
f y 2 y , 0 y 1 .
P(X 0.5, Y 0.5) es igual a:

3
32
21
32
c)
7
32
d)
0.027
c)
0.5
d)
b)
1
32
El valor esperado de
0.25
0.8
XY es:
b)
El tiempo de espera de un autobs en la maana es una variable aleatoria normal con media 4
minutos y varianza 3, mientras que en la tarde es normal con media 5 minutos y varianza 4.
Asuma que los dos tiempos de espera son independientes. Si
promedio en las maanas y
X M .representa el tiempo
X T representa el tiempo promedio en las tardes y el bus se aborda
durante 5 das, la probabilidad de que X M X T < 1 es:

0.9545
b)
0.4545
c)
0.909
d)
0.5
Preguntas 6 y 7. El tiempo que un individuo debe esperar en un punto de atencin es una
variable aleatoria normal con media 8.2 minutos y desviacin estndar 4 minutos. Se observan
los tiempos de 49 individuos.
La probabilidad de que el tiempo promedio de espera sea a lo mas 10 minutos es:
0.0008
b)
0.5714
c)
0.3150
0.9992
d)
El valor de la media que cumple que la probabilidad de que el tiempo de espera total sea a lo
sumo 14.3 horas es 0.9664, es:
8.2
b)
0.7422
c)
7.53
d)
6.98
Preguntas 8 y 9. Para una muestra aleatoria
desconocida y varianza
2 .
Considere los siguientes estimadores de

Los sesgos de
0y
X 2X 3
, 2 2X .
: 1 1
3
1 y 2 son respectivamente:
b)
0y
X 1 , X 2 , X 3 de una poblacin con media
y 2
c)
0y
c)
d)
Se puede decir que:

a)
V 1 V 2
ECM 1 ECM 2
1
Si E , entonces, el sesgo de es:

b)
4
ECM 2 2
3
d)
El mejor estimador es
b)
c)
Preguntas 11 y 12. La distribucin de probabilidad conjunta de
p x , y
( X, Y) est dada por:
y
-1
0
1
2
3
d) 2
0
0.10
0.10
0.05
0.05
1
0.10
0.05
0.05
0.05
0.10
0.15
0.10
0.10
11. Se puede decir que:

P(2,0) PX (2) * PY (0) , entonces X e Y son independientes
a)
dependientes
c)
X e Y son independientes
12. La
1
6
a)
E[Y | X 1] es:
2
b)
6
c)
7
9
b)X e Y son
d)
d)
6
5
Preguntas 13 y 14. La funcin de distribucin de una variable aleatoria bidimensional

es:
a) y c)
( X, Y)
f x, y 2 , 0 x 1 , 0 y x .
13. De las siguientes afirmaciones la correcta es:

a)
d)
E[Y]
b)
E[Y] > E[X]
c)
E[X]
2
3
2
3
1
2
14. P X es igual a:
1
4
b)
1
8
c)
3
4
d)
5
8
15. Una muestra aleatoria de tamao 16 es seleccionada de una poblacin normal con media 75
y desviacin estndar 8. Una segunda muestra aleatoria, independiente de la anterior, es
seleccionada de una poblacin normal con media 70 y varianza 144, de tamao 9. Si X 1 y X 2
son la medias muestrales, la
0.4129
b)
0.5884
P X1 X 2 4 es igual a:
0.2236
c)
0.5793
d)
Preguntas 16 y 17. Los ingresos diarios de un restaurante, en miles de pesos, oscilan entre 530
y 570, con distribucin uniforme. Suponga independencia en los ingresos diarios.

16. La probabilidad de que en 100 das los ingresos totales superen la cifra de 55.25 millones de
pesos es:
1
b)
0.985
c)
0.015
d)
0.988
17. El nmero aproximado de das necesarios para que la probabilidad de que el promedio de los
ingresos supere los 549.5 miles de pesos sea 0.9147 es:
1001
b)
32
c)
10
d)
100
X 1 , X 2 , L , X n una muestra aleatoria de una distribucin con media

2
1
n
2
(X
X)
u y varianza 2 . Sea
un estimador de 2 .
i
i 1
n 1
Preguntas 18 y 19. Sea
18. Se puede decir que:

a)
2 2 b)
V
n 1
E 2
c)
2 2
E
d)
2 2
E
2 2 , la expresin correcta es:
19. Si B= E
2
a)
Bn
d)
B0
2
B
n
b)
c)
B 2
20. Sean X e Y variables aleatorias independientes. Una de las siguientes afirmaciones es

falsa:
E X
X
f X|y x f X x
a) f x , y f X x f Y y
b)
c) E
d)
E Y
Y
E X Y E X E Y
Preguntas 21 y 22. La distribucin de probabilidad conjunta de ( X, Y) es:

x
p x , y
-1
-1
0
1
0
1
9/64 3/32 9/64
6/64 1/16 6/64
9/64 3/32 9/64
Se puede decir que:

a) X e Y son independientes
son dependientes
c) P(0,1) PX (0) * PY (1) , entonces X e Y son independientes
La E[X | Y
- 0.375
b)
X e Y
d)
a) y c)
-1] es igual a:
b)1
c)0
d)0.375
Preguntas 23 y 24. La funcin de distribucin de una variable aleatoria bidimensional

es: f x , y 8 x y,
0 x y 1.
( X, Y)
La afirmacin correcta es:

a) X e Y son dependientes
d)
E[X] 0.53
b)
E[Y] E[X]
c)
E[XY] E[X]
P X 0.5, Y 0.5 es igual a:

0.9375
0.0625
b)
0.375
c)
0.4
d)
La vida til de un componente es una variable aleatoria normal, antes de cambiar el proceso de
fabricacin tena media 5000 horas y desviacin estndar 40 horas, al introducir una mejora en
la fabricacin la vida til del componente cambia y la desviacin estndar disminuye a 30 horas.
Si se toman dos muestras aleatorias, una de 16 componentes del proceso antiguo y otra de 25
componentes del nuevo proceso. El valor aproximado de la media poblacional en el proceso
mejorado tal que la probabilidad de que X 2 X1 25 horas sea 0.9699 es:
a) 5036
b)
5030
c)
5047
d)
5026
Preguntas 26 y 27. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una
media de 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.
La probabilidad de que el peso promedio muestral sea como mnimo 3 es:
0.0630
b)
0.0951
c)
0.31
0.5
d)
El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de
los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:
2.71
b)
1.53
c)
0.9591
d)
4.34
Preguntas 28 y 29. Sea
X 1 , X 2 , L , X n una muestra aleatoria de una distribucin con media

i
desconocida y varianza
1
. Sean i X j , para i 1, 2 , L , n , estimadores de .
i j 1
Se puede afirmar que:
V( i ) i
d)
b)
V( i ) i / i
c)
V( i ) / i
V( i ) / i
El mejor estimador para
es:
b)
las anteriores
c)
i , 1 i n
d)
Todas

-x-y
Si X e Y son variables aleatorias conjuntamente distribuidas con f.d.p. f x , y x y e
x 0, y 0 entonces:
f X|y x f X x
a)
c)
f Y|x y y e- y , y 0
b)
f X x x e -x , x 0
d)
Todas las anteriores
Preguntas 31 y 32. La distribucin de probabilidad conjunta de ( X, Y) es:

p x, y
y
0
1
1/9
1/9
2/9
1
2
3
2
1/9
1/9
1/9
1/9
1/9
0
Se puede decir que :

P(2,1) PX (2) * PY (1) , entonces X e Y son independientes
a)
son dependientes
c)
P X 1 | X Y 2 es igual a:
2
1
b)
9
2
3
c)
3
9
b)
X e Y
d)
a) y c)
d)
Preguntas 33 y 34. La funcin de distribucin de una variable aleatoria bidimensional ( X, Y) es:
f x , y k e- ( x y ) , x 0 , y 0
La opcin correcta es:
a) X e Y son independientesb)
d) a) y c)
X e Y son dependientes
c)
E[X] E[Y]
P Y 1 | X 2 es igual a:
0.6321
b)
0.3679
c)
0.0854
d)
0.1353
El PH de cierto compuesto qumico es una variable aleatoria normal con media 5 y varianza 2
cuando es medido en la maana y cuando es medido por la tarde es normal con media 5 y
varianza 1. Se realizan 25 mediciones en la maana y 16 en la tarde. Si las mediciones son
independientes, calcular P 2 X 1 3 X 2 23
0.020
b)
0.0166
c)
d)
0.9834
Preguntas 36 y 37. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una
media 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.
La probabilidad de que el peso promedio muestral sea como mnimo 3 es:

0.0630
b)
0.0951
c)
0.31
d)
0.5
El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de
los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:
2.71
b)
1.53
c)
0.9591
d)
4.34
Preguntas 38 y 39. Dos analistas tomaron cada uno muestras de una misma variable aleatoria
2 . El analista A obtuvo observaciones X 1 , X 2 , L , X n . El analista B

obtuvo observaciones Y1 , Y 2 , L , Yn .
Para estimar el parmetro se proponen los
con media
y varianza
estimadores: 1
X i j 1 Y j
n
i 1
2n
XY
2
3
Se puede decir que:

a) Los dos son insesgados
varianza
ECM i 2 / 2n , i 1, 2
c)
b)
Los dos tienen la misma
d)
Ninguna
de
las
anteriores
Si
1
Si
2 1 y 1 y n es mayor que 5, el mejor estimador de es:

b) Cualquiera de los dos
d)
c)
Ninguno
V , entonces:
a) es insesgado
b)
c)
es sesgado d)
a) y b)
7. Inferencia estadstica
1. 2.2 Introduccin
2. 2.4 Tcnicas de muestreo sobre una poblacin
a. 2.4.2 Muestreo aleatorio
i. 2.4.2.1 Muestreo aleatorio sin reposicin
ii. 2.4.2.2 Muestreo aleatorio con reposicin
iii. 2.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional
iv. 2.4.2.4 Mtodo de Montecarlo
v. 2.4.2.5 Ejemplo
b. 2.4.4 Muestreo aleatorio estratificado
i. 2.4.4.1 Ejemplo
ii. 2.4.4.2 Asignacin proporcional
iii. 2.4.4.3 Asignacin ptima
iv. 2.4.4.4 Teorema
c. 2.4.6 Muestreo sistemtico
i. 2.4.6.1 Observacin
d. 2.4.8 Muestreo por conglomerados
3. 2.6 Propiedades deseables de un estimador
a. 2.6.0.1 Ejemplo
b. 2.6.2 Carencia de sesgo
c. 2.6.4 Consistencia
i. 2.6.4.1 Teorema
d. 2.6.6 Eficiencia
e. 2.6.8 Suficiencia
i. 2.6.8.1 Teorema
f. 2.6.10 Estimadores de mxima verosimilitud
g. 2.6.12 Algunos estimadores fundamentales
i. 2.6.12.1 Estimador de la esperanza matemtica
ii. 2.6.12.2 Proposicin
iii. 2.6.12.3 Estimador de la varianza
iv. 2.6.12.4 Proposicin
v. 2.6.12.5 Proposicin
vi. 2.6.12.6 Cuasivarianza muestral
2.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando,
extraer conclusiones acerca de la naturaleza de una poblacin. Al ser la
poblacin grande y no poder ser estudiada en su integridad en la mayora de los

casos, las conclusiones obtenidas deben basarse en el examen de solamente
una parte de sta, lo que nos lleva, en primer lugar a la justificacin, necesidad y
definicin de las diferentes tcnicas de muestreo.
Los primeros trminos obligados a los que debemos hacer referencia, definidos
en el primer captulo, sern los de estadstico y estimador.
Dentro de este contexto, ser necesario asumir un estadstico o estimador como
una variable aleatoria con una determinada distribucin, y que ser la pieza
clave en las dos amplias categoras de la inferencia estadstica: la estimacin y
el contraste de hiptesis.
El concepto de estimador, como herramienta fundamental, lo caracterizamos
mediante una serie de propiedades que nos servirn para elegir el ``mejor" para
un determinado parmetro de una poblacin, as como algunos mtodos para la
obtencin de ellos, tanto en la estimacin puntual como por intervalos.
Cmo deducir la ley de probabilidad sobre determinado carcter de una
poblacin cuando slo conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de
estudiar la relacin entre el fumar y el cncer de pulmn e intentamos extender
las conclusiones obtenidas sobre una muestra al resto de individuos de la
poblacin.
La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca
de la poblacin a partir de una muestra extrada de la misma.
2.4 Tcnicas de muestreo sobre una poblacin

La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes
entre la distribucin de un carcter en dicha poblacin y las distribuciones de
dicho carcter en todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son
principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea
parte del total de la poblacin, los gastos de recogida y tratamiento de los
datos sern menores. Por ejemplo, cuando se realizan encuestas previas
a un referndum, es ms barato preguntar a 4.000 personas su intencin
de voto, que a 30.000.000;
Mayor rapidez:

Estamos acostumbrados a ver cmo con los resultados del escrutinio de
las primeras mesas electorales, se obtiene una aproximacin bastante
buena del resultado final de unas elecciones, muchas horas antes de que
el recuento final de votos haya finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto
tipo de bombillas, no es posible en la prctica destruirlas todas para
conocer su vida media, ya que no quedara nada que vender. Es mejor
destruir slo una pequea parte de ellas y sacar conclusiones sobre las
dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos
con dos problemas:
-
Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en

este captulo.
Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de
la poblacin (inferencia).
El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los

elementos de la poblacin tienen la misma probabilidad de ser extrados;
Aunque dependiendo del problema y con el objetivo de reducir los costes o
aumentar la precisin, otros tipos de muestreo pueden ser considerados como
veremos ms adelante: muestreo sistemtico, estratificado y por conglomerados.
2.4.2 Muestreo aleatorio

Consideremos una poblacin finita, de la que deseamos extraer una muestra.
Cuando el proceso de extraccin es tal que garantiza a cada uno de los
elementos de la poblacin la misma oportunidad de ser incluidos en dicha
muestra, denominamos al proceso de seleccin muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
1. Sin reposicin de los elementos;
2. Con reposicin.
2.4.2.1 Muestreo aleatorio sin reposicin
Consideremos una poblacin E formada por N elementos. Si observamos un
elemento particular,
siguiente circunstancia:
, en un muestreo aleatorio sin reposicin se da la
6
7
La probabilidad de que e sea elegido en primer lugar es ;

Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad
de
), la probabilidad de que sea elegido en el segundo intento es de
.
en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo
cual si e no ha sido seleccionado previamente, la probabilidad de que lo
sea en este momento es de
Si consideramos una muestra de

elementos, donde el orden en la
eleccin de los mismos tiene importancia, la probabilidad de eleccin de una
muestra
cualquiera es
lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un

caso posible entre las VN,n posibles n-uplas de N elementos de la poblacin.
Si el orden no interviene, la probabilidad de que una muestra
sea elegida es la suma de las probabilidades de elegir una cualquiera de sus nuplas, tantas veces como permutaciones en el orden de sus elementos sea
posible, es decir
2.4.2.2 Muestreo aleatorio con reposicin

Sobre una poblacin E de tamao N podemos realizar extracciones de n
elementos, pero de modo que cada vez el elemento extrado es repuesto al total
de la poblacin. De esta forma un elemento puede ser extrado varias veces. Si
el orden en la extraccin de la muestra interviene, la probabilidad de una
cualquiera de ellas, formada por n elementos es:
Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la

suma de la anterior, repitindola tantas veces como manera de combinar sus
elementos sea posible. Es decir,
sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra;
sea n2 el nmero de veces que se repite cierto elemento e2;
sea nk el nmero de veces que se repite cierto elemento ek,
de modo que
. Entonces la probabilidad de obtener la muestra
es
es decir,
El muestreo aleatorio con reposicin es tambin denominado muestreo

aleatorio simple, que como hemos mencionado se caracteriza por que
1. cada elemento de la poblacin tiene la misma probabilidad de ser elegido,
y
2. las observaciones se realizan con reemplazamiento. De este modo, cada
observacin es realizada sobre la misma poblacin (no disminuye con las
extracciones sucesivas).
Sea X una v.a. definida sobre la poblacin E, y f(x) su ley de probabilidad.
En una muestra aleatoria simple, cada observacin tiene la distribucin de

probabilidad de la poblacin:
Adems todos las observaciones de la v.a. son independientes, es decir
Las relaciones(2.1)-(2.2) caracterizan a las muestras aleatorias simples.

La seleccin de una muestra aleatoria puede realizarse con la ayuda de #.#>
2.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional
Un ejemplo de una tabla de nmeros aleatorios consiste en la lista de los
nmeros de Lotera Nacional premiados a lo largo de su historia, pues se
caracterizan por que cada dgito tiene la misma probabilidad de ser elegido, y su
eleccin es independiente de las dems extracciones.
Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de
nmeros aleatorios de k=5 cifras (00000-99.999), una poblacin de
N=600individuos, y deseamos extraer una muestra de n=6 de ellos. En este
caso ordenamos a toda la poblacin (usando cualquier criterio) de modo que a
cada uno de sus elementos le corresponda un nmero del 1 al 600. En segundo
lugar nos dirigimos a la tabla de nmeros aleatorios, y comenzando en cualquier
punto extraemos un nmero t, y tomamos como primer elemento de la muestra
al elemento de la poblacin:
El proceso se repite tomando los siguientes nmeros de la tabla de nmeros

aleatorios, hasta obtener la muestra de 10 individuos.
Las cantidades
pueden ser consideradas como observaciones de una v.a. U, que sigue una
distribucin uniforme en el intervalo [0,1]
2.4.2.4 Mtodo de Montecarlo

El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias
simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de
su funcin de distribucin F). Con este mtodo, el modo de elegir aleatoriamente
un valor de X siguiendo usando su ley de probabilidad es:
1.
Usando una tabla de nmeros aleatorios7.1 se toma un valor u de una v.a.
.
2.
Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el
caso en que X sea discreta se toma x como el percentil
de X, es
decir el valor ms pequeo que verifica que
.
Este proceso se debe repetir n veces para obtener una muestra de tamao n.
2.4.2.5 Ejemplo
Si queremos extraer n=10 muestras de una distribucin
podemos recurrir
a una tabla de nmeros aleatorios de k=5cifras, en las que observamos las
cantidades (por ejemplo)
A partir de ellas podemos obtener una muestra de

de la distribucin normal:
Nmeros aleatorios
Muestra
usando una tabla
Muestra
xi = F-1(ui)
ti
76.293
0'76
0'71
31.776
0'32(=1-0'68)
-0'47
50.803
0'51
0'03
71.153
0'71
0'55

20.271
0'20(=1-0'80)
-0'84
33.717
0'34(=1-0'66)
-0'41
17.979
0'18(=1-0'82)
-0'92
52.125
0'52
0'05
41.330
0'41(=1-0'59)
-0'23
95.141
0'95
1'65
Obsrvese que como era de esperar, las observaciones xi tienden a agruparse

alrededor de la esperanza matemtica de
. Por otra parte,
esto no implica que el valor medio de la muestra sea necesariamente
. Sin
embargo como sabemos por el teorema de Fisher que
su dispersin con respecto al valor central es pequea, lo que implica que

probablemente el valor medio estar muy prximo a 0, como se puede
calcular:
Obsrvese que si el problema fuese el inverso, donde nicamente

conocisemos las observaciones xi y que el mecanismo que gener esos datos
hubiese sido una distribucin normal de parmetros desconocidos, con
obtenida hubisemos tenido una buena aproximacin del ``parmetro
desconocido'' . Sobre esta cuestin volveremos ms adelante al abordar el
problema de la estimacin puntual de parmetros.

2.4.4 Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es aquel en el que se divide la poblacin
de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que
puedan ser importantes en el estudio, de tamaos respectivos N1, ..., Nk,
y realizando en cada una de estas subpoblaciones muestreos aleatorios simples

de tamao ni
A continuacin nos planteamos el problema de cuantos elementos de muestra

se han de elegir de cada uno de los estratos. Para ello tenemos
fundamentalmente dos tcnicas: la asignacin proporcional y la asignacin
optima.
2.4.4.1 Ejemplo
Supongamos que realizamos un estudio sobre la poblacin de estudiantes de
una Universidad, en el que a travs de una muestra de 10 de ellos queremos
obtener informacin sobre el uso de barras de labios.
En primera aproximacin lo que procede es hacer un muestreo aleatorio simple,
pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento
de la poblacin con respecto a este carcter no es homogneo, y atendiendo a
l, podemos dividir a la poblacin en dos estratos:
a) Estudiantes masculinos (60% del total);
b) Estudiantes femeninos (40% restante).
de modo que se repartan proporcionalmente ambos grupos el nmero total de
muestras, en funcin de sus respectivos tamaos (6 varones y 4 mujeres). Esto
es lo que se denomina asignacin proporcional.
Si observamos con ms atencin, nos encontramos (salvo sorpresas de
probabilidad reducida) que el comportamiento de los varones con respecto al
carcter que se estudia es muy homogneo y diferenciado del grupo de las
mujeres.
Por otra parte, con toda seguridad la precisin sobre el carcter que estudiamos,
ser muy alta en el grupo de los varones aunque en la muestra haya muy pocos
(pequea varianza), mientras que en el grupo de las mujeres habr mayor

dispersin. Cuando las varianzas poblacionales son pequens, con pocos
elementos de una muestra se obtiene una informacin ms precisa del total de
la poblacin que cuando la varianza es grande. Por tanto, si nuestros medios
slo nos permiten tomar una muestra de 10 alumnos, ser ms conveniente
dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple
cierto nmero de individuos de cada estrato, de modo que se elegirn ms
individuos en los grupos de mayor variabilidad. As probablemente obtendramos
mejores resultados estudiando una muestra de
a) 1 varn.
b) 9 hembras.
Esto es lo que se denomina asignacin ptima.
2.4.4.2 Asignacin proporcional
Sea n el nmero de individuos de la poblacin total que forman parte de alguna
muestra:
Cuando la asignacin es proporcional el tamao de la muestra de cada estrato

es proporcional al tamao del estrato correspondiente con respecto a la
poblacin total:
2.4.4.3 Asignacin ptima

Cuando se realiza un muestreo estratificado, los tamaos muestrales en cada
uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede
basarse en alguno de los siguientes criterios:
a) Elegir los ni de tal modo que se minimice la varianza del estimador, para
un coste especificado, o bien,

b) habiendo fijado la varianza que podemos admitir para el estimador,
minimizar el coste en la obtencin de las muestras.
As en un estrato dado, se tiende a tomar una muestra ms grande cuando:
1. El estrato es ms grande;
2. El estrato posee mayor variabilidad interna (varianza);
3. El muestreo es ms barato en ese estrato.
Para ajustar el tamao de los estratos cuando conocemos la dispersin interna

de cada uno de los mismos, tenemos el siguiente resultado:
2.4.4.4 Teorema
[Asignacin de Neyman] Sea E una poblacin con N elementos, dividida en k
estratos, con Ni elementos cada uno de ellos,
Sea n el nmero total de elementos al realizar el muestreo, y que se dividen en

cada estrato como
Sea X la v.a. que representa el carcter que intentamos estudiar. Sobre cada
estrato puede definirse entonces la v.a.
como el valor medio de X obtenida en una muestra de tamao ni en el estrato Ei.

Sea
la varianza de dicha v.a.; Entonces
se minimiza cuando
donde
es la cuasi-varianza del estrato Ei.

2.4.6 Muestreo sistemtico
Cuando los elementos de la poblacin estn ordenados en fichas o en una lista,
una manera de muestrear consiste en
3. Sea
;
3. Elegir aleatoriamente un nmero m, entre 1 y k;
3. Tomar como muestra los elementos de la lista:
Esto es lo que se denomina muestreo sistemtico. Cuando el criterio de

ordenacin de los elementos en la lista es tal que los elementos ms parecidos
tienden a estar ms cercanos, el muestreo sistemtico suele ser ms preciso
que el aleatorio simple, ya que recorre la poblacin de un modo ms uniforme.

Por otro lado, es a menudo ms fcil no cometer errores con un muestreo
sistemtico que con este ltimo.
2.4.6.1 Observacin
El mtodo tal como se ha definido anteriormente es sesgado si
no es entero,
ya que los ltimos elementos de la lista nunca pueden ser escogidos. Un modo
de evitar este problema consiste en considerar la lista como si fuese circular (el
elemento N+1 coincide con el primero) y:
a) Sea k el entero ms cercano a
;
b) Se selecciona un nmero al azar m, entre 1 y N;
c) Se toma como muestra los elementos de la lista que consisten en ir
saltando de k elementos en k, a partir de m, teniendo en cuenta que la
lista es circular.
Se puede comprobar que con este mtodo todos los elementos de la lista tienen
la misma probabilidad de seleccin.
2.4.8 Muestreo por conglomerados
Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo
aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de
tamao n implica enviar a los encuestadores a npuntos distintos de la misma, de
modo que en cada uno de ellos slo se realiza una entrevista. En esta situacin
es ms econmico realizar el denominado muestreo por conglomerados, que
consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para
despus elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos
los vecinos.
2.6 Propiedades deseables de un estimador

Sea X una v.a. cuya funcin de probabilidad (o densidad de probabilidad si es
continua) depende de unos parmetros
desconocidos.
Representamos mediante
una muestra aleatoria simple de la
variable. Denotamos mediante fc a la funcin de densidad conjunta de la
muestra, que por estar formada por observaciones independientes, puede
factorizarse del siguiente modo:
Se denomina estimador de un parmetro , a cualquier v.a. que se exprese

en funcin de la muestra aleatoria y que tenga por objetivo aproximar el valor de
,
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria,
ya que aunque depende unvocamente de los valores de la muestra observados
(Xi=xi), la eleccin de la muestra es un proceso aleatorio. Una vez que la
muestra ha sido elegida, se denomina estimacin el valor numrico que toma el
estimador sobre esa muestra.
Intuitivamente, las caractersticas que seran deseables para esta nueva variable
aleatoria (que usaremos para estimar el parmetro desconocido) deben ser:
Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado
se aproxima al parmetro desconocido.
Carencia de sesgo
El valor medio que se obtiene de la estimacin para diferentes muestras
debe ser el valor del parmetro.
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra
cualquiera se obtenga como estimacin el valor exacto del parmetro. Sin
embargo podemos pedirle que su dispersin con respecto al valor central
(varianza) sea tan pequea como sea posible.
Suficiencia
El estimador debera aprovechar toda la informacin existente en la
muestra.
A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de
esas caractersticas.
2.6.0.1 Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es
gaussiana,
Para muestras aleatorias de tamao n=3,
un posible estimador del parmetro
es
Si al realizar un muestreo aleatorio simple obtenemos
Hemos dicho que el estimador sirve para aproximar el valor de un parmetro

desconocido, pero... si el parmetro es desconocido cmo podemos decir que
un estimador dado sirve para aproximarlo? As pues, es necesario que
definamos en qu sentido un estimador es bueno para cierto parmetro.
2.6.2 Carencia de sesgo

Se dice que un estimador de un parmetro
es insesgado si:
La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que

se tiene un nmero indefinido de muestras de una poblacin, todas ellas del
mismo tamao n. Sobre cada muestra el estimador nos ofrece una estimacin
concreta del parmetro que buscamos. Pues bien, el estimador es insesgado, si
sobre dicha cantidad indefinida de estimaciones, el valor medio obtenido en las
estimaciones es (el valor que se desea conocer).
Se denomina sesgo a la diferencia E () .
Sea X una variable aleatoria con media y varianza 2 . De una muestra

aleatoria X 1 , X 2 ,... X n , tomada de la poblacion representada por X se pueden
hallar la media y la varianza muestral X y S 2 . Para hallar estimadores se
conocen varios procedimientos como el de minimos cuadrados y el de maxima
verosimilitud; estos se veran mas adelante. Por ahora, probemos que S 2 es un
estimador insesgado de 2 (que X es un estimador insesgado de ya fue
probado)
Se sabe que
n
S2
(X
i 1
X )2
n 1
Entonces,
E (S 2 ) E
i 1
E (S 2 )
E (S 2 )
X ) 2
n 1
(X
n
1
E ( X i X )2
n 1 i 1
n
1
E ( X i2 X 2 2 XX i )
n 1 i 1
E (S 2 )
E (S 2 )
E (S 2 )
1
n 1
1
n 1
E (S 2 )
E
n 1
i 1
E( X
i 1
(
i 1
2
i
2
i
nX 2
) nE ( X 2 )
2 ) n( 2 2 / n)
1
n 2 n 2 n 2 2
n 1
E (S 2 ) 2
Definicion
El Error cuadratico medio de un estimador se define como ECM () E ( )
y puede demostrarse que
ECM () V () sesgo 2 ()
El error cuadratico medio es un criterio importante para comparar dos
estimadores. El mejor estimador es el que tiene menor error cuadratico medio.
Ejercicios
1. Suponga que se tiene una muestra aleatoria de tamano 2n tomada de una
poblacion X con media y varianza 2 . Sean
X1
1 2n
Xi
2n i 1
X2
1 n
Xi
n i 1

dos estimadores de . Cual es el mejor estimador de ?
2. Sea X 1 , X 2 ,..., X 7 una muestra aleatoria de una poblacion que tiene media y
varianza 2 . Considere los siguientes estimadores de :
1X
1
i
7 i 1
2 X1 X 6 X 4
2
2
a) Alguno de estos estimadores es insesgado?
b) Cual es el mejor y en que sentido?
y
son estimadores insesgados del parametro . Se sabe
3.Suponga que
1
2
es 4. Cual es el mejor estimador y en

que la varianza de es 10 y la de
1
que sentido?
4. Calcule la eficiencia relativa de los estimadores del Ejercicio 2.
5. Calcule la eficiencia relativa de los dos estimadores del ejercicio anterior
y
son estimadores del parametro . Se sabe que el valor
6. Suponga que
1
2
es 10 y la de
esperado del primero es y del segundo /2. si la varianza de
1
es 4, cual estimador es mejor y en que sentido?
,
y
son estimadores de . Se sabe que el valor
2. Suponga que
1
2
3
es diferente de . Si la varianza
esperado de los dos primeros es y el de
3
es 12, la de
, 10 y E (
) 2 =6, cual es el major estimador y en que
de
1
2
3
sentido?
8. De una poblacion que tiene media y varianza 2 , se toman tres muestras

2
2
2
aleatorias de tamanos n1 20, n2 10 y n3 8 . Sean S1 , S2 y S3 las varianzas
muestrales.
Demuestre
que
S2
1
20 S12 10S 22 8S32
38
es
un
estimador
insesgado de 2
( X i X )2
n
i 1
magnitude del sesgo.
n
9. Demuestre que
es un estimador sesgado de 2 y determine la
10. Sea X 1 , X 2 ,..., X n una muestral aleatoria de tamano n. Demuestre que X 2 es

un estimador sesgado de 2 y determine la magnitude del sesgo.
2.6.4 Consistencia
Decimos que es un estimador consistente con el parmetro
si:
o lo que es equivalente
Este tipo de propiedades definidas cuando el nmero de observaciones n, tiende

a infinito, es lo que se denomina propiedades asintticas.
2.6.4.1 Teorema
Como consecuencia de de la desigualdad de Thebycheff (pgina
demostrar el siguiente resultado:
) se puede

Si se verifican las condiciones
entonces es consistente.
2.6.6 Eficiencia
Dados dos estimadores

ms eficiente que
de un mismo parmetro , diremos que
es
si
2.6.8 Suficiencia
Diremos que
para todo posible valor de
es un estimador suficiente del parmetro si
Esta definicin as enunciada tal vez resulte un poco oscura, pero lo que expresa
es que un estimador es suficiente, si agota toda la informacin existente en la
muestra que sirva para estimar el parmetro.

2.6.8.1 Teorema
[Criterio de factorizacin de Fisher--Neyman] Sea
distribucin conjunta para las muestras de tamao n,
la
. Entonces
siendo h una funcin no negativa que no depende de y r una funcin que slo
depende del parmetro y de la muestra a travs del estimador.
2.6.10 Estimadores de mxima verosimilitud

Sea X una v.a. con funcin de probabilidad
Las muestras aleatorias simples de tamao n,

distribucin de probabilidad conjunta
tienen por
Esta funcin que depende de n+1 cantidades podemos considerarla de dos

maneras:
a) Fijando , es una funcin de las n cantidades xi. Esto es la funcin de
probabilidad o densidad.

b) Fijados los xi como consecuencia de los resultados de elegir una muestra
mediante un experimento aleatorio, es nicamente funcin de . A esta
funcin de la denominamos funcin de verosimilitud.
En este punto podemos plantearnos el que dado una muestra sobre la que se ha
observado los valores xi, una posible estimacin del parmetro es aquella que
maximiza la funcin de verosimilitud (cf. figura 2.1)
Figura: La funcin de verosimilitud se obtiene a partir de la

funcin de densidad, intercambiando los papeles entre parmetro
y estimador. En una funcin de verosimilitud consideramos que
las observaciones x1, ..., xn,estn fijadas, y se representa la grfica
con el valor de los valores que tomara la funcin de densidad
para todos los posibles valores del parmetro . El estimador
mximo verosmil del parmetro buscado,
maximiza su funcin de verosimilitud,
, es aquel que
.
Como es lo mismo maximizar una funcin que su logaritmo (al ser este una
funcin estrictamente creciente), este mximo puede calcularse derivando con
respecto a la funcin de verosimilitud ( bien su logaritmo) y tomando como
estimador mximo verosmil al que haga la derivada nula:
De modo ms preciso, se define el estimador mximo verosmil como la v.a.
Los estimadores de mxima verosimilitud tienen ciertas propiedades en general

que a continuacin enunciamos:
1.
Son consistentes;
2.
Son invariantes frente a transformaciones biunvocas, es decir, si
el estimador mximo verosmil de
entonces
es
es una funcin biunvoca de ,
es el estimador mximo verosmil de
3.
Si es un estimador suficiente de
, su estimador mximo verosmil,
es funcin de la muestra a travs de ;

4.
Son asintticamente normales;
5.
Son asintticamente eficientes, es decir, entre todos los estimadores
consistentes de un parmetro , los de mxima verosimilitud son los de
varianza mnima.
6.
No siempre son insesgados.
2.6.12 Algunos estimadores fundamentales

Vamos a estudiar las propiedades de ciertos estimadores que por su importancia
en las aplicaciones resultan fundamentales: estimadores de la esperanza
matemtica y varianza de una distribucin de probabilidad.

2.6.12.1 Estimador de la esperanza matemtica
Consideremos las muestras de tamao n,
, de un carcter sobre
una poblacin que viene expresado a travs de una v.a. Xque posee momentos
de primer y segundo orden, es decir, existen
El estimador media muestral que denotaremos normalmente como

de
(en lugar
es
verifica:
Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye

segn una ley gaussiana, es sencillo comprobar que coincide con el estimador
de mxima verosimilitud (figura 2.3):
2.6.12.2 Proposicin
Demostracin
La funcin de densidad de una observacin cualquiera de la muestra es:
Por tanto la distribucin conjunta de la muestra es
Para unos valores
fijados, la funcin de verosimilitud es
(en principio escribimos tambin el otro parmetro desconocido,

, aunque no
nos interesamos en su estimacin por el momento). La expresin de la funcin
de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su
logaritmo:
El mximo de la funcin de verosimilitud se alcanza donde lo hace su logaritmo

(monotona), por tanto derivando con respecto a
e igualando a cero se llega a:
Es decir, el estimador mximo verosmil de la media poblacional, , coincide con

la media muestral
como queramos demostrar (cf. figura 2.2).
Figura: El estimador de mxima verosimilitud de para una variable

gaussiana es la media muestral.
Figura: La distribucin del estimador muestral
del parmetro poblacional
tiene por valor esperado al mismo (insesgado), y su dispersin disminuye a

medida que aumenta el nmero de observaciones
2.6.12.3 Estimador de la varianza

A la hora de elegir un estimador de
estimador ms natural:
, podemos comenzar con el
Podemos comprobar que cuando el carcter que se estudia sobre la poblacin

es gaussiano, en realidad este es el estimador mximo verosmil para la
varianza. Sin embargo se comprueba tambin su falta de sesgo, lo que hace
mas adecuado que se utilice como estimador de la varianza al siguiente
concepto: cuasi varianza muestral
2.6.12.4 Proposicin
Demostracin
Recuperamos el logaritmo de la funcin de verosimilitud escrita en la relacin
(2.4), donde en esta ocasin el primer parmetro ya fue obtenido por el mtodo
de mxima verosimilitud (y vimos que era la media muestral) y tratamos de
maximizarla con respecto al segundo parmetro:
Derivando con respecto a

verosmil:
e igualando a 0se obtiene el estimador mximo
Despejando de esta ecuacin se obtiene que el estimador mximo verosmil

coincide con la varianza muestral,
2.6.12.5 Proposicin
El valor esperado del estimador
no es
, y por tanto el estimador mximo verosmil para la varianza no es
insesgado. Ms an,
Demostracin
Comenzamos escribiendo
Por otro lado
Luego
Ejercicios
Basados en una muestra aleatoria de tamano n:
Hallar el EMV del parametro p de una variable aleatoria Bernoulli
Hallar el EMV de la media de una variable aleatoria normalmente

distribuida con varianza 2 conocida
Sea X ~ N ( , 2 ) con y 2 desconocidas. Hallar los estimadores maximo

verosimiles de estos parametros.
Hallar el EMV del parametro de la distribucion Poisson
Hallar el EMV del parametro de la distribucion exponencial
Hallar el EMV del parametro de la distribucion geometrica.
Sea X una variable aleatoria con la siguiente distribucion de probabilidad
f ( x ) ( 1) x , 0 x 1
Encuentre el EMV del parametro
Considere la distribucion Weibull
f ( x)
,x 0
Encuentre la funcion de verosimilitud, el log de la funcion de verosimilitud y

demuestre que este ultimo queda maximizado al resolver las ecuaciones
x ln( xi ) ln( xi )
i 1
i 1
n
n
xi
i 1
n
1/
i 1
9. Demuestre que el EMV de r / de una distribucion Gamma con

parametros r y es X .
2.6.12.6 Cuasivarianza muestral
Para tener un estimador insesgado de la varianza introducimos la cuasivarianza
muestral
que se define como
Es inmediato comprobar que realmente este estimador es insesgado
Esa esperanza puede ser calculada de un modo ms directo, ya que la

distribucin del estimador
es conocida usando el teorema de Cochran (pgina
):
luego
Es consecuencia de las relaciones (2.8) y (2.9) que la distribucin de la

cuasivarianza muestral es tal que
(cf. figura 2.4).

Figura: Funcin de densidad del estadstico que relaciona
,
y los grados de
libertad de la muestra (n-1). La falta de simetra del mismo hace que su valor
esperado (n-1) se desplace a la derecha de la moda (asimetra positiva).
3. Estimacin confidencial
3.2 Introduccin
3.4 Intervalos de confianza para la distribucin normal
3.4.2 Intervalo para la media si se conoce la varianza

3.4.4 Intervalo para la media (caso general)
.i 3.4.4.1 Ejemplo
3.4.6 Intervalo de confianza para la varianza
.i 3.4.6.1 Ejemplo
3.4.4 Estimacin del tamao muestral
.i 3.4.4.1 Ejemplo
3.4.10 Intervalos para la diferencia de medias de dos poblaciones
.i 3.4.10.1 Intervalo para la diferencia de medias homocedticas
.ii 3.4.10.2 Ejemplo
Intervalos de confianza para variables dicotmicas
3.6.2 Intervalo para una proporcin

.i 3.6.2.1 Ejemplo
3.6.4 Eleccin del tamao muestral para una proporcin
.i 3.6.4.1 Ejemplo
3.6.6 Intervalo para la diferencia de dos proporciones

6. 3.8 Problemas
3.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores
o intervalo, en los que pueda precisarse --con una determinada probabilidad-que el valor de un parmetro se encuentra dentro de esos lmites. Este
parmetro ser habitualmente una proporcin en el caso de variables
dicotmicas, y la media o la varianza para distribuciones gaussianas.
La tcnica de la estimacin confidencial consiste en asociar a cada muestra
un intervalo que se sospecha que debe contener al parmetro. A ste se le
denomina intervalo de confianza
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A
la probabilidad de que hayamos acertado al decir que el parmetro estaba

contenido en dicho intervalo se la denomina nivel de confianza. Tambin se
denomina nivel de significacin a la probabilidad de equivocarnos
3.4 Intervalos de confianza para la distribucin normal

Dada una variable aleatoria de distribucin gaussiana,
, nos
interesamos en primer lugar, en calcular intervalos de confianza para sus dos
parmetros,
He aqu un resumen de las situaciones que consideraremos:

Intervalo para la media si se conoce la varianza:
Este no es un caso prctico (no se puede conocer
sin conocer
previamente ), pero sirve para introducirnos en el problema de la

estimacin confidencial de la media;
Intervalos de confianza para la media (caso general):
Este se trata del caso con verdadero inters prctico. Por ejemplo sirve
para estimar intervalos que contenga la media del colesterol en sangre en
una poblacin, la altura, el peso, etc, cuando disponemos de una muestra
de la variable.
Intervalo de confianza para la varianza:
ste es otro caso de inters en las aplicaciones. El objetivo es calcular un
intervalo de confianza para
, cuando slo se dispone de una muestra.
Estimacin de tamao muestral
La utilidad consiste en decidir cul deber ser el tamao necesario de una
muestra para obtener intervalos de confianza para una media, con
precisin y significacin dadas de antemano. Para que esto sea posible
es necesario poseer cierta informacin previa, que se obtiene a partir de
las denominadas muestras piloto.
Ms adelante, consideramos el caso en que tenemos dos poblaciones donde
cada una sigue su propia ley de distribucin
problemas asociados a este caso son
. Los
Diferencia de medias homocedticas

Se realiza el clculo del intervalo de confianza suponiendo que ambas
variables tienen la misma varianza, es decir son homocedticas. En la
prctica se usa este clculo, cuando ambas variables tienen parecida
dispersin.
Diferencia de medias (caso general)

Es el mismo caso que el anterior, pero se realiza cuando se observa que
hay diferencia notable en la dispersin de ambas variables.
a) 3.4.2 Intervalo para la media si se conoce la varianza

b) 3.4.4 Intervalo para la media (caso general)
a. 3.4.4.1 Ejemplo
c) 3.4.6 Intervalo de confianza para la varianza
a. 3.4.6.1 Ejemplo
d) 3.4.8 Estimacin del tamao muestral
a. 3.4.8.1 Ejemplo
e) 3.4.10 Intervalos para la diferencia de medias de dos poblaciones
a. 3.4.10.1 Intervalo para la diferencia de medias homocedticas
b. 3.4.10.2 Ejemplo
3.4.2 Intervalo para la media si se conoce la varianza
Este caso que planteamos es ms a nivel terico que prctico: difcilmente
vamos a poder conocer con exactitud
mientras que es desconocido. Sin
embargo nos aproxima del modo ms simple a la estimacin confidencial de
medias.
Para estimar , el estadstico que mejor nos va a ayudar es
conocemos su ley de distribucin:
, del que
Esa ley de distribucin depende de (desconocida). Lo ms conveniente es

hacer que la ley de distribucin no dependa de ningn parmetro desconocido,
para ello tipificamos:
Este es el modo en que haremos siempre la estimacin puntual: buscaremos

una relacin en la que intervengan el parmetro desconocido junto con su
estimador y de modo que estos se distribuyan segn una ley de probabilidad
que es bien conocida y a ser posible tabulada.
De este modo, fijado
, consideramos la v.a.
y tomamos un
intervalo que contenga una masa de probabilidad de

. Este intervalo lo
queremos tan pequeo como sea posible. Por ello lo mejor es tomarlo simtrico
con respecto a la media (0), ya que all es donde se acumula ms masa (vase
la figura 3.1). As las dos colas de la distribucin (zonas ms alejadas de la
media) se repartirn a partes iguales el resto de la masa de probabilidad, .
Figura: La distribucin
y el intervalo ms pequeo posible
cuya probabilidad es
. Por simetra, los cuantiles

slo difieren en el signo.
Vamos a precisar cmo calcular el intervalo de confianza:

9. Sea
el percentil
debajo de si la cantidad
9. Sea
de Z, es decir, aquel valor de
que deja por
de la masa de probabilidad de Z, es decir:
el percentil
, es decir,
Es til considerar en este punto la simetra de la distribucin normal, y

observar que los percentiles anteriores son los mismos aunque con el
signo cambiado:
9. El intervalo alrededor del origen que contiene la mayor parte de la masa (

) es el intervalo siguiente (cf. Figura 3.1):
lo que habitualmente escribiremos como:
9. De este modo podemos afirmar que existe una probabilidad de

al extraer una muestra aleatoria de la variable en estudio, ocurra:
de que
De este modo un intervalo de confianza al nivel

para la esperanza de una
normal de varianza conocida es el comprendido entre los valores
La forma habitual de escribir este intervalo est inspirada en la Figura :
Figura: Intervalo de confianza para la media.
3.4.4 Intervalo para la media (caso general)

Como hemos mencionado, los casos anteriores se presentarn poco en la
prctica, ya que lo usual es que sobre una poblacin quizs podamos conocer si
se distribuye normalmente, pero el valor exacto de los parmetros y
no son
conocidos. De ah nuestro inters en buscar intervalos de confianza para ellos.

El problema que tenemos en este caso es ms complicado que el anterior, pues
no es tan sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a
ayudar de lo siguiente:
Por el teorema de Cochran sabemos por otro lado que:
y que adems estas dos ltimas distribuciones son independientes. A partir de

estas relaciones podemos construir una distribucin de Student con n-1 grados
de libertad (cf. figura 3.3):
Figura: La distribucin es algo diferente a

cuando n es pequeo, pero conforme ste aumenta,
ambas distribuciones se aproximan.
Simplificando la expresin anterior tenemos:
Dado el nivel de significacin
buscamos en una tabla de
el percentil
,
, el cual deja por encima de si la cantidad
de la
masa de probabilidad (figura 3.4). Por simetra de la distribucin de Student se
tiene que
, luego
Figura: La distribucin de Student tiene las mismas propiedades

de simetra que la normal tipificada.
El intervalo de confianza se obtiene a partir del siguiente clculo:
Es decir, el intervalo de confianza al nivel

para la esperanza de una
distribucin gaussiana cuando sus parmetros son desconocidos es:
Figura: Intervalo de confianza para cuando

(caso general).
es desconocido
Al igual que en el caso del clculo del intervalo de confianza para cuando
es
conocido, podemos en el caso
desconocido, utilizar la funcin de verosimilitud
(figura3.5) para representarlo geomtricamente. En este caso se usa la notacin:
3.4.4.1 Ejemplo
Se quiere estimar un intervalo de confianza al nivel de significacin
para la altura media de los individuos de una ciudad. En principio slo
sabemos que la distribucin de las alturas es una v.a. X de distribucin normal.
Para ello se toma una muestra de n=25 personas y se obtiene
Solucin:
En primer lugar, en estadstica inferencial, los estadsticos para medir la
dispersin ms convenientes son los insesgados. Por ello vamos a dejar de lado
la desviacin tpica muestral, para utilizar la cuasidesviacin tpica:
Si queremos estimar un intervalo de confianza para

estadstico
, es conveniente utilizar el
y tomar como intervalo de confianza aquella regin en la que
es decir,
o dicho de forma ms precisa: Con un nivel de confianza del

podemos decir
que la media poblacional est en el intervalo siguiente (vase la Figura):
Figura: Clculo del intervalo de confianza para la media usando

para ello la distribucin de Student y la funcin de verosimilitud
asociada, la cual est tiene su mximo en , ya que esta
estimacin puntual de
es la mximo verosmil.
3.4.6 Intervalo de confianza para la varianza

Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la
siguiente propiedad de la distribucin
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
en la ``zona central'' de la distribucin (cf. figura 3.7):
Figura: Cuantiles de la distribucin
Entonces un intervalo de confianza al nivel

para la varianza de una
distribucin gaussiana (cuyos parmetros desconocemos) lo obtenemos
teniendo en cuenta que existe una probabilidad
Por tanto el intervalo que buscamos es
de que:
3.4.6.1 Ejemplo
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,
obtenindose en una muestra de tamao 25 los siguientes valores:
Calcular un intervalo de confianza con

de los individuos de la ciudad.
para la varianza
de la altura
Solucin:
Para estimar un intervalo de confianza para
estadstico que nos resulta til es:
(varianza poblacional) el
Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf.

figura 3.8)
Figura: Percentiles del 2,5% y del 97,5%

para la distribucin
Por tanto, para el valor poblacional de la desviacin tpica tenemos que
con una confianza del 95%, que por supuesto contiene a las estimaciones
puntuales
calculados sobre la muestra.
3.4.8 Estimacin del tamao muestral

Antes de realizar un estudio de inferencia estadstica sobre una variable, lo
primero es decidir el nmero de elementos, N, a elegir en la muestra aleatoria.
Para ello consideremos que el estudio se basara en una variable de distribucin

normal, y nos interesa obtener para un nivel de significacin
precisin (error) d.
dado, una
Para ello, recordemos que un intervalo de confianza para una media en el caso
general se escribe como:
Si N es suficientemente grande, la distribucin de Student se aproxima a la

distribucin normal. Luego una manera de obtener la precisin buscada consiste
en elegir N con el siguiente criterio:
Donde
es una estimacin puntual a priori de la varianza de la muestra. Para
obtenerla nos podemos basar en una cota superior conocida por nuestra
experiencia previa, o simplemente, tomando una muestra piloto que sirve para
dar una idea previa de los parmetros que describen una poblacin.
3.4.8.1 Ejemplo
En los ltimos ejemplos se ha estudiado la variable altura de los individuos de
una poblacin, considerando que sta es una variable que se distribuye de modo
gaussiana.
Para ello se tom una muestra de 25 individuos (que podemos considerar
piloto), que ofreci los siguientes resultados:

Calcular el tamao que debera tener una muestra para que se obtuviese un
intervalo de confianza para la media poblacional con un nivel de significacin
(al
) y con una precisin de d=1 cm.
Solucin:
Obsrvese que sobre la muestra piloto, el error cometido al estimar el intervalo
al
fue aproximadamente de 4'2 cm por lo que si buscamos un intervalo de
confianza tan preciso, el tamao de la muestra, N, deber ser bastante mayor.
En este caso se obtiene:
Por tanto, si queremos realizar un estudio con toda la precisin requerida en el

enunciado se debera tomar una muestra de 694 individuos. Esto es una
indicacin de gran utilidad antes de comenzar el estudio. Una vez que el
muestreo haya sido realizado, debemos confirmar que el error para el nivel de
significacin dado es inferior o igual a 1 cm, utilizando la muestra obtenida.
3.4.10 Intervalos para la diferencia de medias de dos poblaciones

Consideremos el caso en que tenemos dos poblaciones de modo que el carcter
que estudiamos en ambas (X1 y X2) son v.a. distribuidas segn leyes gaussianas
En cada una de estas poblaciones se extrae mediante muestreo aleatorio

simple, muestras que no tienen por que ser necesariamente del mismo tamao
(respectivamente n1 y n2)
Podemos plantearnos a partir de las muestras el saber qu diferencias existen

entre las medias de ambas poblaciones, o por ejemplo estudiar las relacin
existente entre sus dispersiones respectivas. A ello vamos a dedicar los
siguientes puntos.
3.4.10.1 Intervalo para la diferencia de medias homocedticas
Supongamos que dos poblaciones tengan varianzas idnticas
(homocedasticidad), . Es decir
Por razones anlogas a las expuestas en el caso de una poblacin una

poblacin, se tiene que
Sea Z la v.a. definida como

El siguiente cociente se distribuye entonces como una de Student con n1+n2-2
grados de libertad
donde se ha definido a
Si
como la cuasivarianza muestral ponderada de
es el nivel de significacin con el que deseamos establecer el intervalo
para la diferencia de las dos medias, calculamos el valor

por encima de si
que deja
de la masa de probabilidad de Tn1+n2-2
Repitiendo un proceso que ya hemos realizado en ocasiones anteriores,

tenemos una probabilidad de
simple ocurra:
de que a extraer una muestra aleatoria
Luego el intervalo de confianza al nivel

para la diferencia de esperanzas
de dos poblaciones con la misma varianza (aunque esta sea desconocida) es:
3.4.10.2 Ejemplo
Queremos estudiar la influencia que puede tener el tabaco con el peso de los
nios al nacer. Para ello se consideran dos grupos de mujeres embarazadas
(unas que fuman un paquete al da y otras que no) y se obtienen los siguientes
datos sobre el peso X, de sus hijos:
En ambos grupos los pesos de los recin nacidos provienen de sendas

distribuciones normales de medias desconocidas, y con varianzas que si bien
son desconocidas, podemos suponer que son las mismas. Calcular en cuanto
influye el que la madre sea fumadora en el peso de su hijo.
Solucin:
Si X1 es la v.a. que describe el peso de un nio que nace de madre no fumadora,
y X2 el de un hijo de madre fumadora, se tiene por hiptesis que
Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso

de su hijo, podemos estimar un intervalo de confianza para
, lo que nos
dar la diferencia de peso esperado entre un nio del primer grupo y otro del
segundo. El estadstico que se ha de aplicar para esta cuestin es:
donde
Consideramos un nivel de significacin que nos parezca aceptable, por ejemplo

, y el intervalo buscado se obtiene a partir de: (ver la Figura 3.9)
Figura: Regin que se utiliza para calcular el

intervalo de confianza.
con lo cual se puede decir que un intervalo de confianza para el peso esperado
en que supera un hijo de madre no fumadora al de otro de madre fumadora est
comprendido con un nivel de confianza del
Kg.
entre los 0,068 Kg y los 0,731
3.6 Intervalos de confianza para variables dicotmicas

Cuando tenemos una variable dicotmica (o de Bernoulli) a menudo interesa
saber en qu proporcin de casos, p, ocurre el xito en la realizacin de un
experimento. Tambin nos puede interesar el comparar la diferencia existente
entre las proporciones en distintas poblaciones. Tambin es de inters calcular
para un nivel de significacin dado, el tamao muestral necesario para calcular
un intervalo de confianza de cuyo radio sea menor que cierta cantidad.
8. 3.6.2 Intervalo para una proporcin
.12 3.6.2.1 Ejemplo

8. 3.6.4 Eleccin del tamao muestral para una proporcin
.12 3.6.4.1 Ejemplo

8. 3.6.6 Intervalo para la diferencia de dos proporciones
3.6.2 Intervalo para una proporcin

Sean
. Si queremos estimar el parmetro p, la manera ms
natural de hacerlo consiste en definir la suma de estas --lo que nos proporciona
una distribucin Binomial (pgina ):
y tomar como estimador suyo la v.a.
Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en

las n pruebas8.1,
La distribucin del nmero de xitos es binomial, y puede ser aproximada a la

normal cuando el tamao de la muestra n es grande, y p no es una cantidad muy
cercana a cero o uno:
El estimador
no es ms que un cambio de escala de X, por tanto
Esta expresin presenta dificultades para el clculo, siendo ms cmodo

sustituirla por la siguiente aproximacin:
Para encontrar el intervalo de confianza al nivel de significacin
para p se
considera el intervalo que hace que la distribucin de

deje la
probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos
extremos son los cuantiles
confianza de
. As se puede afirmar con una
que:
Esto se resume en la siguiente expresin:
con una confianza de
Figura: Intervalo de confianza para una proporcin.
3.6.2.1 Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello
se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35%
que votarn a favor y 65% que votarn en contra (suponemos que no hay
indecisos para simplificar el problema a una variable dicotmica). Con un nivel
de significacin del 5%, calcule un intervalo de confianza para el verdadero
resultado de las elecciones.
Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su
voto es una variable dicotmica:
El parmetro a estimar en un intervalo de confianza con

es p, y
tenemos sobre una muestra de tamao n=100, la siguiente estimacin puntual
de p:
Sabemos que
En la prctica el error que se comete no es muy grande si tomamos algo ms

simple como
As el intervalo de confianza buscado lo calculamos como se indica en la Figura

3.11:
Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel
de confianza del 95%.
Figura: Regin a partir de la cual se realiza una

estimacin confidencial para una proporcin, con una
confianza del 95%.
3.6.4 Eleccin del tamao muestral para una proporcin

En un ejemplo previo con una muestra de 100 individuos se realiz una
estimacin confidencial, con un 95% de confianza, del porcentaje de votantes a
una cuestin en un referndum, obtenindose un margen de error de 9,3 puntos.
Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de
confianza hasta el 97% (
) hemos de tomar una muestra lgicamente de
mayor tamao, N. La tcnica para aproximar dicha cantidad consiste en
observar que el error cometido en una estimacin es de la forma:
donde
es una estimacin puntual de p.
Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al

error sera:

Si en un principio no tenemos una idea sobre que valores puede tomar p,
debemos considerar el peor caso posible, que es en el que se ha de estimar el
tamao muestral cuando p=q=1/2. As:
3.6.4.1 Ejemplo
Continuemos el ltimo ejemplo. Se quiere estimar el resultado de un referndum
mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo,
se desea conocer el tamao de muestra que se ha de tomar para obtener un
intervalo al 97% de confianza, con un error del 1
Solucin:
Como no se tiene una idea previa del posible resultado del referndum, hay que
tomar un tamao de muestra, N, que se calcula mediante:
As para tener un resultado tan fiable, el nmero de personas a entrevistar debe

ser muy elevado --lo que puede volver excesivamente costoso el sondeo.
3.6.6 Intervalo para la diferencia de dos proporciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de
ellas estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y
p2. De cada poblacin vamos a extraer muestras de tamao n1 y n2
Entonces
Si las muestras son suficientemente grandes ocurre que
Esta ltima relacin se puede aproximar por otra que simplifica bastante los
clculos:

Por el mismo razonamiento que en el caso de una poblacin llegamos a que una
aproximacin para un intervalo de confianza al nivel
proporciones de dos poblaciones es:
para la diferencia de
3.8 Problemas
Ejercicio 3..1. Se ha medido el volumen diario de bilis, expresado en litros, en
10 individuos sanos, obtenindose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo
que la muestra ha sido obtenida por muestreo aleatorio simple sobre una
poblacin normal?
Ejercicio 3..2. La cantidad mnima requerida para que un anestsico surta
efecto en una intervencin quirrgica fue por trmino medio de 50 mg, con una
desviacin tpica de 10,2 mg, en una muestra de 60 pacientes. Obtener un
intervalo de confianza para la media al 99%, suponiendo que la muestra fue
extrada mediante muestreo aleatorio simple sobre una poblacin normal.
Ejercicio 3..3. Un investigador est interesado en estimar la proporcin de
muertes debidas a cncer de estmago en relacin con el nmero de
defunciones por cualquier tipo de neoplasia. Su experiencia le indica que sera
sorprendente que tal proporcin supere el valor de 1/3. Qu tamao de
muestra debe tomar para estimar la anterior proporcin, con una confianza del
99%, para que el valor estimado no difiera del valor real en ms de 0,03?.
Ejercicio 3..4. Se desea realizar una estimacin confidencial de la varianza de la
estatura de los nios varones de 10 aos de una ciudad con una confianza del
95%. Cul ser dicho intervalo si se toma una muestra de 101 nios al azar,
entre todos los que renen las caractersticas deseadas, y medimos sus
estaturas, y se obtienen las siguientes estimaciones puntuales:
?
Ejercicio 3..5. Un cardilogo se encuentra interesado en encontrar lmites de
confianza al 90%, para la presin sistlica tras un cierto ejercicio fsico.
Obtenerlos si en 50 individuos se obtuvo
,
y suponemos que el
comportamiento de la v.a. es normal.

Ejercicio 3..6. En una muestra de 25 bebs varones de 12 semanas de vida, se
obtuvo un peso medio de 5.900 gr y una desviacin tpica de 94 gr.
1.
Obtener un intervalo de confianza (al 95%) para el peso medio
poblacional.
2.
Cuntos nios habra que tomar para estimar dicha media con una
precisin de 15 gr?
Ejercicio 3..7. En un determinado servicio de odontologa se sabe que el 22%
de las visitas llevan consigo una extraccin dentaria inmediata. En cierto ao, de
2.366 visitas, 498 dieron lugar a una extraccin inmediata. Entran en
contradiccin las cifras de ese ao con el porcentaje establecido de siempre?
Ejercicio 3..8. Slo una parte de los pacientes que sufren un determinado
sndrome neurolgico consiguen una curacin completa; Si de 64 pacientes
observados se han curado 41, dar una estimaciones puntual y un intervalos de la
proporcin de los que sanan. Qu nmero de enfermos habra que observar
para estimar la proporcin de curados con un error inferior a 0,05 y una
confianza del 95%?
Ejercicio 3..9. Se desea estimar el tiempo medio de sangra en fumadores de
ms de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 aos, con
una precisin de 5 segundos. Ante la ausencia de cualquier informacin acerca
de la variabilidad del tiempo de sangra es este tipo de individuos, se tom una
muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes
tiempos (en segundos):
97, 80, 67, 91, 73.
Determinar el tamao mnimo de muestra, al 95%, para cumplir el objetivo
anterior.
Ejercicio 3..10. En una determinada regin se tom una muestra aleatoria de
125 individuos, de los cuales 12 padecan afecciones pulmonares.
1.
Estmese la proporcin de afecciones pulmonares en dicha regin.
2.
Si queremos estimar dicha proporcin con un error mximo del 4%, para
una confianza del 95%, qu tamao de muestra debemos tomar?
Ejercicio 3..11. En una muestra de tabletas de aspirinas, de las cuales
observamos su peso expresado en gramos, obtenemos:

1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2
Suponiendo la Normalidad para esta distribucin de pesos, determinar un
intervalo al 80% de confianza para la varianza.
Ejercicio 3..12. Se quiere estimar la incidencia de la hipertensin arterial en el
embarazo. Cuantas embarazadas tenemos que observar para, con una
confianza del 95%, estimar dicha incidencia con un error del 2% en los
siguientes casos:
1.
Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.
2.
Sin ninguna informacin previa.
BIBLIOGRAFA:
Borovkov, A. A. Estadstica matemtica, Editorial Mir, Mosc, 1984.

Garca Nogales, Agustn, Estadstica matemtica, Publicaciones de la
Universidad de Extremadura.

Estadística avanzada - Guía de distribuciones discretas

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estadística avanzada - Guía de distribuciones discretas

Diunggah oleh

Hak Cipta:

Format Tersedia

ESTADSTICA AVANZADA GUIA DE ESTUDIO

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.4 Distribuciones discretas

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.4.2 Distribucin de Bernoulli

Un ejemplo tpico de este tipo de variables aleatorias consiste en lanzar una

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Para una v.a. de Bernouilli, tenemos que su funcin de probabilidad es:

Su funcin caracterstica es:

Los principales momentos de la X los podemos calcular directamente

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

o bien usando la funcin caracterstica y la proposicin de la pgina

media y la varianza de X son, respectivamente,

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Figura: Funcin de probabilidad de una variable

Figura: Funcin de probabilidad de una variable

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Por tanto, su funcin de distribucin es

El modo ms simple de calcular la funcin caracterstica nos lo da el teorema de

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Los principales momentos de X los calculamos ms fcilmente a partir de

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a cuantas

Sea X1 la v.a. que contabiliza el nmero de resultados positivos. Es claro que

, se tiene que X sigue una distribucin binomial

Por ello la probabilidad de que a cuatro personas le de el resultado del test

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Si queremos calcular a cuantas personas les dar el test un resultado positivo

Es importante observar este resultado. Antes de hacer los clculos no era

Por ltimo vamos a calcular la probabilidad p3 de que el test de un resultado

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La variable aleatoria que contabiliza el nmero de resultados errneos del test

Como la probabilidad de que el test sea correcto para ms de siete personas, es

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Con p=0.2 y n=20, la v. a. X que denota el numero de tostadores

Siendo Y los tostadores que no requieren reparaciones con

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

y y2 0,1,..., n2 . Luego la funcion de densidad de

Lo que prueba que Y1 es ta bien binomial

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Una v.a. X sigue posee una distribucin geomtrica,

De este modo tenemos que la ley de probabilidad de X es

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La media y varianza de esta variable aleatoria son:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Sabemos que el nmero esperado de hijos varones es

La probabilidad de que la pareja acabe teniendo tres o ms hijos, es la de que

Hemos preferido calcular la probabilidad pedida mediante el suceso