Anda di halaman 1dari 142

ESTADSTICA AVANZADA GUIA DE ESTUDIO

ESTADSTICA AVANZADA
1. Principales leyes de distribucin de variables aleatorias

1.2 Introduccin
1.4 Distribuciones discretas
o 1.4.2 Distribucin de Bernoulli
1.4.2.1 Observacin
o 1.4.4 Distribucin binomial
1.4.4.1 Ejemplo
o 1.4.6 Distribucin geomtrica ( o de fracasos)
1.4.6.1 Observacin
1.4.6.2 Observacin
1.4.6.3 Ejemplo
1.4.6.4 Observacin
o 1.4.8 Distribucin binomial negativa
1.4.8.1 Ejemplo
1.4.8.2 Observacin
o 1.4.10 Distribucin hipergeomtrica
1.4.10.1 Observacin
o 1.4.12 Distribucin de Poisson (o de los sucesos raros)
1.4.12.1 Ejemplo
1.6 Reproductividad de familias de v.a.
1.8 Distribuciones continuas
o 1.8.2 Distribucin uniforme o rectangular
o 1.8.4 Distribucin exponencial
1.8.4.1 Ejemplo
1.8.4.2 Ejemplo
o 1.8.6 Distribucin normal o gaussiana
1.8.6.1 Observacin
1.8.6.2 Observacin
1.8.6.3 Proposicin (Cambio de origen y escala)
1.8.6.4 Ejemplo
1.8.6.5 Proposicin
1.8.6.6 Aproximacin a la normal de la ley binomial
1.8.6.7 Ejemplo
1.8.6.8 Ejemplo
o

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.8.8 Distribucin
1.8.8.1 Observacin
1.8.8.2 Ejemplo
1.8.8.3 Teorema (Cochran)
o 1.8.10 Distribucin de Student
o 1.8.12 La distribucin
de Snedecor
1.10 Problemas
o

1.2 Introduccin
Como complemento al captulo anterior en el que definimos todos los conceptos
relativos a variables aleatorias, describimos en ste las principales leyes de
probabilidad que encontramos en las aplicaciones del clculo de probabilidades.
Atendiendo a la clasificacin de las v.a. en discretas y continuas describiremos
las principales leyes de probabilidad de cada una de ellas, las cuales constituirn
el soporte subyacente de la inferencia estadstica y a las que ser necesario
hacer referencia en el estudio de dicho bloque. Iniciamos este captulo con el
estudio de las distribuciones para v.a. discretas.

1.4 Distribuciones discretas

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


La distribucin de probabilidad describe el comportamiento de una variable
aleatoria. A menudo, las observaciones que se generan en diferentes
experimentos estadisticos tienen el mismo tipo general de comportamiento,
en consecuencia las v. a. discretas asociadas con estos experimentos se
pueden describir con la misma distribucin de probabilidad y, por lo tanto,
se representan usando una sola formula.
Las distribuciones en realidad describen varios fenmenos de la vida real. En un
estudio sobre la prueba de la eficacia de un nuevo frmaco, el numero de
pacienetes curados entre todos los pacientes que utilizaron tal
medicamento, sigue aproximadamente una distribucin binomial. En un
ejemplo industrial, cuando se probo una muestra de articulos
seleccionados de un lote de produccin,
el numero de articulos
defectuosos de la muestra, por lo general, puede modelarse como una v. a.
hipergeometrica. En un problema de control estadistico de calidad, el
experimentador senalara un corrimiento en la media del proceso cuando
los datos observacionales excedan ciertos limites. El numero de muestras
requeridas para generar una falsa alarma sigue una distribucin geometrica
que es un caso especial de distribucin binomial negativa. El numero de
leucocitos de una cantidad fija de una muestra de sangre de un individuo
es comnmente aleatorio y podria describirse mediante la distribucin de
Poisson.

1.4.2 Distribucin de Bernoulli


Consiste en realizar un experimento aleatorio una sla vez y observar si cierto
suceso ocurre o no, siendo p la probabilidad de que esto sea as (xito) y q=1-p
el que no lo sea (fracaso). En realidad no se trata ms que de una variable
dicotmica, es decir que nicamente puede tomar dos modalidades, es por ello
que el hecho de llamar xito o fracaso a los posibles resultados de las pruebas
obedece ms una tradicin literaria o histrica, en el estudio de las v.a., que a la
situacin real que pueda derivarse del resultado. Podramos por tanto definir
este experimento mediante una v.a. discreta Xque toma los valores X=0 si el
suceso no ocurre, y X=1 en caso contrario, y que se denota

Un ejemplo tpico de este tipo de variables aleatorias consiste en lanzar una


moneda al aire y considerar la v.a.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Para una v.a. de Bernouilli, tenemos que su funcin de probabilidad es:

y su funcin de distribucin:

Su funcin caracterstica es:

Los principales momentos de la X los podemos calcular directamente

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

o bien usando la funcin caracterstica y la proposicin de la pgina

1.4.2.1 Observacin
En este caso tan simple no se aprecia la ventaja de usar la funcin caracterstica
en el clculo de momentos, pero en las prximas leyes de probabilidad que son
ms complicadas, esta ventaja se har manifiesta.

Ejercicio
Sea X una v.a. cuya f.d.p.esta dada por f ( x; k ) 1/ k , x 1, 2,..., k . Probar que la
1 k

media y la varianza de X son, respectivamente,


x y
k x 1
1 k
2 ( x )2 .
k x 1

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


6.4.4 Distribucin binomial
Se dice que una v.a. X sigue una ley binomial de parmetros n y p,
, si es la suma de n v.a. independientes de Bernouilli con el mismo parmetro, p:
Esta definicin puede interpretarse en el siguiente sentido: Supongamos que
realizamos n pruebas de Bernouilli, Xi, donde en todas ellas, la probabilidad de
xito es la misma (p), y queremos calcular el nmero de xitos, X, obtenidos el el
total de las n pruebas. Su ley de probabilidad es6.1 En la Figura 6.1 se representa
la funcin de probabilidad de una variable binomial.

Figura: Funcin de probabilidad de una variable


binomial cunado n es pequeo.

Figura: Funcin de probabilidad de una variable


binomial cuando n es grande.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Por tanto, su funcin de distribucin es

El modo ms simple de calcular la funcin caracterstica nos lo da el teorema de


la pgina , que afirma que la funcin caracterstica de la suma de variables
independientes es el producto de las funciones caractersticas de estas:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Los principales momentos de X los calculamos ms fcilmente a partir de


(prop. pgina 5) que de su propia definicin:

1.4.4.1 Ejemplo
Un mdico aplica un test a 10 alumnos de un colegio para detectar una
enfermedad cuya incidencia sobre una poblacin de nios es del 10%. La
sensibilidad del test es del 80% y la especificidad del 75%. Cual es la
probabilidad de que exactamente a cuatro personas le de un resultado positivo?
Si en la muestra hay cuatro personas a las que el test le da positivo, cul es la
probabilidad de que entre estas, exactamente dos estn sanas? Calcular la
probabilidad de que el test suministre un resultado incorrecto para dos personas.
Calcular la probabilidad de que el resultado sea correcto para ms de 7
personas.
Solucin:
Los datos de que disponemos son:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a cuantas


personas el test le dar un resultado positivo, tendremos que calcular
,
para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no
estarlo forman una coleccin exhaustiva y excluyente de sucesos):

Sea X1 la v.a. que contabiliza el nmero de resultados positivos. Es claro que


llamando

, se tiene que X sigue una distribucin binomial

Por ello la probabilidad de que a cuatro personas le de el resultado del test


positivo es:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Si queremos calcular a cuantas personas les dar el test un resultado positivo


aunque en realidad estn sanas, hemos de calcular previamente
sea, el ndice predictivo de falsos positivos:

,o

Es importante observar este resultado. Antes de hacer los clculos no era


previsible que si a una persona el test le da positivo, en realidad tiene una
probabilidad aproximadamente del
de estar sana. Sea X2 la variable
aleatoria que contabiliza al nmero de personas al que el test le da positivo, pero
que estn sanas en realidad. Entonces

Por ltimo vamos a calcular la probabilidad p3 de que el test de un resultado


errneo, que es:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La variable aleatoria que contabiliza el nmero de resultados errneos del test


es

Como la probabilidad de que el test sea correcto para ms de siete personas, es


la de que sea incorrecto para menos de 3, se tiene

1.4.4.2 Ejemplo
Un fabricante sabe que, en promedio, 20% de los tostadores electricos que
fabrica requeriran reparaciones dentro de un ao despus de su venta. Cuando
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


se seleccionan al azar 20 tostadores, encuentre los numeros adecuados x y y
tales que:
(a) la probabilidad de que al menos x de ellos requieran reparaciones sea menor
que 0.5
(b) la probabilidad de que al menos y de ellos no requieran reparaciones sea
mayor que 0.8.
Solucion
o

Con p=0.2 y n=20, la v. a. X que denota el numero de tostadores


que requieren reparaciones despus de un ao es binomial y la
probabilidad pedida es:

P ( X x) 0.5
Lo que conduce utilizando las tables de la binomial a: X 4
o

Siendo Y los tostadores que no requieren reparaciones con


probabilidad p 0.8 , Y se distribuye binomialmente y la
probabilidad pedida es

P (Y y ) 0.8
lo que conduce, utilizando las mismas tables de la distribcion binomial,
a Y 2

1.4.4.3 Ejemplo.
Sean las variables aleatorias independientes X 1 ~ B( n1 , p)
y X 2 ~ B(n2 , p ) .
Hallar la f.d.p. conjunta de Y1 X 1 X 2 y Y2 X 2 , y despues, halle la f.d.p.
marginal de Y1 .

Solucion:

Por definicin,

f ( y1 , y2 ) f ( y1 | y2 ) f ( y2 )
que en terminos de probabilidad es lo mismo que

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


P (Y1 y1 , Y2 y2 ) P(Y1 y1 | Y2 y2 ) P (Y2 y2 )
Pero, P (Y1 y1 | Y2 y2 ) P ( X 1 y1 y2 ) . Entonces,
P (Y1 y1 , Y2 y2 ) P( X 1 y1 y2 ) P (Y2 y2 )
Como ambas distribuciones son binomiales, entonces,
n1

y1 y2
(1 p ) n1 y1 y2
p
y1 y2

P ( X 1 y1 y2 ) P (Y2 y2 )

n2
y2
n2 y2
p (1 p )
y2

Es decir,
n1

y1 y2
(1 p) n1 y1 y2
p
y1 y2

P (Y1 y1 , Y2 y2 )

n1

y1 y2

Para

n2
y2
n2 y2
p (1 p)
y2

n2
y1
n1 n2 y1
p (1 p )
y2

y1 y2 0,1,..., n2

y y2 0,1,..., n2 . Luego la funcion de densidad de


probabilidad marginal de Y1 X 1 X 2 esta dada por
n1
n2
y1
n1 n2 y1
p (1 p )
y2 0 y1 y2
y2
n2
n
n2
p y1 (1 p ) n1 n2 y1 1

y2 0 y1 y2
y2

fY1 ( y1 )

n2

n1 n2
y1
n1 n2 y1
p (1 p )
y
1

Lo que prueba que Y1 es ta bien binomial


1.4.6 Distribucin geomtrica ( o de fracasos)
Consideramos una sucesin de v.a. independientes de Bernouilli,

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Una v.a. X sigue posee una distribucin geomtrica,


, si esta es la
suma del nmero de fracasos obtenidos hasta la aparicin del primer xito en la
sucesin

. Por ejemplo

De este modo tenemos que la ley de probabilidad de X es

1.4.6.1 Observacin
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesin
es una
progresin geomtrica de razn q, a la que podemos aplicar su frmula de
sumacin:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


1.4.6.2 Observacin
En la distribucin geomtrica el conjunto de posibles valores que puede tomar la
variable ( ) es infinito numerable, mientras que en la de Bernouilli y en la
binomial, estos eran en nmero finito.
La funcin caracterstica se calcula teniendo en cuenta que de nuevo aparece la
sumacin de los trminos de una progresin geomtrica, pero esta vez de razn
eit q:

La media y varianza de esta variable aleatoria son:

1.4.6.3 Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el
nacimiento de una hija. Calcular el nmero esperado de hijos (entre varones y
hembras) que tendr el matrimonio. Calcular la probabilidad de que la pareja
acabe teniendo tres hijos o ms.
Solucin: Este es un ejemplo de variable geomtrica. Vamos a suponer que la
probabilidad de tener un hijo varn es la misma que la de tener una hija hembra.
Sea X la v.a.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Es claro que

Sabemos que el nmero esperado de hijos varones es


el nmero esperado en total entre hijos varones y la nia es 2.

, por tanto

La probabilidad de que la pareja acabe teniendo tres o ms hijos, es la de que


tenga 2 o ms hijos varones (la nia est del tercer lugar en adelante), es decir,

Hemos preferido calcular la probabilidad pedida mediante el suceso


complementario, ya que sera ms complicado hacerlo mediante la suma infinita

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


1.4.6.4 Observacin
La distribucin exponencial tambin puede ser definida como el nmero de
pruebas realizadas hasta la obtencin del primer xito (como hubiese sido ms
adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo
comprobar que X slo puede tomar valores naturales mayores o iguales a 1, y
que:

1.4.8 Distribucin binomial negativa


Sobre una sucesin de v.a. de Bernouilli independientes,

se define la v.a. X como el nmero de fracasos obtenidos hasta la aparicin de r


xitos en la sucesin
. En este caso se dice que X sigue una ley de
distribucin binomial negativa de parmetros r y p y se denota del modo:
. Su ley de probabilidad se deduce siguiendo el esquema:

De nuevo, el conjunto de posibles valores de esta v.a. discreta es


.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Su funcin caracterstica es

y sus momentos ms importantes los obtenemos derivando esta ltima:

1.4.8.1 Ejemplo
Para tratar a un paciente de una afeccin de pulmn han de ser operados en
operaciones independientes sus 5 lbulos pulmonares. La tcnica a utilizar es tal
que si todo va bien, lo que ocurre con probabilidad de 7/11, el lbulo queda
definitivamente sano, pero si no es as se deber esperar el tiempo suficiente
para intentarlo posteriormente de nuevo. Se practicar la ciruga hasta que 4 de
sus 5lbulos funcionen correctamente. Cul es el valor esperado de
intervenciones que se espera que deba padecer el paciente? Cul es la
probabilidad de que se necesiten 10 intervenciones?
Solucin: Este es un ejemplo claro de experimento aleatorio regido por una ley
binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4
lbulos sanos, y ste es el criterio que se utiliza para detener el proceso.
Identificando los parmetros se tiene:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Lo que nos interesa es medir el nmero de intervenciones, Y, ms que el


nmero de xitos hasta el r-simo fracaso. La relacin entre ambas v.a. es muy
simple:
Y=X+r
Luego

Luego el nmero esperado de intervenciones que deber sufrir el paciente es de


11. La probabilidad de que el nmero de intervenciones sea Y=10, es la de que
X=10-4=6. Por tanto:

1.4.8.2 Observacin
La distribucin binomial negativa tambin se puede definir como el nmero de
pruebas hasta la aparicin de r xitos. Como el nmero de pruebas contabiliza
tanto los xitos como los fracasos se tendra segn sta definicin que

1.4.10 Distribucin hipergeomtrica


Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas
espaolas (N=40 naipes), de las cuales nos vamos a interesar en el palo de oros
(D=10 naipes de un mismo tipo). Supongamos que de esa baraja extraemos n=8
cartas de una vez (sin reemplazamiento) y se nos plantea el problema de
calcular la probabilidad de que hayan k=2 oros (exactamente) en esa extraccin.
La respuesta a este problema es

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

En lugar de usar como dato D es posible que tengamos la proporcin existente,


p, entre el nmero total de oros y el nmero de cartas de la baraja

de modo que podemos decir que

Este ejemplo sirve para representar el tipo de fenmenos que siguen una ley de
distribucin hipergeomtrica. Diremos en general que una v.a. X sigue una
distribucin hipergeomtrica de parmetros, N, n y p, lo que representamos
del modo

, si su funcin de probabilidad es

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.4.10.1 Observacin
Cuando el tamao de la poblacin (N) es muy grande, la ley hipergeomtrica
tiende a aproximarse a la binomial:

El valor esperado de la hipergeomtrica es el mismo que el de la binomial,

sin embargo su varianza

no es exactamente la de la binomial, pues est corregida por un factor,


que tiende a 1 cuando
. A este factor se le denomina factor de
correccin para poblacin finita.

1.4.10.2 Ejemplo

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Una compania tiene 300 empleados de los cuales 240 son miembros del
sindicato de trabajadores. 8 empleados son escogidos al azar para servir en un
comit que administrara el fondo de pensiones. Calcule la probabilidad de que
mas de la mitad de los integrantes del comit sean sindicalizados.
Solucin
De acuerdo con los datos, N=300, K=240 y n=8. Si X es la variable aleatoria que
denota el numero de miembros del comit que estan sindicalizados, entonces
P ( X 4) 1 P( X 3)
Pero N y K son muy grandes y n muy pequeo en comparacin con N;
utilizamos, entonces, la aproximacin binomial de la hipergeometrica. Esto
quiere decir que X ~ Bin(n 8; p K / N 0.8) . Asi:
P ( X 4) 1 P ( X 3) 1 0.0104 0.9896
El resultado final se ha obtenido directamente de la tabla binomial.

1.4.12 Distribucin de Poisson (o de los sucesos raros)


Una v.a. X posee una ley de distribucin de probabilidades del tipo Poisson
cuando
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir,
obtenindose como la distribucin lmite de una sucesin de variable binomiales,
, donde

,y

(por tanto

La demostracin de esto consiste en

DR. ADOLFO GUTIERREZ SOSA

).

ESTADSTICA AVANZADA GUIA DE ESTUDIO

En general utilizaremos la distribucin de Poisson como aproximacin de


experimentos binomiales donde el nmero de pruebas es muy alto, pero la
probabilidad de xito muy baja. A veces se suele utilizar como criterio de
aproximacin:

La ley de Poisson la podemos encontrar tabulada en la tabla nmero 2, para


ciertos valores usuales de .
La funcin caracterstica de

DR. ADOLFO GUTIERREZ SOSA

es

ESTADSTICA AVANZADA GUIA DE ESTUDIO


de lo que se deduce que valor esperado y varianza coinciden

1.4.12.1 Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000.
Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya ms
de 3 personas con dicha enfermedad. Calcular el nmero esperado de
habitantes que la padecen.
Solucin: Si consideramos la v.a. X que contabiliza el nmero de personas que
padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede
ser muy bien aproximado por un modelo de Poisson, de modo que

As el nmero esperado de personas que padecen la enfermedad es

Como
, existe una gran dispersin, y no sera extrao encontrar que
en realidad hay muchas ms personas o menos que estn enfermas. La
probabilidad de que haya ms de tres personas enfermas es:

1.6 Reproductividad de familias de v.a.


Las variables aleatorias relacionadas entre si por uno o ms parmetros
mediante f, o lo que es equivalente segn el teorema de Fourier (pgina ),
mediante su funcin caracterstica, las hemos agrupado en familias de v.a. que
hemos denotado de modo genrico

DR. ADOLFO GUTIERREZ SOSA

. Para cualquier tipo de familia de

ESTADSTICA AVANZADA GUIA DE ESTUDIO

v.a.

, diremos que esta reproductiva respecto al parmetro p, si al

considerar
independientes, donde
se tiene
que la suma de todas ellas es una v.a. de la misma familia, pero con parmetro

Por ejemplo
no es reproductiva con respecto a p, ya que la suma de dos
v.a. de esa familia no sigue una distribucin de Bernouilli. Sin embargo la familia
lo es con respecto al parmetro

, ya que

Un modo sencillo de ver si una familia de distribuciones es reproductiva con


respecto a algn parmetro es analizar su funcin caracterstica utilizando el
teorema de la pgina . Por ejemplo el mismo resultado se puede obtener para
la distribucin binomial teniendo en cuenta que

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Utilizando el mismo argumento, tenemos que otra distribuciones reproductiva es


.
1.8 Distribuciones continuas
En esta seccin estudiaremos las distribuciones ms importantes de v.a.
continuas unidimensionales. El soporte de una v.a. continua se define como
aquella regin de

donde su densidad es no nula,

distribuciones que enunciaremos, podr ser bien todo


un segmento de la forma

. Para las
,

1.8.2 Distribucin uniforme o rectangular


1.8.4 Distribucin exponencial
o 1.8.4.1 Ejemplo
o 1.8.4.2 Ejemplo
1.8.6 Distribucin normal o gaussiana
o 1.8.6.1 Observacin
o 1.8.6.2 Observacin
o 1.8.6.3 Proposicin (Cambio de origen y escala)
o 1.8.6.4 Ejemplo
o 1.8.6.5 Proposicin
o 1.8.6.1 Aproximacin a la normal de la ley binomial

DR. ADOLFO GUTIERREZ SOSA

o bien

ESTADSTICA AVANZADA GUIA DE ESTUDIO


o
o

1.8.1.7 Ejemplo
1.8.6.8 Ejemplo

1.8.8 Distribucin
o 1.8.8.1 Observacin
o 1.8.8.2 Ejemplo
o 1.8.8.3 Teorema (Cochran)
1.8.10 Distribucin de Student
1.8.12 La distribucin de Snedecor

1.8.2 Distribucin uniforme o rectangular


Se dice que una v.a. X posee una distribucin uniforme en el intervalo [a,b],

si su funcin de densidad es la siguiente:

Con esta ley de probabilidad, la probabilidad de que al hacer un experimento


aleatorio, el valor de X este comprendido en cierto subintervalo de [a,b] depende
nicamente de la longitud del mismo, no de su posicin. Cometiendo un
pequeo abuso en el lenguaje, podemos decir que en una distribucin uniforme
la probabilidad de todos los puntos del soporte es la misma 6.2.
Teniendo en cuenta que si

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

la funcin de distribucin de

es:

Figura: Funcin de densidad y de distribucin de

La funcin caracterstica es

Como esta distribucin es muy simple, vamos a calcular sus momentos ms


usuales directamente a partir de la definicin, en lugar de usar la funcin
caracterstica:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.8.4 Distribucin exponencial


La distribucin exponencial es el equivalente continuo de la distribucin
geomtrica discreta. Esta ley de distribucin describe procesos en los que:

Nos interesa saber el tiempo hasta que ocurre determinado evento,


sabiendo que,
el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que
ello ocurra en un instante tf, no depende del tiempo transcurrido
anteriormente en el que no ha pasado nada.

Ejemplos de este tipo de distribuciones son:

El tiempo que tarda una partcula radiactiva en desintegrarse. El


conocimiento de la ley que sigue este evento se utiliza en Ciencia para,
por ejemplo, la datacin de fsiles o cualquier materia orgnica mediante
la tcnica del carbono 14, C14;
El tiempo que puede transcurrir en un servicio de urgencias, para la
llegada de un paciente;
En un proceso de Poisson donde se repite sucesivamente un experimento
a intervalos de tiempo iguales, el tiempo que transcurre entre la
ocurrencia de dos sucesos consecutivos sigue un modelo probabilstico
exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos
dos veces una herida importante.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Concretando, si una v.a. continua X distribuida a lo largo de
funcin de densidad es

, es tal que su

se dice que sigue una distribucin exponencial de parmetro

Figura: Funcin de densidad, f, de una

Un clculo inmediato nos dice que si x>0,

luego la funcin de distribucin es:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Figura: Funcin de distribucin, F, de


, calculada
como el rea que deja por debajo de s la funcin de densidad.

Para calcular el valor esperado y la varianza de la distribucin exponencial,


obtenemos en primer lugar la funcin caracterstica

para despus, derivando por primera vez

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

y derivando por segunda vez,

Entonces la varianza vale

1.8.4.1 Ejemplo
En un experimento de laboratorio se utilizan 10 gramos de
. Sabiendo que
la duracin media de un tomo de esta materia es de 140 das, cuantos idas
transcurrirn hasta que haya desaparecido el

de este material?

Solucin: El tiempo T de desintegracin de un tomo de


distribucin exponencial:

DR. ADOLFO GUTIERREZ SOSA

es una v.a. de

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Como el nmero de tomos de


existentes en una muestra de 10 gramos
es enorme, el histograma de frecuencias relativas formado por los tiempos de
desintegracin de cada uno de estos tomos debe ser extremadamente
aproximado a la curva de densidad, f. Del mismo modo, el polgono de
frecuencias relativas acumuladas debe ser muy aproximado a la curva de su
funcin de distribucin F. Entonces el tiempo que transcurre hasta que el
material radiactivo se desintegra es el percentil 90, t90, de la distribucin
exponencial, es decir

Figura: Como el nmero de tomos (observaciones) es


extremadamente alto en 10 gramos de materia, el histograma
puede ser aproximado de modo excelente por la funcin de
densidad exponencial, y el polgono de frecuencias
acumuladas por la funcin de distribucin.

DR. ADOLFO GUTIERREZ SOSA

del

ESTADSTICA AVANZADA GUIA DE ESTUDIO


1.8.4.2 Ejemplo
Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una
distribucin exponencial con media de 16 aos. Cul es la probabilidad de que
a una persona a la que se le ha implantado este marcapasos se le deba
reimplantar otro antes de 20 aos? Si el marcapasos lleva funcionando
correctamente 5 aos en un paciente, cul es la probabilidad de que haya que
cambiarlo antes de

aos?

Solucin: Sea T la variable aleatoria que mide la duracin de un marcapasos en


una persona. Tenemos que

Entonces

En segundo lugar

Luego como era de esperar, por ser propio a un mecanismo exponencial,

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

o sea, en la duracin que se espera que tenga el objeto, no influye en nada el


tiempo que en la actualidad lleva funcionando. Es por ello que se dice que ``la
distribucin exponencial no tiene memoria".

1.8.6 Distribucin normal o gaussiana


La distribucin gaussiana, recibe tambin el nombre de distribucin normal, ya
que una gran mayora de las v.a continuas6.3 de la naturaleza siguen esta
distribucin. Se dice que una v.a. X sigue una distribucin normal de
parmetros y
de densidad es:

, lo que representamos del modo

6.4

si su funcin

1.8.6.1 Observacin
Estos dos parmetros y
coinciden adems con la media (esperanza) y la
varianza respectivamente de la distribucin como se demostrar ms adelante 6.5:

La forma de la funcin de densidad es la llamada campana de Gauss.

Figura: Campana de Gauss o funcin de densidad de una v.a. de distribucin


normal. El rea contenida entre la grfica y el eje de abcisas vale 1.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Para el lector es un ejercicio interesante comprobar que sta alcanza un nico


mximo (moda) en

, que es simtrica con respecto al mismo, y por tanto

, con lo cual en coinciden la media, la mediana y


la moda, y por ltimo,calcular sus puntos de inflexin.
El soporte de la distribucin es todo , de modo que la mayor parte de la masa
de probabilidad (rea comprendida entre la curva y el eje de abcisas) se
encuentra concentrado alrededor de la media, y las ramas de la curva se
extienden asintticamente a los ejes, de modo que cualquier valor ``muy alejado"
de la media es posible (aunque poco probable).
La forma de la campana de Gauss depende de los parmetros

indica la posicin de la campana (parmetro de centralizacin);

Figura: Distribuciones gaussianas con diferentes medias e igual


dispersin.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

(o equivalentemente, ) ser el parmetro de dispersin. Cuanto


menor sea, mayor cantidad de masa de probabilidad habr concentrada
alrededor de la media (grafo de f muy apuntado cerca de
mayor sea ``ms aplastado" ser.

) y cuanto

Figura: Distribuciones gaussianas con igual media pero varianza


diferente.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La funcin caracterstica de la distribucin normal, se comprueba ms adelante


que es

Como consecuencia, la distribucin normal es reproductiva con respecto a los


parmetros

,y

, ya que

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.8.6.2 Observacin
Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la
encontramos en la mayora de los fenmenos que observamos en la naturaleza,
por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a
el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad,
hay que apuntar un hecho negativo para esta ley de probabilidad:
La funcin

no posee primitiva6.6 conocida6.7.

Las consecuencias desde el punto de vista prctico son importantes, ya que eso
impide el que podamos escribir de modo sencillo la funcin de distribucin de la
normal, y nos tenemos que limitar a decir que:

sin poder hacer uso de ninguna expresin que la simplifique. Afortunadamente


esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho
puede ser calculado con tanta precisin (decimales) como se quiera, pero para
esto se necesita usar tcnicas de clculo numrico y ordenadores. Para la
utilizacin en problemas prcticos de la funcin de distribucin F, existen ciertas
tablas donde se ofrecen (con varios decimales de precisin) los valores F(x)
para una serie limitada de valores xi dados. Normalmente F se encuentra
tabulada para una distribucin Z, normal de media 0 y varianza 1 que se
denomina distribucin normal tipificada:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

En el caso de que tengamos una distribucin diferente


Z haciendo el siguiente cambio:

, se obtiene

De manera general se tiene6.8:


1.8.6.3 Proposicin (Cambio de origen y escala)
Sean

. Entonces

Este resultado puede ser utilizado del siguiente modo: Si


interesa calcular

, y nos

1.
Hacemos el cambio

y calculamos

2.
Usamos la tabla 3, relativa a la distribucin
aproximado)
3.
Como

DR. ADOLFO GUTIERREZ SOSA

para obtener (de modo

ESTADSTICA AVANZADA GUIA DE ESTUDIO


tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad
buscada.
1.8.6.4 Ejemplo
Supongamos que cierto fenmeno pueda ser representado mediante una v.a.
, y queremos calcular la probabilidad de que Xtome un valor entre
39 y 48, es decir,

Comenzamos haciendo el cambio de variable

de modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que


hemos mencionado anteriormente.
1.8.6.5 Proposicin
Sea

. Entonces

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Demostracin
Por ser la normal una ley de probabilidad se tiene que

es decir, esa integral es constante. Con lo cual, derivando la expresin anterior


con respecto a

luego

se obtiene el valor 0:

Para demostrar la igualdad entre la


y
, basta con aplicar la misma
tcnica, pero esta vez derivando con respecto a
:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Luego

Para demostrar el resultado relativo a la funcin caracterstica, consideramos en


primer lugar la v.a. tipificada de X,

y calculamos

Como

, por la proposicin 5 deducimos que

1.8.6.6 Aproximacin a la normal de la ley binomial


Se puede demostrar (teorema central del lmite) que una v.a. discreta con
distribucin binomial,
DR. ADOLFO GUTIERREZ SOSA

se puede aproximar mediante una distribucin

ESTADSTICA AVANZADA GUIA DE ESTUDIO


normal si n es suficientemente grande y p no est ni muy prximo a 0 ni a 1.
Como el valor esperado y la varianza de X son respectivamente
aproximacin consiste en decir que
utilizar para poder realizar esta aproximacin es:

, la

. El convenio que se suele

aunque en realidad esta no da resultados muy precisos a menos que realmente


nsea un valor muy grande o
figuras 6.10 y 6.11.

. Como ilustracin obsrvense las

Figura: Comparacin entre la funcin de densidad de una


v.a. continua con distribucin

y el diagrama

de barras de una v.a. discreta de distribucin


para
casos en que la aproximacin normal de la binomial es
vlida. Es peor esta aproximacin cuando p est prximo
a los bordes del intervalo [0,1].

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Figura: La misma comparacin que en la figura anterior,


pero realizada con parmetros con los que damos la
aproximacin normal de la binomial es mejor.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


1.8.6.7 Ejemplo
Durante cierta epidemia de gripe, enferma el
de la poblacin. En un aula
con 200 estudiantes de Medicina, cul es la probabilidad de que a lo sumo 40
padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes
con gripe.
Solucin: La v.a. que contabiliza el nmero de alumnos que padece la gripe es

cuya media es
y su varianza es
. Realizar los
clculos con la ley binomial es muy engorroso, ya que intervienen nmeros
combinatorios de gran tamao, y potencias muy elevadas. Por ello utilizamos la
aproximacin normal de X, teniendo en cuenta que se verifican las condiciones
necesarias para que el error sea aceptable:

As aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN


tenemos:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Tambin es necesario calcular


exactamente como:

. Esta probabilidad se calcula

Dada la dificultad numrica para calcular esa cantidad, y como la distribucin


binomial no est habitualmente tabulada hasta valores tan altos, vamos a utilizar
su aproximacin normal, XN. Pero hay que prestar atencin al hecho de que XN
es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En
particular,

lo que ha de ser interpretado como un error de aproximacin. Hay mtodos ms


aproximados para calcular la probabilidad buscada. Por ejemplo, podemos
aproximar

por el valor de la funcin de densidad de XN en ese punto

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


(es en el nico sentido en que se puede entender la funcin de densidad de la
normal como una aproximacin de una probabilidad). As:

Por ltimo, otra posibilidad es considerar un intervalo de longitud 1centrado en el


valor 60 del que deseamos hallar su probabilidad y hacer:

1.8.6.8 Ejemplo
Segn un estudio, la altura de los varones de cierta ciudad es una v.a. X, que
podemos considerar que se distribuye segn una ley gaussiana de valor
esperado

y desviacin tpica

tengamos asegurado que el


comprendidos en l.
Solucin: Tenemos que

. Dar un intervalo para el que

de los habitantes de la ciudad estn

. Si buscamos un intervalo

donde estar seguros de que el


de los habitantes tengan sus alturas
comprendidas en l hay varias estrategias posibles:
1.
Podemos tomar el percentil 50, ya que este valor deja por debajo suya a
la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definira
como:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

donde

El valor z0,5 lo podemos buscar en la tabla 3 (distribucin


obtiene

) y se

Por tanto podemos decir que la mitad de la poblacin tiene una altura
inferior a
. Este resultado era de esperar, ya que en la
distribucin es simtrica y habr una mitad de individuos con un peso
inferior a la media y otro con un peso superior (figura 6.12). Esto puede
escribirse como:
El

de la poblacin tiene un peso comprendido en el intervalo


.

Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin


tiene un peso comprendido en l. Como se observa, no es un tamao
ptimo, en el sentido de que el intervalo es demasiado grande (longitud
infinita a la izquierda).

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

2.
Anlogamente podemos considerar el percentil 50, y tomar como intervalo
aquellos pesos que lo superan. Por las mismas razones que en el
problema anterior, podremos decir:
El

de la poblacin tiene un peso comprendido en el intervalo


.

3.
Los anteriores intervalos, an dando un resultado correcto, no son
satisfactorios en el sentido de que son muy grandes, y no tienen en
cuenta la simetra de la distribucin normal para tomar un intervalo cuyo
centro sea . Vamos a utilizar entonces otra tcnica que nos permita
calcular el intervalo centrado en la media, y que adems ser el ms
pequeo posible que contenga al

de la poblacin.

Para ello observamos que la mayor parte de probabilidad est


concentrada siempre alrededor de la media en las leyes gaussianas.
Entonces podemos tomar un intervalo que contenga un
probabilidad del lado izquierdo ms prximo a la media, y un
derecho (figura 6.13).

de
del

Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin


tiene un peso comprendido en l. En este caso el intervalo es ms

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

pequeo que el anterior y est centrado en

Esto se puede describir como el intervalo

donde x0,25 es el valor que deja por debajo de s al


de la masa de
probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que
deja por debajo al
de las observaciones). Del mismo modo que antes
estos valores pueden ser buscados en una tabla de la distribucin normal,
tipificando en primera instancia para destipificar despus:

donde

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

En una tabla encontramos el valor z0,75, y se destipifica:

Anlogamente se calculara

donde

Por la simetra de la distribucin normal con respecto al origen, tenemos


que z0,25= - z0,75.Luego

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


En conclusin:
El
de la poblacin tiene un peso comprendido en el intervalo
[168,25,181,75].
De entre los tres intervalos que se han calculado el que tiene ms inters es el
ltimo, ya que es simtrico con respecto a la media, y es el ms pequeo de
todos los posibles (ms preciso). Este ejemplo es en realidad una introduccin a
unas tcnicas de inferencia estadstica que trataremos posteriormente,
conocidas con el nombre de ``estimacin confidencial'' o ``clculo de intervalos
de confianza''.

1.8.6.9. Ejemplo
Las perdidas por mora en los pagos de un almacen de articulos
electrodomesticos durante un ao siguen una distribucion aproximadamente
normal con media $50.000, y el 95.44% de las perdidas oscilan entre $40.000 y
$80.000. Calcule la desviacion estandar dela distribucion.
Solucion
Sea X la v.a. que denota las perdidas por mora en los pagos del almacen
durante el ano en cuestion. Entonces, de acuerdo con los datos
P (40.000 X 80.000) 0.9544
Es decir,
40.000 50.000 X 80.000 50.000

0.9544

30.000
10.000
P
Z
0.9544 .
equivale
a

Lo

que

P k Z l 0.9544 , con l 3k ; lo que equivale a decir que k 1


luego, 10.000 .

DR. ADOLFO GUTIERREZ SOSA

sea,
10000
,

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.8.8 Distribucin
, la v.a. X=Z2 se distribuye segn una ley

Si consideramos una v.a.


de probabilidad distribucin
representa como

Si tenemos n v.a. independientes

con un grado de libertad, lo que se

, la suma de sus cuadrados

respectivos es una distribucin que denominaremos ley de distribucin


n grados de libertad,

La media y varianza de esta variable son respectivamente:

y su funcin de densidad es:

DR. ADOLFO GUTIERREZ SOSA

con

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Los percentiles de esta distribucin que aparecen con ms frecuencia en la
prctica los podemos encontrar en la tabla 5.

Figura: Funcin de densidad de


pequeos de n.

Figura: Funcin de densidad de


de n.

DR. ADOLFO GUTIERREZ SOSA

para valores

para valores grandes

ESTADSTICA AVANZADA GUIA DE ESTUDIO

En consecuencia, si tenemos

, v.a. independientes, donde cada

, se tiene

1.8.8.1 Observacin
La ley de distribucin
muestra su importancia cuando queremos determinar
la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor
central siguiendo un mecanismo normal. Como ilustracin tenemos el siguiente
ejemplo:
1.8.8.2 Ejemplo
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados
bastantes aproximados con la realidad, aunque existe cierta cantidad de error
que se distribuye de modo normal con media 0 y desviacin tpica
.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Se realizan mediciones de los niveles de glucemia dados por el instrumento en


un grupo de n=100 pacientes. Nos interesa medir la cantidad de error que se
acumula en las mediciones de todos los pacientes. Podemos plantear varias
estrategias para medir los errores acumulados. Entre ellas destacamos las
siguientes:
1.
Definimos el error acumulado en las mediciones de todos los pacientes
como

Cul es el valor esperado para E1?


2.
Definimos el error acumulado como la suma de los cuadrados de todos
los errores (cantidades positivas):

Cul es el valor esperado para E2?


A la vista de los resultados, cul de las dos cantidades, E1 y E2, le parece ms
conveniente utilizar en una estimacin del error cometido por un instrumento.
Solucin:
Suponiendo que todas las mediciones son independientes, se tiene que

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a
tender a compensarse entre unos pacientes y otros. Obsrvese que si no
fuese conocido a priori, podramos utilizar E1, para obtener una aproximacin de

Sin embargo, el resultado E1 no nos indica en qu medida hay mayor o menor


dispersin en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo
siguiente:

En este caso los errores no se compensan entre s, y si


podra ser estimado de modo aproximado mediante

no fuese conocido,

Sin embargo, no obtenemos ninguna informacin con respecto a

En conclusin, E1 podra ser utilizado para calcular de modo aproximado , y E2


para calcular de modo aproximado
. Las dos cantidades tienen inters, y
ninguna lo tiene ms que la otra, pues ambas formas de medir el error nos
aportan informacin.
El siguiente resultado ser de importancia ms adelante. Nos afirma que la
media de distribuciones normales independientes es normal pero con menor
varianza y relaciona los grados de libertad de una v.a. con distribucin
los de un estadstico como la varianza (pgina ):

DR. ADOLFO GUTIERREZ SOSA

, con

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.8.8.3 Teorema (Cochran)


Sean

v.a. independientes. Entonces

EJERCICIOS DE PROBABILIDAD
Sea X una distribucin normal estandarizada. Pruebe que el cuadrado de X es
2
2
una variable aleatoria distribuida chi-cuadrado: X ~ (1)

Sol. /
Sea Y X 2 . Entonces, X Y . Tenemos que:

FY ( y ) P (Y y ) P( X 2 y ) P y X
PX ( X

y ) PX ( X y ) FX

y F y
X

Se sabe que fY y F 'Y ( y ) . Esto nos lleva a:


fY y

d
1
FY ( y )
fX
dy
2 y

DR. ADOLFO GUTIERREZ SOSA

y 21y f y
X

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1
2 y

1 y/2
1
e

2
2 y

1 y/2
e

1
y (1/ 2) 1e y / 2
1 1/ 2
2
2

La ltima expresin es la forma distribucional de una Chi-cuadrado con un


grado de libertad.

Sean

X1

X2

dos variables independientes tales que

Y X 1 X 2 ~ , tambin independientes. Pruebe que X 2 ~

2
X

X 1 ~ 2X

Sol. /
etX1 e tX 2
M Y (t ) E etY E et ( X1 X 2 ) E
t(X X )
etX1 e tX 2 .
Pero como X 1 y X 2 son dos variables independientes, E e 1 2 E
As,

e tX 2
M Y (t ) E etX1 E
2
Pero X 2 Y ~ , lo que implica que su funcin generadora de momentos es
M Y (t ) 1 2t

/ 2

. As,

1 2t

/ 2

1 2t

1 / 2

M X 1 (t )

Despejando M X1 (t ) obtenemos:
P (obtener _ i _ ptos.)

(6 i ) 2 (5 i) 2
52

1 2t 1 2t / 2 1 2t / 2
(t )

/ 2
1 2t
/ 2

M X2

lo que prueba que X 2 es una variable aleatoria distribuida chi-cuadrada con


2 1 grados de libertad.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

1.8.10 Distribucin de Student


La distribucin -Student se construye como un cociente entre una normal y la
raz de una 2 independientes. De modo preciso, llamamos distribucin tStudent con n grados de libertad, tn a la de una v.a. T,

donde
,
. Este tipo de distribuciones aparece cuando
tenemos n+1 v.a. independientes

y nos interesa la distribucin de

La funcin de densidad de
DR. ADOLFO GUTIERREZ SOSA

es

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Figura: Funcin de densidad de una de Student

La distribucin de Student tiene propiedades parecidas a

1. Es de media cero, y simtrica con respecto a la misma;


2. Es algo ms dispersa que la normal, pero la varianza decrece hasta 1
cuando el nmero de grados de libertad aumenta;

Figura: Comparacin entre las funciones de densidad de

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

3. Para un nmero alto de grados de libertad se puede aproximar la


distribucin de Student por la normal, es decir,

Figura: Cuando aumentan los grados de libertad, la distribucin de


Student se aproxima a la distribucin normal tipificada.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

4. Para calcular

en lugar de considerar una primitiva de esa funcin y determinar la


integral definida, buscaremos el resultado aproximado en una tabla de la
distribucin

1.8.12 La distribucin

de Snedecor

Otra de la distribuciones importantes asociadas a la normal es la que se define


como cociente de distribuciones
independientes. Sean
v.a. independientes. Decimos entonces que la variable

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

sigue una distribucin de probabilidad de Snedecor, con (n,m) grados de


libertad. Obsrvese que

La forma ms habitual en que nos encontraremos esta distribucin ser en el


caso en que tengamos n+m v.a. independientes

y as

De esta ley de probabilidad lo que ms nos interesa es su funcin de


distribucin:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


y para ello, como en todas las distribuciones asociadas a la normal, disponemos
de una tabla (la nmero 6) donde encontrar aproximaciones a esas cantidades

Figura: Funcin de densidad de

Es claro que la distribucin de Snedecor no es simtrica, pues slo tienen


densidad de probabilidad distinta de cero, los punto de
. Otra propiedad
interesante de la distribucin de Snedecor es:

1.10 Problemas
Ejercicio 1..1. Para estudiar la regulacin hormonal de una lnea metablica se
inyectan ratas albinas con un frmaco que inhibe la sntesis de protenas del
organismo. En general, 4 de cada 20 ratas mueren a causa del frmaco antes de
que el experimento haya concluido. Si se trata a 10 animales con el frmaco,
cul es la probabilidad de que al menos 8 lleguen vivas al final del
experimento?
Ejercicio 1..2. En una cierta poblacin se ha observado un nmero medio anual
de muertes por cncer de pulmn de 12. Si el nmero de muertes causadas por

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


la enfermedad sigue una distribucin de Poisson, cul es la probabilidad de
que durante el ao en curso:
1.
Haya exactamente 10 muertes por cncer de pulmn?
2.
15 o ms personas mueran a causa de la enfermedad?
3.
10 o menos personas mueran a causa de la enfermedad?
Ejercicio 1..3. Daando los cromosomas del vulo o del espermatozoide,
pueden causarse mutaciones que conducen a abortos, defectos de nacimiento,
u otras deficiencias genticas. La probabilidad de que tal mutacin se produzca
por radiacin es del 10%. De las siguientes 150 mutaciones causadas por
cromosomas daados, cuntas se esperara que se debiesen a radiaciones?
Cul es la probabilidad de que solamente 10 se debiesen a radiaciones?
Ejercicio 1..4. Entre los diabticos, el nivel de glucosa en sangre X, en ayunas,
puede suponerse de distribucin aproximadamente normal, con media 106
mg/100 ml y desviacin tpica 8 mg/100 ml, es decir

1.
Hallar
2.
Qu porcentaje de diabticos tienen niveles comprendidos entre 90 y
120 ?
3.
Hallar

4.
Hallar

5.
Hallar el punto x caracterizado por la propiedad de que el 25% de todos
los diabticos tiene un nivel de glucosa en ayunas inferior o igual a x.
Ejercicio 1..5. Una prueba de laboratorio para detectar herona en sangre tiene
un 92% de precisin. Si se analizan 72 muestras en un mes, cul es la
probabilidad de que:
1.
60 o menos estn correctamente evaluadas?

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


2.
menos de 60 estn correctamente evaluadas?
3.
exactamente 60 estn correctamente evaluadas?
Ejercicio 1..6. El 10% de las personas tiene algn tipo de alergia. Se
seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la
probabilidad de que, al menos, 12 tengan algn tipo de alergia. Hallar la
probabilidad de que, como mximo, 8 sean alrgicos a algo.
Ejercicio 1..7. La probabilidad de muerte resultante del uso de pldoras
anticonceptivas es de 3/100.000. De 1.000.000 de mujeres que utilizan este
medio de control de natalidad:
1.
Cuntas muertes debidas a esta causa se esperan?
2.
Cul es la probabilidad de que haya, como mximo, 25 de estas
muertes?
3.
Cul es la probabilidad de que el nmero de muertes debidas a esta
causa est entre 25 y 35, inclusive?
Ejercicio 1..8. La probabilidad de presentar una caracterstica gentica es de
1/20.
1.
Tomando una muestra de 8 individuos, calcular la probabilidad de que 3
individuos presenten la caracterstica.
2.
Tomando una muestra de 80 personas, cul ser la probabilidad de que
aparezcan ms de 5 individuos con la caracterstica?
Ejercicio 1..9. Se supone que en una cierta poblacin humana el ndice ceflico
i, (cociente entre el dimetro transversal y el longitudinal expresado en tanto por
ciento), se distribuye segn una Normal. El 58% de los habitantes son
dolicocfalos (i 75), el 38% son mesocfalos (75 < i 80) y el 4% son
braquicfalos (i > 80). Hllese la media y la desviacin tpica del ndice ceflico
en esa poblacin.
Ejercicio 1..10. Se supone que la glucemia basal en individuos sanos, Xs sigue
una distribucin

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

mientras que en los diabticos Xd, sigue una distribucin

Si se conviene en clasificar como sanos al 2% de los diabticos:


1.
Por debajo de qu valor se considera sano a un individuo? Cuntos
sanos sern clasificados como diabticos?
2.
Se sabe que en la poblacin en general el 10% de los individuos son
diabticos cul es la probabilidad de que un individuo elegido al azar y
diagnosticado como diabtico, realmente lo sea?
Ejercicio 1..11. Supngase que se van a utilizar 20 ratas en un estudio de
agentes coagulantes de la sangre. Como primera experiencia, se dio un
anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin
marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del
estudio y se les tom al azar sin reemplazamiento. Cul es la probabilidad de
que de las 12 elegidas 6 tengan la droga y 6 no la tengan?

Preguntas 1 y 2. La distribucin de probabilidad conjunta de


y

p x , y

0
0
5
10

( X, Y) es:

5
0.02
0.04
0.01

10
0.06
0.15
0.15

15
0.02
0.20
0.14

Se puede decir que:


a) X e Y son independientes
c) P(X 0) 0.2

0.10
0.10
0.01
b)
d)

X e Y son dependientes
b) y c)

P(Y 5 | X 5) es igual a:
0.21

b)

0.304

c)

0.69

d)

1
Preguntas 3 y 4. Sean
y

X e Y variables aleatorias independientes, con f x 3 x 2 , 0 x 1

f y 2 y , 0 y 1 .

P(X 0.5, Y 0.5) es igual a:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


3
32

21
32

c)

7
32

d)

0.027

c)

0.5

d)

b)

1
32
El valor esperado de
0.25
0.8

XY es:
b)

El tiempo de espera de un autobs en la maana es una variable aleatoria normal con media 4
minutos y varianza 3, mientras que en la tarde es normal con media 5 minutos y varianza 4.
Asuma que los dos tiempos de espera son independientes. Si
promedio en las maanas y

X M .representa el tiempo

X T representa el tiempo promedio en las tardes y el bus se aborda

durante 5 das, la probabilidad de que X M X T < 1 es:


0.9545

b)

0.4545

c)

0.909

d)

0.5
Preguntas 6 y 7. El tiempo que un individuo debe esperar en un punto de atencin es una
variable aleatoria normal con media 8.2 minutos y desviacin estndar 4 minutos. Se observan
los tiempos de 49 individuos.
La probabilidad de que el tiempo promedio de espera sea a lo mas 10 minutos es:
0.0008
b)
0.5714
c)
0.3150
0.9992

d)

El valor de la media que cumple que la probabilidad de que el tiempo de espera total sea a lo
sumo 14.3 horas es 0.9664, es:
8.2
b)
0.7422
c)
7.53
d)
6.98
Preguntas 8 y 9. Para una muestra aleatoria
desconocida y varianza

2 .

Considere los siguientes estimadores de


Los sesgos de
0y

X 2X 3
, 2 2X .
: 1 1
3

1 y 2 son respectivamente:

b)
0y

X 1 , X 2 , X 3 de una poblacin con media

y 2

c)

0y

c)

d)

Se puede decir que:


a)

V 1 V 2
ECM 1 ECM 2

1
Si E , entonces, el sesgo de es:

DR. ADOLFO GUTIERREZ SOSA

b)

4
ECM 2 2
3

d)

El mejor estimador es

ESTADSTICA AVANZADA GUIA DE ESTUDIO

b)

c)

Preguntas 11 y 12. La distribucin de probabilidad conjunta de

p x , y

( X, Y) est dada por:

y
-1
0
1
2
3

d) 2

0
0.10
0.10
0.05
0.05

1
0.10
0.05
0.05
0.05

0.10
0.15
0.10
0.10

11. Se puede decir que:


P(2,0) PX (2) * PY (0) , entonces X e Y son independientes
a)
dependientes
c)
X e Y son independientes
12. La

1
6

a)

E[Y | X 1] es:
2
b)
6

c)

7
9

b)X e Y son
d)

d)

6
5

Preguntas 13 y 14. La funcin de distribucin de una variable aleatoria bidimensional


es:

a) y c)

( X, Y)

f x, y 2 , 0 x 1 , 0 y x .

13. De las siguientes afirmaciones la correcta es:


a)

X e Y son independientes
d)

E[Y]

b)

E[Y] > E[X]

c)

E[X]

2
3

2
3

1
2

14. P X es igual a:

1
4

b)

1
8

c)

3
4

d)

5
8
15. Una muestra aleatoria de tamao 16 es seleccionada de una poblacin normal con media 75
y desviacin estndar 8. Una segunda muestra aleatoria, independiente de la anterior, es
seleccionada de una poblacin normal con media 70 y varianza 144, de tamao 9. Si X 1 y X 2
son la medias muestrales, la
0.4129
b)
0.5884

P X1 X 2 4 es igual a:
0.2236

c)

0.5793

d)

Preguntas 16 y 17. Los ingresos diarios de un restaurante, en miles de pesos, oscilan entre 530
y 570, con distribucin uniforme. Suponga independencia en los ingresos diarios.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


16. La probabilidad de que en 100 das los ingresos totales superen la cifra de 55.25 millones de
pesos es:
1
b)
0.985
c)
0.015
d)
0.988
17. El nmero aproximado de das necesarios para que la probabilidad de que el promedio de los
ingresos supere los 549.5 miles de pesos sea 0.9147 es:
1001
b)
32
c)
10
d)
100

X 1 , X 2 , L , X n una muestra aleatoria de una distribucin con media


2
1
n
2
(X

X)
u y varianza 2 . Sea
un estimador de 2 .

i
i 1
n 1
Preguntas 18 y 19. Sea

18. Se puede decir que:


a)

2 2 b)
V

n 1
E 2

c)

2 2
E

d)

2 2
E
2 2 , la expresin correcta es:
19. Si B= E
2
a)
Bn
d)
B0

2
B
n

b)

c)

B 2

20. Sean X e Y variables aleatorias independientes. Una de las siguientes afirmaciones es


falsa:
E X
X
f X|y x f X x
a) f x , y f X x f Y y
b)
c) E
d)
E Y
Y

E X Y E X E Y

Preguntas 21 y 22. La distribucin de probabilidad conjunta de ( X, Y) es:


x

p x , y

-1
-1
0
1

0
1
9/64 3/32 9/64
6/64 1/16 6/64
9/64 3/32 9/64

Se puede decir que:


a) X e Y son independientes
son dependientes
c) P(0,1) PX (0) * PY (1) , entonces X e Y son independientes
La E[X | Y
- 0.375

b)

X e Y

d)

a) y c)

-1] es igual a:
b)1

c)0

d)0.375

Preguntas 23 y 24. La funcin de distribucin de una variable aleatoria bidimensional


es: f x , y 8 x y,

0 x y 1.

DR. ADOLFO GUTIERREZ SOSA

( X, Y)

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La afirmacin correcta es:


a) X e Y son dependientes
d)

E[X] 0.53

b)

E[Y] E[X]

c)

E[XY] E[X]

P X 0.5, Y 0.5 es igual a:


0.9375
0.0625

b)

0.375

c)

0.4

d)

La vida til de un componente es una variable aleatoria normal, antes de cambiar el proceso de
fabricacin tena media 5000 horas y desviacin estndar 40 horas, al introducir una mejora en
la fabricacin la vida til del componente cambia y la desviacin estndar disminuye a 30 horas.
Si se toman dos muestras aleatorias, una de 16 componentes del proceso antiguo y otra de 25
componentes del nuevo proceso. El valor aproximado de la media poblacional en el proceso
mejorado tal que la probabilidad de que X 2 X1 25 horas sea 0.9699 es:
a) 5036
b)
5030
c)
5047
d)
5026
Preguntas 26 y 27. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una
media de 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.
La probabilidad de que el peso promedio muestral sea como mnimo 3 es:
0.0630
b)
0.0951
c)
0.31
0.5

d)

El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de
los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:
2.71
b)
1.53
c)
0.9591
d)
4.34
Preguntas 28 y 29. Sea

X 1 , X 2 , L , X n una muestra aleatoria de una distribucin con media


i

desconocida y varianza

1
. Sean i X j , para i 1, 2 , L , n , estimadores de .
i j 1

Se puede afirmar que:

V( i ) i
d)

b)

V( i ) i / i

c)

V( i ) / i

V( i ) / i

El mejor estimador para

es:

b)

las anteriores

DR. ADOLFO GUTIERREZ SOSA

c)

i , 1 i n

d)

Todas

ESTADSTICA AVANZADA GUIA DE ESTUDIO


-x-y
Si X e Y son variables aleatorias conjuntamente distribuidas con f.d.p. f x , y x y e

x 0, y 0 entonces:
f X|y x f X x
a)
c)

f Y|x y y e- y , y 0

b)

f X x x e -x , x 0

d)

Todas las anteriores

Preguntas 31 y 32. La distribucin de probabilidad conjunta de ( X, Y) es:


p x, y

y
0

1
1/9
1/9
2/9

1
2
3

2
1/9
1/9
1/9

1/9
1/9
0

Se puede decir que :


P(2,1) PX (2) * PY (1) , entonces X e Y son independientes
a)
son dependientes
c)
X e Y son independientes

P X 1 | X Y 2 es igual a:
2
1
b)
9
2
3

c)

3
9

b)

X e Y

d)

a) y c)

d)

Preguntas 33 y 34. La funcin de distribucin de una variable aleatoria bidimensional ( X, Y) es:

f x , y k e- ( x y ) , x 0 , y 0
La opcin correcta es:
a) X e Y son independientesb)
d) a) y c)

X e Y son dependientes

c)

E[X] E[Y]

P Y 1 | X 2 es igual a:
0.6321

b)

0.3679

c)

0.0854

d)

0.1353
El PH de cierto compuesto qumico es una variable aleatoria normal con media 5 y varianza 2
cuando es medido en la maana y cuando es medido por la tarde es normal con media 5 y
varianza 1. Se realizan 25 mediciones en la maana y 16 en la tarde. Si las mediciones son

independientes, calcular P 2 X 1 3 X 2 23
0.020

b)

0.0166

c)

d)

0.9834
Preguntas 36 y 37. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una
media 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.
La probabilidad de que el peso promedio muestral sea como mnimo 3 es:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


0.0630

b)

0.0951

c)

0.31

d)

0.5
El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de
los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:
2.71
b)
1.53
c)
0.9591
d)
4.34
Preguntas 38 y 39. Dos analistas tomaron cada uno muestras de una misma variable aleatoria

2 . El analista A obtuvo observaciones X 1 , X 2 , L , X n . El analista B


obtuvo observaciones Y1 , Y 2 , L , Yn .
Para estimar el parmetro se proponen los
con media

y varianza

estimadores: 1

X i j 1 Y j
n

i 1

2n

XY
2
3

Se puede decir que:


a) Los dos son insesgados
varianza

ECM i 2 / 2n , i 1, 2

c)

b)

Los dos tienen la misma

d)

Ninguna

de

las

anteriores
Si

1
Si

2 1 y 1 y n es mayor que 5, el mejor estimador de es:


b) Cualquiera de los dos

d)

c)

Ninguno

V , entonces:

a) es insesgado

b)

DR. ADOLFO GUTIERREZ SOSA

c)

es sesgado d)

a) y b)

ESTADSTICA AVANZADA GUIA DE ESTUDIO

7. Inferencia estadstica

1. 2.2 Introduccin
2. 2.4 Tcnicas de muestreo sobre una poblacin
a. 2.4.2 Muestreo aleatorio
i. 2.4.2.1 Muestreo aleatorio sin reposicin
ii. 2.4.2.2 Muestreo aleatorio con reposicin
iii. 2.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional
iv. 2.4.2.4 Mtodo de Montecarlo
v. 2.4.2.5 Ejemplo
b. 2.4.4 Muestreo aleatorio estratificado
i. 2.4.4.1 Ejemplo
ii. 2.4.4.2 Asignacin proporcional
iii. 2.4.4.3 Asignacin ptima
iv. 2.4.4.4 Teorema
c. 2.4.6 Muestreo sistemtico
i. 2.4.6.1 Observacin
d. 2.4.8 Muestreo por conglomerados
3. 2.6 Propiedades deseables de un estimador
a. 2.6.0.1 Ejemplo
b. 2.6.2 Carencia de sesgo
c. 2.6.4 Consistencia
i. 2.6.4.1 Teorema
d. 2.6.6 Eficiencia
e. 2.6.8 Suficiencia
i. 2.6.8.1 Teorema
f. 2.6.10 Estimadores de mxima verosimilitud
g. 2.6.12 Algunos estimadores fundamentales
i. 2.6.12.1 Estimador de la esperanza matemtica
ii. 2.6.12.2 Proposicin
iii. 2.6.12.3 Estimador de la varianza
iv. 2.6.12.4 Proposicin
v. 2.6.12.5 Proposicin
vi. 2.6.12.6 Cuasivarianza muestral
2.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando,
extraer conclusiones acerca de la naturaleza de una poblacin. Al ser la
poblacin grande y no poder ser estudiada en su integridad en la mayora de los
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


casos, las conclusiones obtenidas deben basarse en el examen de solamente
una parte de sta, lo que nos lleva, en primer lugar a la justificacin, necesidad y
definicin de las diferentes tcnicas de muestreo.
Los primeros trminos obligados a los que debemos hacer referencia, definidos
en el primer captulo, sern los de estadstico y estimador.
Dentro de este contexto, ser necesario asumir un estadstico o estimador como
una variable aleatoria con una determinada distribucin, y que ser la pieza
clave en las dos amplias categoras de la inferencia estadstica: la estimacin y
el contraste de hiptesis.
El concepto de estimador, como herramienta fundamental, lo caracterizamos
mediante una serie de propiedades que nos servirn para elegir el ``mejor" para
un determinado parmetro de una poblacin, as como algunos mtodos para la
obtencin de ellos, tanto en la estimacin puntual como por intervalos.
Cmo deducir la ley de probabilidad sobre determinado carcter de una
poblacin cuando slo conocemos una muestra?
Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de
estudiar la relacin entre el fumar y el cncer de pulmn e intentamos extender
las conclusiones obtenidas sobre una muestra al resto de individuos de la
poblacin.
La tarea fundamental de la estadstica inferencial, es hacer inferencias acerca
de la poblacin a partir de una muestra extrada de la misma.

2.4 Tcnicas de muestreo sobre una poblacin


La teora del muestreo tiene por objetivo, el estudio de las relaciones existentes
entre la distribucin de un carcter en dicha poblacin y las distribuciones de
dicho carcter en todas sus muestras.
Las ventajas de estudiar una poblacin a partir de sus muestras son
principalmente:
Coste reducido:
Si los datos que buscamos los podemos obtener a partir de una pequea
parte del total de la poblacin, los gastos de recogida y tratamiento de los
datos sern menores. Por ejemplo, cuando se realizan encuestas previas
a un referndum, es ms barato preguntar a 4.000 personas su intencin
de voto, que a 30.000.000;
Mayor rapidez:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Estamos acostumbrados a ver cmo con los resultados del escrutinio de
las primeras mesas electorales, se obtiene una aproximacin bastante
buena del resultado final de unas elecciones, muchas horas antes de que
el recuento final de votos haya finalizado;
Ms posibilidades:
Para hacer cierto tipo de estudios, por ejemplo el de duracin de cierto
tipo de bombillas, no es posible en la prctica destruirlas todas para
conocer su vida media, ya que no quedara nada que vender. Es mejor
destruir slo una pequea parte de ellas y sacar conclusiones sobre las
dems.
De este modo se ve que al hacer estadstica inferencial debemos enfrentarnos
con dos problemas:
-

Eleccin de la muestra (muestreo), que es a lo que nos dedicaremos en


este captulo.
Extrapolacin de las conclusiones obtenidas sobre la muestra, al resto de
la poblacin (inferencia).

El tipo de muestreo ms importante es el muestreo aleatorio, en el que todos los


elementos de la poblacin tienen la misma probabilidad de ser extrados;
Aunque dependiendo del problema y con el objetivo de reducir los costes o
aumentar la precisin, otros tipos de muestreo pueden ser considerados como
veremos ms adelante: muestreo sistemtico, estratificado y por conglomerados.

2.4.2 Muestreo aleatorio


Consideremos una poblacin finita, de la que deseamos extraer una muestra.
Cuando el proceso de extraccin es tal que garantiza a cada uno de los
elementos de la poblacin la misma oportunidad de ser incluidos en dicha
muestra, denominamos al proceso de seleccin muestreo aleatorio.
El muestreo aleatorio se puede plantear bajo dos puntos de vista:
1. Sin reposicin de los elementos;
2. Con reposicin.
2.4.2.1 Muestreo aleatorio sin reposicin
Consideremos una poblacin E formada por N elementos. Si observamos un
elemento particular,
siguiente circunstancia:

, en un muestreo aleatorio sin reposicin se da la

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

6
7

La probabilidad de que e sea elegido en primer lugar es ;


Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad
de

), la probabilidad de que sea elegido en el segundo intento es de

.
en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo
cual si e no ha sido seleccionado previamente, la probabilidad de que lo
sea en este momento es de

Si consideramos una muestra de


elementos, donde el orden en la
eleccin de los mismos tiene importancia, la probabilidad de eleccin de una
muestra

cualquiera es

lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un


caso posible entre las VN,n posibles n-uplas de N elementos de la poblacin.
Si el orden no interviene, la probabilidad de que una muestra

sea elegida es la suma de las probabilidades de elegir una cualquiera de sus nuplas, tantas veces como permutaciones en el orden de sus elementos sea
posible, es decir

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

2.4.2.2 Muestreo aleatorio con reposicin


Sobre una poblacin E de tamao N podemos realizar extracciones de n
elementos, pero de modo que cada vez el elemento extrado es repuesto al total
de la poblacin. De esta forma un elemento puede ser extrado varias veces. Si
el orden en la extraccin de la muestra interviene, la probabilidad de una
cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la


suma de la anterior, repitindola tantas veces como manera de combinar sus
elementos sea posible. Es decir,
sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra;
sea n2 el nmero de veces que se repite cierto elemento e2;
sea nk el nmero de veces que se repite cierto elemento ek,
de modo que

. Entonces la probabilidad de obtener la muestra

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

es

es decir,

El muestreo aleatorio con reposicin es tambin denominado muestreo


aleatorio simple, que como hemos mencionado se caracteriza por que
1. cada elemento de la poblacin tiene la misma probabilidad de ser elegido,
y
2. las observaciones se realizan con reemplazamiento. De este modo, cada
observacin es realizada sobre la misma poblacin (no disminuye con las
extracciones sucesivas).
Sea X una v.a. definida sobre la poblacin E, y f(x) su ley de probabilidad.

En una muestra aleatoria simple, cada observacin tiene la distribucin de


probabilidad de la poblacin:
Adems todos las observaciones de la v.a. son independientes, es decir
Las relaciones(2.1)-(2.2) caracterizan a las muestras aleatorias simples.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


La seleccin de una muestra aleatoria puede realizarse con la ayuda de #.#>
2.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional
Un ejemplo de una tabla de nmeros aleatorios consiste en la lista de los
nmeros de Lotera Nacional premiados a lo largo de su historia, pues se
caracterizan por que cada dgito tiene la misma probabilidad de ser elegido, y su
eleccin es independiente de las dems extracciones.
Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de
nmeros aleatorios de k=5 cifras (00000-99.999), una poblacin de
N=600individuos, y deseamos extraer una muestra de n=6 de ellos. En este
caso ordenamos a toda la poblacin (usando cualquier criterio) de modo que a
cada uno de sus elementos le corresponda un nmero del 1 al 600. En segundo
lugar nos dirigimos a la tabla de nmeros aleatorios, y comenzando en cualquier
punto extraemos un nmero t, y tomamos como primer elemento de la muestra
al elemento de la poblacin:

El proceso se repite tomando los siguientes nmeros de la tabla de nmeros


aleatorios, hasta obtener la muestra de 10 individuos.
Las cantidades

pueden ser consideradas como observaciones de una v.a. U, que sigue una
distribucin uniforme en el intervalo [0,1]

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

2.4.2.4 Mtodo de Montecarlo


El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias
simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de
su funcin de distribucin F). Con este mtodo, el modo de elegir aleatoriamente
un valor de X siguiendo usando su ley de probabilidad es:
1.
Usando una tabla de nmeros aleatorios7.1 se toma un valor u de una v.a.
.
2.
Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el
caso en que X sea discreta se toma x como el percentil
de X, es
decir el valor ms pequeo que verifica que
.
Este proceso se debe repetir n veces para obtener una muestra de tamao n.
2.4.2.5 Ejemplo
Si queremos extraer n=10 muestras de una distribucin
podemos recurrir
a una tabla de nmeros aleatorios de k=5cifras, en las que observamos las
cantidades (por ejemplo)

A partir de ellas podemos obtener una muestra de


de la distribucin normal:
Nmeros aleatorios

Muestra

usando una tabla

Muestra
xi = F-1(ui)

ti
76.293

0'76

0'71

31.776

0'32(=1-0'68)

-0'47

50.803

0'51

0'03

71.153

0'71

0'55

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


20.271

0'20(=1-0'80)

-0'84

33.717

0'34(=1-0'66)

-0'41

17.979

0'18(=1-0'82)

-0'92

52.125

0'52

0'05

41.330

0'41(=1-0'59)

-0'23

95.141

0'95

1'65

Obsrvese que como era de esperar, las observaciones xi tienden a agruparse


alrededor de la esperanza matemtica de
. Por otra parte,
esto no implica que el valor medio de la muestra sea necesariamente
. Sin
embargo como sabemos por el teorema de Fisher que

su dispersin con respecto al valor central es pequea, lo que implica que


probablemente el valor medio estar muy prximo a 0, como se puede
calcular:

Obsrvese que si el problema fuese el inverso, donde nicamente


conocisemos las observaciones xi y que el mecanismo que gener esos datos
hubiese sido una distribucin normal de parmetros desconocidos, con
obtenida hubisemos tenido una buena aproximacin del ``parmetro
desconocido'' . Sobre esta cuestin volveremos ms adelante al abordar el
problema de la estimacin puntual de parmetros.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


2.4.4 Muestreo aleatorio estratificado
Un muestreo aleatorio estratificado es aquel en el que se divide la poblacin
de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que
puedan ser importantes en el estudio, de tamaos respectivos N1, ..., Nk,

y realizando en cada una de estas subpoblaciones muestreos aleatorios simples


de tamao ni

A continuacin nos planteamos el problema de cuantos elementos de muestra


se han de elegir de cada uno de los estratos. Para ello tenemos
fundamentalmente dos tcnicas: la asignacin proporcional y la asignacin
optima.
2.4.4.1 Ejemplo
Supongamos que realizamos un estudio sobre la poblacin de estudiantes de
una Universidad, en el que a travs de una muestra de 10 de ellos queremos
obtener informacin sobre el uso de barras de labios.
En primera aproximacin lo que procede es hacer un muestreo aleatorio simple,
pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento
de la poblacin con respecto a este carcter no es homogneo, y atendiendo a
l, podemos dividir a la poblacin en dos estratos:
a) Estudiantes masculinos (60% del total);
b) Estudiantes femeninos (40% restante).
de modo que se repartan proporcionalmente ambos grupos el nmero total de
muestras, en funcin de sus respectivos tamaos (6 varones y 4 mujeres). Esto
es lo que se denomina asignacin proporcional.
Si observamos con ms atencin, nos encontramos (salvo sorpresas de
probabilidad reducida) que el comportamiento de los varones con respecto al
carcter que se estudia es muy homogneo y diferenciado del grupo de las
mujeres.
Por otra parte, con toda seguridad la precisin sobre el carcter que estudiamos,
ser muy alta en el grupo de los varones aunque en la muestra haya muy pocos
(pequea varianza), mientras que en el grupo de las mujeres habr mayor
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


dispersin. Cuando las varianzas poblacionales son pequens, con pocos
elementos de una muestra se obtiene una informacin ms precisa del total de
la poblacin que cuando la varianza es grande. Por tanto, si nuestros medios
slo nos permiten tomar una muestra de 10 alumnos, ser ms conveniente
dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple
cierto nmero de individuos de cada estrato, de modo que se elegirn ms
individuos en los grupos de mayor variabilidad. As probablemente obtendramos
mejores resultados estudiando una muestra de
a) 1 varn.
b) 9 hembras.
Esto es lo que se denomina asignacin ptima.
2.4.4.2 Asignacin proporcional
Sea n el nmero de individuos de la poblacin total que forman parte de alguna
muestra:

Cuando la asignacin es proporcional el tamao de la muestra de cada estrato


es proporcional al tamao del estrato correspondiente con respecto a la
poblacin total:

2.4.4.3 Asignacin ptima


Cuando se realiza un muestreo estratificado, los tamaos muestrales en cada
uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede
basarse en alguno de los siguientes criterios:
a) Elegir los ni de tal modo que se minimice la varianza del estimador, para
un coste especificado, o bien,
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


b) habiendo fijado la varianza que podemos admitir para el estimador,
minimizar el coste en la obtencin de las muestras.
As en un estrato dado, se tiende a tomar una muestra ms grande cuando:
1. El estrato es ms grande;
2. El estrato posee mayor variabilidad interna (varianza);
3. El muestreo es ms barato en ese estrato.

Para ajustar el tamao de los estratos cuando conocemos la dispersin interna


de cada uno de los mismos, tenemos el siguiente resultado:
2.4.4.4 Teorema
[Asignacin de Neyman] Sea E una poblacin con N elementos, dividida en k
estratos, con Ni elementos cada uno de ellos,

Sea n el nmero total de elementos al realizar el muestreo, y que se dividen en


cada estrato como

Sea X la v.a. que representa el carcter que intentamos estudiar. Sobre cada
estrato puede definirse entonces la v.a.

como el valor medio de X obtenida en una muestra de tamao ni en el estrato Ei.


Sea

la varianza de dicha v.a.; Entonces

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

se minimiza cuando

donde

es la cuasi-varianza del estrato Ei.


2.4.6 Muestreo sistemtico
Cuando los elementos de la poblacin estn ordenados en fichas o en una lista,
una manera de muestrear consiste en

3. Sea
;
3. Elegir aleatoriamente un nmero m, entre 1 y k;
3. Tomar como muestra los elementos de la lista:

Esto es lo que se denomina muestreo sistemtico. Cuando el criterio de


ordenacin de los elementos en la lista es tal que los elementos ms parecidos
tienden a estar ms cercanos, el muestreo sistemtico suele ser ms preciso
que el aleatorio simple, ya que recorre la poblacin de un modo ms uniforme.
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Por otro lado, es a menudo ms fcil no cometer errores con un muestreo
sistemtico que con este ltimo.
2.4.6.1 Observacin
El mtodo tal como se ha definido anteriormente es sesgado si
no es entero,
ya que los ltimos elementos de la lista nunca pueden ser escogidos. Un modo
de evitar este problema consiste en considerar la lista como si fuese circular (el
elemento N+1 coincide con el primero) y:
a) Sea k el entero ms cercano a
;
b) Se selecciona un nmero al azar m, entre 1 y N;
c) Se toma como muestra los elementos de la lista que consisten en ir
saltando de k elementos en k, a partir de m, teniendo en cuenta que la
lista es circular.
Se puede comprobar que con este mtodo todos los elementos de la lista tienen
la misma probabilidad de seleccin.
2.4.8 Muestreo por conglomerados
Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo
aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de
tamao n implica enviar a los encuestadores a npuntos distintos de la misma, de
modo que en cada uno de ellos slo se realiza una entrevista. En esta situacin
es ms econmico realizar el denominado muestreo por conglomerados, que
consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para
despus elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos
los vecinos.

2.6 Propiedades deseables de un estimador


Sea X una v.a. cuya funcin de probabilidad (o densidad de probabilidad si es
continua) depende de unos parmetros

DR. ADOLFO GUTIERREZ SOSA

desconocidos.

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Representamos mediante
una muestra aleatoria simple de la
variable. Denotamos mediante fc a la funcin de densidad conjunta de la
muestra, que por estar formada por observaciones independientes, puede
factorizarse del siguiente modo:

Se denomina estimador de un parmetro , a cualquier v.a. que se exprese


en funcin de la muestra aleatoria y que tenga por objetivo aproximar el valor de
,
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria,
ya que aunque depende unvocamente de los valores de la muestra observados
(Xi=xi), la eleccin de la muestra es un proceso aleatorio. Una vez que la
muestra ha sido elegida, se denomina estimacin el valor numrico que toma el
estimador sobre esa muestra.
Intuitivamente, las caractersticas que seran deseables para esta nueva variable
aleatoria (que usaremos para estimar el parmetro desconocido) deben ser:
Consistencia
Cuando el tamao de la muestra crece arbitrariamente, el valor estimado
se aproxima al parmetro desconocido.
Carencia de sesgo
El valor medio que se obtiene de la estimacin para diferentes muestras
debe ser el valor del parmetro.
Eficiencia
Al estimador, al ser v.a., no puede exigrsele que para una muestra
cualquiera se obtenga como estimacin el valor exacto del parmetro. Sin
embargo podemos pedirle que su dispersin con respecto al valor central
(varianza) sea tan pequea como sea posible.
Suficiencia
El estimador debera aprovechar toda la informacin existente en la
muestra.
A continuacin vamos a enunciar de modo ms preciso y estudiar cada una de
esas caractersticas.
2.6.0.1 Ejemplo
Consideremos una v.a. de la que slo conocemos que su ley de distribucin es
gaussiana,
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Para muestras aleatorias de tamao n=3,

un posible estimador del parmetro

es

Si al realizar un muestreo aleatorio simple obtenemos

Hemos dicho que el estimador sirve para aproximar el valor de un parmetro


desconocido, pero... si el parmetro es desconocido cmo podemos decir que
un estimador dado sirve para aproximarlo? As pues, es necesario que
definamos en qu sentido un estimador es bueno para cierto parmetro.

2.6.2 Carencia de sesgo


Se dice que un estimador de un parmetro

DR. ADOLFO GUTIERREZ SOSA

es insesgado si:

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que


se tiene un nmero indefinido de muestras de una poblacin, todas ellas del
mismo tamao n. Sobre cada muestra el estimador nos ofrece una estimacin
concreta del parmetro que buscamos. Pues bien, el estimador es insesgado, si
sobre dicha cantidad indefinida de estimaciones, el valor medio obtenido en las
estimaciones es (el valor que se desea conocer).

Se denomina sesgo a la diferencia E () .

Sea X una variable aleatoria con media y varianza 2 . De una muestra


aleatoria X 1 , X 2 ,... X n , tomada de la poblacion representada por X se pueden
hallar la media y la varianza muestral X y S 2 . Para hallar estimadores se
conocen varios procedimientos como el de minimos cuadrados y el de maxima
verosimilitud; estos se veran mas adelante. Por ahora, probemos que S 2 es un
estimador insesgado de 2 (que X es un estimador insesgado de ya fue
probado)
Se sabe que
n

S2

(X
i 1

X )2

n 1

Entonces,

E (S 2 ) E

i 1

E (S 2 )

E (S 2 )

X ) 2

n 1

(X

n
1
E ( X i X )2
n 1 i 1

n
1
E ( X i2 X 2 2 XX i )
n 1 i 1

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

E (S 2 )

E (S 2 )

E (S 2 )

1
n 1

1
n 1

E (S 2 )

E
n 1

i 1

E( X
i 1

(
i 1

2
i

2
i

nX 2

) nE ( X 2 )

2 ) n( 2 2 / n)

1
n 2 n 2 n 2 2

n 1
E (S 2 ) 2

Definicion
El Error cuadratico medio de un estimador se define como ECM () E ( )
y puede demostrarse que

ECM () V () sesgo 2 ()
El error cuadratico medio es un criterio importante para comparar dos
estimadores. El mejor estimador es el que tiene menor error cuadratico medio.

Ejercicios
1. Suponga que se tiene una muestra aleatoria de tamano 2n tomada de una
poblacion X con media y varianza 2 . Sean

X1

1 2n
Xi
2n i 1

DR. ADOLFO GUTIERREZ SOSA

X2

1 n
Xi
n i 1

ESTADSTICA AVANZADA GUIA DE ESTUDIO


dos estimadores de . Cual es el mejor estimador de ?
2. Sea X 1 , X 2 ,..., X 7 una muestra aleatoria de una poblacion que tiene media y
varianza 2 . Considere los siguientes estimadores de :

1X

1
i
7 i 1
2 X1 X 6 X 4

2
2
a) Alguno de estos estimadores es insesgado?
b) Cual es el mejor y en que sentido?
y
son estimadores insesgados del parametro . Se sabe
3.Suponga que
1
2

es 4. Cual es el mejor estimador y en


que la varianza de es 10 y la de
1

que sentido?
4. Calcule la eficiencia relativa de los estimadores del Ejercicio 2.
5. Calcule la eficiencia relativa de los dos estimadores del ejercicio anterior
y
son estimadores del parametro . Se sabe que el valor
6. Suponga que
1
2
es 10 y la de
esperado del primero es y del segundo /2. si la varianza de
1

es 4, cual estimador es mejor y en que sentido?

,
y
son estimadores de . Se sabe que el valor
2. Suponga que
1
2
3
es diferente de . Si la varianza
esperado de los dos primeros es y el de
3

es 12, la de
, 10 y E (
) 2 =6, cual es el major estimador y en que
de
1
2
3
sentido?

8. De una poblacion que tiene media y varianza 2 , se toman tres muestras


2
2
2
aleatorias de tamanos n1 20, n2 10 y n3 8 . Sean S1 , S2 y S3 las varianzas

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

muestrales.

Demuestre

que

S2

1
20 S12 10S 22 8S32

38

es

un

estimador

insesgado de 2
( X i X )2

n
i 1
magnitude del sesgo.
n

9. Demuestre que

es un estimador sesgado de 2 y determine la

10. Sea X 1 , X 2 ,..., X n una muestral aleatoria de tamano n. Demuestre que X 2 es


un estimador sesgado de 2 y determine la magnitude del sesgo.

2.6.4 Consistencia
Decimos que es un estimador consistente con el parmetro

si:

o lo que es equivalente

Este tipo de propiedades definidas cuando el nmero de observaciones n, tiende


a infinito, es lo que se denomina propiedades asintticas.
2.6.4.1 Teorema
Como consecuencia de de la desigualdad de Thebycheff (pgina
demostrar el siguiente resultado:

DR. ADOLFO GUTIERREZ SOSA

) se puede

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Si se verifican las condiciones

entonces es consistente.

2.6.6 Eficiencia

Dados dos estimadores


ms eficiente que

de un mismo parmetro , diremos que

es

si

2.6.8 Suficiencia

Diremos que

para todo posible valor de

es un estimador suficiente del parmetro si

Esta definicin as enunciada tal vez resulte un poco oscura, pero lo que expresa
es que un estimador es suficiente, si agota toda la informacin existente en la
muestra que sirva para estimar el parmetro.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


2.6.8.1 Teorema
[Criterio de factorizacin de Fisher--Neyman] Sea
distribucin conjunta para las muestras de tamao n,

la
. Entonces

siendo h una funcin no negativa que no depende de y r una funcin que slo
depende del parmetro y de la muestra a travs del estimador.

2.6.10 Estimadores de mxima verosimilitud


Sea X una v.a. con funcin de probabilidad

Las muestras aleatorias simples de tamao n,


distribucin de probabilidad conjunta

tienen por

Esta funcin que depende de n+1 cantidades podemos considerarla de dos


maneras:
a) Fijando , es una funcin de las n cantidades xi. Esto es la funcin de
probabilidad o densidad.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


b) Fijados los xi como consecuencia de los resultados de elegir una muestra
mediante un experimento aleatorio, es nicamente funcin de . A esta
funcin de la denominamos funcin de verosimilitud.
En este punto podemos plantearnos el que dado una muestra sobre la que se ha
observado los valores xi, una posible estimacin del parmetro es aquella que
maximiza la funcin de verosimilitud (cf. figura 2.1)

Figura: La funcin de verosimilitud se obtiene a partir de la


funcin de densidad, intercambiando los papeles entre parmetro
y estimador. En una funcin de verosimilitud consideramos que
las observaciones x1, ..., xn,estn fijadas, y se representa la grfica
con el valor de los valores que tomara la funcin de densidad
para todos los posibles valores del parmetro . El estimador
mximo verosmil del parmetro buscado,
maximiza su funcin de verosimilitud,

, es aquel que
.

Como es lo mismo maximizar una funcin que su logaritmo (al ser este una
funcin estrictamente creciente), este mximo puede calcularse derivando con
respecto a la funcin de verosimilitud ( bien su logaritmo) y tomando como
estimador mximo verosmil al que haga la derivada nula:
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

De modo ms preciso, se define el estimador mximo verosmil como la v.a.

Los estimadores de mxima verosimilitud tienen ciertas propiedades en general


que a continuacin enunciamos:
1.
Son consistentes;
2.
Son invariantes frente a transformaciones biunvocas, es decir, si
el estimador mximo verosmil de
entonces

es

es una funcin biunvoca de ,

es el estimador mximo verosmil de

3.
Si es un estimador suficiente de

, su estimador mximo verosmil,

es funcin de la muestra a travs de ;


4.
Son asintticamente normales;
5.
Son asintticamente eficientes, es decir, entre todos los estimadores
consistentes de un parmetro , los de mxima verosimilitud son los de
varianza mnima.
6.
No siempre son insesgados.

2.6.12 Algunos estimadores fundamentales


Vamos a estudiar las propiedades de ciertos estimadores que por su importancia
en las aplicaciones resultan fundamentales: estimadores de la esperanza
matemtica y varianza de una distribucin de probabilidad.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


2.6.12.1 Estimador de la esperanza matemtica
Consideremos las muestras de tamao n,
, de un carcter sobre
una poblacin que viene expresado a travs de una v.a. Xque posee momentos
de primer y segundo orden, es decir, existen

El estimador media muestral que denotaremos normalmente como


de

(en lugar

es

verifica:

Por tanto es un estimador insesgado. Si adems sabemos que X se distribuye


segn una ley gaussiana, es sencillo comprobar que coincide con el estimador
de mxima verosimilitud (figura 2.3):
2.6.12.2 Proposicin

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Demostracin
La funcin de densidad de una observacin cualquiera de la muestra es:

Por tanto la distribucin conjunta de la muestra es

Para unos valores

fijados, la funcin de verosimilitud es

(en principio escribimos tambin el otro parmetro desconocido,


, aunque no
nos interesamos en su estimacin por el momento). La expresin de la funcin
de verosimilitud es algo engorrosa. Por ello es preferible trabajar con su
logaritmo:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

El mximo de la funcin de verosimilitud se alcanza donde lo hace su logaritmo


(monotona), por tanto derivando con respecto a

e igualando a cero se llega a:

Es decir, el estimador mximo verosmil de la media poblacional, , coincide con


la media muestral

como queramos demostrar (cf. figura 2.2).

Figura: El estimador de mxima verosimilitud de para una variable


gaussiana es la media muestral.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Figura: La distribucin del estimador muestral

del parmetro poblacional

tiene por valor esperado al mismo (insesgado), y su dispersin disminuye a


medida que aumenta el nmero de observaciones

2.6.12.3 Estimador de la varianza


A la hora de elegir un estimador de
estimador ms natural:

DR. ADOLFO GUTIERREZ SOSA

, podemos comenzar con el

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Podemos comprobar que cuando el carcter que se estudia sobre la poblacin


es gaussiano, en realidad este es el estimador mximo verosmil para la
varianza. Sin embargo se comprueba tambin su falta de sesgo, lo que hace
mas adecuado que se utilice como estimador de la varianza al siguiente
concepto: cuasi varianza muestral
2.6.12.4 Proposicin

Demostracin
Recuperamos el logaritmo de la funcin de verosimilitud escrita en la relacin
(2.4), donde en esta ocasin el primer parmetro ya fue obtenido por el mtodo
de mxima verosimilitud (y vimos que era la media muestral) y tratamos de
maximizarla con respecto al segundo parmetro:

Derivando con respecto a


verosmil:

e igualando a 0se obtiene el estimador mximo

Despejando de esta ecuacin se obtiene que el estimador mximo verosmil


coincide con la varianza muestral,

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

2.6.12.5 Proposicin
El valor esperado del estimador

no es

, y por tanto el estimador mximo verosmil para la varianza no es

insesgado. Ms an,
Demostracin
Comenzamos escribiendo

Por otro lado

Luego

Ejercicios
Basados en una muestra aleatoria de tamano n:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Hallar el EMV del parametro p de una variable aleatoria Bernoulli

Hallar el EMV de la media de una variable aleatoria normalmente


distribuida con varianza 2 conocida

Sea X ~ N ( , 2 ) con y 2 desconocidas. Hallar los estimadores maximo


verosimiles de estos parametros.
Hallar el EMV del parametro de la distribucion Poisson
Hallar el EMV del parametro de la distribucion exponencial
Hallar el EMV del parametro de la distribucion geometrica.
Sea X una variable aleatoria con la siguiente distribucion de probabilidad

f ( x ) ( 1) x , 0 x 1
Encuentre el EMV del parametro

Considere la distribucion Weibull

f ( x)

,x 0

Encuentre la funcion de verosimilitud, el log de la funcion de verosimilitud y


demuestre que este ultimo queda maximizado al resolver las ecuaciones

x ln( xi ) ln( xi )

i 1

i 1
n
n

xi

i 1
n

1/

i 1

9. Demuestre que el EMV de r / de una distribucion Gamma con


parametros r y es X .
2.6.12.6 Cuasivarianza muestral
Para tener un estimador insesgado de la varianza introducimos la cuasivarianza
muestral
que se define como

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Es inmediato comprobar que realmente este estimador es insesgado

Esa esperanza puede ser calculada de un modo ms directo, ya que la


distribucin del estimador
es conocida usando el teorema de Cochran (pgina
):

luego

Es consecuencia de las relaciones (2.8) y (2.9) que la distribucin de la


cuasivarianza muestral es tal que

(cf. figura 2.4).

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Figura: Funcin de densidad del estadstico que relaciona
,
y los grados de
libertad de la muestra (n-1). La falta de simetra del mismo hace que su valor
esperado (n-1) se desplace a la derecha de la moda (asimetra positiva).

3. Estimacin confidencial
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

3.2 Introduccin
3.4 Intervalos de confianza para la distribucin normal

3.4.2 Intervalo para la media si se conoce la varianza


3.4.4 Intervalo para la media (caso general)
.i 3.4.4.1 Ejemplo
3.4.6 Intervalo de confianza para la varianza
.i 3.4.6.1 Ejemplo
3.4.4 Estimacin del tamao muestral
.i 3.4.4.1 Ejemplo
3.4.10 Intervalos para la diferencia de medias de dos poblaciones
.i 3.4.10.1 Intervalo para la diferencia de medias homocedticas
.ii 3.4.10.2 Ejemplo

Intervalos de confianza para variables dicotmicas

3.6.2 Intervalo para una proporcin


.i 3.6.2.1 Ejemplo
3.6.4 Eleccin del tamao muestral para una proporcin
.i 3.6.4.1 Ejemplo

3.6.6 Intervalo para la diferencia de dos proporciones


6. 3.8 Problemas

3.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores
o intervalo, en los que pueda precisarse --con una determinada probabilidad-que el valor de un parmetro se encuentra dentro de esos lmites. Este
parmetro ser habitualmente una proporcin en el caso de variables
dicotmicas, y la media o la varianza para distribuciones gaussianas.
La tcnica de la estimacin confidencial consiste en asociar a cada muestra
un intervalo que se sospecha que debe contener al parmetro. A ste se le
denomina intervalo de confianza
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A
la probabilidad de que hayamos acertado al decir que el parmetro estaba

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


contenido en dicho intervalo se la denomina nivel de confianza. Tambin se
denomina nivel de significacin a la probabilidad de equivocarnos

3.4 Intervalos de confianza para la distribucin normal


Dada una variable aleatoria de distribucin gaussiana,
, nos
interesamos en primer lugar, en calcular intervalos de confianza para sus dos
parmetros,

He aqu un resumen de las situaciones que consideraremos:


Intervalo para la media si se conoce la varianza:
Este no es un caso prctico (no se puede conocer

sin conocer

previamente ), pero sirve para introducirnos en el problema de la


estimacin confidencial de la media;
Intervalos de confianza para la media (caso general):
Este se trata del caso con verdadero inters prctico. Por ejemplo sirve
para estimar intervalos que contenga la media del colesterol en sangre en
una poblacin, la altura, el peso, etc, cuando disponemos de una muestra
de la variable.
Intervalo de confianza para la varianza:
ste es otro caso de inters en las aplicaciones. El objetivo es calcular un
intervalo de confianza para
, cuando slo se dispone de una muestra.
Estimacin de tamao muestral
La utilidad consiste en decidir cul deber ser el tamao necesario de una
muestra para obtener intervalos de confianza para una media, con
precisin y significacin dadas de antemano. Para que esto sea posible
es necesario poseer cierta informacin previa, que se obtiene a partir de
las denominadas muestras piloto.
Ms adelante, consideramos el caso en que tenemos dos poblaciones donde
cada una sigue su propia ley de distribucin
problemas asociados a este caso son

. Los

Diferencia de medias homocedticas


Se realiza el clculo del intervalo de confianza suponiendo que ambas
variables tienen la misma varianza, es decir son homocedticas. En la
prctica se usa este clculo, cuando ambas variables tienen parecida
dispersin.
Diferencia de medias (caso general)

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Es el mismo caso que el anterior, pero se realiza cuando se observa que
hay diferencia notable en la dispersin de ambas variables.

a) 3.4.2 Intervalo para la media si se conoce la varianza


b) 3.4.4 Intervalo para la media (caso general)
a. 3.4.4.1 Ejemplo
c) 3.4.6 Intervalo de confianza para la varianza
a. 3.4.6.1 Ejemplo
d) 3.4.8 Estimacin del tamao muestral
a. 3.4.8.1 Ejemplo
e) 3.4.10 Intervalos para la diferencia de medias de dos poblaciones
a. 3.4.10.1 Intervalo para la diferencia de medias homocedticas
b. 3.4.10.2 Ejemplo
3.4.2 Intervalo para la media si se conoce la varianza
Este caso que planteamos es ms a nivel terico que prctico: difcilmente
vamos a poder conocer con exactitud
mientras que es desconocido. Sin
embargo nos aproxima del modo ms simple a la estimacin confidencial de
medias.
Para estimar , el estadstico que mejor nos va a ayudar es
conocemos su ley de distribucin:

, del que

Esa ley de distribucin depende de (desconocida). Lo ms conveniente es


hacer que la ley de distribucin no dependa de ningn parmetro desconocido,
para ello tipificamos:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Este es el modo en que haremos siempre la estimacin puntual: buscaremos


una relacin en la que intervengan el parmetro desconocido junto con su
estimador y de modo que estos se distribuyan segn una ley de probabilidad
que es bien conocida y a ser posible tabulada.
De este modo, fijado

, consideramos la v.a.

y tomamos un

intervalo que contenga una masa de probabilidad de


. Este intervalo lo
queremos tan pequeo como sea posible. Por ello lo mejor es tomarlo simtrico
con respecto a la media (0), ya que all es donde se acumula ms masa (vase
la figura 3.1). As las dos colas de la distribucin (zonas ms alejadas de la
media) se repartirn a partes iguales el resto de la masa de probabilidad, .

Figura: La distribucin

y el intervalo ms pequeo posible

cuya probabilidad es

. Por simetra, los cuantiles


slo difieren en el signo.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Vamos a precisar cmo calcular el intervalo de confianza:


9. Sea

el percentil

debajo de si la cantidad

9. Sea

de Z, es decir, aquel valor de

que deja por

de la masa de probabilidad de Z, es decir:

el percentil

, es decir,

Es til considerar en este punto la simetra de la distribucin normal, y


observar que los percentiles anteriores son los mismos aunque con el
signo cambiado:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

9. El intervalo alrededor del origen que contiene la mayor parte de la masa (


) es el intervalo siguiente (cf. Figura 3.1):

lo que habitualmente escribiremos como:

9. De este modo podemos afirmar que existe una probabilidad de


al extraer una muestra aleatoria de la variable en estudio, ocurra:

de que

De este modo un intervalo de confianza al nivel


para la esperanza de una
normal de varianza conocida es el comprendido entre los valores

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

La forma habitual de escribir este intervalo est inspirada en la Figura :

Figura: Intervalo de confianza para la media.

3.4.4 Intervalo para la media (caso general)


Como hemos mencionado, los casos anteriores se presentarn poco en la
prctica, ya que lo usual es que sobre una poblacin quizs podamos conocer si
se distribuye normalmente, pero el valor exacto de los parmetros y
no son
conocidos. De ah nuestro inters en buscar intervalos de confianza para ellos.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


El problema que tenemos en este caso es ms complicado que el anterior, pues
no es tan sencillo eliminar los dos parmetros a la vez. Para ello nos vamos a
ayudar de lo siguiente:

Por el teorema de Cochran sabemos por otro lado que:

y que adems estas dos ltimas distribuciones son independientes. A partir de


estas relaciones podemos construir una distribucin de Student con n-1 grados
de libertad (cf. figura 3.3):

Figura: La distribucin es algo diferente a


cuando n es pequeo, pero conforme ste aumenta,
ambas distribuciones se aproximan.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Simplificando la expresin anterior tenemos:

Dado el nivel de significacin

buscamos en una tabla de

el percentil

,
, el cual deja por encima de si la cantidad
de la
masa de probabilidad (figura 3.4). Por simetra de la distribucin de Student se
tiene que

, luego

Figura: La distribucin de Student tiene las mismas propiedades


de simetra que la normal tipificada.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

El intervalo de confianza se obtiene a partir del siguiente clculo:

Es decir, el intervalo de confianza al nivel


para la esperanza de una
distribucin gaussiana cuando sus parmetros son desconocidos es:

Figura: Intervalo de confianza para cuando


(caso general).

DR. ADOLFO GUTIERREZ SOSA

es desconocido

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Al igual que en el caso del clculo del intervalo de confianza para cuando
es
conocido, podemos en el caso
desconocido, utilizar la funcin de verosimilitud
(figura3.5) para representarlo geomtricamente. En este caso se usa la notacin:

3.4.4.1 Ejemplo
Se quiere estimar un intervalo de confianza al nivel de significacin
para la altura media de los individuos de una ciudad. En principio slo
sabemos que la distribucin de las alturas es una v.a. X de distribucin normal.
Para ello se toma una muestra de n=25 personas y se obtiene

Solucin:
En primer lugar, en estadstica inferencial, los estadsticos para medir la
dispersin ms convenientes son los insesgados. Por ello vamos a dejar de lado
la desviacin tpica muestral, para utilizar la cuasidesviacin tpica:

Si queremos estimar un intervalo de confianza para


estadstico

DR. ADOLFO GUTIERREZ SOSA

, es conveniente utilizar el

ESTADSTICA AVANZADA GUIA DE ESTUDIO

y tomar como intervalo de confianza aquella regin en la que

es decir,

o dicho de forma ms precisa: Con un nivel de confianza del


podemos decir
que la media poblacional est en el intervalo siguiente (vase la Figura):

Figura: Clculo del intervalo de confianza para la media usando


para ello la distribucin de Student y la funcin de verosimilitud
asociada, la cual est tiene su mximo en , ya que esta
estimacin puntual de

DR. ADOLFO GUTIERREZ SOSA

es la mximo verosmil.

ESTADSTICA AVANZADA GUIA DE ESTUDIO

3.4.6 Intervalo de confianza para la varianza


Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la
siguiente propiedad de la distribucin

Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
en la ``zona central'' de la distribucin (cf. figura 3.7):

Figura: Cuantiles de la distribucin

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Entonces un intervalo de confianza al nivel


para la varianza de una
distribucin gaussiana (cuyos parmetros desconocemos) lo obtenemos
teniendo en cuenta que existe una probabilidad

Por tanto el intervalo que buscamos es

DR. ADOLFO GUTIERREZ SOSA

de que:

ESTADSTICA AVANZADA GUIA DE ESTUDIO

3.4.6.1 Ejemplo
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,
obtenindose en una muestra de tamao 25 los siguientes valores:

Calcular un intervalo de confianza con


de los individuos de la ciudad.

para la varianza

de la altura

Solucin:
Para estimar un intervalo de confianza para
estadstico que nos resulta til es:

(varianza poblacional) el

Entonces el intervalo de confianza que buscamos lo obtenemos mediante (cf.


figura 3.8)

Figura: Percentiles del 2,5% y del 97,5%


para la distribucin

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Por tanto, para el valor poblacional de la desviacin tpica tenemos que

con una confianza del 95%, que por supuesto contiene a las estimaciones
puntuales

calculados sobre la muestra.

3.4.8 Estimacin del tamao muestral


Antes de realizar un estudio de inferencia estadstica sobre una variable, lo
primero es decidir el nmero de elementos, N, a elegir en la muestra aleatoria.
Para ello consideremos que el estudio se basara en una variable de distribucin

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


normal, y nos interesa obtener para un nivel de significacin
precisin (error) d.

dado, una

Para ello, recordemos que un intervalo de confianza para una media en el caso
general se escribe como:

Si N es suficientemente grande, la distribucin de Student se aproxima a la


distribucin normal. Luego una manera de obtener la precisin buscada consiste
en elegir N con el siguiente criterio:

Donde
es una estimacin puntual a priori de la varianza de la muestra. Para
obtenerla nos podemos basar en una cota superior conocida por nuestra
experiencia previa, o simplemente, tomando una muestra piloto que sirve para
dar una idea previa de los parmetros que describen una poblacin.
3.4.8.1 Ejemplo
En los ltimos ejemplos se ha estudiado la variable altura de los individuos de
una poblacin, considerando que sta es una variable que se distribuye de modo
gaussiana.
Para ello se tom una muestra de 25 individuos (que podemos considerar
piloto), que ofreci los siguientes resultados:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Calcular el tamao que debera tener una muestra para que se obtuviese un
intervalo de confianza para la media poblacional con un nivel de significacin
(al

) y con una precisin de d=1 cm.

Solucin:
Obsrvese que sobre la muestra piloto, el error cometido al estimar el intervalo
al
fue aproximadamente de 4'2 cm por lo que si buscamos un intervalo de
confianza tan preciso, el tamao de la muestra, N, deber ser bastante mayor.
En este caso se obtiene:

Por tanto, si queremos realizar un estudio con toda la precisin requerida en el


enunciado se debera tomar una muestra de 694 individuos. Esto es una
indicacin de gran utilidad antes de comenzar el estudio. Una vez que el
muestreo haya sido realizado, debemos confirmar que el error para el nivel de
significacin dado es inferior o igual a 1 cm, utilizando la muestra obtenida.

3.4.10 Intervalos para la diferencia de medias de dos poblaciones


Consideremos el caso en que tenemos dos poblaciones de modo que el carcter
que estudiamos en ambas (X1 y X2) son v.a. distribuidas segn leyes gaussianas

En cada una de estas poblaciones se extrae mediante muestreo aleatorio


simple, muestras que no tienen por que ser necesariamente del mismo tamao
(respectivamente n1 y n2)

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Podemos plantearnos a partir de las muestras el saber qu diferencias existen


entre las medias de ambas poblaciones, o por ejemplo estudiar las relacin
existente entre sus dispersiones respectivas. A ello vamos a dedicar los
siguientes puntos.
3.4.10.1 Intervalo para la diferencia de medias homocedticas
Supongamos que dos poblaciones tengan varianzas idnticas
(homocedasticidad), . Es decir

Por razones anlogas a las expuestas en el caso de una poblacin una


poblacin, se tiene que

Sea Z la v.a. definida como

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


El siguiente cociente se distribuye entonces como una de Student con n1+n2-2
grados de libertad

donde se ha definido a

Si

como la cuasivarianza muestral ponderada de

es el nivel de significacin con el que deseamos establecer el intervalo

para la diferencia de las dos medias, calculamos el valor


por encima de si

que deja

de la masa de probabilidad de Tn1+n2-2

Repitiendo un proceso que ya hemos realizado en ocasiones anteriores,


tenemos una probabilidad de
simple ocurra:

DR. ADOLFO GUTIERREZ SOSA

de que a extraer una muestra aleatoria

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Luego el intervalo de confianza al nivel


para la diferencia de esperanzas
de dos poblaciones con la misma varianza (aunque esta sea desconocida) es:

3.4.10.2 Ejemplo
Queremos estudiar la influencia que puede tener el tabaco con el peso de los
nios al nacer. Para ello se consideran dos grupos de mujeres embarazadas
(unas que fuman un paquete al da y otras que no) y se obtienen los siguientes
datos sobre el peso X, de sus hijos:

En ambos grupos los pesos de los recin nacidos provienen de sendas


distribuciones normales de medias desconocidas, y con varianzas que si bien
son desconocidas, podemos suponer que son las mismas. Calcular en cuanto
influye el que la madre sea fumadora en el peso de su hijo.
Solucin:
Si X1 es la v.a. que describe el peso de un nio que nace de madre no fumadora,
y X2 el de un hijo de madre fumadora, se tiene por hiptesis que

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso


de su hijo, podemos estimar un intervalo de confianza para
, lo que nos
dar la diferencia de peso esperado entre un nio del primer grupo y otro del
segundo. El estadstico que se ha de aplicar para esta cuestin es:

donde

Consideramos un nivel de significacin que nos parezca aceptable, por ejemplo


, y el intervalo buscado se obtiene a partir de: (ver la Figura 3.9)

Figura: Regin que se utiliza para calcular el


intervalo de confianza.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

con lo cual se puede decir que un intervalo de confianza para el peso esperado
en que supera un hijo de madre no fumadora al de otro de madre fumadora est
comprendido con un nivel de confianza del
Kg.

entre los 0,068 Kg y los 0,731

3.6 Intervalos de confianza para variables dicotmicas

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Cuando tenemos una variable dicotmica (o de Bernoulli) a menudo interesa
saber en qu proporcin de casos, p, ocurre el xito en la realizacin de un
experimento. Tambin nos puede interesar el comparar la diferencia existente
entre las proporciones en distintas poblaciones. Tambin es de inters calcular
para un nivel de significacin dado, el tamao muestral necesario para calcular
un intervalo de confianza de cuyo radio sea menor que cierta cantidad.

8. 3.6.2 Intervalo para una proporcin

.12 3.6.2.1 Ejemplo


8. 3.6.4 Eleccin del tamao muestral para una proporcin

.12 3.6.4.1 Ejemplo


8. 3.6.6 Intervalo para la diferencia de dos proporciones

3.6.2 Intervalo para una proporcin


Sean
. Si queremos estimar el parmetro p, la manera ms
natural de hacerlo consiste en definir la suma de estas --lo que nos proporciona
una distribucin Binomial (pgina ):

y tomar como estimador suyo la v.a.

Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en


las n pruebas8.1,

La distribucin del nmero de xitos es binomial, y puede ser aproximada a la


normal cuando el tamao de la muestra n es grande, y p no es una cantidad muy
cercana a cero o uno:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

El estimador

no es ms que un cambio de escala de X, por tanto

Esta expresin presenta dificultades para el clculo, siendo ms cmodo


sustituirla por la siguiente aproximacin:

Para encontrar el intervalo de confianza al nivel de significacin

para p se

considera el intervalo que hace que la distribucin de


deje la
probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos
extremos son los cuantiles
confianza de

. As se puede afirmar con una

que:

Esto se resume en la siguiente expresin:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

con una confianza de

Figura: Intervalo de confianza para una proporcin.

3.6.2.1 Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello
se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35%
que votarn a favor y 65% que votarn en contra (suponemos que no hay
indecisos para simplificar el problema a una variable dicotmica). Con un nivel
de significacin del 5%, calcule un intervalo de confianza para el verdadero
resultado de las elecciones.
Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su
voto es una variable dicotmica:

El parmetro a estimar en un intervalo de confianza con


es p, y
tenemos sobre una muestra de tamao n=100, la siguiente estimacin puntual
de p:

Sabemos que

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

En la prctica el error que se comete no es muy grande si tomamos algo ms


simple como

As el intervalo de confianza buscado lo calculamos como se indica en la Figura


3.11:

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel
de confianza del 95%.

Figura: Regin a partir de la cual se realiza una


estimacin confidencial para una proporcin, con una
confianza del 95%.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

3.6.4 Eleccin del tamao muestral para una proporcin


En un ejemplo previo con una muestra de 100 individuos se realiz una
estimacin confidencial, con un 95% de confianza, del porcentaje de votantes a
una cuestin en un referndum, obtenindose un margen de error de 9,3 puntos.
Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de
confianza hasta el 97% (
) hemos de tomar una muestra lgicamente de
mayor tamao, N. La tcnica para aproximar dicha cantidad consiste en
observar que el error cometido en una estimacin es de la forma:

donde

es una estimacin puntual de p.

Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al


error sera:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Si en un principio no tenemos una idea sobre que valores puede tomar p,
debemos considerar el peor caso posible, que es en el que se ha de estimar el
tamao muestral cuando p=q=1/2. As:

3.6.4.1 Ejemplo
Continuemos el ltimo ejemplo. Se quiere estimar el resultado de un referndum
mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo,
se desea conocer el tamao de muestra que se ha de tomar para obtener un
intervalo al 97% de confianza, con un error del 1
Solucin:
Como no se tiene una idea previa del posible resultado del referndum, hay que
tomar un tamao de muestra, N, que se calcula mediante:

As para tener un resultado tan fiable, el nmero de personas a entrevistar debe


ser muy elevado --lo que puede volver excesivamente costoso el sondeo.

3.6.6 Intervalo para la diferencia de dos proporciones


Vamos a considerar que tenemos dos poblaciones de modo que en cada una de
ellas estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y
p2. De cada poblacin vamos a extraer muestras de tamao n1 y n2

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

Entonces

Si las muestras son suficientemente grandes ocurre que

Esta ltima relacin se puede aproximar por otra que simplifica bastante los
clculos:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Por el mismo razonamiento que en el caso de una poblacin llegamos a que una
aproximacin para un intervalo de confianza al nivel
proporciones de dos poblaciones es:

para la diferencia de

3.8 Problemas
Ejercicio 3..1. Se ha medido el volumen diario de bilis, expresado en litros, en
10 individuos sanos, obtenindose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo
que la muestra ha sido obtenida por muestreo aleatorio simple sobre una
poblacin normal?
Ejercicio 3..2. La cantidad mnima requerida para que un anestsico surta
efecto en una intervencin quirrgica fue por trmino medio de 50 mg, con una
desviacin tpica de 10,2 mg, en una muestra de 60 pacientes. Obtener un
intervalo de confianza para la media al 99%, suponiendo que la muestra fue
extrada mediante muestreo aleatorio simple sobre una poblacin normal.
Ejercicio 3..3. Un investigador est interesado en estimar la proporcin de
muertes debidas a cncer de estmago en relacin con el nmero de
defunciones por cualquier tipo de neoplasia. Su experiencia le indica que sera
sorprendente que tal proporcin supere el valor de 1/3. Qu tamao de
muestra debe tomar para estimar la anterior proporcin, con una confianza del
99%, para que el valor estimado no difiera del valor real en ms de 0,03?.
Ejercicio 3..4. Se desea realizar una estimacin confidencial de la varianza de la
estatura de los nios varones de 10 aos de una ciudad con una confianza del
95%. Cul ser dicho intervalo si se toma una muestra de 101 nios al azar,
entre todos los que renen las caractersticas deseadas, y medimos sus
estaturas, y se obtienen las siguientes estimaciones puntuales:
?
Ejercicio 3..5. Un cardilogo se encuentra interesado en encontrar lmites de
confianza al 90%, para la presin sistlica tras un cierto ejercicio fsico.
Obtenerlos si en 50 individuos se obtuvo
,
y suponemos que el
comportamiento de la v.a. es normal.
DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


Ejercicio 3..6. En una muestra de 25 bebs varones de 12 semanas de vida, se
obtuvo un peso medio de 5.900 gr y una desviacin tpica de 94 gr.
1.
Obtener un intervalo de confianza (al 95%) para el peso medio
poblacional.
2.
Cuntos nios habra que tomar para estimar dicha media con una
precisin de 15 gr?
Ejercicio 3..7. En un determinado servicio de odontologa se sabe que el 22%
de las visitas llevan consigo una extraccin dentaria inmediata. En cierto ao, de
2.366 visitas, 498 dieron lugar a una extraccin inmediata. Entran en
contradiccin las cifras de ese ao con el porcentaje establecido de siempre?
Ejercicio 3..8. Slo una parte de los pacientes que sufren un determinado
sndrome neurolgico consiguen una curacin completa; Si de 64 pacientes
observados se han curado 41, dar una estimaciones puntual y un intervalos de la
proporcin de los que sanan. Qu nmero de enfermos habra que observar
para estimar la proporcin de curados con un error inferior a 0,05 y una
confianza del 95%?
Ejercicio 3..9. Se desea estimar el tiempo medio de sangra en fumadores de
ms de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 aos, con
una precisin de 5 segundos. Ante la ausencia de cualquier informacin acerca
de la variabilidad del tiempo de sangra es este tipo de individuos, se tom una
muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes
tiempos (en segundos):
97, 80, 67, 91, 73.
Determinar el tamao mnimo de muestra, al 95%, para cumplir el objetivo
anterior.
Ejercicio 3..10. En una determinada regin se tom una muestra aleatoria de
125 individuos, de los cuales 12 padecan afecciones pulmonares.
1.
Estmese la proporcin de afecciones pulmonares en dicha regin.
2.
Si queremos estimar dicha proporcin con un error mximo del 4%, para
una confianza del 95%, qu tamao de muestra debemos tomar?
Ejercicio 3..11. En una muestra de tabletas de aspirinas, de las cuales
observamos su peso expresado en gramos, obtenemos:

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO


1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2
Suponiendo la Normalidad para esta distribucin de pesos, determinar un
intervalo al 80% de confianza para la varianza.
Ejercicio 3..12. Se quiere estimar la incidencia de la hipertensin arterial en el
embarazo. Cuantas embarazadas tenemos que observar para, con una
confianza del 95%, estimar dicha incidencia con un error del 2% en los
siguientes casos:
1.
Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.
2.
Sin ninguna informacin previa.

DR. ADOLFO GUTIERREZ SOSA

ESTADSTICA AVANZADA GUIA DE ESTUDIO

BIBLIOGRAFA:

Borovkov, A. A. Estadstica matemtica, Editorial Mir, Mosc, 1984.


Garca Nogales, Agustn, Estadstica matemtica, Publicaciones de la
Universidad de Extremadura.

DR. ADOLFO GUTIERREZ SOSA

Anda mungkin juga menyukai