ESTADSTICA AVANZADA
1. Principales leyes de distribucin de variables aleatorias
1.2 Introduccin
1.4 Distribuciones discretas
o 1.4.2 Distribucin de Bernoulli
1.4.2.1 Observacin
o 1.4.4 Distribucin binomial
1.4.4.1 Ejemplo
o 1.4.6 Distribucin geomtrica ( o de fracasos)
1.4.6.1 Observacin
1.4.6.2 Observacin
1.4.6.3 Ejemplo
1.4.6.4 Observacin
o 1.4.8 Distribucin binomial negativa
1.4.8.1 Ejemplo
1.4.8.2 Observacin
o 1.4.10 Distribucin hipergeomtrica
1.4.10.1 Observacin
o 1.4.12 Distribucin de Poisson (o de los sucesos raros)
1.4.12.1 Ejemplo
1.6 Reproductividad de familias de v.a.
1.8 Distribuciones continuas
o 1.8.2 Distribucin uniforme o rectangular
o 1.8.4 Distribucin exponencial
1.8.4.1 Ejemplo
1.8.4.2 Ejemplo
o 1.8.6 Distribucin normal o gaussiana
1.8.6.1 Observacin
1.8.6.2 Observacin
1.8.6.3 Proposicin (Cambio de origen y escala)
1.8.6.4 Ejemplo
1.8.6.5 Proposicin
1.8.6.6 Aproximacin a la normal de la ley binomial
1.8.6.7 Ejemplo
1.8.6.8 Ejemplo
o
1.8.8 Distribucin
1.8.8.1 Observacin
1.8.8.2 Ejemplo
1.8.8.3 Teorema (Cochran)
o 1.8.10 Distribucin de Student
o 1.8.12 La distribucin
de Snedecor
1.10 Problemas
o
1.2 Introduccin
Como complemento al captulo anterior en el que definimos todos los conceptos
relativos a variables aleatorias, describimos en ste las principales leyes de
probabilidad que encontramos en las aplicaciones del clculo de probabilidades.
Atendiendo a la clasificacin de las v.a. en discretas y continuas describiremos
las principales leyes de probabilidad de cada una de ellas, las cuales constituirn
el soporte subyacente de la inferencia estadstica y a las que ser necesario
hacer referencia en el estudio de dicho bloque. Iniciamos este captulo con el
estudio de las distribuciones para v.a. discretas.
y su funcin de distribucin:
1.4.2.1 Observacin
En este caso tan simple no se aprecia la ventaja de usar la funcin caracterstica
en el clculo de momentos, pero en las prximas leyes de probabilidad que son
ms complicadas, esta ventaja se har manifiesta.
Ejercicio
Sea X una v.a. cuya f.d.p.esta dada por f ( x; k ) 1/ k , x 1, 2,..., k . Probar que la
1 k
1.4.4.1 Ejemplo
Un mdico aplica un test a 10 alumnos de un colegio para detectar una
enfermedad cuya incidencia sobre una poblacin de nios es del 10%. La
sensibilidad del test es del 80% y la especificidad del 75%. Cual es la
probabilidad de que exactamente a cuatro personas le de un resultado positivo?
Si en la muestra hay cuatro personas a las que el test le da positivo, cul es la
probabilidad de que entre estas, exactamente dos estn sanas? Calcular la
probabilidad de que el test suministre un resultado incorrecto para dos personas.
Calcular la probabilidad de que el resultado sea correcto para ms de 7
personas.
Solucin:
Los datos de que disponemos son:
,o
1.4.4.2 Ejemplo
Un fabricante sabe que, en promedio, 20% de los tostadores electricos que
fabrica requeriran reparaciones dentro de un ao despus de su venta. Cuando
DR. ADOLFO GUTIERREZ SOSA
P ( X x) 0.5
Lo que conduce utilizando las tables de la binomial a: X 4
o
P (Y y ) 0.8
lo que conduce, utilizando las mismas tables de la distribcion binomial,
a Y 2
1.4.4.3 Ejemplo.
Sean las variables aleatorias independientes X 1 ~ B( n1 , p)
y X 2 ~ B(n2 , p ) .
Hallar la f.d.p. conjunta de Y1 X 1 X 2 y Y2 X 2 , y despues, halle la f.d.p.
marginal de Y1 .
Solucion:
Por definicin,
f ( y1 , y2 ) f ( y1 | y2 ) f ( y2 )
que en terminos de probabilidad es lo mismo que
y1 y2
(1 p ) n1 y1 y2
p
y1 y2
P ( X 1 y1 y2 ) P (Y2 y2 )
n2
y2
n2 y2
p (1 p )
y2
Es decir,
n1
y1 y2
(1 p) n1 y1 y2
p
y1 y2
P (Y1 y1 , Y2 y2 )
n1
y1 y2
Para
n2
y2
n2 y2
p (1 p)
y2
n2
y1
n1 n2 y1
p (1 p )
y2
y1 y2 0,1,..., n2
fY1 ( y1 )
n2
n1 n2
y1
n1 n2 y1
p (1 p )
y
1
. Por ejemplo
1.4.6.1 Observacin
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesin
es una
progresin geomtrica de razn q, a la que podemos aplicar su frmula de
sumacin:
1.4.6.3 Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el
nacimiento de una hija. Calcular el nmero esperado de hijos (entre varones y
hembras) que tendr el matrimonio. Calcular la probabilidad de que la pareja
acabe teniendo tres hijos o ms.
Solucin: Este es un ejemplo de variable geomtrica. Vamos a suponer que la
probabilidad de tener un hijo varn es la misma que la de tener una hija hembra.
Sea X la v.a.
Es claro que
, por tanto
1.4.8.1 Ejemplo
Para tratar a un paciente de una afeccin de pulmn han de ser operados en
operaciones independientes sus 5 lbulos pulmonares. La tcnica a utilizar es tal
que si todo va bien, lo que ocurre con probabilidad de 7/11, el lbulo queda
definitivamente sano, pero si no es as se deber esperar el tiempo suficiente
para intentarlo posteriormente de nuevo. Se practicar la ciruga hasta que 4 de
sus 5lbulos funcionen correctamente. Cul es el valor esperado de
intervenciones que se espera que deba padecer el paciente? Cul es la
probabilidad de que se necesiten 10 intervenciones?
Solucin: Este es un ejemplo claro de experimento aleatorio regido por una ley
binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4
lbulos sanos, y ste es el criterio que se utiliza para detener el proceso.
Identificando los parmetros se tiene:
1.4.8.2 Observacin
La distribucin binomial negativa tambin se puede definir como el nmero de
pruebas hasta la aparicin de r xitos. Como el nmero de pruebas contabiliza
tanto los xitos como los fracasos se tendra segn sta definicin que
Este ejemplo sirve para representar el tipo de fenmenos que siguen una ley de
distribucin hipergeomtrica. Diremos en general que una v.a. X sigue una
distribucin hipergeomtrica de parmetros, N, n y p, lo que representamos
del modo
, si su funcin de probabilidad es
1.4.10.1 Observacin
Cuando el tamao de la poblacin (N) es muy grande, la ley hipergeomtrica
tiende a aproximarse a la binomial:
1.4.10.2 Ejemplo
,y
(por tanto
).
es
1.4.12.1 Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000.
Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya ms
de 3 personas con dicha enfermedad. Calcular el nmero esperado de
habitantes que la padecen.
Solucin: Si consideramos la v.a. X que contabiliza el nmero de personas que
padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede
ser muy bien aproximado por un modelo de Poisson, de modo que
Como
, existe una gran dispersin, y no sera extrao encontrar que
en realidad hay muchas ms personas o menos que estn enfermas. La
probabilidad de que haya ms de tres personas enfermas es:
v.a.
considerar
independientes, donde
se tiene
que la suma de todas ellas es una v.a. de la misma familia, pero con parmetro
Por ejemplo
no es reproductiva con respecto a p, ya que la suma de dos
v.a. de esa familia no sigue una distribucin de Bernouilli. Sin embargo la familia
lo es con respecto al parmetro
, ya que
. Para las
,
o bien
1.8.1.7 Ejemplo
1.8.6.8 Ejemplo
1.8.8 Distribucin
o 1.8.8.1 Observacin
o 1.8.8.2 Ejemplo
o 1.8.8.3 Teorema (Cochran)
1.8.10 Distribucin de Student
1.8.12 La distribucin de Snedecor
la funcin de distribucin de
es:
La funcin caracterstica es
, es tal que su
1.8.4.1 Ejemplo
En un experimento de laboratorio se utilizan 10 gramos de
. Sabiendo que
la duracin media de un tomo de esta materia es de 140 das, cuantos idas
transcurrirn hasta que haya desaparecido el
de este material?
es una v.a. de
del
aos?
Entonces
En segundo lugar
6.4
si su funcin
1.8.6.1 Observacin
Estos dos parmetros y
coinciden adems con la media (esperanza) y la
varianza respectivamente de la distribucin como se demostrar ms adelante 6.5:
) y cuanto
,y
, ya que
1.8.6.2 Observacin
Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la
encontramos en la mayora de los fenmenos que observamos en la naturaleza,
por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a
el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad,
hay que apuntar un hecho negativo para esta ley de probabilidad:
La funcin
Las consecuencias desde el punto de vista prctico son importantes, ya que eso
impide el que podamos escribir de modo sencillo la funcin de distribucin de la
normal, y nos tenemos que limitar a decir que:
, se obtiene
. Entonces
, y nos
1.
Hacemos el cambio
y calculamos
2.
Usamos la tabla 3, relativa a la distribucin
aproximado)
3.
Como
de modo que
. Entonces
Demostracin
Por ser la normal una ley de probabilidad se tiene que
luego
se obtiene el valor 0:
Luego
y calculamos
Como
, la
y el diagrama
cuya media es
y su varianza es
. Realizar los
clculos con la ley binomial es muy engorroso, ya que intervienen nmeros
combinatorios de gran tamao, y potencias muy elevadas. Por ello utilizamos la
aproximacin normal de X, teniendo en cuenta que se verifican las condiciones
necesarias para que el error sea aceptable:
1.8.6.8 Ejemplo
Segn un estudio, la altura de los varones de cierta ciudad es una v.a. X, que
podemos considerar que se distribuye segn una ley gaussiana de valor
esperado
y desviacin tpica
. Si buscamos un intervalo
donde
) y se
Por tanto podemos decir que la mitad de la poblacin tiene una altura
inferior a
. Este resultado era de esperar, ya que en la
distribucin es simtrica y habr una mitad de individuos con un peso
inferior a la media y otro con un peso superior (figura 6.12). Esto puede
escribirse como:
El
2.
Anlogamente podemos considerar el percentil 50, y tomar como intervalo
aquellos pesos que lo superan. Por las mismas razones que en el
problema anterior, podremos decir:
El
3.
Los anteriores intervalos, an dando un resultado correcto, no son
satisfactorios en el sentido de que son muy grandes, y no tienen en
cuenta la simetra de la distribucin normal para tomar un intervalo cuyo
centro sea . Vamos a utilizar entonces otra tcnica que nos permita
calcular el intervalo centrado en la media, y que adems ser el ms
pequeo posible que contenga al
de la poblacin.
de
del
donde
Anlogamente se calculara
donde
1.8.6.9. Ejemplo
Las perdidas por mora en los pagos de un almacen de articulos
electrodomesticos durante un ao siguen una distribucion aproximadamente
normal con media $50.000, y el 95.44% de las perdidas oscilan entre $40.000 y
$80.000. Calcule la desviacion estandar dela distribucion.
Solucion
Sea X la v.a. que denota las perdidas por mora en los pagos del almacen
durante el ano en cuestion. Entonces, de acuerdo con los datos
P (40.000 X 80.000) 0.9544
Es decir,
40.000 50.000 X 80.000 50.000
0.9544
30.000
10.000
P
Z
0.9544 .
equivale
a
Lo
que
sea,
10000
,
1.8.8 Distribucin
, la v.a. X=Z2 se distribuye segn una ley
con
para valores
En consecuencia, si tenemos
, se tiene
1.8.8.1 Observacin
La ley de distribucin
muestra su importancia cuando queremos determinar
la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor
central siguiendo un mecanismo normal. Como ilustracin tenemos el siguiente
ejemplo:
1.8.8.2 Ejemplo
Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados
bastantes aproximados con la realidad, aunque existe cierta cantidad de error
que se distribuye de modo normal con media 0 y desviacin tpica
.
De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a
tender a compensarse entre unos pacientes y otros. Obsrvese que si no
fuese conocido a priori, podramos utilizar E1, para obtener una aproximacin de
no fuese conocido,
, con
EJERCICIOS DE PROBABILIDAD
Sea X una distribucin normal estandarizada. Pruebe que el cuadrado de X es
2
2
una variable aleatoria distribuida chi-cuadrado: X ~ (1)
Sol. /
Sea Y X 2 . Entonces, X Y . Tenemos que:
FY ( y ) P (Y y ) P( X 2 y ) P y X
PX ( X
y ) PX ( X y ) FX
y F y
X
d
1
FY ( y )
fX
dy
2 y
y 21y f y
X
1
2 y
1 y/2
1
e
2
2 y
1 y/2
e
1
y (1/ 2) 1e y / 2
1 1/ 2
2
2
Sean
X1
X2
2
X
X 1 ~ 2X
Sol. /
etX1 e tX 2
M Y (t ) E etY E et ( X1 X 2 ) E
t(X X )
etX1 e tX 2 .
Pero como X 1 y X 2 son dos variables independientes, E e 1 2 E
As,
e tX 2
M Y (t ) E etX1 E
2
Pero X 2 Y ~ , lo que implica que su funcin generadora de momentos es
M Y (t ) 1 2t
/ 2
. As,
1 2t
/ 2
1 2t
1 / 2
M X 1 (t )
Despejando M X1 (t ) obtenemos:
P (obtener _ i _ ptos.)
(6 i ) 2 (5 i) 2
52
1 2t 1 2t / 2 1 2t / 2
(t )
/ 2
1 2t
/ 2
M X2
donde
,
. Este tipo de distribuciones aparece cuando
tenemos n+1 v.a. independientes
La funcin de densidad de
DR. ADOLFO GUTIERREZ SOSA
es
4. Para calcular
1.8.12 La distribucin
de Snedecor
y as
1.10 Problemas
Ejercicio 1..1. Para estudiar la regulacin hormonal de una lnea metablica se
inyectan ratas albinas con un frmaco que inhibe la sntesis de protenas del
organismo. En general, 4 de cada 20 ratas mueren a causa del frmaco antes de
que el experimento haya concluido. Si se trata a 10 animales con el frmaco,
cul es la probabilidad de que al menos 8 lleguen vivas al final del
experimento?
Ejercicio 1..2. En una cierta poblacin se ha observado un nmero medio anual
de muertes por cncer de pulmn de 12. Si el nmero de muertes causadas por
1.
Hallar
2.
Qu porcentaje de diabticos tienen niveles comprendidos entre 90 y
120 ?
3.
Hallar
4.
Hallar
5.
Hallar el punto x caracterizado por la propiedad de que el 25% de todos
los diabticos tiene un nivel de glucosa en ayunas inferior o igual a x.
Ejercicio 1..5. Una prueba de laboratorio para detectar herona en sangre tiene
un 92% de precisin. Si se analizan 72 muestras en un mes, cul es la
probabilidad de que:
1.
60 o menos estn correctamente evaluadas?
p x , y
0
0
5
10
( X, Y) es:
5
0.02
0.04
0.01
10
0.06
0.15
0.15
15
0.02
0.20
0.14
0.10
0.10
0.01
b)
d)
X e Y son dependientes
b) y c)
P(Y 5 | X 5) es igual a:
0.21
b)
0.304
c)
0.69
d)
1
Preguntas 3 y 4. Sean
y
f y 2 y , 0 y 1 .
21
32
c)
7
32
d)
0.027
c)
0.5
d)
b)
1
32
El valor esperado de
0.25
0.8
XY es:
b)
El tiempo de espera de un autobs en la maana es una variable aleatoria normal con media 4
minutos y varianza 3, mientras que en la tarde es normal con media 5 minutos y varianza 4.
Asuma que los dos tiempos de espera son independientes. Si
promedio en las maanas y
X M .representa el tiempo
b)
0.4545
c)
0.909
d)
0.5
Preguntas 6 y 7. El tiempo que un individuo debe esperar en un punto de atencin es una
variable aleatoria normal con media 8.2 minutos y desviacin estndar 4 minutos. Se observan
los tiempos de 49 individuos.
La probabilidad de que el tiempo promedio de espera sea a lo mas 10 minutos es:
0.0008
b)
0.5714
c)
0.3150
0.9992
d)
El valor de la media que cumple que la probabilidad de que el tiempo de espera total sea a lo
sumo 14.3 horas es 0.9664, es:
8.2
b)
0.7422
c)
7.53
d)
6.98
Preguntas 8 y 9. Para una muestra aleatoria
desconocida y varianza
2 .
X 2X 3
, 2 2X .
: 1 1
3
1 y 2 son respectivamente:
b)
0y
y 2
c)
0y
c)
d)
V 1 V 2
ECM 1 ECM 2
1
Si E , entonces, el sesgo de es:
b)
4
ECM 2 2
3
d)
El mejor estimador es
b)
c)
p x , y
y
-1
0
1
2
3
d) 2
0
0.10
0.10
0.05
0.05
1
0.10
0.05
0.05
0.05
0.10
0.15
0.10
0.10
1
6
a)
E[Y | X 1] es:
2
b)
6
c)
7
9
b)X e Y son
d)
d)
6
5
a) y c)
( X, Y)
f x, y 2 , 0 x 1 , 0 y x .
X e Y son independientes
d)
E[Y]
b)
c)
E[X]
2
3
2
3
1
2
14. P X es igual a:
1
4
b)
1
8
c)
3
4
d)
5
8
15. Una muestra aleatoria de tamao 16 es seleccionada de una poblacin normal con media 75
y desviacin estndar 8. Una segunda muestra aleatoria, independiente de la anterior, es
seleccionada de una poblacin normal con media 70 y varianza 144, de tamao 9. Si X 1 y X 2
son la medias muestrales, la
0.4129
b)
0.5884
P X1 X 2 4 es igual a:
0.2236
c)
0.5793
d)
Preguntas 16 y 17. Los ingresos diarios de un restaurante, en miles de pesos, oscilan entre 530
y 570, con distribucin uniforme. Suponga independencia en los ingresos diarios.
X)
u y varianza 2 . Sea
un estimador de 2 .
i
i 1
n 1
Preguntas 18 y 19. Sea
2 2 b)
V
n 1
E 2
c)
2 2
E
d)
2 2
E
2 2 , la expresin correcta es:
19. Si B= E
2
a)
Bn
d)
B0
2
B
n
b)
c)
B 2
E X Y E X E Y
p x , y
-1
-1
0
1
0
1
9/64 3/32 9/64
6/64 1/16 6/64
9/64 3/32 9/64
b)
X e Y
d)
a) y c)
-1] es igual a:
b)1
c)0
d)0.375
0 x y 1.
( X, Y)
E[X] 0.53
b)
E[Y] E[X]
c)
E[XY] E[X]
b)
0.375
c)
0.4
d)
La vida til de un componente es una variable aleatoria normal, antes de cambiar el proceso de
fabricacin tena media 5000 horas y desviacin estndar 40 horas, al introducir una mejora en
la fabricacin la vida til del componente cambia y la desviacin estndar disminuye a 30 horas.
Si se toman dos muestras aleatorias, una de 16 componentes del proceso antiguo y otra de 25
componentes del nuevo proceso. El valor aproximado de la media poblacional en el proceso
mejorado tal que la probabilidad de que X 2 X1 25 horas sea 0.9699 es:
a) 5036
b)
5030
c)
5047
d)
5026
Preguntas 26 y 27. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una
media de 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.
La probabilidad de que el peso promedio muestral sea como mnimo 3 es:
0.0630
b)
0.0951
c)
0.31
0.5
d)
El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de
los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:
2.71
b)
1.53
c)
0.9591
d)
4.34
Preguntas 28 y 29. Sea
desconocida y varianza
1
. Sean i X j , para i 1, 2 , L , n , estimadores de .
i j 1
V( i ) i
d)
b)
V( i ) i / i
c)
V( i ) / i
V( i ) / i
es:
b)
las anteriores
c)
i , 1 i n
d)
Todas
x 0, y 0 entonces:
f X|y x f X x
a)
c)
f Y|x y y e- y , y 0
b)
f X x x e -x , x 0
d)
y
0
1
1/9
1/9
2/9
1
2
3
2
1/9
1/9
1/9
1/9
1/9
0
P X 1 | X Y 2 es igual a:
2
1
b)
9
2
3
c)
3
9
b)
X e Y
d)
a) y c)
d)
f x , y k e- ( x y ) , x 0 , y 0
La opcin correcta es:
a) X e Y son independientesb)
d) a) y c)
X e Y son dependientes
c)
E[X] E[Y]
P Y 1 | X 2 es igual a:
0.6321
b)
0.3679
c)
0.0854
d)
0.1353
El PH de cierto compuesto qumico es una variable aleatoria normal con media 5 y varianza 2
cuando es medido en la maana y cuando es medido por la tarde es normal con media 5 y
varianza 1. Se realizan 25 mediciones en la maana y 16 en la tarde. Si las mediciones son
independientes, calcular P 2 X 1 3 X 2 23
0.020
b)
0.0166
c)
d)
0.9834
Preguntas 36 y 37. Suponga que el peso (en Kg.) de cierta clase de componentes tiene una
media 2.65 y varianza 4.35. Se selecciona una muestra aleatoria de 61 componentes.
La probabilidad de que el peso promedio muestral sea como mnimo 3 es:
b)
0.0951
c)
0.31
d)
0.5
El valor de la media del peso de los componentes tal que la probabilidad de que el peso total de
los 61 escogidos no sobrepase los 190 Kg. sea 0.9370 es:
2.71
b)
1.53
c)
0.9591
d)
4.34
Preguntas 38 y 39. Dos analistas tomaron cada uno muestras de una misma variable aleatoria
y varianza
estimadores: 1
X i j 1 Y j
n
i 1
2n
XY
2
3
ECM i 2 / 2n , i 1, 2
c)
b)
d)
Ninguna
de
las
anteriores
Si
1
Si
d)
c)
Ninguno
V , entonces:
a) es insesgado
b)
c)
es sesgado d)
a) y b)
7. Inferencia estadstica
1. 2.2 Introduccin
2. 2.4 Tcnicas de muestreo sobre una poblacin
a. 2.4.2 Muestreo aleatorio
i. 2.4.2.1 Muestreo aleatorio sin reposicin
ii. 2.4.2.2 Muestreo aleatorio con reposicin
iii. 2.4.2.3 Tablas de nmeros aleatorios: Lotera Nacional
iv. 2.4.2.4 Mtodo de Montecarlo
v. 2.4.2.5 Ejemplo
b. 2.4.4 Muestreo aleatorio estratificado
i. 2.4.4.1 Ejemplo
ii. 2.4.4.2 Asignacin proporcional
iii. 2.4.4.3 Asignacin ptima
iv. 2.4.4.4 Teorema
c. 2.4.6 Muestreo sistemtico
i. 2.4.6.1 Observacin
d. 2.4.8 Muestreo por conglomerados
3. 2.6 Propiedades deseables de un estimador
a. 2.6.0.1 Ejemplo
b. 2.6.2 Carencia de sesgo
c. 2.6.4 Consistencia
i. 2.6.4.1 Teorema
d. 2.6.6 Eficiencia
e. 2.6.8 Suficiencia
i. 2.6.8.1 Teorema
f. 2.6.10 Estimadores de mxima verosimilitud
g. 2.6.12 Algunos estimadores fundamentales
i. 2.6.12.1 Estimador de la esperanza matemtica
ii. 2.6.12.2 Proposicin
iii. 2.6.12.3 Estimador de la varianza
iv. 2.6.12.4 Proposicin
v. 2.6.12.5 Proposicin
vi. 2.6.12.6 Cuasivarianza muestral
2.2 Introduccin
El propsito de un estudio estadstico suele ser, como hemos venido citando,
extraer conclusiones acerca de la naturaleza de una poblacin. Al ser la
poblacin grande y no poder ser estudiada en su integridad en la mayora de los
DR. ADOLFO GUTIERREZ SOSA
6
7
.
en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo
cual si e no ha sido seleccionado previamente, la probabilidad de que lo
sea en este momento es de
cualquiera es
sea elegida es la suma de las probabilidades de elegir una cualquiera de sus nuplas, tantas veces como permutaciones en el orden de sus elementos sea
posible, es decir
es
es decir,
pueden ser consideradas como observaciones de una v.a. U, que sigue una
distribucin uniforme en el intervalo [0,1]
Muestra
Muestra
xi = F-1(ui)
ti
76.293
0'76
0'71
31.776
0'32(=1-0'68)
-0'47
50.803
0'51
0'03
71.153
0'71
0'55
0'20(=1-0'80)
-0'84
33.717
0'34(=1-0'66)
-0'41
17.979
0'18(=1-0'82)
-0'92
52.125
0'52
0'05
41.330
0'41(=1-0'59)
-0'23
95.141
0'95
1'65
Sea X la v.a. que representa el carcter que intentamos estudiar. Sobre cada
estrato puede definirse entonces la v.a.
se minimiza cuando
donde
3. Sea
;
3. Elegir aleatoriamente un nmero m, entre 1 y k;
3. Tomar como muestra los elementos de la lista:
desconocidos.
Representamos mediante
una muestra aleatoria simple de la
variable. Denotamos mediante fc a la funcin de densidad conjunta de la
muestra, que por estar formada por observaciones independientes, puede
factorizarse del siguiente modo:
es
es insesgado si:
S2
(X
i 1
X )2
n 1
Entonces,
E (S 2 ) E
i 1
E (S 2 )
E (S 2 )
X ) 2
n 1
(X
n
1
E ( X i X )2
n 1 i 1
n
1
E ( X i2 X 2 2 XX i )
n 1 i 1
E (S 2 )
E (S 2 )
E (S 2 )
1
n 1
1
n 1
E (S 2 )
E
n 1
i 1
E( X
i 1
(
i 1
2
i
2
i
nX 2
) nE ( X 2 )
2 ) n( 2 2 / n)
1
n 2 n 2 n 2 2
n 1
E (S 2 ) 2
Definicion
El Error cuadratico medio de un estimador se define como ECM () E ( )
y puede demostrarse que
ECM () V () sesgo 2 ()
El error cuadratico medio es un criterio importante para comparar dos
estimadores. El mejor estimador es el que tiene menor error cuadratico medio.
Ejercicios
1. Suponga que se tiene una muestra aleatoria de tamano 2n tomada de una
poblacion X con media y varianza 2 . Sean
X1
1 2n
Xi
2n i 1
X2
1 n
Xi
n i 1
1X
1
i
7 i 1
2 X1 X 6 X 4
2
2
a) Alguno de estos estimadores es insesgado?
b) Cual es el mejor y en que sentido?
y
son estimadores insesgados del parametro . Se sabe
3.Suponga que
1
2
que sentido?
4. Calcule la eficiencia relativa de los estimadores del Ejercicio 2.
5. Calcule la eficiencia relativa de los dos estimadores del ejercicio anterior
y
son estimadores del parametro . Se sabe que el valor
6. Suponga que
1
2
es 10 y la de
esperado del primero es y del segundo /2. si la varianza de
1
,
y
son estimadores de . Se sabe que el valor
2. Suponga que
1
2
3
es diferente de . Si la varianza
esperado de los dos primeros es y el de
3
es 12, la de
, 10 y E (
) 2 =6, cual es el major estimador y en que
de
1
2
3
sentido?
muestrales.
Demuestre
que
S2
1
20 S12 10S 22 8S32
38
es
un
estimador
insesgado de 2
( X i X )2
n
i 1
magnitude del sesgo.
n
9. Demuestre que
2.6.4 Consistencia
Decimos que es un estimador consistente con el parmetro
si:
o lo que es equivalente
) se puede
entonces es consistente.
2.6.6 Eficiencia
es
si
2.6.8 Suficiencia
Diremos que
Esta definicin as enunciada tal vez resulte un poco oscura, pero lo que expresa
es que un estimador es suficiente, si agota toda la informacin existente en la
muestra que sirva para estimar el parmetro.
la
. Entonces
siendo h una funcin no negativa que no depende de y r una funcin que slo
depende del parmetro y de la muestra a travs del estimador.
tienen por
, es aquel que
.
Como es lo mismo maximizar una funcin que su logaritmo (al ser este una
funcin estrictamente creciente), este mximo puede calcularse derivando con
respecto a la funcin de verosimilitud ( bien su logaritmo) y tomando como
estimador mximo verosmil al que haga la derivada nula:
DR. ADOLFO GUTIERREZ SOSA
es
3.
Si es un estimador suficiente de
(en lugar
es
verifica:
Demostracin
La funcin de densidad de una observacin cualquiera de la muestra es:
Demostracin
Recuperamos el logaritmo de la funcin de verosimilitud escrita en la relacin
(2.4), donde en esta ocasin el primer parmetro ya fue obtenido por el mtodo
de mxima verosimilitud (y vimos que era la media muestral) y tratamos de
maximizarla con respecto al segundo parmetro:
2.6.12.5 Proposicin
El valor esperado del estimador
no es
insesgado. Ms an,
Demostracin
Comenzamos escribiendo
Luego
Ejercicios
Basados en una muestra aleatoria de tamano n:
f ( x ) ( 1) x , 0 x 1
Encuentre el EMV del parametro
f ( x)
,x 0
x ln( xi ) ln( xi )
i 1
i 1
n
n
xi
i 1
n
1/
i 1
luego
3. Estimacin confidencial
DR. ADOLFO GUTIERREZ SOSA
3.2 Introduccin
3.4 Intervalos de confianza para la distribucin normal
3.2 Introduccin
La estimacin confidencial consiste en determinar un posible rango de valores
o intervalo, en los que pueda precisarse --con una determinada probabilidad-que el valor de un parmetro se encuentra dentro de esos lmites. Este
parmetro ser habitualmente una proporcin en el caso de variables
dicotmicas, y la media o la varianza para distribuciones gaussianas.
La tcnica de la estimacin confidencial consiste en asociar a cada muestra
un intervalo que se sospecha que debe contener al parmetro. A ste se le
denomina intervalo de confianza
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A
la probabilidad de que hayamos acertado al decir que el parmetro estaba
sin conocer
. Los
, del que
, consideramos la v.a.
y tomamos un
Figura: La distribucin
cuya probabilidad es
el percentil
debajo de si la cantidad
9. Sea
el percentil
, es decir,
de que
el percentil
,
, el cual deja por encima de si la cantidad
de la
masa de probabilidad (figura 3.4). Por simetra de la distribucin de Student se
tiene que
, luego
es desconocido
Al igual que en el caso del clculo del intervalo de confianza para cuando
es
conocido, podemos en el caso
desconocido, utilizar la funcin de verosimilitud
(figura3.5) para representarlo geomtricamente. En este caso se usa la notacin:
3.4.4.1 Ejemplo
Se quiere estimar un intervalo de confianza al nivel de significacin
para la altura media de los individuos de una ciudad. En principio slo
sabemos que la distribucin de las alturas es una v.a. X de distribucin normal.
Para ello se toma una muestra de n=25 personas y se obtiene
Solucin:
En primer lugar, en estadstica inferencial, los estadsticos para medir la
dispersin ms convenientes son los insesgados. Por ello vamos a dejar de lado
la desviacin tpica muestral, para utilizar la cuasidesviacin tpica:
, es conveniente utilizar el
es decir,
es la mximo verosmil.
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
en la ``zona central'' de la distribucin (cf. figura 3.7):
de que:
3.4.6.1 Ejemplo
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad,
obtenindose en una muestra de tamao 25 los siguientes valores:
para la varianza
de la altura
Solucin:
Para estimar un intervalo de confianza para
estadstico que nos resulta til es:
(varianza poblacional) el
con una confianza del 95%, que por supuesto contiene a las estimaciones
puntuales
dado, una
Para ello, recordemos que un intervalo de confianza para una media en el caso
general se escribe como:
Donde
es una estimacin puntual a priori de la varianza de la muestra. Para
obtenerla nos podemos basar en una cota superior conocida por nuestra
experiencia previa, o simplemente, tomando una muestra piloto que sirve para
dar una idea previa de los parmetros que describen una poblacin.
3.4.8.1 Ejemplo
En los ltimos ejemplos se ha estudiado la variable altura de los individuos de
una poblacin, considerando que sta es una variable que se distribuye de modo
gaussiana.
Para ello se tom una muestra de 25 individuos (que podemos considerar
piloto), que ofreci los siguientes resultados:
Solucin:
Obsrvese que sobre la muestra piloto, el error cometido al estimar el intervalo
al
fue aproximadamente de 4'2 cm por lo que si buscamos un intervalo de
confianza tan preciso, el tamao de la muestra, N, deber ser bastante mayor.
En este caso se obtiene:
donde se ha definido a
Si
que deja
3.4.10.2 Ejemplo
Queremos estudiar la influencia que puede tener el tabaco con el peso de los
nios al nacer. Para ello se consideran dos grupos de mujeres embarazadas
(unas que fuman un paquete al da y otras que no) y se obtienen los siguientes
datos sobre el peso X, de sus hijos:
donde
con lo cual se puede decir que un intervalo de confianza para el peso esperado
en que supera un hijo de madre no fumadora al de otro de madre fumadora est
comprendido con un nivel de confianza del
Kg.
El estimador
para p se
que:
3.6.2.1 Ejemplo
Se quiere estimar el resultado de un referndum mediante un sondeo. Para ello
se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35%
que votarn a favor y 65% que votarn en contra (suponemos que no hay
indecisos para simplificar el problema a una variable dicotmica). Con un nivel
de significacin del 5%, calcule un intervalo de confianza para el verdadero
resultado de las elecciones.
Solucin: Dada una persona cualquiera (i) de la poblacin, el resultado de su
voto es una variable dicotmica:
Sabemos que
Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel
de confianza del 95%.
donde
3.6.4.1 Ejemplo
Continuemos el ltimo ejemplo. Se quiere estimar el resultado de un referndum
mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo,
se desea conocer el tamao de muestra que se ha de tomar para obtener un
intervalo al 97% de confianza, con un error del 1
Solucin:
Como no se tiene una idea previa del posible resultado del referndum, hay que
tomar un tamao de muestra, N, que se calcula mediante:
Entonces
Esta ltima relacin se puede aproximar por otra que simplifica bastante los
clculos:
para la diferencia de
3.8 Problemas
Ejercicio 3..1. Se ha medido el volumen diario de bilis, expresado en litros, en
10 individuos sanos, obtenindose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
Cuanto vale la produccin diaria media de bilis en individuos sanos suponiendo
que la muestra ha sido obtenida por muestreo aleatorio simple sobre una
poblacin normal?
Ejercicio 3..2. La cantidad mnima requerida para que un anestsico surta
efecto en una intervencin quirrgica fue por trmino medio de 50 mg, con una
desviacin tpica de 10,2 mg, en una muestra de 60 pacientes. Obtener un
intervalo de confianza para la media al 99%, suponiendo que la muestra fue
extrada mediante muestreo aleatorio simple sobre una poblacin normal.
Ejercicio 3..3. Un investigador est interesado en estimar la proporcin de
muertes debidas a cncer de estmago en relacin con el nmero de
defunciones por cualquier tipo de neoplasia. Su experiencia le indica que sera
sorprendente que tal proporcin supere el valor de 1/3. Qu tamao de
muestra debe tomar para estimar la anterior proporcin, con una confianza del
99%, para que el valor estimado no difiera del valor real en ms de 0,03?.
Ejercicio 3..4. Se desea realizar una estimacin confidencial de la varianza de la
estatura de los nios varones de 10 aos de una ciudad con una confianza del
95%. Cul ser dicho intervalo si se toma una muestra de 101 nios al azar,
entre todos los que renen las caractersticas deseadas, y medimos sus
estaturas, y se obtienen las siguientes estimaciones puntuales:
?
Ejercicio 3..5. Un cardilogo se encuentra interesado en encontrar lmites de
confianza al 90%, para la presin sistlica tras un cierto ejercicio fsico.
Obtenerlos si en 50 individuos se obtuvo
,
y suponemos que el
comportamiento de la v.a. es normal.
DR. ADOLFO GUTIERREZ SOSA
BIBLIOGRAFA: