Inferencia estadstica:
2
estimacin.
UNIDAD 2
Inferencia estadstica: estimacin.
N
Con base en el resultado de que hay muestras distintas de tamao n de una
n
poblacin finita de tamao N, podemos definir como muestra aleatoria o muestra
aleatoria simple de una poblacin finita:
aei aeo aeu aio aiu aou eio eiu eou iou
Si seleccionamos una de esas muestras de forma que esta muestra tenga
probabilidad 1/10 de ser elegida, decimos que dicha muestra es aleatoria.
Por suerte podemos realizar una muestra aleatoria, sin necesidad de describirlas
todas. Basta con numerar los N elementos de la poblacin y retirar una a una
hasta completar los n- elementos de la muestra. Este procedimiento tambin da
1
una probabilidad de de ser seleccionada la muestra por los que sera
N
n
aleatoria.
3- Diseos de muestras:
La nica clase de muestras estudiadas hasta ahora son las aleatorias, y no hemos
considerado siquiera la necesidad de que en ciertas condiciones pueda haber
muestras que sean mejores (digamos ms fciles de obtener, ms econmicas o
mas formativas) que las aleatorias, y no hemos entrado en detalles sobre la
pregunta de cuando un muestreo aleatorio es imposible.
N1, N2, .....,Nk (N1 +N2 +.....+Nk =N) Para obtener una distribucin proporcional
hemos de tener en cuenta que :
n 1
n 2
.......
n
k
n N
n i
N n
de donde se obtiene que para
N 1 N 2 N k N i
Esta sera una distribucin proporcional, pero hay otras formas de distribuir
porciones de una muestra entre los distintos estratos, que seran:
- Distribucin ptima.
- Estratificacin cruzada.
Distribucin ptima:
En la Distribucin optima, no slo se maneja el tamao del estrato, como en la
distribucin proporcional, sino que tambin se maneja la variabilidad (o cualquier
otra caracterstica pertinente) del estrato.
La idea de la Distribucin ptima, trata de jugar no slo con el tamao del estrato,
sino que tambin pretende jugar con la variabilidad del mismo, de forma que
parece lgico que los estratos de mayor variabilidad le correspondan muestras
mayores. Si 1, 2, 3, ...., k son las desviaciones tpicas de los k-estratos
podemos explicar tanto los tamaos de los estratos, as como su variabilidad.
n 1
n 2
n 3
........
n k
N
1 1 N
2 2 N 3 3 N k 1k
n N
ni N N ....... N
i i
para y=1,2,...., k
1 1 2 2 k k
n= n1+n2+.......+nk
Estratificacin cruzada:
Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere
estudiar los patrones variables de los gastos familiares de una ciudad como
Sevilla. Al intentar elaborar los programas de gastos de una muestra de 1200
familias, nos encontramos con la dificultad de realizar un muestreo aleatorio
simple, (es complicado tener una lista actualizada de todos los habitantes de una
ciudad). Una manera de tomar una muestra en esta situacin es dividir el rea
total (Sevilla en este caso) en reas ms pequeas que no se solapen (Por
ejemplo Distritos postales, manzanas etc..) En este caso seleccionaramos
algunas reas al azar y todas las familias (o muestras de stas) que residen en
estos distritos postales o manzanas, constituiran la muestra definitiva.
3 5 7 9 11
La media de esta poblacin es: 7 y su desviacin tpica es:
5
(3 7) (5 7) (7 7) (9 7) (11 7)
2 2 2 2 2
8
5
Ahora si tomamos una muestra aleatoria de tamao n = 2 de esta poblacin hay
5
10 posibilidades:
2
n Muestras x
nuestra
1 3 5 4
2 3 7 5
3 3 9 6
4 3 11 7
5 5 7 6
6 5 9 7
7 5 11 8
8 7 9 8
9 7 11 9
10 9 11 10
Media Probabilidad
4 1/10
5 1/10
6 2/10
7 2/10
8 2/10
9 1/10
10 1/10
N n
El factor de la segunda frmula de x se conoce como factor de
N 1
correccin de la poblacin finita. En la prctica, este se omite a menos de que la
muestra constituya al menos un 5% de la poblacin, pues en otro caso se
aproxima tanto a 1 que es despreciable (es decir si la muestra no llega al 5% del
tamao de la poblacin, no es necesario usar el factor de correccin)
Antes de introducir este teorema, sin duda de los mas importantes dentro de la
estadstica moderna, vamos a estudiar un teorema previo. El Teorema de
Chebyshev.
El Teorema de Chebyshev.
Para cualquier conjunto de datos (de una poblacin o una muestra) y cualquier
constante k mayor que 1, el porcentaje de los datos que debe caer dentro de k-
veces la desviacin tpica de cualquier lado de la media es de por lo menos:
1
1 2
k
El teorema de Chebyshev se aplica a cualquier tipo de datos, pero slo nos indica
por lo menos que porcentaje debe caer entre ciertos lmites. Pero para casi todos
los datos, el porcentaje real de datos que cae entre esos limites es bastante mayor
que el que especifica el teorema de Chebyshev.
Para las distribuciones que tienen forma de campana puede hacerse una
aseveracin ms fuerte:
(1) alrededor del 68% de los valores caern dentro de una desviacin tpica
de la media esto es: entre X , X ;
Pero esto no es suficiente, cuando la probabilidad real de este caso puede estar
entre 0,98 y el 0,999
x = y x
para muestras aleatorias infinitas con media y desviacin
n
tpica y n grande, entonces:
X
Z es un valor de una variable N(0,1)
/ n
Este teorema es muy importante, puesto que justifica el uso de los mtodos de la
curva normal en una gran cantidad de problemas. se utiliza para poblaciones
infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una
porcin muy pequea de la poblacin.
Es difcil sealar con precisin qu tan grande debe ser n de modo que podamos
aplicar el Teorema Central del lmite, pero a no ser que la distribucin sea muy
Inusual, por lo general se considera que n =30 es lo suficientemente alto.
5 5
z 2 y z 2
20 / 64 20 / 64
Lo que consultando en las tablas da una probabilidad de 0,9544. As sustituimos la
afirmacin de que la probabilidad es como mnimo 0,75 por una aseveracin ms
firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra
aleatoria de tamao n=64 de la poblacin de referencia difiera de la de la
poblacin menos de 5 unidades)
Tambin se puede usar el teorema Central del lmite para poblaciones finitas, pero
una descripcin precisa de las situaciones en que se puede hacer esto, sera ms
bien complicada. El uso apropiado ms comn es en el caso en que n es grande y
n/N es pequea. Este es el caso de la mayora de las encuestas polticas.
111 539 216 128 462 283 413 237 193 177
406 257 290 213 325 306 184 168 310 266
295 402 183 310 257 257 302 315 353 128
244 116 127 348 418 232 400 166 451 315
Media 298,87
Desviacin 139,42
Tpica 78
2.3 Estimacin puntual.
a) Estimador insesgado
b) Estimador eficiente
Se dice que los estimadores son eficientes cuando generan una distribucin
muestral con el mnimo error estndar, es decir, entre dos estimadores insesgados
de un parmetro dado es ms eficiente el de menor varianza.
c) Estimador consistente
d) Estimador suficiente
que:
En una distribucin Z ~ N(0, 1) puede calcularse fcilmente un intervalo dentro del
cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo
hallar z1 y z2 tales que P[z1 z z2] = 1 - , donde (1 - )100 es el porcentaje
deseado (vase el uso de las tablas en una distribucin normal).
Se desea obtener una expresin tal que
En esta distribucin normal de medias se puede calcular el intervalo de confianza
donde se encontrar la media poblacional si slo se conoce una media muestral (
), con una confianza determinada. Habitualmente se manejan valores de
confianza del 95 y del 99 por ciento. A este valor se le llamar (debido a
que es el error que se cometer, un trmino opuesto).
As:
Criterios:
-1>2
-1=2
- 1<2
Ejemplo:
Se lleva acabo las pruebas de la resistencia a la tensin sobre dos diferentes
clases de largueros de aluminio utilizados en la fabricacin de alas de aeroplanos
comerciales de la experiencia pasada con el proceso de fabricacin de largueros y
del procedimiento de prueba, se supone que las desviaciones estndar de las
resistencias a tensin son conocidas. Los datos de la siguiente tabla son resultado
de las pruebas hechas.
1 n1=10
2 n2=12
1-=
=1-.9=0.1
0.1/2=0.05
Dada una variable aleatoria con distribucin Binomial B(n, p), el objetivo es la
construccin de un intervalo de confianza para el parmetro p, basada en una
observacin de la variable que ha dado como valor x. El mismo caso se aplica si
estudiamos una Binomial B(1, p) y consideramos el nmero de veces que ocurre
el suceso que define la variable al repetir el experimento n veces en condiciones
de independencia.
Aproximacin asinttica
que sigue una distribucin N(0, 1), y aadiendo una correccin por continuidad al
pasar de una variable discreta a una continua, se obtiene el intervalo de confianza
asinttico:
donde z/2 es el valor de una distribucin Normal estndar que deja a su derecha
una probabilidad de /2 para un intervalo de confianza de (1 ) 100 %. Las
condiciones generalmente aceptadas para considerar vlida la aproximacin
asinttica anterior son:
Donde el smbolo z/2 es el mismo valor crtico que antes, prob(Z > z/2) = /2, y
corresponde a un intervalo de confianza 1 %.
Ejemplo
Solucin:
para la distribucin .