INFERENCIA ESTADSTICA Y
ESTIMACIN DE PARMETROS
TEMA
10.1. INTRODUCCIN
10.2. INFERENCIA ESTADSTICA
10.3. ESTIMACIN DE PARMETROS
10.3.1. Estimadores puntuales
10.3.2. Propiedades de los estimadores
10.4. TIPOS DE ESTIMACIN
10.4.1. Estimacin puntual
10.4.2. Estimacin intervalar (Intervalo de Confianza)
10.4.3. Interpretacin de los intervalos de confianza
10.4.4. Estimacin del tamao muestral
10.1. INTRODUCCIN
En las unidades anteriores enfatizamos las propiedades del muestreo de la media y de la
varianza muestrales. Tambin enfatizamos las presentaciones de datos en varias formas. El propsito
de estas presentaciones es la construccin de las bases que permitan a los estadsticos extraer
conclusiones acerca de los parmetros de la poblacin a partir de los datos experimentales. Por
ejemplo, el teorema del lmite central proporciona informacin sobre la distribucin de la media muestral
X . La distribucin involucra a la media de la poblacin . As, cualquier conclusin que se extraiga con
respecto a a partir de un promedio muestral observado debe depender del conocimiento de su
distribucin muestral. Comentarios similares se podran aplicar a S2 y 2.
En esta unidad comenzamos por sealar de manera formal el propsito de la inferencia
estadstica. Seguimos con la presentacin del problema de la estimacin de los parmetros de la
poblacin. Restringiremos nuestros desarrollos formales de los procedimientos especficos de
estimacin a problemas que involucren una y dos muestras.
163
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
Para proseguir el anlisis, necesitamos una definicin tcnica. Utilizamos como smbolo
genrico de un parmetro poblacional y para indicar una estimacin de basada en los datos de una
muestra.
Definicin 10.1
, de un
Una estimacin puntual de algn parmetro de la poblacin es un valor estimado,
estimador . Por ejemplo, el valor del estadgrafo
, que se calcula a partir de la muestra de tamao
n, es una estimacin puntual del parmetro poblacional . De manera similar, = es una estimacin
puntual de la verdadera proporcin para un experimento binomial.
No se espera que un estimador realice la estimacin del parmetro poblacional sin error. No
esperarnos que
estime exactamente, sino que en realidad esperamos que no est muy alejado. Para
una muestra particular es posible obtener un estimado ms cercano de mediante el uso de la mediana
de la muestra
como un estimador. Considere, por ejemplo, una muestra de n=3 que consista en los
valores 2, 5 y 11 de una poblacin cuya media es 4 pero supuestamente se le desconoce. Estimaramos
a como = 6, con el uso de la media muestral como nuestra estimacin. En este caso el estimador
produce una estimacin, d=5, ms cercana al verdadero parmetro que la estimacin del estimador
.
La primera propiedad que queremos que tenga un estimador (y su distribucin normal) es que, en
promedio, estime correctamente el parmetro de la poblacin. Por ejemplo, parece errneo utilizar el
percentil 90 de una muestra para estimar la mediana (percentil 50) de una poblacin, en vez de utilizar la
mediana de la muestra. Aunque es concebible que, en una muestra particular, el percentil 90 est ms
cerca de la media de la poblacin que la mediana muestral, en general dicho percentil es demasiado
grande. En otras palabras, este percentil tiende a sobrestimar la mediana de la poblacin. Queremos
utilizar en la estimacin un estadgrafo que no sobrestime o subestime sistemticamente el parmetro
poblacional que se busca.
Un estimador que es una funcin de los datos muestrales , , se conoce como estimador
insesgado del parmetro poblacional si su valor esperado es igual a . Dicho de otra manera, es un
estimador insesgado del parmetro si = .
Definicin 10.2.
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
164
Grfico 10.1:
.1: Ilustracin de un estimador insesgado y un estimador sesgado
Grfico 10.2:
10.2: Comparacin de (a) un estimador eficiente y (b) un estimador ineficiente
10.3.2.2. Eficiencia
El error estndar de un estimador tambin se relaciona con el grado de error probable. Mientras
ms pequeo sea aquel,
el, ms pequeo ser ste. Por consiguiente, nos gustara encontrar un estimador
insesgado con el menor error estndar posible, o, lo que es lo mismo, el error probable ms pequeo.
Definicin 10.3:
Se dice que un estimador es el ms eficiente para un problema
blema particular cuando tiene el error tpico
ms pequeo de todos los estimadores posibles.
Se utiliza la palabra eficiente porque, en una situacin dada, el estimador hace el mejor uso
posible de los datos muestrales. De acuerdo con la teora estadstica clsica, en trminos generales se
debe preferir el estimador insesgado ms eficiente sobre cualquier otro. Dadas algunas hi
hiptesis
ptesis muy
especficas, es posible encontrar los estimadores ms eficientes. Por ejemplo, si la poblacin de la que
se toman las muestras es normal, la media muestral tiene un error estndar ms pequeo que la
mediana muestral y que cualquier otro estimador
estimador insesgado. Por lo tanto, si hay una buena razn para
suponer que la poblacin es normal, el mejor estimador de la media poblacional es la media muestral.
10.3.2.3. Consistencia
Un criterio adicional para un buen estimador es la consistencia
consistencia. Si tenemos la fortuna de contar
con una muestra muy, muy grande, debera estar garantizado que el estimador est muy prximo al
parmetro poblacional (o del proceso).
Definicin 10.4:
Un estimador es consistente si se aproxima al parmetro poblacional con probabilidad uno
uno, a medida
que el tamao de la muestra tiende al infinito.
'%
buena prctica que cuando se d una estimacin, tambin se d el error estndar estimado si no se
conoce la varianza de la distribucin. La expresin formal:
'
, %
Parmetro
Media
Tamao de
muestra
Proporcin
Dif. de medias
1 2
Dif. de proporciones
1 2
Suma o Total
S
n1 .n2
n1 .n2
=
.
1 =
0
x1 x2
(1 1 )
S = Nx
S = N
()
()
Var
/
1 2
S = N
S = N
,"
6
,$
6
/$
/"
/$
+
(1 ) (1 )
=
+
0
0
/"
(1 )
0
N 2 .Var( x )
N 2Var( p)
( )
que el error mximo de estimacin, cuando n es grande, entre la estimacin puntual y el verdadero valor
del parmetro a estimar es cuya expresin es la siguiente,
E = z
siendo : , el cuantil de la distribucin normal estndar que arrastra una probabilidad de , con , nivel
de significancia establecido
En otras palabras, si intentamos estimar con la media de una gran muestra aleatoria ( n 30 ),
8
podemos decir con una probabilidad de 1 < que el error | | ser a lo sumo := . Los valores de
mayor uso para (1 <) son 0,95 y 0,99 y los valores correspondientes a :=
:>,>>? = 2,575, respectivamente.
= 0, 025
= 0,025
Grfico 10.3: Distribucin de muestreo de un estimador , donde > es una estimacin puntual que sobrestima a
o en una cantidad ) *, que en valor absoluto, D Des llamado error de estimacin.
Los mtodos expuestos hasta ahora exigen conocer o que pueda ser aproximada mediante la
desviacin estndar muestral s, requiriendo as que n sea relativamente grande. Sin embargo, es
razonable suponer que si estamos muestreando en una poblacin normal y el tamao de la muestra es
F GH
pequeo podemos fundamentar nuestro argumento en E = I que es un valor de una variable aleatoria
que tiene una distribucin t con (n-1) grados de libertad. Podemos decir con una probabilidad de 1-
que el error en que incurrimos al emplear x para estimar ser a lo sumo de:
167
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
E = t
s
2
O con una confiabilidad de (1- ) % de que el error sea menor que esa cantidad.
En consecuencia, la precisin de un estimador insesgado se mide por el error estndar del
estimador; es decir, cuanto menor sea !
tanto ms preciso es el estimador, o cuanto menor es el error
de muestreo para sustituir por . Si es insesgada su precisin se mide por () * +. Es entonces
buena prctica que cuando se d una estimacin, tambin se d el error estndar de la estimacin. Si,
por alguna razn, requiere una expresin ms formal de la estimacin y su precisin, podemos obtener
lo que se llama una estimacin por intervalo.
(JKLMNOPQR STULTOV ) J ; siendo J el error mximo de estimacin explicado anteriormente
Construccin del Intervalo de confianza
168
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
X
X
= 1
P x z
< < x + z
2
2
n
n
Grfico 10.4:
.4: Estimaciones por intervalo de
Grfico 10.5:
.5: Error en la estimacin de
mediante x
169
Ctedra de C
Clculo Estadstico y Biometra Facultad de C
Ciencias Agrarias UNCUYO / Ciclo 2015
n.
T=
X
S
tiene una distribucin t de Student con n-1 grados de libertad. Aqu S es la desviacin estndar de la
muestra. En esta situacin, que se desconoce, se puede utilizar T para construir un intervalo de
confianza de . El procedimiento es el mismo que cuando se conoce excepto que se remplaza por S
y la distribucin normal estndar se remplaza por la distribucin t. Entonces, con referencia al grfico
10.6, podemos asegurar que:
Z)E/ # \ # E/ * = 1
1
donde E=] es el valor de t con n-1 grados de libertad, que deja un rea de 2 arriba de ese valor.
Debido a la asimetra, un rea igual de 2 caer la izquierda de E=] . Para nuestra muestra aleatoria
particular de tamao n, se calculan la media y la desviacin estndar y se obtiene el siguiente intervalo
de confianza de (1-)100% para .
donde t
s
s
= 1
P x t
< < x + t
2
2
n
n
Hacemos una distincin entre los casos de conocida y desconocida al calcular las
estimaciones del intervalo de confianza. Debemos enfatizar que para el caso de conocida se utiliza el
teorema del lmite central, mientras que para desconocida hacemos uso de la distribucin muestral de
la variable aleatoria T. sin embargo, el uso de la distribucin de t se basa en la premisa de que el
muestreo se realiza de una distribucin normal. En tanto que la distribucin tenga la forma aproximada
de campana, los intervalos de confianza se pueden calcular cuando 2 se desconoce mediante el uso
de la distribucin t y se pueden esperar muy buenos resultados.
Con mucha frecuencia los estadsticos recomiendan que an cuando la normalidad no se puede
suponer, con desconocida y n 30, s puede remplazar a y se puede utilizar el intervalo de
confianza
x z
s
2
n
170
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
= _`
/"a
b + `
/$a
Z=
(X
X 2 ) ( 1 2 )
12 22
n + n
1
2
1 2
con
^
12 22
12 22
P ( x1 x 2 ) z / 2
+
< 1 2 < ( x1 x 2 ) + z / 2
+
= 1
n
n
n
n
1
2
1
2
Z=
(X
X 2 ( 1 2 )
2 1 n + 1n
1
2
(n1 1)S12
2
(n2 1)S 22
2
tienen distribuciones ji cuadrada con n1-1 y n2-1 grados de libertad, respectivamente. Adems, son
variables ji cuadrada independientes, puesto que las muestras aleatorias se seleccionaron de forma
independiente. En consecuencia, su suma tiene una distribucin ji cuadrada con 1 = n1 + n2 2 grados
de libertad.
171
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
V=
Como se puede mostrar que las expresiones anteriores para Z y V son independientes, se sigue
que la estadstica
T=
(X
X 2 ) (1 2 )
2 1 n + 1 n
2
1
tiene distribucin t con 1 = n1 + n2 2 grados de libertad.
Se puede obtener una estimacin puntual de la varianza comn desconocida 2 al unir las
varianzas muestrales. Denotemos al estimador de unin por S C2 , escribimos entonces
S C2 =
2
c
T=
(X
X 2 ) (1 2 )
S C 1 + 1
n2
n1
1
1
1
1
P (x1 x 2 ) t / 2 s C
+
< 1 2 < (x1 x 2 ) + t / 2 s C
+
= 1
n
n
n
n
1
2
1
2
Al tomar la raz cuadrada obtenemos sc = 0.646. Con el uso de = 0.1, encontramos en la tabla A.4 que
t0,05 = 1.725 para = n1 + n2 2 = 20 grados de libertad. Por tanto, el intervalo de confianza de 90% para
1 - 2 es
1
1
1
1
P (1 .07 ) (1 .725 )(0.646 )
+
< 1 2 < (1.07 ) + (1.725 )(0.646 )
+ = 0 .90
12
10
12
10
172
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
F
d
Y un erro tpico
,
6
=e
(1 )
0
P( z / 2 < Z < z / 2 ) = 1
Donde
f=
1
g(1 )0
Y z/2 es el valor de la curva normal estndar sobre la cual encontramos un rea de / 2 . Al sustituir Z,
escribimos
Z h:= #
1
g(1 )0
# := i = 1 <
Grfico 10.7: Si p se utiliza como una estimacin de , podemos tener una confianza del
que el error no exceder := gm .
(1 )100% de
173
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015
,"
6
(6," G6,$ ) =
+
,$
6
=e
(1 ) (1 )
+
0
0
P( z / 2 < Z < z / 2 ) = 1
Donde
:=
(1 1 ) ( )
(1 ) (1 )
q
+
0
0
Si 1 y 1 son las proporciones de xitos en muestras aleatorias de tamao c1 y c2, respectivamente, un
intervalo de confianza de (1 )100% para la diferencia de dos parmetros binomiales 1 2 est
dado por
Z r(1 1 ) := e
Si x se usa como estimacin de , podemos tener (1-)100% de confianza de que el error no exceder
una cantidad especfica e cuando el tamao de muestra es
z
n= 2
E
Cuando se resuelve para el tamao de la muestra n, todos los valores fraccionales se redondean
al siguiente nmero entero. Si se sigue este principio, podemos estar seguros que nuestro grado de
confianza nunca cae por debajo de (1-)100%.
174
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2015