Anda di halaman 1dari 14

ESTADSTICA ESPAOLA

Vol. 44, Nm. 151, 2002, pgs. 337 a 350

Estimadores indirectos de la varianza


en muestreo de poblaciones finitas

por
MARA DEL MAR RUEDA GARCA
ANTONIO ARCOS CEBRIN
MARA DOLORES MARTNEZ MIRANDA
SILVIA GONZLEZ AGUILERA*
Departamento de Estadstica e Investigacin Operativa
Universidad de Granada
*Universidad de Jan

RESUMEN

El propsito de este trabajo es comparar diversos estimadores de


la varianza de una poblacin finita en presencia de informacin auxi-
liar. Se propone un estimador de producto de la varianza, investigan-
do sus propiedades en cuanto a sesgo y error cuadrtico medio. Se
determinan las condiciones bajo las cuales este estimador es ms efi-
ciente que otros estimadores de la varianza, y por ltimo se comparan
entre s todos los estimadores dando las condiciones bajo las cuales
unos son preferibles a los otros.

Palabras clave: informacin auxiliar, estimadores de razn, de pro-


ducto y de diferencia, error cuadrtico medio.

Clasificacin AMS: 62D05


338 ESTADSTICA ESPAOLA

1. INTRODUCCIN

En muestreo en poblaciones finitas es usual utilizar la informacin de alguna va-


riable auxiliar, x, relacionada con la variable objeto de estudio, y, para modificar los
estimadores usuales del parmetro investigado, proponiendo otros estimadores
indirectos que mejoren la precisin. Entre estos mtodos indirectos son especial-
mente importantes los estimadores de razn y de regresin.

Existen muchos trabajos en los que estos mtodos son usados para mejorar las
estimaciones de parmetros lineales como medias y totales. Una revisin de estos
mtodos puede verse en Krisnnaiah y Rao (1988) y Chaudhuri y Vos (1988).

Si bien la mayor parte de los trabajos en muestreo en poblaciones finitas se


centran en la estimacin de parmetros lineales, hay ocasiones en las cuales el
objetivo de la encuesta por muestreo es estimar un parmetro no lineal, como la
varianza, el coeficiente de regresin o un cuantil poblacional, y en los ltimos aos
estn apareciendo trabajos relativos a la inferencia relativa a estos parmetros bajo
distintos diseos muestrales.

La estimacin de la varianza poblacional tiene una importancia considerable en


muchas situaciones. As por ejemplo los genetistas clasifican con frecuencia sus
poblaciones de acuerdo con la varianza poblacional. Tambin en muestreo estratifi-
cado la afijacin ptima necesita la estimacin de las varianzas en cada estrato,
para poder determinar los tamaos muestrales correspondientes a cada estrato.
La estimacin de la varianza poblacional mediante estimadores de razn y de
regresin fue considerada por Isaki (1983) para muestreo aleatorio con reemplazo.
Prasad y Singh (1990, 1992), proponen otros estimadores indirectos que mejoran al
estimador de Isaki en cuanto a sesgo y precisin. Posteriormente Rueda y Arcos
(1996), introducen un estimador de razn siguiendo la tcnica de exponenciacin,
que produce un estimador cuasi-insesgado.

En la seccin 2 se introducen todos estos estimadores conocidos para la varian-


za poblacional, se describen sus principales propiedades en cuanto a sesgo y
precisin y se demuestra la relacin existente entre algunos de ellos.

En la Seccin 3 se introduce un nuevo estimador indirecto: el estimador de pro-


ducto para la varianza poblacional, para usar la informacin de una variable auxiliar
que tiene correlacin negativa con la variable objeto de estudio. Se estudian sus
propiedades y se determinan bajo qu condiciones es de inters el uso de este
estimador.
ESTIMADORES INDIRECTOS DE LA VARIANZA EN MUESTREO DE POBLACIONES FINITAS 339

Por ltimo se hace una comparacin entre todos los estimadores presentados,
determinando las condiciones bajo las cuales unos son mejores a otros.

2. ESTIMADORES INDIRECTOS DE LA VARIANZA

Supongamos una poblacin finita de tamao N, a partir de la cual se selecciona


mediante muestreo aleatorio con reemplazo (o muestreo aleatorio simple con un
tamao poblacional tan grande que se puede prescindir del factor de correccin por
finitud) una muestra de tamao n. A partir de los datos observados en las unidades
de la muestra seleccionada, se quiere estimar la varianza de la variable de inters

(y i Y )
N 2
2 1
y, Sy = , siendo Y la media poblacional de dicha variable.
N i=1

El estimador usual de la varianza slo utiliza los datos disponibles en la mues-


n
1
tra de la variable objeto de estudio y viene dado por 2
sy =
n1
(y i y )2 . Este
i=1
estimador es insesgado, por lo que su precisin se mide por su varianza cuya
expresin viene dada por (ver, por ejemplo, Prasad y Singh, 1990):

( )=
2
V sy
1

n
4
Sy ( 2 (y) 1)

donde 2 (y) es el coeficiente de kurtosis de la variable.


Si es conocida la varianza poblacional de una variable auxiliar x, el estimador
usual, s 2y puede modificarse para construir estimadores alternativos que utilizan la
informacin obtenida en la muestra tanto de la variable y como de la variable
auxiliar x.
Entre estos estimadores el ms conocido y utilizado es el estimador de razn
introducido primeramente por Das y Tripathi (1978) y posteriormente desarrollado
por Isaki (1983) quien lo generaliza adems al caso de que existan varias variables
auxiliares. Este estimador viene definido por:

2
Sx
2
S = s2y
IR 2
sx

n
(xi x )2
2 1 2 2 2
donde sx = y sy son los estimadores de Sx y Sy , respectivamen-
n1 i=1
te.

El estimador de razn 2
S es sesgado y su sesgo viene dado por la expresin
IR
340 ESTADSTICA ESPAOLA

s 2y
2
sesgo SIR ( )= cov
s 2x
2
, sx



Una aproximacin de su error cuadrtico medio es (ver Agrawal y Sthapit, 1995)

( )
4
Sy
2
ECM SIR ( 2 (y) + 2 (x) 2)
n

donde
N
(yi Y ) (x j X ) para
40 04 22 1 r s
2 (y) = , 2 (x) = , = siendo rs =
220 202 20 02 N
i=1
cada entero r y s.

As pues el estimador de razn, 2


S no siempre mejora al estimador usual, 2
sy .
IR
Concretamente comparando las precisiones de ambos es fcil deducir que el
estimador de razn es ms eficiente que el estimador usual si y slo si se verifica la
condicin

2
(
s 2y , s 2x > ) 1 cv(s y )
2
2 cv(s x )

donde por denotamos el coeficiente de correlacin y por cv el coeficiente de


variacin.
Este estimador ha sido posteriormente estudiado por otros autores. Swain y
Mishra (1994) determinan el comportamiento asintticamente normal (bajo ciertas
condiciones de regularidad) del estimador de razn, mientras que Agrawal y Sthapit
(1995) proponen esquemas de muestreo bajo los cuales el estimador de razn es
insesgado.
Isaki (1983) tambin propone estimadores de diferencia dados por la expresin:

2
SID (
= s 2y + d S2x s 2x )
siendo d una constante prefijada. El valor de dicha constante que proporciona el
estimador ms preciso corresponde a

=
( )=
2 2
cov s y , s x
2
Sy ( 1)
d0
V sx ( )
2 2
Sx (2 (x) 1)
ESTIMADORES INDIRECTOS DE LA VARIANZA EN MUESTREO DE POBLACIONES FINITAS 341

Este valor es desconocido puesto que depende de valores poblacionales des-


conocidos. En la prctica se sustituye d0 por una estimacin consistente basada
en la muestra,
d , y se define el estimador
0

2
S
IDd 0
= s 2y + d0 (2
Sx s 2x )
cuya precisin es ms difcil de determinar al ser
d una variable aleatoria.
0

Bajo la suposicin de que la distribucin de (y,x) es normal, el valor ptimo d0


resulta ser el coeficiente de regresin y el estimador resultante se le denomina
tambin estimador de regresin.
Rueda y Arcos (1996) proponen una clase de estimadores obtenidos por el m-
todo de exponenciacin:

2
2 2
Sx

S = sy
s2
x

donde 0 es una constante fijada. Para = 1 este estimador coincide con el


estimador de razn, 2
S y para = 0 con el estimador simple, 2
sy .
IR

En esta clase los autores determinan el estimador ptimo (en sentido de mayor
precisin) que corresponde al siguiente valor de

1
0 = , 2 (x) 1
2 (x) 1

siendo en este caso un estimador insesgado. Su varianza puede aproximarse por

( )
4
Sy ( 1)2
2
VS 0 ( 2 (y) 1)
n 2 (x) 1

Entonces este estimador es siempre ms preciso que el estimador de razn


2
usual, SIR . Adems, S2 0 es tan eficiente como el estimador de diferencia con el
valor de d ptimo, 2
S , y presenta el mismo inconveniente que ste: el estimador
IDd0
ptimo no se puede calcular pues depende de aunque al menos no depende de
la propia varianza S2y .
342 ESTADSTICA ESPAOLA

2
Prasad y Singh (1990) proponen un estimador insesgado de Sy de la forma:

2
sx
da = s 2y a 2
+a
Sx

con a una constante prefijada y demuestran que es ms preciso que el estimador


de razn si se verifica la condicin:

2
<a<0
2 (x) 1

En esta clase es posible determinar tambin el estimador ptimo en sentido de


mayor precisin.
Este estimador ptimo hemos comprobado que coincide con el estimador de
2
diferencia ptimo, SIDd0 . En efecto, el valor de a ptimo se obtiene minimizando la
expresin

( ) = V(s 2y ) + a2 V(s4x )
V da
2 2
( 2
2a cov s y , s x )
2
Sx Sx

obtenindose el siguiente valor

=
(2 2 2
cov s y , s x Sx )
a0
V sx ( )
2

que proporciona el estimador ptimo que puede rescribirse de la forma:

= s2y a0
2
sx
+ a0 = s2y
( 2 2) 2
cov sy , sx Sx s
x
2
+
( 2 2) 2 =
cov s y , s x Sx
da
0 2
Sx Vs( 2x ) 2
Sx ( 2x )
Vs

= s2y +
2
( )( 2
cov s y , s x 2
)
s2x = S
2
V sx ( )
2 Sx IDd0

y por tanto coincide con el estimador de diferencia ptimo.


Adems para todo a, existen dos valores b1 y b2 tales que

( )= ( )= (
2
VSIDb1 V da 2
VSIDb2 )
ESTIMADORES INDIRECTOS DE LA VARIANZA EN MUESTREO DE POBLACIONES FINITAS 343

siendo

=
a
=
( )
2 2
2 cov s y , s x a
b1
2
Sx
b2
Vs( 2x ) 2
Sx

Entonces, para todo a, es posible escribir da de la forma siguiente:

2
da = 2
sy a
sx
2
Sx
+a= 2
sy +
a
2
Sx
( 2
Sx )
s 2x = SIDb
2
1

As pues la clase de estimadores propuesta por Prasad y Singh puede verse


como un caso especial de estimadores de diferencia.
Posteriormente, Prasad y Singh (1992) proponen tambin un estimador de ra-
zn alternativo:

2
2 Sx
tA = As y
2
sx

cuyo valor de A ptimo se obtiene minimizando el error cuadrtico medio y viene


dado por

n + ( 2 (x) )
A0 =
n+ ( 2 (y) + 3 2 (x) 4)

que proporciona el siguiente error:

4 2 (y) + 2 (x) 2
1
( 2 (x) )2
( )
ECM t A
0
Sy
n
n
1+
1
( 2 (y) + 3 2 (x) 4)
n

3. EL ESTIMADOR PRODUCTO

Es conocido que si la relacin de la variable auxiliar x con la variable principal y


es negativa ( yx cte ), la informacin de la variable auxiliar puede utilizarse para
mejorar el estimador directo de la media poblacional Y mediante el mtodo de
producto, y el estimador obtenido es ms preciso que el estimador directo si y slo
si
344 ESTADSTICA ESPAOLA

C x
(y, x) <
2C y

Puesto que

( )2
2 1
Sy = yi yj
NN ( 1) i j

2
Isaki (1983) justifica el uso del estimador de razn para Sy cuando la propor-
cionalidad entre los pares ((yi yj ) ( i j) )
2
, x x
2
es aproximadamente constante.
Siguiendo el mismo razonamiento, es lgico considerar un estimador producto de
2
(
S y cuando los pares (y i y j ) , (x i x j )
2 2
)
son inversamente proporcionales. En este
caso podemos proponer el estimador

2
sx
2
Sp = s 2y 2
Sx

Este estimador es sesgado. Para calcular su sesgo definimos las variables:

2
sy S2y 2
sx S2x
e0 = 2
, e1 = 2
Sy Sx

2
mediante ellas expresamos el estimador Sp de la forma:

2
S
p = S 2y (1 + e 0 )(1 + e1 )

As:

2
Sp S2y = S2y (e0 + e1 + e0 e1 )

y tomando esperanzas se tiene

( )=
2
sesgo Sp
2
(
S y E e 0 e1 ) = S2y
( 2 2)
cov s y , s x

2
Sx

y sustituyendo la covarianza por su expresin en funcin de los momentos obten-


dremos la expresin:
ESTIMADORES INDIRECTOS DE LA VARIANZA EN MUESTREO DE POBLACIONES FINITAS 345

2
sesgo Sp( )= 2 1
Sy
n
( 1)

que como vemos tiende a cero cuando n aumenta. Adems para = 1 el estimador
es insesgado.

En una poblacin normal, = 1 + 2 por lo que si las variables son incorreladas


el estimador de producto es insesgado.
Una aproximacin del error cuadrtico medio se puede obtener a partir de la
tcnica de linealizacin, proporcionando la siguiente expresin:

2 2 2
( )= ( ) cov(s y , s x )
2
2
ECM Sp
2
ESp S2y S4y ( 2 2
E(e 0 ) + E(e1 ) + 2E(e0 e1) )= 4 V(s y )
Sy
S4y
+
V(s x )
4
Sx
+2 2 2
S x Sy



Sustituyendo los valores de varianzas y covarianzas obtenemos la expresin:

4
2
ECM Sp ( ) Sy

n
( 2 (y) 1+ 2 (x) 1+ 2( 1))

El comportamiento en eficiencia del estimador frente al estimador directo viene


dado en la siguiente proposicin:

Proposicin. El estimador producto 2


S es ms preciso que el estimador directo
p
2
(o estimador usual), sy , si y slo si

3 2 (x)

2

La demostracin es inmediata sin ms que comparar las precisiones de los es-


timadores.

Para ilustrar la ganancia en precisin del estimador producto se han considera-


do dos poblaciones: la primera tomada de Agarwal y Kumar (1998), concretamente
la poblacin nmero 12 ya que es la nica con correlacin negativa entre las varia-
bles y la segunda una poblacin artificial de tamao 50.
346 ESTADSTICA ESPAOLA

Tabla 1
POBLACIN I. N=10
x 20 22 25 28 28 31 32 35 38 40
y 35 45 47 50 31 30 25 33 35 40

Tabla 2
POBLACIN II. N=50
x 4.61 4.99 4.40 4.49 5.29 4.96 4.62 4.44 4.79 5.09 4.49 5.29 4.96
y 0.32 4.06 4.00 1.53 1.97 1.80 0.66 0.85 10.39 2.16 1.51 1.92 1.81
x 4.99 4.40 4.79 4.49 4.96 4.44 5.09 4.79 4.62 4.61 4.44 4.99 4.40
y 4.03 4.02 10.40 1.51 1.78 0.88 2.18 9.90 0.65 0.35 0.83 4.07 4.10
x 4.40 4.96 4.62 5.09 5.29 4.79 5.29 4.61 4.40 4.49 4.99 5.09 5.29
y 4.10 1.82 0.64 2.17 1.99 10.29 1.98 0.35 4.01 1.51 4.01 2.15 1.96
x 4.49 4.44 4.79 4.44 4.99 4.62 4.61 4.61 4.96 4.62 5.09 4.44
y 1.43 0.86 9.95 0.83 4.00 0.64 0.22 0.29 1.82 0.68 2.14 0.83

Se ha calculado el cociente R del error cuadrtico medio del estimador producto,


Sp2 , respecto a la varianza del estimador directo, s 2y . Igualmente se ha hecho con
los estimadores de razn, SIR 2
, de Prasad y Singh, t A , y el obtenido por el mtodo
0

de exponenciacin, S . 2
0

Los resultados pueden verse en la Tabla 3.

Tabla 3
COCIENTE R DEL ERROR CUADRTICO MEDIO DE CADA
ESTIMADOR SOBRE LA VARIANZA DEL ESTIMADOR DIRECTO
Estimador s 2y S IR2 S20 t A0 S p2
Poblacin I
R 1.0000 3.351 0.591 1.932 0.738
Poblacin II
R 1.0000 1.541 0.830 1.122 0.830

Como se observa, los nicos estimadores ms eficientes que el directo son el


estimador de producto Sp2 y su generalizacin, el estimador obtenido por el mtodo
de exponenciacin.
As pues en algunas poblaciones el estimador de producto de la varianza es
ms preciso que el estimador directo. Por otra parte el estimador de producto
ESTIMADORES INDIRECTOS DE LA VARIANZA EN MUESTREO DE POBLACIONES FINITAS 347

puede calcularse siempre puesto que no depende de ningn parmetro desconoci-


do, frente a los estimadores de exponenciacin de Rueda y Arcos (1996), de dife-
rencia y los de Prasad y Singh (1990, 1992) cuyos ptimos dependen de ciertos
valores poblacionales desconocidos que han de estimarse.

4. COMPARACIN DE LAS PRECISIONES DE LOS ESTIMADORES INDIREC-


TOS

Por ltimo hemos comparado las precisiones entre los estimadores indirectos
antes referidos, para ver su comportamiento. En funcin de sus varianzas y errores
cuadrticos medios hemos determinado bajo qu condiciones poblacionales son
unos preferibles a otros. A continuacin resumimos los principales resultados.

Consideremos una poblacin (y, x).

2 2 2 (x) + 1
El estimador de razn SIR es mejor que sy si y slo si
2

2 2 3 2 (x)
El estimador producto Sp es mejor que sy si y slo si
2

Los estimadores ptimos 2


S y 2
S son siempre mejores que 2
sy para todo
0 ID0

y 2 (x) .

Los estimadores ptimos 2


S y 2
S son siempre mejores que 2 .
S
0 ID0 IR

2 2
El estimador ptimo de diferencia S ID 0
es mejor que el estimador producto Sp

excepto para = 2 2 (x) en cuyo caso son igualmente precisos.

Para clarificar los resultados anteriores, las figuras siguientes muestran la posi-
cin relativa en cuanto a precisin de los diversos estimadores en funcin del valor
de . Si 2 (x) 3 el estimador producto es mejor que el estimador de razn cuan-
2
do < 1 . Si 2 (x) < 3 el estimador producto es mejor que el estimador usual, sy ,y
3 2 (x)
que el estimador de razn si .
2

Si bien el estimador de diferencia ptimo es siempre como mnimo igual de pre-


ciso que el resto de estimadores indirectos, tiene el inconveniente (como hemos
dicho anteriormente) de que el valor d0 depende de valores desconocidos ( y la
2
propia Sy ), cosa que ocurre tambin con el estimador de exponenciacin. Por el
contrario los estimadores de producto y de razn son fcilmente calculables y ms
precisos que el estimador directo bajo ciertas condiciones, con lo cual constituyen
una alternativa vlida al estimador usual.
348 ESTADSTICA ESPAOLA

Figura 1. ( 2 (x) < 3 )


S 2
0 = S 2
d0

S p2

s 2y

S IR2

0 3 2 ( x) 1 2 ( x) + 1 3
2 2

Figura 1. ( 2 (x) 3 )
S20 = S d20
s 2y

S p2

S IR2

0 1 2 ( x) + 1 3
2

El uso del mtodo de estimacin de producto para la estimacin de medias no


se ha popularizado mucho, frente al mtodo de razn. Ello es debido a que si la
relacin entre las variables y y x es inversamente proporcional (situacin en la cual
es conveniente el uso del estimador de producto de la media), haciendo la
transformacin z=1/x se tiene que la relacin entre y y z es directamente
proporcional y por tanto se est en situacin adecuada para utilizar el estimador de
razn con esta nueva variable auxiliar. Ahora bien en el caso de la estimacin de la
ESTIMADORES INDIRECTOS DE LA VARIANZA EN MUESTREO DE POBLACIONES FINITAS 349

varianza no hay un cambio de variable sencillo que permita este paso. Est pues
justificado el estudio detallado del estimador producto y su posible generalizacin a
otros diseos muestrales ms complejos.

REFERENCIAS

AGARWAL, S. K. & KUMAR, P. (1998), On the relative efficiency of estimators of


population total in unequal probability sampling when study variable has weak
relationship with size variable. Computational Statistics and Data Analysis 28,
271-281.
AGRAWAL, M.C. & STHAPIT. A.B. (1995), Unbiased ratio-type variance estimation.,
Statistics and Probability Letters 25, 361-364.
CHAUDHURI, A. & VOS, J. W. E. (1988), Unified theory and strategies of survey
sampling, North-Holland.
COCHRAN, W. G. (1977), Sampling Techniques, 3rd ed., Wiley, 168-173.

DAS, A & TRIPATHI, T.P.T. (1978), Use of auxiliary information in estimating the
finite population variance, Sankhya, Ser. C, 40, 139-148.
ISAKI, C. T. (1983), Variance Estimation Using Auxiliary Information, J. Amer.
Statist. Assoc. 78, 117-123.
KRISHNAIAH, P. R. & RAO, C. R. (1988), Handbook of Statistics Vol 6, North-
Holland.
PRASAD, B. & SINGH, H. P. (1990), Some improved ratio-type estimators of finite
population variance in sample surveys, Commun. Statist. Theory and Meth.
19, 1127-1139.

PRASAD, B. & SINGH, H. P. (1992), Unbiased estimators of finite population vari-


ance using auxiliary information in sample surveys, Commun. Statis. Theory
and Meth. 21, 1367-1376.
RUEDA, M. & ARCOS, A. (1996), Repeat substitution method: the ratio estimator for
the population variance, Metrika 43, 101-105.
SRIVASTAVA, S. K. (1967), An estimator using auxiliary information in sample
surveys, Cal. Stat. Assoc. Bull. 16, 121-132.

SWAIN, A.K.P.C. & MISHRA, G. (1994), Limiting distribution of ratio estimator of finite
population variance, Sankhya, Ser. B 56, 11-17.
350 ESTADSTICA ESPAOLA

INDIRECT ESTIMATORS OF VARIANCE IN SURVEY SAMPLING

SUMMARY

The purpose of this paper is to compare several estimators of the


variance in a finite population when some auxiliary information is
available. Its proposed a product estimator for this parameter and its
properties are investigated, specifically its bias and mean squared er-
ror. Also its determined conditions which allow that this estimator is
more efficiency than others. Finally all the considered estimators of the
variance are compared giving conditions which cause that each esti-
mator has better behaviour than the others.

Key words: auxiliary information, ratio estimator, product estimator,


difference estimator, mean squared error.

AMS classification: 62D05